通过LLM构建聊天机器人必备技巧-每日快报 - 行业资讯 -

当前位置:首页  >  行业资讯  > 正文

通过LLM构建聊天机器人必备技巧-每日快报

通过LLM构建聊天机器人必备技巧-每日快报
2023-06-21 17:56:17 来源:哔哩哔哩

聊天机器人在AI领域并不稀奇,尤其是ChatGPT问世之后,很多人都把它当成一个可以随时对话随意提问的聊天机器人。而在实际应用领域,聊天机器人的场景也愈加丰富多样。


(资料图片仅供参考)

比如很多人熟知的客服聊天机器人,常用在电商领域,能够快速回答常见问题或者跟踪发货状态等等;还有医疗聊天机器人,在读取患者的症状并且持续提问后,就患者下一步应该采取的措施提出正确的建议;以及还有辅助销售的聊天机器人,用于财务计算、法务咨询相关的聊天机器人等等。

那么,如何拥有一个符合自己场景需求的聊天机器人?语言技术教育家RachaelTatman博士为使用LLM(Large LanguageModels)开发聊天机器人提供了一些建议和想法,详细说明了数据扩充的内容、原因和方式。同时还展示了以数据多样性为重点进行数据扩充的建议,以及一些使用Cohere LLM的例子。

使用LLM的建议

首先,出于对用户体验考虑,以及存在的一些不可预测性,Rachael Tatman博士不建议向用户展示原始生成的文本。这是由于,对LLM的大多数对抗性攻击都需要访问原始生成的文本,如果不公布原始数据,那么就不必应对对抗性攻击。她建议在训练或者微调聊天机器人时,可以在人机交互的方面进行数据增强,从而使得用户能够在使用时感受到温暖。

注:对抗性攻击(Adversarial attacks),由于机器学习算法的输入形式是一种数值型向量(Numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。

数据增强什么时候有用?

数据增强什么时候有用呢,答案是,在没有目标用户的代表性数据的时候。她还指出,在我们有足够完善的代表性数据时,数据扩充当然是有效的,但是会缺乏一些有特殊含义或者其他意图的内容。比如说因为热点事件或者新的含义,某些事物会从不相关变成相关。,此外,在处理一些非常干净且不能完全代表用户生成文本的研究数据时,数据扩充是非常重要的。

为什么使用LLM而不是其他?

与其他基于模板规则的数据扩充技术相比,LLM可以避免重复和意外错误。并且基于模板规则的方法在生成具有不同语法的数据方面存在滞后。Rachael Tatman博士提到,对比其他模型,LLM是一种生成数据更快、更便宜、更可靠的方法。虽然LLM也会被各种各样的用户生成文本而干扰,因此,在训练我们的模型时,多样性的数据增强是非常有必要的。

Cohere是如何收集数据来训练模型的?

Cohere的Generation LargeLanguage Model是在Cohere基础设施团队从网上抓取的Google Books数据集、Common Crawl和其他文本上训练的。Cohere团队筛选出的前十个域名包括:wordpress.com,medium.com, stackexchange.com, tumblr.com, elsevier.com, genius.com, bbc.co.uk,libsyn.com, yahoo.com, nytimes.com。在这个基础上,Cohere LLM使用了各种数据来训练模型,包括干扰数据。

如何使用LLM更快构建聊天机器人?

虽然根据具体情况和实际场景,数据会各不相同,但建议通过尽可能有代表性并且齐全的数据,来进行模拟训练以生成新数据。正如Rachael Tatman博士所介绍的,她使用SLURP数据集[U1] 创建的一个例子。她之所以会使用这些数据,是因为它非常干净而且正式。

再举个例子,当你有一些训练数据时,如何利用这些训练数据来生成更多基于它的数据。在Cohere的AI聊天机器人对话框内,

我们给了一个指示:play music有了这个,我们提供了一堆例子。当我们单击生成按钮时,它将生成相关文本。

演示了使用Cohere聊天机器人生成文本的另一个示例。在这里,我们给它喂食一个意图,例如,设置闹钟或提醒。

如何为数据增加多样性?

到目前为止,我们已经看到了使用数据增强技术增加数据的方法。但是,生成的数据与现有数据类似。如果我们想增加数据多样性怎么办?她将增加多样性的方法分为两部分。

l 基于情绪或使用角色的提示

基于情绪的提示,也就是喂给一些情绪的提示。 例如,当要求聊天机器人愤怒地播放音乐时,她发现播放音乐的意图发生了变化,聊天机器人生成的文本建议关闭音乐。如下图,聊天机器人给到的文本与可能我们的意图完全相反。所以,情感背景和意图不是IID(独立和相同分布)。然而,这种方法可能适合生成负面情绪的数据集。

l 基于特定用户角色的提示

在使用基于用户的特定角色时,它主要基于刻板印象。人们不太可能通过一些人口统计的数据来介绍自己,除非他们想引入一些基于此的刻板印象,比如说“我现在20岁,请播放音乐”“我是法国人,请播放音乐”。但是,使用多语言数据是个特殊情况,有可能就会由数据衍生一些结论,如下图所示。所以,我们应该谨慎地采取这种做法。

l 基于网站人口统计数据的提示

通过引用特定网站进行提示,她提供了一种风险较小的方法来使用社交媒体网站的人口统计数据来创建提示。她提到这种方法可以用作提示中角色的代理,这种方法也考虑了主题的影响。

比如说当引入不同社交网站的数据后,Twitter、Facebook、YouTube上的不同用户,对聊天机器人要求播放音乐,会得到不同的回复。

Facebook:

YouTube:

使用LLM的一些注意事项

在一些场景下,如果和聊天机器人表达的意图过于具体或独特,上述方法将无法很好生效。如果您的目标用户是大量现有社交媒体用户,那么提供的方法将最有效。此外,如果您的目标用户的确是比较独特的,那么可以尝试,以给定方式添加数据多样性,尽管这并不能完全代表您的实际用户,但是算是个权宜之计。

如何验证生成的数据?

建议在第一遍进行手动验证。如果能增肌人机交互的内容将会得到更好的性能。除此之外,她建议使用嵌入可视化来确保整个分布中真实数据和生成的数据的混合。还可以使用嵌入可视化来确定您是否对新集群感到满意。

最后的思考

总结一下,LLM可以帮助我们通过数量和多样性来增加数据,直到我们得到一些实际数据,使我们的系统的可用性更高。她补充说,我们可以提示现有和新生成的数据。最后,建议在第一遍手动验证生成的数据,以确保它符合我们正在寻找的标准和质量。

[U1]https://arxiv.org/abs/2011.13205?ref=txt.cohere.com

标签:

(责任编辑:news01)
天津城投10亿元短期融资券将兑付 利率4.05%

天津城投10亿元短期融资券将兑付 利率4.05%

本期债券简称“22津城建CP011”,代码042280298,发行总额10亿元,期限
06-19 11:48:44
动态:今年1至5月 宜春民生支出239.1亿元占一般公共预算支出比重82%

动态:今年1至5月 宜春民生支出239.1亿元占一般公共预算支出比重82%

如果说,民生是一幅悠长的画卷,那么“民之所盼、政之所向”就是画卷里
06-19 11:09:18
焦点热门:环氧氯丙烷行情周报(6.12-6.16)

焦点热门:环氧氯丙烷行情周报(6.12-6.16)

6月19日,生意社环氧氯丙烷基准价为8100 00元 吨,与本月初(8825 00元
06-19 11:05:29
618,我为什么不买了?-焦点快看

618,我为什么不买了?-焦点快看

618又来了。近几年,每到“双11”、“双12”、“618”这样的大促节点,
06-19 10:35:16
环球时讯:在古代,科考制度的实行为天下有志之士提供向上攀登的机会,其间也发生不少趣事

环球时讯:在古代,科考制度的实行为天下有志之士提供向上攀登的机会,其间也发生不少趣事

在古代,科考制度的实行,为天下有志之士提供了向上攀登的机会,而对于
06-19 10:04:31
nlp技术的一般处理过程_nlp技术|新要闻

nlp技术的一般处理过程_nlp技术|新要闻

1、NLP是神经语言程序学的英文缩写。2、N(Neuro)指的是神经系统,包
06-19 10:03:09
京东618高潮期全国超95%区县实现当日达、次日达,京东物流持续刷新服务极限

京东618高潮期全国超95%区县实现当日达、次日达,京东物流持续刷新服务极限

截至6月18日晚23时59分,2023年京东618再创新纪录,烟火气持续在全国各
06-19 09:41:53
今热点:小腿前面疼怎么回事_小腿正面疼是怎么回事

今热点:小腿前面疼怎么回事_小腿正面疼是怎么回事

1、小腿前部疼痛有几个原因。2、首先,它与胫骨结节的炎症有关。3、可
06-19 09:28:53
天天要闻:三峡船闸通航20年累计货运量达19.1亿吨

天天要闻:三峡船闸通航20年累计货运量达19.1亿吨

记者18日从交通运输部长江三峡通航管理局获悉,自2003年6月18日正式向
06-19 09:28:19
深入浅出JavaScript 影印版(关于深入浅出JavaScript 影印版介绍)

深入浅出JavaScript 影印版(关于深入浅出JavaScript 影印版介绍)

来为大家讲解以上的问题。深入浅出JavaScript影印版,入浅出JavaScript
06-19 09:10:26
百世单号开头是?_百世单号_天天即时看

百世单号开头是?_百世单号_天天即时看

1、百世汇通单号由12-14位数字字母组见50*单号11位请补充完整。本文到
06-19 09:06:16
别说世界太难,让我走给你看 世界快讯

别说世界太难,让我走给你看 世界快讯

内容来源:笔记侠编辑部。责编|编辑部第7497篇深度好文:6867字|16分钟
06-18 22:25:46
焦点观察:招商银行滨州分行深化清廉文化建设

焦点观察:招商银行滨州分行深化清廉文化建设

通讯员王家琪为加强党风廉政建设,营造清廉金融文化氛围,进一步增强党
06-18 21:44:19
唯物主义与唯心主义到底哪个是正确的观点_唯物主义与唯心主义到底哪个是正确的 当前聚焦

唯物主义与唯心主义到底哪个是正确的观点_唯物主义与唯心主义到底哪个是正确的 当前聚焦

1、辩证唯物主义是正确的。2、唯物主义与唯心主义的区别:唯心主义认为
06-18 20:59:10
往硫酸和硫酸铜的混合溶液中逐滴加入氢氧化钠(请问硫酸铜溶液与氢氧化钠溶液反应的现象是什么)

往硫酸和硫酸铜的混合溶液中逐滴加入氢氧化钠(请问硫酸铜溶液与氢氧化钠溶液反应的现象是什么)

导读1、请问硫酸铜溶液与氢氧化钠溶液反应的现象是:溶液变为无色,并
06-18 19:58:58
短视频日均观看用户数增长113% 淘宝天猫今年618更好“逛”了吗? 焦点快播

短视频日均观看用户数增长113% 淘宝天猫今年618更好“逛”了吗? 焦点快播

◎“用户愿意在淘宝上花更多的时间去逛,是对淘天今年618求新求变的最
06-18 19:30:44
疯狂的邻居电视剧演员表(疯狂的邻居全集)|全球热讯

疯狂的邻居电视剧演员表(疯狂的邻居全集)|全球热讯

1、仅供参考腾讯视频。2、然后搜索:好邻居也疯狂。3、就可以啦!。本
06-18 18:54:13
国家防总将防汛四级响应范围扩至八省份,加派工作组赴地方协助指导

国家防总将防汛四级响应范围扩至八省份,加派工作组赴地方协助指导

据气象部门预报,未来10天江南华南等地多降雨过程,与常年同期相比,苏
06-18 18:02:44
长春周生生今日黄金价格多少钱一克(2023年6月16日) 天天即时

长春周生生今日黄金价格多少钱一克(2023年6月16日) 天天即时

金投黄金网6月16日讯,长春黄金价格 长春周生生今日黄金价格多少钱一克 
06-18 16:45:55
京东怎么找包邮的东西_京东怎么找包邮商品|世界聚看点

京东怎么找包邮的东西_京东怎么找包邮商品|世界聚看点

JD。COM查找邮品的方法如下:1 打开手机上的JD COM,点击搜索您想要查
06-18 15:52:41
斯内德:当初本能在皇马多待几年 惊讶自己没赢金球奖但我不在乎

斯内德:当初本能在皇马多待几年 惊讶自己没赢金球奖但我不在乎

直播吧6月18日讯接受SportBible记者采访时,斯内德透露自己当初本可以
06-18 15:35:17
汽车发动机故障灯亮,开车抖_发动机故障灯亮了车抖还可不可以开

汽车发动机故障灯亮,开车抖_发动机故障灯亮了车抖还可不可以开

1、发动机故障灯亮了一定不要继续驾驶车辆,车抖了说明发动机缺缸了,
06-18 14:43:25
世界观察:布字

世界观察:布字

ba巴布新几内亚、国际bu布林肯、美国rong熔喷布、新冠
06-18 13:52:09
「视频」写意东莞 荔香寮步!寮步第二届荔枝文化节启动-当前独家

「视频」写意东莞 荔香寮步!寮步第二届荔枝文化节启动-当前独家

文 羊城晚报全媒体记者余宝珠图、视频 羊城晚报全媒体记者王俊伟00:32
06-18 13:01:21
简讯:清华大学李稻葵:宏观经济治理工作的思路要从过去防过热变成防过冷

简讯:清华大学李稻葵:宏观经济治理工作的思路要从过去防过热变成防过冷

在清华大学中国经济思想与实践研究院(ACCEPT)主办的“清华大学中国与
06-18 12:07:39
警惕塞满杂物的废旧电动车成了“移动隐患”-环球今头条

警惕塞满杂物的废旧电动车成了“移动隐患”-环球今头条

北京日报客户端|评论员田闻之里头塞满杂物,外面灰尘满满……最近记者
06-18 11:13:25
青春之光,闪耀追梦征程——新时代中国青年风貌速写-全球动态

青春之光,闪耀追梦征程——新时代中国青年风貌速写-全球动态

新时代中国青年,把青春融入党和人民的事业,以昂扬向上的精神风貌,肩
06-18 10:44:46
理想家庭科技日交底:九分半充电400km,MEGA目标月销8000+

理想家庭科技日交底:九分半充电400km,MEGA目标月销8000+

家人们,这次我恰了理想的饭!怎么说呢……以工厂食堂的标准来说,口味
06-18 10:00:00
多省份用电负荷创新高!多部门采取措施保障电力稳定供应 全球热门

多省份用电负荷创新高!多部门采取措施保障电力稳定供应 全球热门

央视新闻讯近期我国多地持续高温天气,多省份用电负荷创下新高。根据当
06-18 09:56:29

为您推荐

精彩推送