Alphabet旗下人工智能实验室DeepMind的一篇新论文显示,制造一个好的人工智能(AI,Artificialintelligence)聊天机器人的诀窍,可能是先让人类制定一系列不可打破的铁律,然后使该模型利用互联网搜索寻找证据,支持其主张或回答。
在近日发表的一篇新的未经同行评议论文中,DeepMind发布了一种使用其大型语言模型Chinchilla训练的人工智能聊天机器人Sparrow。
Sparrow的设计目的是与人类交谈并回答问题,同时实时使用谷歌搜索或有关信息来支持它的答案。
根据人们对这些答案有用与否的回应,再使用强化学习算法进行训练。该算法通过反复试验(试错)来学习,以实现特定的目标。
该系统旨在推动人工智能发展成为可以与人类对话,但却不会产生诸如让人们伤害自己或他人的严重后果。
大型语言模型生成的文本看起来就像是人类写出来的。它们正日渐成为互联网基础设施中的重要组成部分,被用于总结、构建更强大的搜索工具,或者是为客户服务的聊天机器人。
但是,这些模型是通过从互联网上抓取大量数据和文本来接受训练的,这不可避免地包含许多有害的偏见。
只需要一点诱导,它们就会生产“有毒”的或歧视性的内容。在一个旨在与人类对话的人工智能工具中,其结果可能是灾难性的。
一个没有适当安全措施的对话式人工智能,可能会对少数群体说出带有冒犯性的话语,或者建议人们喝漂白剂来对抗病毒。据悉,那些开发对话式人工智能系统的公司,已尝试使用许多技术来使模型更安全。
著名大型语言模型GPT-3的创造者OpenAI,以及人工智能初创公司Anthropic已经在利用强化学习,将人类的偏好融入到他们的模型中。Meta(原Facebook)的人工智能聊天机器人BlenderBot通过在线搜索来完善其答案。而DeepMind的Sparrow将所有这些技术整合在一个模型中。
据介绍,DeepMind向人类参与者展示了该模型对同一问题给出的多个答案,并且还会问他们最喜欢哪一个。
然后他们被要求判断这些答案是否可信,以及Sparrow是否使用了适当的证据支持这个答案,比如提供信息来源的链接。
比如,该模型通过使用从互联网上检索到的证据,能够在78%的情况下对事实问题进行合理的回答。
在制定这些答案时,它会遵循由研究人员规定的23条规则,比如不提供财务建议、不发威胁性文字、不声称自己是一个人。
DeepMind安全研究员杰弗里·欧文(GeoffreyIrving)说,这种方法与之前的不同之处在于,DeepMind希望达到“对话的长期安全”。
他说:“这意味着我们不期望这些模型面临的问题——错误信息或刻板印象——乍一看是显而易见的,我们想详细讨论它们。”
非营利性人工智能研究实验室CohereforAI的负责人萨拉·胡克(SaraHooker)说,利用人类偏好来优化人工智能模型学习方式的想法并不新鲜。
但胡克认为,这些改进令人信服,同时展示出在大型语言模型环境中,以人为引导的方式优化对话代理有明显的好处。
人工智能初创公司HuggingFace的研究员都维·基拉(DouweKiela)说,Sparrow是“很好地遵循了人工智能总体趋势的下一步,我们正在更努力地改进大型语言模型的部署安全性。”
但在这些对话人工智能模型被部署到社会中之前,还有很多工作要做。
比如,Sparrow仍然会犯错误,这个模型有时会所问非所答或给出随机答案。那些有毅力的参与者也可以打破人为定下的规则,这样的情况约有8%。与老款模型相比,这仍是一个改进:即打破DeepMind老款模型规则的频率,是Sparrow的三倍。
胡克说:“比如(用大模型来)提供医疗和财务建议,那么对许多人来说,8%可能仍然是一个令人无法接受的高失败率。”
这项工作也仅建立在英语模型上,“而我们生活在一个技术必须安全和负责任地为许多不同的语言服务的世界里,”他补充道。
基拉指出的另一个问题是:“依赖谷歌来寻找信息,会导致难以发现的未知偏见,因为所有信息源都是封闭的。”
来源:DeepTech深科技