研究发现:AI 越聪明就越有可能“胡编乱造”
IT之家 9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。
图源
IT之家注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM: 的 GPT 和 Meta 的 LLaMA,以及由研究小组 创建的开源模型 BLOOM。
研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。
瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández- 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”
格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价,Hicks(未参与该研究)告诉《自然》杂志:“在我看来,这就像我们所说的胡说八道,它越来越擅长假装知识渊博。”
测试中,这些模型被问及了从数学到地理等各种主题,并被要求执行诸如按指定顺序列出信息等任务。更大、更强大的模型给出了最准确的答案,但在更难的问题上表现不佳,其准确率较低。
研究人员称,一些最大的“撒谎者”是 的 GPT-4 和 o1,但所有被研究的 LLM 似乎都呈这种趋势,对于 LLaMA 系列模型,没有一个能够达到 60% 的准确率,即使是最简单的问题。
而当被要求判断聊天机器人的回答是准确还是不准确时,一小部分参与者有 10% 到 40% 的概率判断错误。
总之研究表明,AI 模型越大(就参数、训练数据和其他因素而言),它们给出错误答案的比例就越高。
研究人员称,解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández- 称:“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说‘不,我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西,可能会暴露技术的局限性。
- 1起动机哒哒响启动不了怎么解决,冬天开暖风选择外循环还是内循环
- 2英亩换算平方米,1公顷等于多少亩和平方米?详细换算方法解析
- 3三菱奕歌发动机多大马力,共享兰博基尼动力,奥迪RSQ8最新曝光
- 4192.168.1.1无线路由器,如何通过192.168.1.1地址登录路由器设置界
- 5大理旅游团,大理古城4天参团游价格解析到大理古城旅游四天费用多
- 6电动四轮车在哪里买,两轮、三轮、四轮电动车生产基地大揭秘,全国分
- 7汽车每周发动一次,汽车长期不开每周原地怠速30分钟的好处与注意事
- 8英语商务书信的正确写法,写作指南关键注意事项与技巧解析
- 9路虎发现运动版上市9个月跌破27万,价格暴跌的七款豪车盘点
- 10基础油有哪几种,润滑脂dn值详解如何选择适合的润滑脂等级
- 11路虎发现运动版,奇瑞捷豹路虎新篇章开启?
- 12一汽大众新能源,一汽新能源领域发展现状与未来规划深度解析
- 13汽车每周发动一次,车子一个星期开一次到两次的坏处及其对车辆的影
- 14重庆南坪有个儿童乐园吗,最新野炊地图不负春光,探索最佳野炊地点
- 15汽车每周发动一次,汽车长期不开每周原地怠速30分钟的好处与必要性

推荐

最新标签