太平洋网络
产品库
聚超值
视频
站内导航

登录
注册
进入论坛
最近访问

加载中
论坛收藏

加载中
移动应用

首页 > 热点播报 > 正文

微软紧急下架开源大语言模型工程师透露遗漏了幻觉测试环节

2024-04-22 20:10 整合编辑：佚名
闂備浇顕уù鐑藉极婵犳艾纾诲┑鐘叉搐缁愭鏌￠崶鈺佹灁闁崇懓绉撮埞鎴︽偐閹绘帗娈堕梻鍌氬鐎氫即寮婚敃鈧灒濞撴凹鍨辩瑧闂備礁鎲￠崺濠囧箯閿燂拷 QQ濠电姷鏁告繛鈧繛浣冲洤纾归柦妯猴級濞戙垹绀嬫い鎰靛亜濞堛劑姊虹捄銊ユ珢闁瑰嚖鎷�闂傚倸鍊风粈渚€骞栭锕€纾圭紓浣股戝▍鐘充繆閵堝倸浜惧銈庡亝缁诲牓銆佸▎鎴濇瀳闁告鍋為鍌涗繆閻愵亜鈧牕顫忔繝姘偍鐟滃繘骞夐幘顔芥櫢闁跨噦鎷�QQ缂傚倸鍊搁崐椋庣矆娓氣偓瀵敻顢楅埀顒勨€旈崘顔藉癄濠㈠厜鏅滈惄顖炲极閹剧粯鏅搁柨鐕傛嫹闂傚倸鍊烽懗鍫曞储瑜旈幃妯侯潩椤掑倹娈惧┑顔姐仜閸嬫挻銇勯姀锛勬噰鐎规洖宕灃濠电姴鍊归鍌涗繆閻愵亜鈧牕顫忔繝姘偍鐟滃繘骞夐幘顔芥櫢闁跨噦鎷�
闂傚倷娴囬妴鈧柛瀣崌閺岀喖顢涘⿰鍐炬毉濡炪們鍎查崹鍧楀蓟閻旇　鍋撳☉娅亝鎱ㄩ崶褉鏀芥い鏃傛櫕濞叉挳鏌℃担鍝バч柡浣规崌閺佹捇鏁撻敓锟�闂傚倷绀侀幉鈥崇幓鐠恒劌鍨濇い鏍仦閸嬪倿鏌ㄩ悢鍝勑ｉ柛搴㈠灴閹鏁愭惔鈥茬凹闂佸搫妫禍顏堝蓟閿曗偓椤粓宕奸悢濂変紦>>

旗舰机的快乐我也想要，日立R-ZXC750KC冰箱解析去看看

【太平洋科技资讯】近日，微软突然撤回了之前推出的开源大语言模型WizardLM2 8x22B，这款模型被宣传为迄今为止最强大的大模型，甚至超越了Claude 3 Opus&Sonnet、GPT-4等竞品。令人意外的是，微软在没有任何征兆的情况下删除了WizardLM2大模型的相关文件、代码，并且一直没有给出公开的解释。

一位微软的工程师给出了令人啼笑皆非的原因。这位工程师表示，由于微软已经几个月没有发布新的大模型，对上新流程有些陌生，他们居然忘了必需的幻觉测试(toxicity test)。这个测试对于大语言模型来说非常重要，因为大模型的“幻觉”分为两种，一是事实性幻觉，指模型生成的内容与可验证的现实世界事实不一致，二是忠实性幻觉，指模型生成的内容与用户的指令或上下文不一致。

图源：X平台截图

对于这次失误，微软正在抓紧补测，他们已经认识到这个错误的重要性，并表示将会尽快重新上线WizardLM2大模型。幻觉测试的缺陷可能会出现在训练数据、预训练和对齐阶段、推理阶段等多个阶段，因此需要仔细检查每一个环节，以确保大语言模型的准确性和可靠性。

大语言模型的出现为人工智能领域带来了巨大的变革，但是其仍然存在许多挑战和问题。幻觉测试是确保大语言模型准确性和可靠性的重要步骤之一，而这次微软的失误也再次提醒了开发者们需要更加谨慎和细致地处理大语言模型的开发和测试工作。

虽然这次事件有些尴尬，但是也给开发者们提供了一个宝贵的教训。相信在未来，大语言模型能够更加成熟和完善，为人类带来更多的便利和惊喜。

闂傚倷娴囬妴鈧柛瀣崌閺岀喖顢涘⿰鍐炬毉濡炪們鍎婚幏锟� (0) +1 闂備浇宕垫慨宥咁吋閸℃浼� (0) +1 闂傚倸鍊搁オ瀛樼閻戣棄绠柨鐕傛嫹 (0) +1

国家能源局：全国累计发电装机容量约29.9亿千瓦同比增长14.5%

苹果回收机器人来到中国：从iPhone中回收钨和稀土

相关阅读

微软紧急撤回最先进的AI大模型：居然忘了测试了
热点播报 2024-04-21 21:02:11
Windows 30年前支持ZIP格式：任务管理器之父差点被炒鱿鱼
热点播报 2024-04-21 20:32:53
微软推出新型AI工具VASA-1：可将照片转化为视频
热点播报 2024-04-21 18:32:58
微软全屏弹窗提示Win10用户升级Win11：“续命”费不便宜
热点播报 2024-04-21 14:32:23
一大批老电脑被淘汰！曝微软“AI Explorer”最低要求16GB内存、骁龙X Elite
热点播报 2024-04-19 11:40:36

网友评论

聚超值推荐

24小时内最火资讯

精彩图赏 热点视频

热门IT产品

￥7599
苹果iPhoneX 64GB
·
￥5799
三星S9
·
￥4498
vivo NEX旗舰版
·
￥4999
OPPO Find X
·
￥1799
努比亚Z18mini
·
￥1499
OPPO A5
·
￥1999
荣耀Play（4GB RAM）
·
￥1598
vivo Y85
·
￥3499
坚果R1（6GB RAM）
·
￥3599
一加6（8GB RAM）
·

用户反馈 返回首页 相关阅读 参与讨论 回到顶部

以科技敬生活
下载太平洋科技APP