首页 > 热点播报 > 正文

全球最快开源AI推理模型K2-Think遭质疑 ETH苏黎世指出多项评估问题

MBZUAI与G42近日开源了号称「全球最快开源AI推理模型」K2-Think。这款仅32B参数的模型在数学能力上表现突出,在AIME 2024测试中得分率达90.83%,甚至击败了参数量超1000亿的模型。其创新架构将token消耗降低12%,引发广泛关注,连Yann LeCun都转发了相关论文。

然而ETH苏黎世的研究人员指出K2-Think存在多项问题:模型在训练数据中已见过87个评估题目;使用了未指明的外部模型辅助;评估方法对其他模型不公平;采用特殊加权方式凸显自身分数。在公平测试中,K2-Think表现甚至不及规模更小的GPT-OSS 20B模型。

研究人员认为K2-Think存在夸大宣传的问题,其评估方式存在缺陷。这反映出AI领域过度追求基准测试分数的现象,可能对行业发展产生负面影响。

网友评论

热门IT产品
  1. ¥5999
    苹果iPhone17
    ·
  2. ¥9999
    苹果iPhone17 Pro Max
    ·
  3. ¥5999
    Xiaomi 17 Pro Max
    ·
  4. ¥4699
    HUAWEI Pura 80
    ·
  5. ¥1399
    荣耀X70
    ·
  6. ¥2699
    HUAWEI nova 14
    ·
  7. ¥3399
    荣耀400 Pro
    ·
  8. ¥4399
    vivo X300
    ·
  9. ¥2799
    OPPO Reno14
    ·
  10. ¥6499
    vivo X200 Ultra
    ·