首页 > 热点播报 > 正文

OpenAI推出SWE-bench Verified:现有框架低估模型软件工程能力

OpenAI推出更可靠的代码生成评估基准:SWE-bench Verified。据悉,该公司blog里最重要的一句话是:“随着我们的系统越来越接近AGI,我们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·