首页 > 热点播报 > 正文

研究揭示LLM软件工程评估现状:Python主导代码生成 小众语言仍稀缺

据悉,现有LLM-SE Benchmark存在三大痛点,导致开发者和研究者在选择评估方法时常陷入「信息孤岛」,甚至可能被不全面的评估结果误导。

研究聚焦三大核心问题,通过「地毯式搜索」发现自2022年起Benchmark数量快速增长,2023和2024年分别新增近70个。Python在评估Benchmark中占据主导地位,主要用于代码生成与推荐类任务;Java、C++、C语言在质量分析与维护任务中较为重要;而Go、PHP、Ruby等小众语言的Benchmark仍然稀缺。

研究指出当前Benchmark建设存在五大瓶颈,并提出了五大改进方向。这项研究填补了LLM软件工程评估的综述空白,为AI4SE研究者、开发者和企业提供了清晰的「下一步方向」。

网友评论

热门IT产品
  1. ¥5999
    苹果iPhone17
    ·
  2. ¥9999
    苹果iPhone17 Pro Max
    ·
  3. ¥5999
    Xiaomi 17 Pro Max
    ·
  4. ¥4699
    HUAWEI Pura 80
    ·
  5. ¥1399
    荣耀X70
    ·
  6. ¥2699
    HUAWEI nova 14
    ·
  7. ¥3399
    荣耀400 Pro
    ·
  8. ¥4399
    vivo X300
    ·
  9. ¥2799
    OPPO Reno14
    ·
  10. ¥6499
    vivo X200 Ultra
    ·