太平洋网络
产品库
聚超值
视频
站内导航

研究揭示LLM软件工程评估现状：Python主导代码生成小众语言仍稀缺

2025-08-26 23:16 整合编辑：科仔播报

据悉，现有LLM-SE Benchmark存在三大痛点，导致开发者和研究者在选择评估方法时常陷入「信息孤岛」，甚至可能被不全面的评估结果误导。

研究聚焦三大核心问题，通过「地毯式搜索」发现自2022年起Benchmark数量快速增长，2023和2024年分别新增近70个。Python在评估Benchmark中占据主导地位，主要用于代码生成与推荐类任务；Java、C++、C语言在质量分析与维护任务中较为重要；而Go、PHP、Ruby等小众语言的Benchmark仍然稀缺。

研究指出当前Benchmark建设存在五大瓶颈，并提出了五大改进方向。这项研究填补了LLM软件工程评估的综述空白，为AI4SE研究者、开发者和企业提供了清晰的「下一步方向」。

苹果内部讨论收购AI企业Mistral与Perplexity 以加速人工智能技术发展

阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

相关阅读