据悉,现有LLM-SE Benchmark存在三大痛点,导致开发者和研究者在选择评估方法时常陷入「信息孤岛」,甚至可能被不全面的评估结果误导。
研究聚焦三大核心问题,通过「地毯式搜索」发现自2022年起Benchmark数量快速增长,2023和2024年分别新增近70个。Python在评估Benchmark中占据主导地位,主要用于代码生成与推荐类任务;Java、C++、C语言在质量分析与维护任务中较为重要;而Go、PHP、Ruby等小众语言的Benchmark仍然稀缺。
研究指出当前Benchmark建设存在五大瓶颈,并提出了五大改进方向。这项研究填补了LLM软件工程评估的综述空白,为AI4SE研究者、开发者和企业提供了清晰的「下一步方向」。


粤公网安备 44010602000162号
网友评论