上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。根据测试,阿里通义千问2-72B以303分的成绩排名第一,OpenAI的GPT-4o以296分排名第二,上海人工智能实验室的书生·浦语2.0以283分排名第三。所有大模型的得分率均超过70%。然而,在数学科目中,所有大模型都未及格,最高只有75分。
上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。根据测试,阿里通义千问2-72B以303分的成绩排名第一,OpenAI的GPT-4o以296分排名第二,上海人工智能实验室的书生·浦语2.0以283分排名第三。所有大模型的得分率均超过70%。然而,在数学科目中,所有大模型都未及格,最高只有75分。
网友评论