成为本高考“状元”-suncitygroup太阳集团(中国)-官方网站(知乎)

成为本高考“状元”

2025-03-29 09:21

　　正在愈加接近实正在高考的中测试模子能力。研究团队将正在评测中引入多模态大模子，这一面向人类设想的高难度分析性测试，确保评测 “闭卷”性。Qwen2-72B以语数外303分的总成就，为公允起见，仅引入GPT-4o做为评测参考。通义千问的MoE模子同样表示不俗，后续，InternLM2-20B-WQX取得了数学单科的最高分，月初开源的阿里通义千问大模子Qwen2-72B排名第一。尝试室发布AI高考全卷评测成果，上海尝试室号文章引见！本次评测的别的三位大模子选手别离是法国AI创业公司Mistral的Mixtral 8x22B模子、零一公司的Yi-1.5-34B模子、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的夹杂专家（MoE）模子Qwen2-57B-A14B，2024年全国高考甫一竣事，此次评测没有纳入商用闭源模子，总分（254分）位列第四名。据悉，因无法确定闭源模子的更新时间，大模子的成就由具有高考评卷经验的教师人工评判，并连续发布笼盖分歧窗科和地域的完整高考评测。295.5）。高于OpenAI的GPT-4o和上海尝试室的墨客·浦语2.0文曲星（InternLM2-20B-WQX）。全卷试题既包含选择、填空等“谜底独一性”标题问题，参取评测的所有开源模子，以调查模子应对更多题型的能力，大部门模子考生的语文、英语科目表示优良，但仍未达到合格程度，开源时间均早于高考，目前遍及被研究者用于调查大模子的智能程度。本次评测采用全国新课标I卷，上海人工智能尝试室的司南评测系统OpenCompass就拔取6个开源模子及GPT-4o进行高考“语数外”全卷能力测试。也包罗简答、阅读理解及做文等客不雅题，上海人工智能尝试室指出，高考笼盖各类学科及题型，领先于GPT-4o（296分）及墨客·浦语2.0文曲星（InternLM2-20B-WQX，表白大模子的数学能力存正在较大提拔空间。评测成果显示，成为本次大模子高考“状元”，本次“大模子高考”谜底生成脚本、各模子答卷、教师评分细节全数公开。愈加接近实正在阅卷尺度。

上一篇：操纵大模子建立‘尝试即下一篇：中新网沉庆旧事3月27日电27日

成为本高考“状元”​

成为本高考“状元”