联系我们 七款AI大模子“高考得益”公布 : 前三名文科过一册, 理科过二本
发布日期:2024-08-17 16:38 点击次数:70
天皇杯全称为“天皇杯全日本足球锦标赛”,是日本在1921年开始举办的一项足球赛事。这项赛事由日本职业足球联赛的所有参赛球队、JFL(日丙)的第一名、总理大臣杯全日本大学足球锦标赛的冠军以及各都道府县的代表队共88支俱乐部参加,是日本国内最大的足球杯赛。去年第103届天皇杯决赛,川崎前锋点球击败柏太阳神夺冠。今年是天皇杯第104届赛事比拼,第3轮和接下来第4轮对阵主客场均由抽签决定,最终决赛场地是东京新国立竞技场。
IT之家7月18日音讯,上海东说念主工智能实验室17日公布了针对7个AI大模子的高考全科目测试效用,据大模子开源绽开评测体系“司南”干系矜重东说念主先容,“现时大模子仍存在很大的局限性。组织AI大模子‘干预高考’,目标是评测现时大模子的着实水平,找准问题,不竭鼓吹技艺杰出。”测试效用露出,书生・浦语2.0系列文曲星大模子(浦语文曲星)、阿里通义千问大模子Qwen2-72B以及GPT-4o再次包揽文、理科前三甲;前三名AI“考生”的文、理科得益离别杰出了“一册”“二本”线(以本年高考东说念主数最多的河南省的分数线为参考)。
从官方提供的图片来看,这次参与“高考”的大模子还包括来自零一万物的Yi-1.5-34B、来自通义千问的Qwen2-57B、来自智谱的GLM-4-9B和法国AI初创公司Mistral旗下的Mixtral8×22B。
据先容,这次评测具备如下特征:
全卷锻真金不怕火:进行全卷评分,而不单针对单一题型,且包括带图的高考题
考前开源:评测隐藏的开源模子均为本年高考前开源的模子,舍弃泄题的可能性
憨厚打分:邀请有高考阅卷教授的憨厚打分,确保评分和高考尽量一致
十足公开:生成谜底的代码、模子答卷、评分效用十足开源
在增多抽象科目标基础上,Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模子Qwen2-72B以546分的得益荣获AI高考“文科状元”,浦语文曲星则以468.5分红为理科第别称,离别杰出了“非开源国际插班生”GPT-4o(文科531分,理科467分)。同为外洋机构发布的Mixtral8x22B平均得分最少,联系我们弱于国内大模子的高考进展。
阅卷憨厚们一致以为,大模子与真东说念主考生仍存在差距,天然关于基础学问的掌持进展出色,但在逻辑推理和学问天真应用方面,大模子仍然差强东说念主见。具体而言,在作答主不雅题时,大模子时常无法完满贯穿题干,不解白代词指向,效用导致卯分歧榫;解答数学题时,解题经过机械且逻辑性差,关于几何题,常出现与空间逻辑相违反的臆测;对物理、化学实验贯穿浅显,无法准确识别并诓骗实验器材。
此外,大模子也会伪造造谣内容,编造看似合理但履行不存在的诗句,或在存在昭彰策画造作的情况下之后不反想,“硬着头皮蒙”一个谜底,均给阅卷憨厚带来了困扰。
据IT之家此前报说念,笔据上海东说念主工智能实验室上个月公布的AI高考全卷效用,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模子高考的前三甲,得分率均杰出70%。大部分模子“考生”语文、英语科目进展高超,但数学方面仍有很大擢升起间。
公开评测细节:点此前去联系我们