斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十
金融掌舵者
2024-08-01 22:49:17
0

IT之家 6 月 22 日消息,斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。

据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分,模型必须具备广泛的世界知识和解决问题的能力。IT之家附排名如下:

▲ 图源斯坦福大学基础模型研究中心官网

1、Claude 3 Opus(20240229): Anthropic(美国,亚马逊投资)

2、GPT-4o(2024-05-13):OpenAI(美国)

3、Gemini 1.5 Pro:谷歌(美国)

4、GPT-4(0613):OpenAI(美国)

5、Qwen2 Instruct(72B):阿里巴巴(中国)

6、GPT-4 Turbo(2024-04-09):OpenAI(美国)

7、Gemini 1.5 Pro(0409 preview):谷歌(美国)

8、GPT-4 Turbo(1106 preview):OpenAI(美国)

9、Llama 3(70B):Meta(美国)

10、Yi Large(Preview):零一万物(中国)

Qwen2 是由阿里巴巴开发的一款开源大语言模型,发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型;支持除英语和中文外的额外 27 种语言的数据训练;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的上下文。

Yi Large 是由零一万物公司开发的一款闭源大模型,Yi 模型系列基于 6B 和 34B 预训练语言模型,然后扩展到聊天模型、200K 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 GPT-4 和 Claude 3 Opus 等领先模型”。

相关内容

铜:终端需求下滑 仍有下行...
宏观方面,中国官方和财新制造业PMI双双位于荣枯线以下,显示经济仍...
2024-08-23 22:47:04
宝地矿业(601121SH...
智通财经APP讯,宝地矿业(601121.SH)发布公告,本次上市...
2024-08-13 22:46:31
斯坦福大模型评测榜 Cla...
IT之家 6 月 22 日消息,斯坦福大学基础模型研究中心(CRF...
2024-08-01 22:49:17
2024年底力争80%以上...
  新华社北京3月2日电(记者彭韵佳)国家医保局、教育部、国家卫生...
2024-06-21 23:05:51
哪吒汽车CEO回应年终奖推...
  近日网上开始出现传闻,称哪吒汽车CEO原本承诺“节后上班第一周...
2024-06-17 21:50:50
3月4日基金净值:天弘永利...
本站消息,3月4日,天弘永利债券A最新单位净值为1.1775元,累...
2024-06-15 21:48:11

热门资讯

创业导师张核子 一个离谱的新闻。近日,张核子在短视频平台开通账号,说要和网友们分享他的创业故事。看到这个,我第一反应...
4月2日永吉转债上涨212%,... 本站消息,4月2日永吉转债收盘上涨2.12%,报140.01元/张,成交额2.28亿元,转股溢价率2...
ST商城(600306)2月2... 证券之星消息,截至2024年2月26日收盘,*ST商城(600306)报收于9.3元,上涨4.97%...
1月23日主题复盘 上海股大... 一、行情回顾三大指数今日探底回升,沪指午后涨超1%,创业板指盘中涨逾2%,尾盘涨幅有所回落。上海本地...
喵星人这4个“邪恶”的举动,经... 养猫是一件让铲屎官爱恨交织的事情,虽然有了喵星人的温柔陪伴,但自己的生活也会因为铲屎而变得忙碌起来…...
(新春走基层)留学生体验剪纸做... 留学生在做灯笼。张瑶 摄   2月2日,数十名留学生来到吉林省图书馆体验剪纸、做灯笼,感受多彩中国文...
全球迎来史上最大规模“选举年”... 财联社1月15日讯(编辑 刘蕊)2024年年是全球历史上最大规模的“选举大年”。据统计,今年全球将有...
搜狐全球医讯 JACC:女性... 出品 | 搜狐健康作者 | 周亦川编辑 | 袁月贺岁档电影让不少女性走入健身房来一场“暴汗”。近期《...
微芯转债下跌126%,转股溢价... (原标题:微芯转债下跌1.26%,转股溢价率75.66%)2月2日,微芯转债收盘下跌1.26%,报1...
避险及流动性充裕下助推债市价格... 进出口数据趋弱,除季节性因素外,人民币升值也是潜在影响因素,贸易战后期也将影响出口,通胀方面CPI、...