阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens

感谢网友 killgfat 的线索投递！

6 月 7 日消息，通义千问（Qwen）今天宣布经过数月的努力，Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级，并已在 Hugging Face 和 ModelScope 上同步开源。

附上 Qwen 2.0 主要内容如下：

5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B
在中文英语的基础上，训练数据中增加了 27 种语言相关的高质量数据；
多个评测基准上的领先表现；
代码和数学能力显著提升；
增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。

模型基础信息

Qwen2 系列包含 5 个尺寸的预训练和指令微调模型，其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
参数量	0.49B	1.54B	7.07B	57.41B	72.71B
非 Embedding 参数量	0.35B	1.31B	5.98B	56.32B	70.21B
GQA	True	True	True	True	True
Tie Embedding	True	True	False	False	False
上下文长度	32K	32K	128K	64K	128K

在 Qwen1.5 系列中，只有 32B 和 110B 的模型使用了 GQA。这一次，所有尺寸的模型都使用了 GQA，以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。

模型评测

相比 Qwen1.5，Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。

在针对预训练语言模型的评估中，对比当前最优的开源模型，Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

附上参考地址

你好，Qwen2

阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens

模型基础信息

模型评测

在线XML转HTML工具

绿联NAS新品首发大量bug紧急下架：官方补偿用户100元购物卡、优惠券

赞助商推荐

最新文章

消息称哪吒汽车裁员赔偿方案为 N+1，全公司 9 月工资只发一半

strchr函数在c++中可以用么(c++strlen函数用法)

android是什么意思(powerbyandroid是什么意思)

控制面板的作用是什么(控制面板的作用是什么它可以完成哪些工作至少举出四个)

python编译器安装教程(windows如何安装python)

大顶堆是升序还是降序(按大顶堆将序列调整为堆例子)

ip地址私有地址范围(ip地址设置为192.168.1.110)

过期域名抢注怎么办(域名过期多长时间可以抢注)

国外网站空间推荐(推荐几个国外的网站看文)

屏幕暗屏时间怎么调(屏幕暗屏是什么原因造成的)

标签

点击排行

英特尔确认未来数代处理器不会采用 Lunar Lake 同款 MoP 封装级内存方案

oppo问答系统技术路线

pikachu通关教程~~~~

怎么打印网页内容(如何打印网页选中的内容图片)

游戏装机新爆款出现!锐龙5 7600X3D配RTX 4060游戏性能如何?

阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens

模型基础信息

模型评测

在线XML转HTML工具

绿联NAS新品首发大量bug紧急下架：官方补偿用户100元购物卡、优惠券

赞助商推荐

最新文章

消息称哪吒汽车裁员赔偿方案为 N+1，全公司 9 月工资只发一半

标签

点击排行

英特尔确认未来数代处理器不会采用 Lunar Lake 同款 MoP 封装级内存方案

oppo问答系统技术路线

pikachu通关教程~~~~

怎么打印网页内容(如何打印网页选中的内容图片)

游戏装机新爆款出现!锐龙5 7600X3D配RTX 4060游戏性能如何?

关注我们的公众号