自从 ChatGPT 火了以后,国内的 AI 大模型也是越来越多,各家都有不同的侧重点,其中,咱们国家队的代表就是阿里的通义千问了。就在最近,通义千问推出了新一代开源模型 Qwen2.5,下面跟大家重点介绍一下这个新模型到底有多牛逼?

1

Qwen2.5简介

9月19日云栖大会上,发布了通义千问新一代开源模型Qwen2.5,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。

Qwen2.5支持高达128K的上下文长度,可生成最多8K内容。模型拥有强大的多语言能力,支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 种以上语言。模型能够丝滑响应多样化的系统提示,实现角色扮演和聊天机器人等任务。在指令跟随、理解结构化数据(如表格)、生成结构化输出(尤其是JSON)等方面Qwen2.5都进步明显。

Qwen2.5系列模型在语言模型方面,Qwen2.5开源了7个尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,它们在同等参数赛道都创造了业界最佳成绩,型号设定充分考虑下游场景的不同需求,3B是适配手机等端侧设备的黄金尺寸;32B是最受开发者期待的“性价比之王”,可在性能和功耗之间获得最佳平衡,Qwen2.5-32B的整体表现超越了Qwen2-72B。Qwen2.5-72B模型在MMLU-rudex基准(考察通用知识)、MBPP 基准(考察代码能力)和MATH基准(考察数学能力)的得分高达86.8、88.2、83.1。

2

Qwen2.5模型详解

1、Qwen2.5性能如何?


相比6月推出的Qwen2,Qwen2.5实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中,开源的Qwen2.5-72B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2.5-72B,整体性能相比Qwen2 又取得了大幅提升!

图说:在MMLU-redux等十多个基准测评中,Qwen2.5-72B表现超越Llama3.1-405B

9月29日,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,居于OpenAI的o1、GPT-4o等模型之后,是得分最高的中国大模型;同天开源的视觉语言模型Qwen2-VL-72B-Instruct闯入Vision榜单第九,略逊于GPT-4o、Gemini-1.5-Pro等闭源模型,是成绩最好的开源模型。

2、如何体验Qwen2.5模型能力?


我们要怎么体验Qwen2.5新模型的能力呢?我们需要先登录魔搭 CompassArena 大模型竞技场,登录地址如下:
https:///studios/opencompass/CompassArena/summary

登录后,我们选择【双模型对战】看抽卡能不能抽到Qwen2.5,需要多测试几轮,才会抽中。

如果一直抽不中,我们也可以直接选择【双模型对战(自选)】模式,给Qwen2.5 Pick对手,这里有很多市面上的模型,我们直接启动对战~

我们通常对比两个模型的能力更强,主要对比他的逻辑推理能力,下面我问一个问题,让Qwen2.5模型和其他模型做比较,看看哪个更聪明?

问题:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅可以同时开火,煎锅一次最多只能放两块饼,那么我想要煮3个鸡蛋和2块饼,一共需要几分钟?

通过上面对比,我们发现Qwen2.5这个模型回答是正确的,总共需要6分钟,而且逻辑能力很强,条理也非常清楚 。从这里可以看出来,虽然国内有很多AI模型,但是我们必须要选择一个更聪明、出错率低的模型非常重要,不然它在那里胡说八道,你还听得很有道理,就非常尴尬了。

通义千问官网地址:

https://tongyi.aliyun.com/qianwen/

觉得内容还不错的话,给我点个“在看”呗