5月28日,權(quán)威大模型測評機(jī)構(gòu)SuperCLUE《中文大模型基準(zhǔn)測評2025年5月報告》全新出爐!
豆包1.5·深度思考模型(Doubao-1.5-thinking-pro)和商湯日日新V6多模態(tài)模型(SenseNova-V6 Reasoner)共同摘得金牌,超越Gemini 2.5Flash Preview,在國內(nèi)大模型第一梯隊領(lǐng)跑。
位居第二梯隊的大模型包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1以及DeepSeek-V3。
報告指出,國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在縮小。在國產(chǎn)大模型中,Doubao-1.5-thinking-pro-250415、SenseNova V6 Reasoner表現(xiàn)最為亮眼。國內(nèi)推理模型競爭格局初露端倪。
SuperCLUE是行業(yè)權(quán)威的通用大模型的綜合性測評基準(zhǔn)。本次2025年5月報告聚焦通用能力測評,涵蓋數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創(chuàng)作六大任務(wù),總量為1579道多輪簡答題。
同時,根據(jù)Hugging Face——全球最大的AI開源社區(qū)上的數(shù)據(jù),在Open Compass本月的多模態(tài)大模型評測榜單中,商湯日日新V6(SenseNova-V6 Pro)以80.4的總分,超越Gemini 2.5 Pro,位居第一。
新民晚報記者了解到,憑借多模態(tài)長思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)等技術(shù)創(chuàng)新,商湯日日新V6以單一模型即可完成文本、多模態(tài)等多種任務(wù),在推理、數(shù)理、代碼等方面擁有顯著優(yōu)勢,能夠深度理解人類意圖,處理各類復(fù)雜信息和復(fù)雜問題,為真實的業(yè)務(wù)應(yīng)用提供強(qiáng)大助力。同時,商湯日日新V6的多模態(tài)訓(xùn)練整體效率對齊語言訓(xùn)練,實現(xiàn)業(yè)內(nèi)最優(yōu)水平,推理成本亦實現(xiàn)業(yè)界最低。
得益于高效能與低成本的完美結(jié)合,商湯日日新V6自今年4月發(fā)布以來,獲得了行業(yè)各界的廣泛支持,已在具身智能、智慧教育、智慧文旅等領(lǐng)域攜手多家合作伙伴,將共同推動多行業(yè)、多場景落地。
原標(biāo)題:《最新一期權(quán)威大模型榜單出爐:豆包1.5、商湯日日新V6并列國內(nèi)第一》
欄目編輯:陸梓華
本文作者:新民晚報 郜陽
題圖來源:Super CLUE
全部評論 (0)