6月26日,2025年全國(guó)高考志愿填報(bào)全面開(kāi)啟。在多個(gè)省份高考分?jǐn)?shù)線揭曉之際,大模型“考生”的成績(jī)單也吸引了許多關(guān)注。
6月25日晚間,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)公布了豆包大模型1.6-Thinking版本的“高考成績(jī)”:文科總分683分,理科總分648分。這一成績(jī)以2025年山東高考試題作為測(cè)評(píng)基準(zhǔn),其中語(yǔ)數(shù)外使用新課標(biāo)全國(guó)新一卷,政史地/物化生則采用山東省自主命題。
最新公布的山東高考分?jǐn)?shù)線顯示,特殊類型招生控制線為521分,普通類一段線為441分。山東省內(nèi)多位有著多年高三帶班經(jīng)驗(yàn)的資深教師判斷,根據(jù)山東省公布的2025年夏季高考文化成績(jī)一分一段表,豆包大模型1.6-Thinking的科目組合的賦分成績(jī)最高能超過(guò)690分,排名在前80位左右,穩(wěn)上985,并達(dá)到了沖擊“清北”的水平。
值得注意的是,本次測(cè)試還引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等國(guó)內(nèi)外多款主流模型作為對(duì)比對(duì)象。成績(jī)顯示,4款大模型文理科成績(jī)均大幅超過(guò)了普通類一段線,顯示大模型已超越眾多普通考生,達(dá)到人類優(yōu)秀考生的水平。
“學(xué)霸”誕生:大模型“考生”成績(jī)亮眼
據(jù)了解,目前全國(guó)大部分地區(qū)高考均采用賦分制,山東高考為“3+3”形式,語(yǔ)數(shù)英3門主科采用原始分(各150分),考生自選的3門副科(政史地/物化生,各100分)采用賦分制,滿分為750分。其中,選擇題、填空題等封閉題采用機(jī)判,開(kāi)放題則由兩位重點(diǎn)高中、有聯(lián)考判卷經(jīng)驗(yàn)的高中老師進(jìn)行匿名評(píng)估,并且后續(xù)引入了多輪質(zhì)檢。
值得注意的是,在評(píng)測(cè)所采用的山東卷中,圖像類問(wèn)題分?jǐn)?shù)為378分,占比高達(dá)36%,非??简?yàn)大模型的多模態(tài)理解和推理能力。豆包大模型基于較為出色的多模態(tài)能力,在評(píng)測(cè)中占據(jù)優(yōu)勢(shì)。在同臺(tái)競(jìng)技的4款主流大模型中,由于DeepSeek R1不具備多模態(tài)能力,無(wú)法正常解答圖像問(wèn)題,但通過(guò)文本信息的推理也能獲得一部分圖像題分?jǐn)?shù)。
評(píng)測(cè)結(jié)果顯示,文科成績(jī)方面,豆包1.6-Thinking總分達(dá)683,排名第一,谷歌Gemini 2.5 Pro以651分居于第二;理科成績(jī)方面,谷歌Gemini 2.5 Pro以655分奪得第一,豆包則以7分之差排名第二。各個(gè)模型在語(yǔ)、數(shù)、外等基礎(chǔ)學(xué)科的表現(xiàn)基本都比較好,達(dá)到了優(yōu)秀考生的水平,而且區(qū)分度已經(jīng)不大。不過(guò),OpenAI的o3出現(xiàn)了作文跑題的失誤,導(dǎo)致語(yǔ)文單科得分較低,給整體成績(jī)拖了后腿。
據(jù)山東省內(nèi)多位有著多年高三帶班經(jīng)驗(yàn)的資深教師判斷,3門自選科目的賦分相比原始分會(huì)有一定程度的提高,尤其是在化學(xué)、物理等難度較大的科目上,預(yù)估豆包大模型1.6-Thinking的科目組合的賦分成績(jī)最高能超過(guò)690分,排名在前80位左右,穩(wěn)上985,并達(dá)到了沖擊“清北”的水平。
技術(shù)突破:豆包1.6系列模型持續(xù)進(jìn)化
在大模型“考生”高考出分的同時(shí),記者注意到字節(jié)跳動(dòng)Seed團(tuán)隊(duì)也公布了Seed1.6 系列模型的詳細(xì)技術(shù)介紹。支撐高考優(yōu)異成績(jī)的,正是豆包大模型1.6系列的重大技術(shù)革新。
在6月11日舉行的火山引擎Force原動(dòng)力大會(huì)上,火山引擎正式發(fā)布了豆包1.6系列模型。 作為Seed 團(tuán)隊(duì)推出的最新通用模型系列,豆包1.6系列模型融合了多模態(tài)能力,支持自適應(yīng)的深度思考、多模態(tài)理解、圖形界面操作,且支持 256K 長(zhǎng)上下文的深度推理。
據(jù)Seed團(tuán)隊(duì)介紹,Seed1.6沿用Seed1.5在稀疏MoE(混合專家模型)上的探索結(jié)果,使用23B激活、230B總參數(shù)進(jìn)行預(yù)訓(xùn)練。據(jù)會(huì)上披露的多項(xiàng)權(quán)威測(cè)評(píng)成績(jī),在復(fù)雜推理、競(jìng)賽級(jí)數(shù)學(xué)、多輪對(duì)話和指令遵循等測(cè)試集上,豆包1.6—Thinking的表現(xiàn)已躋身全球前列。
具體來(lái)看,在預(yù)訓(xùn)練階段,Seed1.6通過(guò)純文本預(yù)訓(xùn)練、多模態(tài)混合持續(xù)訓(xùn)練、長(zhǎng)上下文持續(xù)訓(xùn)練階段,對(duì)模型架構(gòu)、訓(xùn)練算法等進(jìn)行持續(xù)改進(jìn),性能在參數(shù)量不增加的情況下取得明顯提升。在后訓(xùn)練階段,Seed1.6-Thinking強(qiáng)化了多模態(tài)融合的思考能力,并提出了“動(dòng)態(tài)思考能力”,在性能和效果上實(shí)現(xiàn)更好的動(dòng)態(tài)平衡。
群“?!敝鹇梗焊呖汲蔀椤癆I競(jìng)技場(chǎng)”
如今,高考已經(jīng)成為了AI大廠們的重要“競(jìng)技場(chǎng)”,形成了一場(chǎng)激烈的 “大模型高考競(jìng)賽”。
對(duì)于大模型廠商為何熱衷于做高考評(píng)測(cè),業(yè)內(nèi)人士分析指出,高考是大模型非常好的測(cè)試場(chǎng)景:一方面,題目全面,文科到理科,從文本到圖像理解,基礎(chǔ)知識(shí)都有覆蓋;另一方面,題目也比較新,能夠反映模型的泛化能力。此外,高考作為國(guó)內(nèi)最具權(quán)威性和影響力的人才選拔考試,也具備較高的社會(huì)關(guān)注度和話題討論度。
近年來(lái),隨著大模型技術(shù)的不斷迭代,大模型“考生”在高考中取得的成績(jī)也有了大幅提升。在去年的媒體評(píng)測(cè)中,豆包大模型文理科總分分別只有542.5分和466.5分,而今年則“進(jìn)步神速”,文理科總分分別提高了140.5分和181.5分。此外,其他的幾款主流大模型也取得了優(yōu)異的成績(jī)。
不過(guò),大模型也并非只能當(dāng)“做題家”,在實(shí)際應(yīng)用中,AI大模型的技術(shù)優(yōu)勢(shì)正在轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值。艾媒咨詢發(fā)布的《2024-2025年中國(guó)AI大模型市場(chǎng)現(xiàn)狀及發(fā)展趨勢(shì)研究報(bào)告》數(shù)據(jù)顯示,2024年中國(guó)AI大模型市場(chǎng)規(guī)模約為294.16億元,預(yù)計(jì)2026年將突破700億元,中國(guó)AI大模型行業(yè)正處于爆發(fā)式發(fā)展階段。
艾媒咨詢分析師認(rèn)為,AI大模型已初步具有算力高效利用能力、真實(shí)世界感知能力、自主學(xué)習(xí)能力以及創(chuàng)作能力等。中國(guó)大部分的國(guó)產(chǎn)AI大模型可在文本、圖像等方面賦能,并廣泛滲透到娛樂(lè)、電商、工作以及垂直領(lǐng)域等各類應(yīng)用之中,為中國(guó)傳統(tǒng)行業(yè)進(jìn)行數(shù)字化賦能。
以豆包為例,據(jù)了解,目前豆包大模型已在汽車、智能終端、互聯(lián)網(wǎng)、金融、教育科研、零售消費(fèi)等行業(yè)廣泛落地,覆蓋4億終端設(shè)備,如小米、OPPO、vivo、榮耀、聯(lián)想、三星等品牌;八成主流車企,如奔馳、寶馬、奧迪等;70%系統(tǒng)重要性銀行和數(shù)十家證券基金公司,如招商銀行、華泰證券等。
校對(duì):楊舒欣