2025 / 06 / 26
神州問(wèn)學(xué)團(tuán)隊(duì)以絕對(duì)優(yōu)勢(shì)贏得亞馬遜云科技大語(yǔ)言模型全國(guó)聯(lián)賽冠軍

在人工智能技術(shù)持續(xù)演進(jìn)的當(dāng)下,大模型競(jìng)賽成為行業(yè)關(guān)注的焦點(diǎn)。人們普遍認(rèn)為,參數(shù)越多、算力越強(qiáng),模型的能力就越強(qiáng)。然而,在2025年6月19日的亞馬遜云科技大語(yǔ)言模型全球聯(lián)賽這一重要賽事中,神州數(shù)碼旗下神州問(wèn)學(xué)團(tuán)隊(duì)以絕對(duì)優(yōu)勢(shì)取得勝利,為行業(yè)提供了一個(gè)全新的視角:參數(shù)規(guī)模不等于能力上限,真正決定模型實(shí)戰(zhàn)表現(xiàn)的,是數(shù)據(jù)價(jià)值密度與流程創(chuàng)新能力的結(jié)合。

20221210003345.jpg

賽事背景:亞馬遜云科技規(guī)格最高的大語(yǔ)言模型全球競(jìng)賽活動(dòng)

亞馬遜云科技大語(yǔ)言模型全國(guó)聯(lián)賽的前身是自2018年推出以來(lái),已經(jīng)吸引了超過(guò)56萬(wàn)名開發(fā)者參與,覆蓋全球數(shù)千個(gè)活動(dòng)和比賽的人工智能賽車競(jìng)賽。2024年亞馬遜云科技在Invent 2024 期間推出了亞馬遜云科技大語(yǔ)言模型全國(guó)聯(lián)賽。在這次聯(lián)賽中,參賽選手的任務(wù)是利用所學(xué)的工具和技術(shù)對(duì)特定領(lǐng)域的Meta Llama 3.5B基礎(chǔ)模型進(jìn)行定制化調(diào)整。提交的微調(diào)模型將與一個(gè)更大的70B參考模型對(duì)比,通過(guò)一種稱為“LLM-as-a-Judge”的方法來(lái)評(píng)估回答的質(zhì)量。如果微調(diào)后的模型所提供的答案被認(rèn)為比更大規(guī)模的模型更加準(zhǔn)確和全面,那么參賽者將在相應(yīng)的問(wèn)題上獲得勝利積分。神州數(shù)碼作為亞馬遜云科技中國(guó)區(qū)第一批通過(guò)GenAI能力認(rèn)證的伙伴,受邀參加本次比賽。

絕境突圍:
小參數(shù)模型特定場(chǎng)景勝大模型

這場(chǎng)比賽的規(guī)則本身就極具挑戰(zhàn)性——使用僅3.5B參數(shù)的小模型,與70B級(jí)別的超大規(guī)模模型正面交鋒。而3.5B基礎(chǔ)模型本身存在以下問(wèn)題:

• 語(yǔ)言劣勢(shì):評(píng)測(cè)全部采用中文,而3.5B模型在中文理解方面存在明顯短板;

• 知識(shí)不對(duì)等:題目?jī)?nèi)容聚焦于大模型行業(yè)的專業(yè)知識(shí),這正是70B模型訓(xùn)練時(shí)的核心優(yōu)勢(shì)領(lǐng)域;

• 資源稀缺:可用原始數(shù)據(jù)僅有20條,微調(diào)時(shí)間只有短短3小時(shí)。

面對(duì)以上問(wèn)題,神州問(wèn)學(xué)團(tuán)隊(duì)快速設(shè)置了一套系統(tǒng)化、精細(xì)化的技術(shù)方案,最終以53%的贏率取得第一輪勝利。

20221210003345.jpg
神州問(wèn)學(xué)團(tuán)隊(duì)提交的模型贏率53%位居第一

破局之道:
模型微調(diào)的三重絕招

針對(duì)3.5B模型在中文支持、邏輯推理、多跳任務(wù)和知識(shí)廣度上的四大短板,神州問(wèn)學(xué)采取了三個(gè)關(guān)鍵策略:

• 知識(shí)蒸餾的“精準(zhǔn)手術(shù)刀”

神州問(wèn)學(xué)團(tuán)隊(duì)為蒸餾的知識(shí)設(shè)計(jì)了“問(wèn)答—邏輯鏈—證據(jù)片段”的三元組知識(shí)形式,并通過(guò)多次人工和機(jī)器的交叉檢查確保注入到3.5B模型中的質(zhì)量。這一過(guò)程并非簡(jiǎn)單的知識(shí)復(fù)制,而是像外科手術(shù)一樣精準(zhǔn)地提取并植入關(guān)鍵信息。同時(shí),他們還構(gòu)建了“知識(shí)拓?fù)渚W(wǎng)”,補(bǔ)充相關(guān)文檔資料,從而有效擴(kuò)展了小模型的知識(shí)覆蓋范圍。

• 思維鏈的“量子糾纏”改造

整場(chǎng)比賽只有三小時(shí),為3.5B模型注入思維鏈?zhǔn)欠窨尚惺菍?duì)團(tuán)隊(duì)整體戰(zhàn)略,技術(shù)方案,執(zhí)行力的考驗(yàn)。神州問(wèn)學(xué)團(tuán)隊(duì)面對(duì)3.5B基模的天然不足,采用部分樣本輕思考的方案,對(duì)精選的樣本注入拆解問(wèn)題、檢索概念、驗(yàn)證邏輯、生成結(jié)論的能力,使3.5B模型在三小時(shí)內(nèi)具備了遠(yuǎn)超其參數(shù)規(guī)模的推理能力。

• 動(dòng)態(tài)提示詞的“戰(zhàn)場(chǎng)指揮官”系統(tǒng)

在下午進(jìn)行的現(xiàn)場(chǎng)評(píng)測(cè)環(huán)節(jié),評(píng)委和觀眾共同見證了一場(chǎng)高水平的實(shí)時(shí)應(yīng)答比拼。面對(duì)6道題目,各參賽隊(duì)伍有60秒時(shí)間理解和設(shè)計(jì)提示詞。神州問(wèn)學(xué)團(tuán)隊(duì)以深厚的大模型落地經(jīng)驗(yàn)面對(duì)6道題目分別給出了針對(duì)性的Prompt,在3.5B小模型200字小窗口的苛刻條件下對(duì)每一條問(wèn)題都給出的優(yōu)質(zhì)回答,獲得現(xiàn)場(chǎng)評(píng)委和AI雙高分。在賽事中主持人隨機(jī)采訪的觀眾和評(píng)委對(duì)神州數(shù)碼團(tuán)隊(duì)給出的方案贊不絕口。最后以179分取得絕對(duì)勝利。

20221210003345.jpg
神州問(wèn)學(xué)團(tuán)隊(duì)以179分位居第一

技術(shù)升維:
從賽場(chǎng)走向產(chǎn)業(yè)的啟示錄

過(guò)去我們習(xí)慣于“參數(shù)越大越好”的思維定式,但在實(shí)際業(yè)務(wù)中,700億參數(shù)的大模型雖然強(qiáng)大,卻往往存在大量冗余計(jì)算。相比之下,一個(gè)經(jīng)過(guò)知識(shí)提純、架構(gòu)銳化和持續(xù)進(jìn)化的小模型,在部署成本、響應(yīng)速度和可控性方面更具優(yōu)勢(shì)。

這場(chǎng)比賽的勝利也彰顯了神州問(wèn)學(xué)卓越的小模型調(diào)優(yōu)能力,當(dāng)行業(yè)沉迷于千億參數(shù)競(jìng)賽時(shí),神州數(shù)碼憑借深厚的產(chǎn)業(yè)洞察直指本質(zhì):企業(yè)級(jí)AI落地的核心矛盾,在于技術(shù)能力與場(chǎng)景痛點(diǎn)的精準(zhǔn)適配——而非算力的競(jìng)賽。 其創(chuàng)新性架構(gòu)構(gòu)建了雙重認(rèn)知引擎:以通用大模型為基座拓展認(rèn)知廣度,以精調(diào)小模型為觸手穿透場(chǎng)景深度,再通過(guò)動(dòng)態(tài)路由實(shí)現(xiàn)算力的智能協(xié)同。

這套"廣度奠基、深度攻堅(jiān)、資源智配"的三位一體范式,助力企業(yè)AI的真正落地。

流程智慧,
驅(qū)動(dòng)AI新階段

在這場(chǎng)以小博大的比賽中,神州問(wèn)學(xué)展示的不只是技術(shù)實(shí)力,更是一種思維方式的轉(zhuǎn)變。AI的未來(lái),不在于誰(shuí)擁有最多的算力,而在于誰(shuí)能用最少的資源創(chuàng)造最大的價(jià)值。

這不是一場(chǎng)偶然的勝利,而是一次對(duì)AI發(fā)展路徑的深度反思。隨著AI進(jìn)入2.0時(shí)代,真正的競(jìng)爭(zhēng)將不再局限于模型大小,而是轉(zhuǎn)向如何高效、精準(zhǔn)地解決實(shí)際問(wèn)題。