當前位置首頁 > 中國制造 > 企業(yè) >

SuperCLUE最新評測：山海大模型再創(chuàng)佳績，穩(wěn)居全球一梯隊

中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng) 時間：2024-07-12

　　7月9日，SuperCLUE發(fā)布《中文大模型基準測評2024上半年報告》，報告選取國內(nèi)外有代表性的33個大模型在6月份的版本，通過多維度綜合性測評，對國內(nèi)外大模型發(fā)展現(xiàn)狀進行觀察與思考。

　　報告顯示，云知聲山海大模型在本次半年度評測中取得總分72的優(yōu)異成績，與360gpt2-pro、字節(jié)跳動豆包、月之暗面Kimi、百川智能Baichuan4并列國內(nèi)大模型第四，穩(wěn)居全球大模型第一梯隊。

　　SuperCLUE作為國內(nèi)權(quán)威通用大模型綜合性測評基準，其前身可追溯至第三方中文語言理解評估基準CLUE（The Chinese Language Understanding Evaluation）。自2019年成立以來，CLUE基準一直致力于提供科學(xué)、客觀、中立的語言模型評測，其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多個被廣泛認可的評估標準。根據(jù)CLUE多年測評經(jīng)驗，SuperCLUE基于通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用，構(gòu)建了多層次、多維度的綜合性測評基準。

　　作為一個完全獨立的第三方評測機構(gòu)，SuperCLUE采用自動化評測技術(shù)，有效消除人為因素帶來的不確定性，確保提供無偏倚的客觀評測結(jié)果。不同于傳統(tǒng)測評通過選擇題形式的測評，SuperCLUE納入開放主觀問題的測評，通過多維度多視角多層次的評測體系以及對話的形式，模擬大模型的應(yīng)用場景，真實有效考察模型生成能力。與此同時，SuperCLUE根據(jù)全球的大模型技術(shù)發(fā)展趨勢，不斷升級迭代測評體系、測評維度和方法，以保證盡可能精準量化大模型的技術(shù)演進程度。

　　為進一步真實反映大模型能力，本次通用測評采用多維度、多層次的綜合性測評方案，由理科、文科和Hard三大維度構(gòu)成：理科任務(wù)分為計算、邏輯推理、代碼測評集；文科任務(wù)分為知識百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大測評集；Hard任務(wù)聚焦精確指令遵循測評集，未來將陸續(xù)推出復(fù)雜多步推理和高難度問題解決等評測。

　　從代表通用能力的一級總分來看，山海大模型得分72，與360gpt2-pro、字節(jié)跳動豆包、月之暗面Kimi、百川智能Baichuan4并列國內(nèi)大模型第四，位居全球大模型第一梯隊。

　　具體到二級維度得分，山海大模型在理科和文科領(lǐng)域均表現(xiàn)優(yōu)異——在理科能力方面，山海大模型以76分的高分緊隨GPT-4o、GPT-4-Turbo-0409之后，力壓一眾國內(nèi)大模型，并列排名國內(nèi)第一；文科能力以75分的成績并列國內(nèi)第二，實力同樣不容小覷。

　　在SuperCLUE基于基礎(chǔ)能力和應(yīng)用能力兩個維度構(gòu)建的模型象限圖中，山海大模型被定位為“卓越領(lǐng)導(dǎo)者”。這一分類反映了山海大模型在基礎(chǔ)和場景應(yīng)用能力上均達到了領(lǐng)先水平，持續(xù)引領(lǐng)國內(nèi)大模型技術(shù)發(fā)展和創(chuàng)新。

　　此外，與GPT4-Turbo-0409的對戰(zhàn)勝率統(tǒng)計數(shù)據(jù)顯示，山海勝率為17.67%，和率為65.37%，位列國內(nèi)大模型第五，整體實力依舊不俗。

　　自2023年5月問世以來，山海大模型已相繼在C-Eval全球大模型綜合性評測、OpenCompass大模型評測、MedBench評測等多個權(quán)威評測中屢創(chuàng)佳績，充分展現(xiàn)出業(yè)界一流的通用能力和領(lǐng)先于世界的行業(yè)大模型能力。

　　正如報告所言，隨著技術(shù)進步和應(yīng)用場景拓展，2024年下半年國內(nèi)外大模型市場競爭將持續(xù)加劇，推動技術(shù)創(chuàng)新和產(chǎn)業(yè)升級。接下來，云知聲將繼續(xù)保持大模型能力穩(wěn)步提升，以山海為抓手，在產(chǎn)業(yè)側(cè)實現(xiàn)加速落地，致力成為真正助力各行各業(yè)的“新質(zhì)生產(chǎn)力”。

　　轉(zhuǎn)自：中國網(wǎng)

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點視頻

上半年汽車工業(yè)多項經(jīng)濟指標創(chuàng)新高

熱點新聞

熱點輿情

SuperCLUE最新評測：山海大模型再創(chuàng)佳績，穩(wěn)居全球一梯隊

熱點視頻

熱點新聞

熱點輿情

微信公眾號