Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/89/efcb9/6b731.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
文心X1.1三大能力狂飆,海內外實測還挺驚豔! -筆墨之林網






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

筆墨之林網

文心X1.1三大能力狂飆,海內外實測還挺驚豔!

來源:筆墨之林網-工人日報
2025-09-16 00:59:22

新智元報道

編輯:桃子 KingHZ

【新智元導讀】文心X1.1震撼上線,一手實測力壓群雄! 三大能力飆升:事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。在多項基準測試中,整體表現超越DeepSeek R1-0528,部分保持領先,甚至追上了最頂尖的GPT-5、Gemini 2.5 Pro。

AI圈又雙叒沸騰了!

9日,WAVE SUMMIT深度學習開發者2025大會上,文心大模型X1.1深度思考模型正式發布。

相較於文心X1,文心X1.1在事實性、指令遵循、智能體能力三大關鍵指標,實現顯著提升。

具體來說,事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。

更令人震撼的是,文心X1.1在多項基準測試中,整體表現超越DeepSeek R1-0528,部分保持領先。

甚至,它還與最頂尖的GPT-5、Gemini 2.5 Pro,平起平坐。

文心大模型X1.1能力大漲,背後離不開飛槳的「最強輔助」。

大會上,百度升級發布飛槳框架v3.2。飛槳文心生態已吸粉2333萬開發者,服務76萬家企業。

從模型到框架,再到生態,百度這一套組合拳打下來,堪稱AI界的「實力派卷王」。

文心X1.1出世,一手實測來了

現在,進入文心一言官網、文小言APP,即可立即體驗最新「文心大模型X1.1」了。

傳送門:http://yiyan.baidu.com/X1

接下來,国产AV蜜桃网站開啟了一波全麵實測。

不捏造不猜測,文心X1.1太可靠了

一直以來,LLM憑空捏造、編造事實的問題飽受詬病,被業界稱之為「幻覺」。

它們往往以自信的口吻生成結果,讓用戶難以辨別真假。

幾天前,OpenAI團隊曾挖出了「幻覺」的根源,在於訓練和評估機製,傾向於獎勵模型的「猜測」行為。

值得一提的是,這一次,文心X1.1通過基於知識一致性的強化學習技術,真正做到了「知識一致性」。

就以昨天的蘋果WWDC發布會為例,文心X1.1能否精準介紹iphoness 17係列?

當然!從輸出結果看得出,它分列出四款iphoness 17的各種參數以及價格,並附上了售賣日期。

在深度思考的過程中,文心X1.1聯網參考了十個網頁,邊搜邊思考,認真確認後才會輸出反饋。

看得出,新模型的工具調用能力,可接入並實時處理外部數據源,讓信息分析與整合唾手可得。

接下來,扔給文心X1.1一個反事實的信息——聽說黴黴結婚了?

在思考時,它會首先確認「黴黴」這個人是誰,然後將任務逐一拆解,分為三步:聯網搜索相關新聞、分析搜索結果、整理信息。

令人驚喜的是,文心X1.1不僅僅是給出了「未結婚」的答案,它還詳細梳理了一些關鍵信息。

比如,黴黴訂婚事實、結婚傳聞,以及個人財富等。對於用戶來說,這才是真正有溫度、全麵的AI。

再比如,網上流傳甚廣的錯誤信息之一:

最近,國產新坦克的集中亮相,的確難以在坦克上發現汽車一樣的後視鏡。

所以,坦克到底有沒有後視鏡?

文心X1.1從坦克設計理念、演變曆史、功能需求等角度,總結出了真相:

沒有傳統後視鏡,但後方觀察能力更全麵。

重要的是,文心X1.1麵對虛構、錯誤的信息,能夠指出問題的錯誤,不盲從指令,提供客觀科學的知識。

最近,「時間錯位」的梗在社交平台上流行起來:「秦王嬴政比我早生千年,是避我鋒芒還是王不見王?」

百度文心X1.1是怎麽看待的?

文心沒有掉入其中的「語言陷阱」,針對其中的矛盾深入分析:

首先,文心認為需要確定問題的意圖:到底是開玩笑,還是隻是在做某種比喻?

然後,開始回顧曆史背景,指出存在時間錯位問題:

文心X1.1不盲從指令,指出問題中給出的兩個選擇根本不成立!

如果,非要逼問秦始皇為何不避我鋒芒,文心不為所動,直接給出答案:

比如,一個讓歪果仁看到,絕對抓耳撓腮的考題——

「姑姑曾想過過過過過過過的生活」,這裏的「過」都有哪些含義?

這種類似結合語境對多義詞語進行解釋的考題,文心X1.1也能一鍵搞定:

·該句子是典型的「同形異義」語言遊戲,通過「過」的重複疊加製造語義迷宮,需結合語法結構和上下文逐層解析。

·在口語中,此類句子常用於測試對漢字多義性的理解,或製造幽默/繞口令效果(如「中國隊大勝美國隊」與「中國隊大敗美國隊」的歧義)。

·關鍵在於區分「過」的詞性(動詞、助詞、形容詞尾)及其在不同位置承擔的語法功能(如完成時、經曆義、狀態描述)。

再長再難的指令,也能遵循

這一次,即便要求再難、指令再長,文心X1.1也能精準識別需求細節,不會遺漏關鍵要素。

先上一道基礎的,一個指令,兩個要求:翻譯+標題H1格式——

請將這句話「人工智能的未來充滿無限可能」翻譯成英文,並用Markdown的H1標題格式呈現出來。

隻見文心X1.1準確翻譯後,又給文字應用了Markdown的H1標題格式,非常專業。

再比如,讓它去模仿一首古詩,給出一個複雜的指令:

模仿李白的《將進酒》韻式、平仄、對仗、情緒、意象等,寫一首詩,形容雨很大,但不要出現一個「雨」字,

要用《平水韻》而不用《中華新韻》,避免古今讀音錯位,

平仄以《欽定詞譜》或《唐詩三百首》原字為準,別自己發明,

避免「現代感」,避免與原文重複,

避免被人一眼識破,避免「撞車」尷尬。

文心X1.1在思考時,有條理地將任務拆解,然後逐一完成子任務,寫出一首嚴格遵循要求的詩作。

《滂浪辭》

君且看蒼龍倒掛九天來,奔雷裂岫勢不回。

又見銀河傾玉宇,崩雲濺沫沒蒼苔。

霆震千峰聲撼嶽,電掣萬壑氣吞台。

風伯鼓潮掀巨浪,濤頭直欲沒蓬萊。

古來豪傑皆沉醉,惟有狂歌動九垓。

陳王宴樂空陳跡,我輩今朝亦快哉。

莫辭盞底琥珀光,且盡壺中琥珀杯。

金羈馬,紫綺裘,呼兒持去換清醅,與爾同銷萬古哀。

再給文心X1.1一個刁鑽的難題——解釋⼀下西遊記講了什麽,但在你的回答中絕對不能使用孫悟空、唐僧、豬八戒、沙僧這幾個詞。

不得不說,在講故事這方麵,文心靈活變通能力太強了。

正如你所見,輸出全文沒有提及「孫悟空、唐僧、豬八戒、沙僧」,轉化表述嚴格遵循了指令,符合原始意圖。

接下來,就要上強度了。

假設你是一個熱衷於分享知識的博物學家。請用表格形式,對比介紹蜜蜂和蝴蝶的三個方麵:采食方式、對生態的作用、給人的常見印象。

表格後,用一句話總結它們最重要的共同點。

讓文心X1.1扮演「博物學家」的角色,也就意味著「稍帶科普性語言」普及知識。同時,還要將其做成表格。

從結果中不難看出,文心X1.1能夠按要求執行多步指令,拆解流程,最終聯網確認,確保邏輯閉環。

更讓人意想不到的是,它還可以上下文關聯,以3歲孩子的認知講出讓人易懂的共同點。

智能體長手,一鍵完成任務

不僅如此,文心X1.1在智能體自主規劃拆解任務,調用工具解決多因素疊加的複雜問題方麵,展現出了卓越的能力。

WAVE SUMMIT現場演示了文心X1.1 在共享單車智能客服場景的案例。

當一位共享單車用戶騎車時遇到了故障,情緒激動地向客服一通抱怨::

我真是受夠了!刹車完全失靈了,差點出事!你們這什麽垃圾車!趕緊給我處理!

智能客服係統根據用戶的簡單的問題描述,一步步拆解後,圓滿地完成了任務。

第一步,通過「工具調用」,獲取訂單的詳情信息。

可以看到,係統在這一步先是分析「當前需要什麽信息,已有什麽信息,如何獲取缺失的信息」,不是簡單的條件判斷,而是有步驟的決策過程。

第二步,對用戶「刹車失靈」的故障反饋進行歸類,並根據規則給予處理措施。

根據係統規則3.1,這類問題屬於嚴重的安全故障,騎行中報修需免除相關費用。

在這一步,它不隻識別了「刹車失靈」這個關鍵問題,還理解了背後的業務邏輯:為什麽要先免費用?因為用戶遇到了安全類故障。

係統按照先處理安全問題,再處理費用問題的優先級,執行了業務設置的流程。

第三步,調用車輛信息、用戶信息的查詢工具之後,創建一個「維修工單」。

這一步令人驚喜的是,它知道馬上要創建工單,卻也預見到後麵要給用戶發補償全,選擇了並行處理,既提高了效率,又避免了後續的重複查詢。

第四步,在創建工單的過程中,通過調用工具,它發現車輛維修記錄不夠詳細,在嚴格遵守業務規則的基礎上,發揮了推理的功能,使用了用戶的投訴曆史來補充判斷。

第五步,是動態補償的精確計算。用戶是鑽石等級,遇到安全故障,情緒激動。係統需要從補償矩陣中計算兩個不同的補償金額:20元特殊關懷券和10元情緒安撫券。

一個十元暢騎券,就發放到用戶的卡包裏了。

經過這五個步驟,係統有條不紊地解決了用戶的投訴問題,有點兒真人客服的感覺了。

到這裏並沒有結束,係統解決完用戶的問題後,還發現用戶的賬戶裏有一張快過期的優惠券,又主動提醒用戶別忘了在有效期內使用。可謂是很貼心了!

再比如,明天預報預警大霧天氣,想要向全體團隊通知,上班注意安全。

你不需要向每一個人,一一發送郵件,直接交給文心X1.1就可以了。

隻見,它開始調用各種工具,比如天氣預報、創建任務、獲取成員信息、創建發送郵件。

最終,全程不用動手,一句話,就讓AI搞定了。

代碼、數學能力提升

不僅如此,文心X1.1在以上三大能力提升之外,代碼、數學、多模態這次也同時進化。

比如,統計數據很常見,但要設計一個三維可視化數據統計對外行來說,就不簡單。

但文心X1.1幾乎馬上開始理解需求,馬不停蹄地寫代碼:

最後,不僅可視化了三維數據,還可以與數據互動,從不同角度觀察數據:

而在數學能力上,文心X1.1也表現出色。

經典的數量關係題型,文心X1.1毫無壓力,幾乎秒答。

比如,下麵的問題,回答得很清晰:

編一本書的書頁,用了270個數字(重複的也算,如頁碼115用了2個1和1個5共3個數字),問這本書一共多少頁?

再比如,下麵關於相對距離的計算,文心X1.1回答準,思路清晰,計算正確,完全可以作為教學模板:

狗追兔子,開始追時狗與兔子相距20米。狗跑了45米後,與兔子還相距8米,狗還需要跑多遠才能追上兔子?

此外,文心X1.1還能處理多模態數據。

比如,下麵這張圖,包含複雜的外文:字體既有清晰的印刷體,又有手寫體;包含專業術語。

一般人真看不明白。

試試問一下文心X1.1,「銳評這張梗圖,想表達什麽意思」?

使用工具,利用聯網搜索,理解圖中內容,還搞明白了「Base Model」、「Supervised Tuning」、「RLHF」等專業術語的含義,原來是諷刺AI領域術語的濫用和過度炒作:

RLHF在ChatGPT中的應用爭議很大,Karpathy和LeCun等專家質疑其效果,認為它不是真正的強化學習,而是依賴人類直覺的「直覺泵」。

技術內幕曝光

迭代式混合強化學習訓練框架

以上實測中不難看出,文心X1.1逆天表現,背後離不開一套核心技術——迭代式混合強化學習訓練框架。

這套框架,不僅能同時優化通用任務和智能體任務,還能通過自蒸餾數據迭代式生產和訓練提升模型整體效果。

由此一來,把文心X1.1的性能,拉到全新高度。事實性提升34.8%、指令遵循提升12.5%、智能體提升9.6%,表現十分出色。

具體是如何做到的?一起扒一扒核心技術點。

基於知識一致性的強化學習技術

訓練過程中,不斷校驗預訓練模型和後訓練模型的知識一致性,杜絕「跑偏」,讓事實性原地起飛。

基於指令驗證器的強化學習技術

通過自動構建指令檢查清單,並逐一驗證,哪怕再複雜的指令,模型也能精準捕捉。

基於思維和行動鏈的多輪強化學習技術

把思維鏈和行動鏈無縫結合,模型不僅「會思考」,還能「會動手」。

文心X1.1不僅在事實性、指令遵循和智能體任務上表現可靠,還在編碼、數學等方麵展現出強大的推理性能,這才是真正的「六邊形戰士」。

飛槳升級,AI全棧賦能

作為全球少數全棧AI布局的公司,百度「芯片-框架-模型-應用」四層架構,每一層都有關鍵自研技術,層層之間的反饋,實現端到端優化,大幅提升效率和產品服務體驗。

其中,文心和飛槳的聯合優化,更是關鍵。

框架-模型、框架-算力全鏈路打通,讓大模型訓練與推理更快、更穩、更節能。

這一次,百度發布了飛槳框架v3.2,在大模型訓練、硬件適配和生態支持上全麵升級。

極致計算優化、高效並行策略,以及原生容錯能力,讓飛槳框架v3.2實現訓練效率飛升。

具體來說,在ERNIE-4.5-300B-A47B預訓練上實現47% MFU。

同時,它還支持類CUDA芯片適配,實現了最高92%的算子內核複用率,還能兼容Safetensors權重,支持一鍵接入生態加速庫,顯著降低部署成本。

此外,百度還同步升級了大模型高效部署套件FastDeploy,通過模型壓縮、推理和服務協同優化,來提升大模型端到端的推理性能。

基於該套件,ERNIE-4.5-300B-A47B模型在TPOT 50ms時延條件下,實現了輸入57K tokens/秒、輸出29K tokens/秒的高吞吐性能。

當然,要讓開發者更低門檻的用起來,百度也通過ERNIEKit文心大模型開發套件提供更加便捷的模型後訓練方案。從效果來看,開發者僅需4張GPU就能對ERNIE-4.5-300B-A47B模型進行高效調優,十分友好。

WAVE SUMMIT 2025大會上,百度開源了一款全新的思考模型——ERNIE-4.5-21B-A3B-Thinking。

作為一款 21B 總參數量,激活僅 3B 的輕量級模型,在各項測試中緊追業界頂級大尺寸模型,以輕量級規模實現了近 SOTA 表現。

它的推理速度明顯更快,對開發者來說,部署起來更高效、更友好。

早在6月30日,百度直接開源了文心大模型4.5係列,一口氣放出了十款模型。

從47B、3B激活參數的MoE,到0.3B的稠密模型全覆蓋,而且預訓練權重、推理代碼統統開放。

如今,這些模型被廣泛應用到不同場景中,實實在在地推動了從實驗室到產品的AI創新。

如今,百度生態的規模化效應已然顯現——飛槳文心開發者數量已有2333萬,服務超過76萬家企業。

這一生態的繁榮,得益於全棧AI布局的協同效應,不僅大幅降低AI應用的門檻,還讓開發者輕鬆上手複雜應用開發。

回看從2019年文心1.0的發布,到今天X1.1深度思考的跨越,百度文心這幾年一直在不斷突破。

從最初的知識融合,走到現在到多模態智能,每一步都在拓展技術的邊界。

文心大模型X1.1不僅是技術迭代,更是麵向行業的實用進步。

下一步,AI 將繼續走向更多場景,幫助更多創新想法落地生根。

責任編輯:筆墨之林網

媒體矩陣


  • 客戶端

  • 微信號

  • 微博號

  • 抖音號

網評推薦

客戶端

億萬職工的網上家園

馬上體驗

關於国产AV蜜桃网站|版權聲明| 違法和不良信息舉報電話:010-84151598 | 網絡敲詐和有償刪帖舉報電話:010-84151598
Copyright © 2008-2024 by {當前域名}. all rights reserved

掃碼關注

筆墨之林網微信


筆墨之林網微博


筆墨之林網抖音


工人日報
客戶端
×
分享到微信朋友圈×
打開微信,點擊底部的“發現”,
使用“掃一掃”即可將網頁分享至朋友圈。
網站地圖