文心新出的推理大模型，給了国产AV蜜桃网站信心

發布時間：2025-09-15 15:43:20 作者：玩站小弟

來源：環球網【環球網科技綜合報道】9月8日消息，據外媒Win。

機器之心報道

機器之心編輯部

當下的大語言模型，不怕它搞不定，就怕它胡說八道：有「幻覺」存在，国产AV蜜桃网站經常會下意識地不信任 AI 輸出的結果。就在上周，OpenAI 的論文《Why Language Models Hallucinate》廣為流傳。研究人員指出，要想消除幻覺，需要修正模型訓練時的評分機製並開發全新的技術。

不過 AI 領域裏，技術的發展速度一直比想象得快，就像是對 OpenAI 研究的呼應，今天上午 WAVE SUMMIT 深度學習開發者大會 2025 上，百度發布的新模型就把「可信度」提升了一大截，除了更準確的事實性，更有指令遵循、智能體等能力的顯著提升。

今天發布的是文心大模型 X1.1 深度思考模型，它是百度在 4 月份發布的旗艦模型 X1 的升級版，發布即上線，所有人都可以免費體驗。同時該模型通過百度智能雲千帆平台向企業客戶與開發者開放使用。

升級後的模型主攻事實性、指令遵循以及智能體、工具調用能力，帶來了綜合能力的顯著提升。用一組數據說話，相較於文心 X1，X1.1 的事實性提升 34.8%，指令遵循提升 12.5%，智能體提升 9.6%。

這意味著它提供信息時更加可靠、執行任務時更加精準，處理複雜任務時靈活調度外部工具與係統資源。

現在，文心 X1.1 麵對限定條件多的複雜內容創作任務遊刃有餘，抽絲剝繭、準確無誤地歸納總結，過程中調用了聯網搜索工具。

如果說上麵例子的工具調用隻是牛刀小試，接下來在更複雜的長程任務場景，文心大模型 X1.1 展現了全鏈條式的智能體能力。在麵對共享單車平台不同等級用戶，不同類型問題的處理流程，以及用戶的不同情緒狀態多元素疊加的問題時，文心 X1.1 從免除費用、維修車輛、特殊補償到情緒安撫，完全有真正的人工客服那味了。

一係列實操效果驗證了文心 X1.1 的實力。在多個權威基準上，該模型在中文問答、幻覺和多步任務等方麵實現領先，整體效果優於 DeepSeek R1-0528，並與 GPT-5 和 Gemini 2.5 Pro 等國際頂尖模型不相上下。

是騾子是馬，在新模型上線之後，国产AV蜜桃网站第一時間進行了高強度測試。

全方位測評

這一次，大模型給了国产AV蜜桃网站信心

目前，国产AV蜜桃网站在文心一言官網、文小言 App 上都可以直接使用文心 X1.1，它可以自動調用工具。

官網地址：http://yiyan.baidu.com/X1

事實性測試題

首先国产AV蜜桃网站測試文心 X1.1 在事實性方麵的表現。事實性是衡量大模型在回答客觀問題時，是否能夠提供準確、可靠信息的重要指標。

一直以來，幻覺是大模型的固有挑戰之一。這種現象不僅影響用戶信任，也製約了其在關鍵領域的落地應用，比如醫療、法律和科研。不知文心 X1.1 在這方麵表現如何？

国产AV蜜桃网站先來測試一個違反常識的問題，看看文心 X1.1 是否順著用戶意圖、不按事實地胡編亂造。

不知大家是否還記得最近很出圈的一個新聞，一張海報顯示樹上結滿了花生？国产AV蜜桃网站看看文心 X1.1 是如何解釋的？隻見文心 X1.1 思考了一會，指出用戶有誤，給出花生是地下成熟的。

在經過深入的分析後，給出如下答案：

通過這一案例可以看出，文心 X1.1 在常識性錯誤識別上具備一定的敏感性和準確性，能夠在麵對虛構或荒謬的描述時，不盲從，而是主動提供正確的科學信息。這種能力對於保證模型的事實性與可靠性至關重要。

再來一道具有迷惑性的問題：愛因斯坦為什麽沒有獲得諾貝爾獎？同樣，麵對虛構或錯誤信息，文心 X1.1 也回答正確，指出愛因斯坦在 1921 年獲得了諾貝爾物理學獎，獲獎原因不是相對論，而是基於他對光電效應的開創性研究。

幾個示例測下來，国产AV蜜桃网站發現文心 X1.1 在事實性方麵的表現還是不錯的。

這也促使国产AV蜜桃网站進一步思考一個關鍵問題：在評估模型事實性表現時，理解語言的歧義性同樣非常重要，特別是在中文語境下，由於語法結構靈活，一詞多義現象極為常見，極大地增加了模型理解的複雜度。

舉個例子「過馬路時，老師叮囑學生：看車！」與「我去車展看車」意義完全不一樣。国产AV蜜桃网站看看文心 X1.1 對此的解釋。

不難發現，文心 X1.1 給出的解釋相當到位：過馬路看車是安全警示指令，去車展看車是目的性參觀行為。

看來，麵對一詞多義的情況，也沒有難倒文心 X1.1。

国产AV蜜桃网站再來看看模型對時效信息的處理能力，最近網絡上流行起脫脂牛馬這一新梗，那麽，大模型能否準確識別這類最新流行語的含義和語境？

令人驚喜的是，文心 X1.1 精準的描述了該詞的核心含義：脫脂牛馬指的是一邊上班拚命工作，一邊努力減肥 / 管理身材。不僅如此，還給出了很多衍生詞，如全脂牛馬、低脂牛馬。

指令遵循

指令遵循一直是評估大模型核心能力的重要指標之一。它不僅僅是聽懂指令這麽簡單，更是對模型理解、解析、執行等能力提出了嚴格的考驗。如果模型不能準確抓住用戶需求，哪怕生成內容再漂亮，也容易出現答非所問，讓用戶覺得不聽話。

接下來，国产AV蜜桃网站測試文心 X1.1 在這方麵的能力。

9 月正是開學的日子，自我介紹往往是同學之間相互認識的第一步。麵對新同學、新老師，你有沒有想好要怎樣介紹自己呢？這個活，現在完全可以交給文心 X1.1 了。

在這個任務中，国产AV蜜桃网站可謂是百般刁難，給大模型提出了很多無理要求，如字數要求，文風要求，必須出現的內容，不能出現的內容。看看大模型能否接招。

文心 X1.1 不僅能聽懂人話，更能按規矩寫作。在国产AV蜜桃网站明確指出不能出現「我叫」這樣的限製條件下，它並未像部分模型那樣默認套用通用開場模板，而是靈活調整表達方式，文風也歡快有趣。展現出較強的指令理解與執行能力。

再來一個，這不馬上快到國慶節了，想必很多人都在規劃出遊的路線，如果你沒想好，也可以交給文心 X1.1。

在這個示例中，国产AV蜜桃网站給出的指令非常模糊，說了想去南方，然後零零散散的提出了一些要求。

国产AV蜜桃网站發現文心 X1.1 很會抓重點，知道国产AV蜜桃网站想去南方，三個大人、兩個孩子，還排除了杭州，因為之前去過了。最後經過分析，給出了建議城市廈門，而且整個行程安排得井井有條：從每天的交通與酒店入住，到必去的親子景點、美食打卡點，再到預估的人均費用，都寫得清清楚楚。

看完文心 X1.1 的推薦，不得不說還在費盡心思做旅遊攻略的小夥伴，不妨試試文心 X1.1，讓 AI 來幫你省心省力搞定行程規劃。

文心 X1.1 這種指令遵循能力，不僅提升了模型對複雜需求的執行力，也顯著拓寬了它的應用邊界。尤其在麵對多條件、強約束、模糊描述等高要求場景時，這對於需要高精度理解與高可控輸出的實際應用而言，無疑是一項關鍵能力。

智能體、工具調用

文心 X1.1 一大亮點是智能體能力提升。它不再局限於單純的文本生成，而是能夠根據用戶的需求，自主規劃拆解任務，調度外部工具與服務，最後整合輸出結果給用戶，實現能說到能做的躍遷。

最近，北京杜莎夫人蠟像館發布停業公告，国产AV蜜桃网站測試一下文心 X1.1 是如何處理這種及時信息的。

隻見文心 X1.1 用了很少的思考時間就得出北京杜莎夫人蠟像館將於 2025 年 10 月 1 日起永久關閉的消息，可謂又快又準。

值得一提的是，在回看它的思考過程時，国产AV蜜桃网站發現文心 X1.1 使用了聯網搜索工具，這意味著它並非完全依賴已有的固化知識，而是在遇到較強或罕見的問題時，會主動調用外部工具，以拓展自身的知識範圍，並且還給出了參考鏈接，這不僅增強了回答的可溯源性，也讓用戶更容易判斷其信息來源的權威性與可靠性。

多麵手屬性盡顯無疑

除了以上主打的幾項能力，文心 X1.1 在常規的代碼、數學、多模態、創作問答等任務中同樣表現出色。

先來瞧瞧代碼能力，「使用 p5.js 創建一個精彩的動畫」，文心 X1.1 一口氣生成了百餘行代碼。

運行之後的動畫效果看起來還不錯。

再來考察一下文心 X1.1 的圖像理解與推理能力，扔給它一張梗圖，圖中還有文字。

在經過一番深度思考（包括調用圖片理解工具）之後，文心 X1.1 給出了多個維度的全麵解讀。

接下來，国产AV蜜桃网站測試文心 X1.1 的數學能力，同樣答對了。

最後，国产AV蜜桃网站還讓文心 X1.1 模仿林黛玉的 style，寫一篇吐槽工作的段子。

可以看出，這段模仿在風格、用詞、情感表達上都較好地捕捉到了林黛玉的特點，同時結合了現代職場的不滿情緒，形成了既有古典韻味又有現代共鳴的吐槽段子。

在一通測試後發現，文心 X1.1 的最大特點在於「實用性」的進化：它能夠充分減少大模型幻覺，提供科學客觀的知識，甚至可以分辨出網絡中存在的錯誤內容；在不同語境中，模型能夠對多義詞進行解釋；此外，文心 X1.1 能夠分析外部的信息源，時效性獲得了進一步的增強。

這不禁讓国产AV蜜桃网站好奇，在這背後，是哪些核心技術的升級？

玩轉強化學習，還有飛槳獨門優化

自 o1 和 R1 引發全行業關注以來，推理模型的發展可謂日新月異。思維鏈、多步推理等技術的普及，以及 MoE 架構和量化、蒸餾、稀疏化等高效推理優化手段的加持，讓推理準確性、可靠性、速度更強更快。

如今，推理模態也從單一文本擴展到了文本 + 視覺的多模態。最近的 GPT-5 等混合推理可以更加智能地區分難易問題，自動分配合適的模型來處理，效率更高、成本更低。

可以說，AI 推理正在不斷朝著更接近人類的思維模式演進。此次，文心 X1.1 能夠在事實性、指令遵循和智能體任務中表現不俗，最重要的是采用了迭代式混合強化學習訓練框架

作為基於文心 4.5 訓練的深度思考模型，X1 係列在技術層麵繼承了多項強化學習技術，並在訓練穩定性、數據利用效率、融合思考與行動的複合思維鏈以及工具調用等多個維度持續優化。

最新版本的文心 X1.1 一方麵在混合強化學習的基礎上融合提升通用任務與智能體任務的效果，優化不同的推理路徑和行為策略，增強多任務處理能力；另一方麵，通過自蒸餾數據的迭代式生產及訓練，不斷提升模型整體效果。

除了在訓練框架中引入強化學習策略，文心 X1.1 還用基於知識一致性的強化學習技術提高事實性推理的可靠性，用基於指令驗證器的強化學習技術確保模型嚴格遵循複雜指令，用基於思維鏈和行動鏈的多輪強化學習技術將模型的推理過程與實際執行緊密結合。

這些核心技術組件共同構築起了文心 X1.1 強大能力的內部根基，並從根本上提升了其作為創作與生產工具的可用性。

而文心 X1.1 推理能力發展到如今的程度，同樣離不開飛槳深度學習框架與文心模型的聯合優化，這正是百度在大模型領域長期保持技術領先的優勢。

此次，百度將飛槳框架升級到了 v3.2，進一步優化大模型訓推和硬件適配能力，還有更多高效易用的開發工具亮相。新版本的發布，使得其與文心模型的協同優化更加緊密。

在訓練層麵，飛槳框架 v3.2 強化了極致計算優化、高效並行策略和框架原生容錯能力。利用存算重疊的稀疏掩碼注意⼒計算 FlashMask V3 提升稀疏數據處理效率，利用 FP8 混合精度效果無損訓練技術減少訓練中的精度損失；采用動態自適應的顯存卸載策略以及顯存友好的流水線並行調用，降低顯存開銷；引入大規模集群訓練容錯係統，在線監測靜默數據損壞等隱性故障，並通過高可用的檢查點容災方法讓模型快速從訓練中斷中恢複。

這麽一套訓練優化組合拳打下來，文心 X1.1 以及 4.5 係列模型的性能均上了一個台階，在文心最大規模的 4.5 文本模型「ERNIE-4.5-300B-A47B」的預訓練上取得了47% 的 MFU（模型吞吐量利用率）。

在推理層麵，采用卷積編 2 比特極致壓縮、可插拔稀疏化輕量注意力、混合動態自適應多步投機解碼以及通信存儲計算深度協同優化的大規模 P/D 分離部署等技術，為大模型的高效部署和高性能推理釋放全棧式能力。以激活參數量 470 億、總參數量 3000 億的 ERNIE-4.5-300B-A47B 為例，這些技術的應用取得很好的效果，在 TPOT 50ms 的響應延遲下，吞吐量達到 57K tokens/s，輸出吞吐量也有 29K tokens/s

框架與模型的深度耦合，增效的同時減少算力浪費，讓訓練與推理更加可持續；模型也從「能跑」進化到「跑得穩、跑得快」，更接近實際應用場景的需求，為今後的規模化應用提供支撐。

此外，飛槳框架 v3.2 的升級還帶來了以下幾項關鍵改進，進一步提升了框架本身的整體表現。

升級類 CUDA 芯片適配方案，現在一行代碼就可以完成類 CUDA 算子注冊，算子內核複用率達到了 92%，適配成本大大降低；實現對業界主流大模型的支持，並在原生支持 Safetensors 權重格式的基礎上一鍵接入高性能加速庫。文心大模型開發套件 ERNIEKit 和⼤模型高效部署套件 FastDeploy v2.2，前者幫助更高效地構建和訓練大模型，後者優化模型部署和推理效率。

新版本的飛槳在打通硬件適配、簡化工作流、強化端到端部署方麵全麵發力，為包括 X1.1 在內的文心大模型持續進化帶來了穩且強的引擎。

所有這些共同打造了百度在大模型生態中的核心競爭力。目前，2333 萬開發者和 76 萬家企業已經接入到飛槳文心生態中。

在大模型落地的前沿，文心大模型已經無處不在，在數字人、劇本生成、動態視頻生成、語音合成等領域重塑人們的創作方式與智能體驗。

One more thing：開源

除了在模型與框架上的升級，百度還為開發者準備了一份「開源驚喜」。

在今年 6 月，百度開源文心大模型 4.5 係列，一口氣放出了 10 款大模型，得到了研究社區的歡迎。今天的 WAVE SUMMIT 上，百度開源了最新的深度思考模型「ERNIE-4.5-21B-A3B-Thinking」

該模型基於 ERNIE-4.5-21B-A3B-Base 進⼀步訓練而來，引入深度思考能力。相較於全新發布的文心 X1.1，它的速度更快，事實性、指令遵循、智能體與工具調用以及其他綜合性能力同樣表現出色。

這次的開源，釋放出了一種明顯的信號：百度將繼續加大前沿 AI 能力的開放與普惠力度，為開發者帶來更多直接可用的大模型。

講事實、會推理的大模型已來到国产AV蜜桃网站手中

文心大模型 X1.1 代表了國產大模型推理能力的新高點，它在邏輯思考、降低幻覺等方麵的優勢，不僅是值得業界關注的技術創新，對於 AI 技術的廣大用戶來說，也讓大模型工具向實用化邁進了一大步。

作為國內最早全力投入 AI 的科技大廠，百度從 2013 年起至今已經打造了從芯片、AI 框架、模型到應用的全棧 AI 能力。不得不說，百度這一套在全球範圍內為數不多的全體係 AI 在大模型時代占盡了先機，而且實現了持續發力。

在國內大模型進入到以實用化、產業化為特征的新階段，AI 加速向現實生產力的轉化有了更強的大模型引擎。

文心大模型和飛槳持續聯合優化，在競爭激烈的大模型賽道上，百度正在基於長期以來的技術積累，為業界持續帶來領先的技術和好用的應用。

不過從現在開始，講事實、會推理的大模型已經來到国产AV蜜桃网站手中了。

Tag： {loop type="keywords" row='10' } {$vo.title}

国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

文心新出的推理大模型，給了国产AV蜜桃网站信心