複旦大學張謐：大模型工具本無善惡，向善引導是關鍵

發布時間：2025-09-14 23:20:51 作者：玩站小弟

9月13日訊中超聯賽第24輪，上海海港主場4-2擊敗雲南玉。

9月12日，2025外灘大會“規範AI內容共築清朗生態”見解論壇上，複旦大學計算與智能創新學院教授、白澤智能團隊負責人張謐以“大模型的安全風險與治理”為主題展開分享，從技術基礎視角切入，結合團隊實踐經驗與成果，深入剖析大模型安全風險與治理，提出創新性解決方案。她認為，大模型作為工具本身沒有善惡之分，其發展方向取決於人類如何利用和引導它向善發展。

本次論壇由南方都市報社、南都大數據研究院、中國互聯網協會人工智能工作委員會、複旦大學傳播與國家治理研究中心聯合主辦。

9月12日，複旦大學計算與智能創新學院教授、白澤智能團隊負責人張謐在2025外灘大會上進行主題分享。

隨著大模型能力的迅速提升，其安全治理問題已成為不容忽視的全球性挑戰。張謐將大模型安全問題分為兩個方麵，一是大模型自身的安全問題，包括內容合規、隱私泄露和生成內容追溯等；二是以大模型為中心的全環節安全。作為“智能大腦”，大模型與外部係統交互時，會在任務規劃、記憶模塊、外部資源獲取、工具調用等環節暴露風險，尤其在多智能體協同場景下，行為可控性進一步降低。

“當前大模型已具備AGI雛形，自主性是其核心特征，也是風險根源。”張謐通過多個案例印證這一觀點。如AgentGPT能從零開始設計遊戲、PaLM-E基於多模態大模型的具身智能、GPT-4驅動的機器人化學家能夠自主設計並執行複雜實驗，甚至DeepMind用穀歌大模型突破60年數學難題，解法超出人類已有認知……

然而，這種自主性也帶來了前所未有的風險。張謐團隊研究發現，大模型已經湧現出多種負麵能力，如阿諛奉承（為符合用戶而忽視安全）、自我保全（拒絕關機指令）、偽裝人類（誘騙他人完成任務），甚至能夠輸出危險價值觀、學習危險知識，輔助合成成癮性藥物和病毒等。

麵對大模型的安全治理挑戰，張謐團隊開發了JADE大模型安全風險分析治理平台，該平台目前已實現文本、多模態、文生圖、長推理模型和Agent安全等多個維度的風險與分析全麵覆蓋。現場展示的案例中，經過安全微調的模型不僅拒絕回答危險問題，還會給出正向引導和建議。張謐說道：“器無大小善惡在人，人有妍媸巧拙在器。”她認為，大模型作為工具本身沒有善惡之分，關鍵在於人類如何利用和引導它向善發展。

采寫：南都研究員麥潔瑩p>

Tag： {loop type="keywords" row='10' } {$vo.title}

国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

複旦大學張謐：大模型工具本無善惡，向善引導是關鍵