發布時間:2025-09-14 來源:動之以情網作者:飛翔的鋤頭
▲頭圖由AI生成
智東西作者 程茜編輯 心緣
智東西9月9日報道,昨天,阿裏發布最新語音識別模型Qwen3-ASR-Flash,該模型基於Qwen3基座模型訓練,支持11種語言和多種口音。用戶可以通過ModelScope、HuggingFace和阿裏雲百煉API Qwen3-ASR-Flash免費體驗。
在ASR(自動語音識別)的多項基準測試中,Qwen3-ASR-Flash在方言、多語種、關鍵信息識別、歌詞等方麵的識別錯誤率明顯低於穀歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿裏巴巴語音實驗室Paraformer-v1、字節豆包Doubao-ASR。
具體來看,該模型支持中文、英語、法語、德語等11個語種,識別過程中能自動分辨語音語種、自動過濾靜音和背景噪聲等非語音片段,其是基於海量多模態數據以及千萬小時規模的ASR數據構建的語音識別服務。
此外,用戶還可定製ASR結果,通過在上傳音頻時添加關鍵信息術語、音頻發生背景等上下文信息,就能使識別結果匹配這些已有信息。
下麵是官方放出的電競比賽解說音頻示例。研究人員為這一場景配置了背景信息,包括關鍵詞列表、這場遊戲的背景等。因此識別結果中,即使電競解說人員的語速非常快也沒有影響識別遊戲專業術語的效果。
http://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav
ModelScope地址:
http://modelscope.cn/studioses/Qwen/Qwen3-ASR-Demo
Hugging Face地址:
http://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿裏雲百煉API調用地址:
http://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
一、能識別遊戲解說、英文說唱,連續多種噪音抗幹擾拉滿
官方放出了5個演示示例,包含多種類型噪聲、多語種快速切換、方言、專業名詞的音頻識別難題。
第一個是夾雜手機鈴聲、車鈴聲、音樂聲、水聲、雷聲等多種類型的連續噪音,其中還會有不同人物之間切換對話,Qwen3-ASR-Flash在多人同時說話或者說話間隔非常短的情況下也對語音進行了準確識別,沒有受到噪聲幹擾。
http://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav
第二個是英文說唱。英文說唱的特點是語速快、歌詞中單詞連讀情況多,識別結果中很多歌詞中的單詞連讀、長難句識別準確,且沒有受到背景音樂的幹擾。
http://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav
第三個是方言的識別。這一場景中,音頻中主人公正在開車,有主人公的方言和智能語音客服的普通話穿插出現,音頻中智能語音客服將“糾正”錯誤識別成了“96”,Qwen3-ASR-Flash進行了準確識別。
http://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav
第四個是多語種句子切換,7秒的音頻裏有英語、日語等5種語言,識別結果都進行了一一呈現。
http://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav
最後是化學課程的一段音頻。識別結果中酯基、酸、醛、氨等化學名詞,以及音頻中人物的語氣詞識別並未出錯。
http://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav
二、歌詞識別錯誤率低於8%,可定製語音識別結果
性能表現,Qwen3-ASR-Flash的自動語音識別錯誤率,在中文、英文、多語言自動語音識別、歌詞、關鍵信息識別的錯誤率都要低於Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。
在歌詞識別中,Qwen3-ASR-Flash支持清唱和帶畢竟音樂的整首歌識別,研究人員實測識別錯誤率低於8%。
該模型支持普通話以及四川話、閩南語、吳語、粵語等方言,英式、美式及多地區口音的英語,其他語言如法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語和阿拉伯語。
如果想要獲得定製化的ASR結果,用戶可提供任意格式的背景文本來獲得傾向性ASR結果,且用戶無需對上下文信息進行預處理。
其支持的格式包括但不限於以下一種,簡單的關鍵詞或熱詞列表、任意長度和來源的完整段落或整篇文檔、以任意格式混合的關鍵詞列表與全文段落、無關甚至無意義的文本。研究人員提到,模型對無關上下文的負麵影響具有高度魯棒性。
基於此,Qwen3-ASR-Flash可以利用該上下文識別並匹配命名實體和其他關鍵術語,輸出定製化的識別結果。
結語:後續將迭代通用語音識別精度
一直以來,複雜聲學環境、多樣化語音特征、專業術語等都是語音識別的最大難點。此次為了保證用戶對輸出結果的可控,阿裏研究人員上線了背景文本上傳功能,使得這一生成結果能更加符合用戶的預期。
下一步,研究人員將提升Qwen3-ASR-Flash的通用識別精度,進一步降低普通用戶的使用門檻。