Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/61/43ee8/3b66d.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
小紅書推出新AI播客技術FireRedTTS-2,升級對話生成模型!






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

小紅書推出新AI播客技術FireRedTTS-2,升級對話生成模型!

  發布時間:2025-09-15 14:41:17   作者:玩站小弟   我要評論
九月的北京,隨著中國國際服務貿易交易會(以下簡稱“服貿會”)。

小紅書智創音頻技術團隊近日發布新一代對話合成模型 FireRedTTS-2。該模型聚焦現有方案的痛點:靈活性差、發音錯誤多、說話人切換不穩、韻律不自然等問題,通過升級離散語音編碼器與文本語音合成模型全麵優化合成效果。在多項主客觀測評中,FireRedTTS-2 均達到行業領先水平,為多說話人對話合成提供了更優解決方案。

論文標題:FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot技術報告:http://arxiv.org/pdf/2509.02020Demo 鏈接:http://fireredteam.github.io/demos/firered_tts_2/代碼鏈接:http://github.com/FireRedTeam/FireRedTTS2

效果 Demo

一開口就像真人,播客生成不在話下。先來聽一段 “Taylor Swift 戀愛消息” 的播報,你能分出這是真實錄音還是 AI 合成嗎?

答案揭曉!上方視頻的聲音並非真人,而是由基於數百萬小時語音數據訓練的 FireRedTTS-2 合成的播客音頻。它對重音、情緒、停頓等細節把握到位,聽感自然流暢。相比閉源的豆包,FireRedTTS-2 的播客生成自然度可與之媲美;更重要的是,它還支持豆包不具備的音色克隆能力:隻需提供對話中每個發音人的一句語音樣本,模型即可模仿其音色與說話習慣,自動生成後續整段對話。在開源對話生成模型中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),FireRedTTS-2 在多說話人音色切換的穩定性與韻律自然度方麵處於行業領先,為 AI 播客等對話合成應用提供了工業級解決方案。

隨著多模態大模型的快速發展,全行業對數據的需求與日俱增,尤其在語音識別與對話交互領域,訓練需要大規模的多音色、跨語言音頻數據。FireRedTTS-2 不僅支持隨機音色生成,還開箱即用地覆蓋中文、英語、日語、韓語、法語等多種語言。因此,它既能滿足創新玩法的探索,也可作為高效的生產力工具,為下遊任務生成高質量的對話 / 非對話音頻數據。下方視頻展示了不同隨機音色、不同語言的生成效果。

對話合成背景

近來,多說話人對話合成被廣泛應用於播客生成等下遊應用場景。在實現方式上,傳統方法通常先按說話人將對話切分,逐句獨立合成後再拚接。這樣的做法不僅繁瑣,還容易導致句間韻律斷裂,尤其在句子銜接處尤為不自然。

盡管目前出現了一些方法可以建模整段對話,但它們往往要求輸入完整對話文本,並一次性輸出包含所有說話人的整段語音,難以支持逐句生成。這不僅增加了後續編輯與處理的難度,也因其不夠靈活而不利於在交互式對話場景中應用。此外,這類方法的合成質量仍不穩定,常見問題包括發音錯誤、句子間說話人身份混淆以及合成的語音韻律不夠自然。

FireRedTTS-2 係統簡介

為解決當前對話合成係統存在的靈活性不足、合成質量欠佳等問題,FireRedTTS-2 升級了 TTS 係統的兩大核心模塊:

離散語音編碼器(Speech tokenizer):12.5Hz 低幀率,具有更強語義信息,且支持流式解碼文本語音合成模型(Text-to-speech model):支持逐句生成,合成穩定且質量高

離散語音編碼器

離散語音編碼器將連續語音信號壓縮為離散標簽序列,便於大語言模型處理。FireRedTTS-2 采用的語音編碼器以 12.5Hz 的低幀率輸出:即 1 秒僅對應 12.5 個標簽。對於對話建模,這縮短了語音序列長度、即提升了速度,又縮小了與文本序列的長度差距,降低了大語言模型的建模難度。為增強語義表達,編碼器在訓練時引入預訓練模型提取的語義特征,並對離散標簽進行語義監督,使標簽攜帶更豐富的語義信息,幫助模型更容易學會從文本到語音的映射。除此之外,它還支持流式解碼,可實時輸出音頻,便於無縫接入各類流式交互應用。

在訓練策略上,離散語音編碼器先在約 50 萬小時的多樣化語音數據上訓練,以提升泛化能力;再在其中約 6 萬小時的高質量語音上繼續訓練,優化重建音質。

文本語音合成模型

為提升對話合成的靈活性,FireRedTTS-2 采用文本 - 語音混排的格式,支持逐句生成,便於後續編輯與多場景適配。混排格式將對話文本與語音組織為:“[S1] 說話人 1 文本 + 語音 [S2] 說話人 2 文本 + 語音 [S3] 說話人 3 文本 + 語音…”,其中 [S1]、[S2]、[S3] 為說話人標簽,用於區分不同角色。

在模型架構上,為更充分地利用對話上下文,FireRedTTS-2 采用 “雙 Transformer ” 的設計:

1.5B 參數的 Backbone Transformer 負責建模混排序列中語音的粗粒度信息0.2B 參數的 Decoder Transformer 補充語音中的聲學細節

相比常用的 Delay pattern 方法,該架構充分利用了上下文中的文本與語音,可以生成更自然、連貫的對話語音;同時支持低首包延遲,配合離散語音編碼器的流式解碼,實現更快起播。

FireRedTTS-2 采用兩階段訓練:先在 110 萬小時單句語音上預訓練,夯實合成基礎;再用 30 萬小時對話語音繼續訓練,覆蓋 2–4 人對話場景。由此可穩定生成高質量對話語音,準確處理說話人切換,保持上下文一致與自然韻律。麵向應用場景, FireRedTTS-2 僅需少量數據即可實現微調,快速完成音色定製。

FireRedTTS-2 效果比較

為評估對話合成效果,FireRedTTS-2 與 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他係統在自建的中英文對話測試集上進行了比較:

客觀上,比較了對話合成的正確率(CER/WER)、對話間說話人保持能力(SIM)、以及與真實錄音之間的差距(MCD)主觀上,FireRedTTS-2 與其他係統進行了偏好打分(CMOS)

結果顯示,FireRedTTS-2 在主客觀指標上均為最優,顯著降低發音錯誤,避免說話人混淆,具有更真實的韻律表現,為對話合成提供了更優解。

同時,FireRedTTS-2 隻需約 50 小時的特定播客說話人錄音即可完成音色定製,使對話合成的自然度逼近真人。在自建中文對話測試集上,国产AV蜜桃网站開展了客觀(CER)與主觀(自然度偏好)評測:微調後 CER 僅為 1.66%;主觀聽評中,28% 的測例被認為比真實播客錄音更自然,另有 28% 難以區分二者。總體來看,56% 的測例表明其自然度已達到或超過真實錄音。

總結與展望

FireRedTTS-2 針對當前對話合成的兩大痛點:無法逐句生成(靈活性差)與合成質量不穩定(發音錯誤、說話人切換混亂、韻律不自然),升級了兩項關鍵模塊。

離散語音編碼器:低幀率、語義信息豐富,縮短語音序列、降低長對話建模難度並提升穩定性;支持流式解碼,適配實時場景。文本語音合成模型:采用文本 - 語音混排輸入,支持逐句生成;雙 Transformer 架構充分利用文本與曆史語音上下文,合成更自然、連貫的對話語音;具備低首包延遲,配合編碼器的流式解碼實現快速起播。

從結果上看,FireRedTTS-2 在各項主客觀指標上均優於 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等係統,為對話生成提供了更優的解法。未來團隊將持續優化 FireRedTTS-2,拓展支持的說話人人數與支持的語種,並解鎖可控音效插入等更多玩法。