Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/dd/53310/4cc94.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
小米發布ZipVoice係列模型,語音合成新突破!






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

遊客發表

小米發布ZipVoice係列模型,語音合成新突破!

發帖時間:2025-09-15 21:37:38

IT之家 9 月 12 日消息,小米集團 AI 實驗室今日宣布,旗下 Kaldi 團隊上個月發布了基於 Flow Matching 架構的 ZipVoice 係列語音合成(TTS)模型,包括:

ZipVoice(零樣本單說話人語音合成模型)ZipVoice-Dialog(零樣本對話語音合成模型)

據官方介紹,作為 zipformer 在語音生成任務上的應用和探索,ZipVoice 解決了現有零樣本語音合成模型的參數量大、合成速度慢的痛點,在輕量化建模和推理加速上取得了重要突破。

ZipVoice-Dialog 則解決了現有對話語音合成模型在穩定性和推理速度上的瓶頸,實現了又快又穩又自然的語音對話合成。

IT之家從小米官方獲悉,ZipVoice 首次將原本為自動語音識別(ASR)設計的 Zipformer 架構引入 TTS 任務作為模型的骨幹網絡,Zipformer 中的三大設計:基於 U-Net 的多尺度高效率結構、卷積與注意力機製的協同處理、以及注意力權重的多次複用都高度適配語音合成任務,從而實現了語音合成模型的高效建模。

得益於這一設計,相比基於 DiT 的語音合成模型,在性能相似的情況下,ZipVoice 的參數量減少了約 63%。

性能方麵,ZipVoice 和 ZipVoice-Distill 在具備更小參數量和更快推理速度的同時,在三個客觀指標,即說話人相似度(SIM-o)、詞錯誤率(WER)和 UTMOS,以及兩個主觀指標(CMOS、SMOS)上都極具競爭力,達到了零樣本語音合成模型的 SOTA 性能水平,同時顯著減少了模型參數量,加快了推理速度。

小米官方表示,ZipVoice 零樣本語音合成模型具備了低參數量、高推理速度、高語音質量三大優點,ZipVoice-Dialog 提供了又快又穩又好的對話語音合成新方案。ZipVoice 係列模型為輕量化、高速度要求的語音交互應用場景提供了新的解決方案。

此外,小米表示未來團隊將持續對 ZipVoice 係列模型進行優化,致力於讓每一個人都能享受到低成本高質量的語音合成技術。

參考地址:

ZipVoice 係列的模型文件、訓練代碼和推理代碼以及 6.8k 小時的語音對話數據集 OpenDialog 已全部開源:http://github.com/ k2-fsa / ZipVoiceZipvoice 論文已被 ASRU2025 接收:http://arxiv.org/ pdf/2506.13053樣例體驗請訪問:http://zipvoice.github.io

    {loop type="link" row=1 }{$vo.title}