小米發布ZipVoice係列模型，語音合成新突破！

當前位置：首頁>漯河>小米發布ZipVoice係列模型，語音合成新突破！

遊客發表

小米發布ZipVoice係列模型，語音合成新突破！

發帖時間：2025-09-15 21:37:38

[{$vo.typename}]來源：臨陣脫逃網

IT之家 9 月 12 日消息，小米集團 AI 實驗室今日宣布，旗下 Kaldi 團隊上個月發布了基於 Flow Matching 架構的 ZipVoice 係列語音合成（TTS）模型，包括：

ZipVoice（零樣本單說話人語音合成模型）ZipVoice-Dialog（零樣本對話語音合成模型）

據官方介紹，作為 zipformer 在語音生成任務上的應用和探索，ZipVoice 解決了現有零樣本語音合成模型的參數量大、合成速度慢的痛點，在輕量化建模和推理加速上取得了重要突破。

ZipVoice-Dialog 則解決了現有對話語音合成模型在穩定性和推理速度上的瓶頸，實現了又快又穩又自然的語音對話合成。

IT之家從小米官方獲悉，ZipVoice 首次將原本為自動語音識別（ASR）設計的 Zipformer 架構引入 TTS 任務作為模型的骨幹網絡，Zipformer 中的三大設計：基於 U-Net 的多尺度高效率結構、卷積與注意力機製的協同處理、以及注意力權重的多次複用都高度適配語音合成任務，從而實現了語音合成模型的高效建模。

得益於這一設計，相比基於 DiT 的語音合成模型，在性能相似的情況下，ZipVoice 的參數量減少了約 63%。

性能方麵，ZipVoice 和 ZipVoice-Distill 在具備更小參數量和更快推理速度的同時，在三個客觀指標，即說話人相似度（SIM-o）、詞錯誤率（WER）和 UTMOS，以及兩個主觀指標（CMOS、SMOS）上都極具競爭力，達到了零樣本語音合成模型的 SOTA 性能水平，同時顯著減少了模型參數量，加快了推理速度。

小米官方表示，ZipVoice 零樣本語音合成模型具備了低參數量、高推理速度、高語音質量三大優點，ZipVoice-Dialog 提供了又快又穩又好的對話語音合成新方案。ZipVoice 係列模型為輕量化、高速度要求的語音交互應用場景提供了新的解決方案。

此外，小米表示未來團隊將持續對 ZipVoice 係列模型進行優化，致力於讓每一個人都能享受到低成本高質量的語音合成技術。

參考地址：

ZipVoice 係列的模型文件、訓練代碼和推理代碼以及 6.8k 小時的語音對話數據集 OpenDialog 已全部開源：http://github.com/ k2-fsa / ZipVoiceZipvoice 論文已被 ASRU2025 接收：http://arxiv.org/ pdf/2506.13053樣例體驗請訪問：http://zipvoice.github.io

{loop type="link" row=1 }{$vo.title}

国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

小米發布ZipVoice係列模型，語音合成新突破！