逻辑智能推出全球首个完全开源语音大模型框架，定义LSLM研究基准

來源：播糠眯目網-工人日報

2025-09-15 23:40:21

在大型语言模型（LLM）的浪潮下，多模态 AI 取得了飞速发展，尤其是在视觉语言（LVLM）领域，已经形成了成熟的研究范式。然而，与之形成鲜明对比的是，大型语音语言模型（LSLM）的发展却显得零散且步调缓慢。

该领域长期被碎片化的架构、不透明的训练数据和缺失的评估标准所困扰，导致研究之间难以进行公平比较，严重阻碍了技术的可复现性和社区的系统性进步。许多研究虽然发布了模型权重，但其赖以成功的关键 —— 训练数据和配置细节 —— 却常常被 “雪藏” 起来。

为了打破这一僵局，北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。

LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施，其贡献是 “全家桶” 式的，包含了一整套开源的数据、基准和模型，希望以此加速 LSLM 领域的社区驱动式创新。

论文标题：LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model论文地址：http://arxiv.org/abs/2508.15418v1代码地址：http://github.com/EIT-NLP/LLaSO模型地址：http://huggingface.co/papers/2508.15418

LSLM 领域的技术挑战与研究痛点

相比视觉语言模型（LVLM）领域已形成 CLIP 编码器 + LLaVA 范式的成熟生态，LSLM 研究面临四大核心挑战：

1. 架构路径分化严重

当前 LSLM 架构主要包括外部特征融合、跨模态注意力机制、隐式对齐等多种技术方案，缺乏如 LVLM 领域般的统一范式。不同研究团队采用差异化架构，导致技术进展难以积累和比较。

2. 训练数据严重私有化

主流 LSLM 如 Qwen-Audio、Kimi-Audio等均依赖私有数据训练，数据规模、质量、构成等关键信息不透明。这使得：

可复现性差：其他研究者无法复现相同结果性能归因模糊：难以判断性能提升源于架构创新还是数据优势研究门槛高：新入场者需要大量资源构建私有数据集

3. 任务覆盖局限性明显

现有数据集主要聚焦语义理解任务，对语音中的副语言学信息（paralinguistic information）如情感、口音、韵律、说话人特征等覆盖不足，限制了模型的全面语音理解能力。

4. 交互模态单一化

大多数 LSLM 仅支持"文本指令 + 音频输入" 的单一交互模式，缺乏对"音频指令 + 文本输入" 和纯音频交互等复杂模态组合的系统性支持。

LLaSO 框架：三大核心组件构建完整生态

图一：llaso 语料库的制作流程

LLaSO 框架通过三个核心开源组件解决上述挑战：

LLaSO-Align：大规模语音 - 文本对齐数据集

数据规模：1200 万语音 - 文本对齐样本数据来源：聚合对话、有声书、多口音语音等多样化来源技术目标：通过自动语音识别（ASR）任务建立语音表示与文本语义空间的精确对齐质量控制：采用多重过滤机制确保数据质量和说话人多样性

LLaSO-Instruct：多任务指令微调数据集

数据规模：1350 万多任务指令样本任务覆盖：涵盖语言学、语义学、副语言学三大类共 20 项任务

语言学任务：ASR、翻译、总结等基础语言理解语义学任务：问答、推理、内容分析等高级认知副语言学任务：情感识别、口音检测、说话人分析等

模态支持：系统性支持三种交互配置

文本指令 + 音频输入（Text-Audio）音频指令 + 文本输入（Audio-Text）纯音频指令与输入（Audio-Audio）

图二：LLaSO 语料库的任务组成

LLaSO-evals：标准化评估基准

样本规模：15,044 个测试样本数据隔离：与训练集严格分离，确保评估公平性评估维度：覆盖所有 20 项任务的 comprehensive evalsuation可复现性：提供统一评估协议和自动化评估工具

图三：LLaSO-Base 在 LLaSO-evals 基准测试上的表现结果

这三大组件共同构成了一个完整的训练、微调和评估流水线，为 LSLM 研究提供了前所未有的开放性和便利性。

LLaSO-Base：技术验证与性能基准

为验证框架有效性，逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。

模型架构设计

采用经典三阶段架构：

语音编码器：Whisper-large-v3，负责语音特征提取模态投影器：多层感知机（MLP），实现语音 - 文本特征空间映射语言模型backbone：Llama-3.2-3B-Instruct，提供语言理解和生成能力

两阶段训练策略

对齐阶段：冻结编码器和 LLM，仅训练投影器，使用 LLaSO-Align 数据建立 modality alignment指令微调阶段：联合训练投影器和 LLM，使用 LLaSO-Instruct 数据学习 complex instruction following

图四：LLaSO 模型架构示意图

LLaSO-Base 模型实验结果分析

我们在一系列严格设计的实验中，将 LLaSO-Base 与多个业界领先的语音语言模型（LSLMs）进行了直接对比。所有实验均在我们构建的标准化评估基准 LLaSO-evals 上完成，确保了比较的公平性和结果的可复现性。

实验设置与评估基准

为确保评估的全面性，我们选取了 10 个主流的语音语言模型作为基准，包括 Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的评估均在统一的 LLaSO-evals 测试集上进行。

图五：详细描述了 LLaSO-evals 评估基准的构成。

该基准包含 15,044 个样本，覆盖了 20 种不同任务。这些任务被系统地划分为三大类别，以实现对模型能力的深度剖析：

语言学任务(Linguistic): 核心是自动语音识别 (ASR)，评估模型最基础的语音转文本能力。语义任务 (Semantic): 核心是音频问答 (AQA)，评估模型对音频内容的高层次理解、推理和生成能力。副语言学任务 (Paralinguistic): 进一步细分为 “以说话人为中心”（如性别、年龄、口音识别）和 “以内容为中心”（如意图预测、实体提取）两类，旨在评估模型对言外之意的捕捉能力。

评估指标说明

我们的评估体系采用了多种指标，以确保对模型各方面性能的精确衡量：

WER/CER (词 / 字错误率): 用于 ASR 等转录任务，数值越低，表示准确率越高。Accuracy (准确率): 用于分类任务（如性别、口音识别），数值越高，性能越好。MAE (平均绝对误差): 用于数值预测任务（如年龄识别），数值越低，预测越精准。GPT-4o Score (GPT-4o 评分): 针对 AQA 等开放式生成任务，我们使用 GPT-4o 对模型输出的相关性和准确性进行 1-5 分的打分，分数越高代表表现越好。Abstention Rate (拒绝回答率): 衡量模型在面对不熟悉或困难任务时的 “回避” 倾向。此比率越低，说明模型的指令遵循能力和鲁棒性越强。

总体性能对比：LLaSO-Base 表现全面领先

图六：直观地展示了所有模型在 LLaSO-evals 上的总体性能得分（经过归一化处理）。

从图中可以清晰地看到，LLaSO-Base 取得了 0.72 的最高分，位列第一。这一成绩显著优于其他所有竞争模型，例如表现次之的 Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。这一结果强有力地证明了 LLaSO-Base 的综合实力。研究发现，像 LLaSO-Base 这样在更多样化的任务上进行训练的模型，其综合性能远超那些主要针对 AQA 等少数任务进行优化的模型（如 Llama-Omni 和 Mini-Omni）。这凸显了我们所提倡的广泛任务覆盖训练策略的有效性。

详细任务性能分析

图七：深入比较了各模型在语言学 (ASR) 和语义 (AQA) 任务上的具体表现。

在 ASR 任务上，LLaSO-Base 展现了压倒性优势。其 WER 和 CER 分别低至 0.08 和 0.03，是所有模型中最低的，这意味着它拥有最精准的语音转录能力。相比之下，即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等强劲对手，也存在明显差距。

在 AQA 任务上，竞争十分激烈。Kimi-Audio 在标准 “文本指令 + 音频输入” 模态下表现突出，获得了 3.35 的高分。LLaSO-Base 在此项上得分 2.58，表现稳健。但值得注意的是，在更具挑战性的 “音频指令 + 文本输入” 模态下，

LLaSO-Base 的得分 (2.70) 展现了更强的模态适应性，超过了多数模型。

图八：呈现了在 18 个细分的副语言学任务上的对比结果，这是对模型能否理解 “弦外之音” 的终极考验。

在这些更复杂的任务上，LLaSO-Base 几乎在所有任务上都取得了顶尖或接近顶尖的成绩。

以说话人为中心的任务：在说话人性别识别 (SGC) 和口音分类 (AC) 任务上，LLaSO-Base 的准确率名列前茅，展现了对说话人特征的敏锐洞察力。以内容为中心的任务：LLaSO-Base 的优势更为显著。在音素识别 (PR) 任务中，其 PER 仅为 0.03；在语音命令识别 (SCR) 任务中，WER/CER 低至 0.04/0.02 。这两项指标均以数量级的优势领先于所有其他模型，展示了其在精细语音内容分析上的卓越能力。

指令遵循能力：更重要的是，LLaSO-Base 在这些任务中的拒绝回答率极低。相比之下，Llama-Omni 和 Mini-Omni 等模型在许多副语言学任务上直接选择 “拒绝回答”（表格中标记为"Reject"），这表明它们缺乏处理此类任务的能力。LLaSO-Base 的稳定响应证明了其强大的指令遵循能力和任务泛化性。

模态泛化与任务覆盖度分析

图九：模型在不同输入模态下的性能稳定性

模态泛化能力 (Figure 9): 该图分析了模型在不同输入模态（纯音频、文本 + 音频、音频 + 文本）下的性能稳定性。结果显示，大多数模型在切换到不熟悉的模态时性能会下降。虽然 LLaSO-Base 也存在性能波动，但其在标准模态下的峰值性能远高于其他模型，这是其总体得分领先的关键。同时，研究也发现，采用 “交错或并行解码” 策略的模型（如 Mini-Omni、GLM-4-Voice）通常表现出更好的稳定性。