浅谈大模型的多模态和语音流式技术

ChatGPT 引爆LLM的同时scaling law席卷了整个机器学习行业，openai 、meta、google等公司在语音方向也分别推出了whisper、mms、audioPaLM多个语音大模型，在模型和数据规模上再次发挥scaling的神力，单一模型支持多达百千种语言也带来更好的效果（做大做强），但这些工作并未探明语音作为重要模态如何和LLM深度结合并做出全新的应用。直到 gpt4o、astra和moshi chat来了，带来重要的技术应用革新，其中最受关注的是gpt4o：1）同时支持文本、语音、视觉，any2any多模态交互（更多更强）；2）交互可做到类人的自然打断、快速响应并理解情感（更快更智能），然而关于gpt4o多模态模型openai并未发相关论文；本文我们从多模态和流式等技术问题出发，尝试用行业最新的相关论文解析gpt4o可能使用的基础技术。

any2any多模态

通常文本模型只支持文本处理、语音模型只支持语音信号，那多模态模型是如何支持任意模态（单个或者多个模态任意组合）理解和生成呢？核心点是backbone采用decoder-olny的自回归架构并且所有模态信息都转成LLM能够统一处理discrete token（例如，音频分帧转离散化token如audioPaLM；图像分patch离散化如ViT），这样文本、音频、视觉等模态都能统一按自回归方式过decoder-olny架构的LLM处理，再结合prompt指令自然也支持多模态数据IO；解决了数据IO（接口）问题，就能让LLM支持多模态数据的训练和推理。如下图是多模态基本架构示例，每个模态数据（离散化）统一按照自回归方式过LLM，any2any的多模态构论文可参考《Gemini: A Family of Highly Capable Multimodal Models》和《NExT-GPT: Any-to-Any Multimodal LLM》等。

自然打断和实时响应

多模态大模型支持实时交互的核心在于输入模块和生成模块都支持流式，作为中枢的LLM结合副语言信息理解和上下文管理就能支持可自然打断实时响应的对话能力（例如kyutai团队提到不需要显式地先识别话轮也能让moshi chat支持E2E语音自然对话）。虽然openai的gpt4o技术对于外界是个黑盒子，但行业从业者也不禁追问‘带音频模态的decoder-only架构实现streaming流式的方法是什么呢’，过去一个月meta、nvidia等公司针对streaming-speechLLM这个新课题分别发了几篇论文进行研究，按照’解决音频序列-文本序列对齐问题‘的方式大致可以分成两种方法。

第一类方法：修改decoder-only模型自回归输入的prompt格式，从之前简单的音频序列和文本序列concat（例如qwen-audio）变成两模态片段级交错，在音频-文本embedding交错序列构建的过程巧妙地引入两个不等长序列之间的对齐信息，解决了音频-文本对齐则speechLLM流式推理就迎刃而解。24年6月最新的两篇论文《Speech ReaLLM – Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time》和《Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech》实现streaming-speechLLM都是通过强制对齐构建音频-文本的交错序列。这里以其中的meta的《speech ReaLLM》论文为例，如下图LLM的输入是音频-文本交错（橙色是语音embedding，而绿色是文本embedding，通过强制对齐得到的时间戳即可构建它们的交错序列）范式，而模型预测目标只包含文本序列（目标文本是蓝色部分，其中受CTC/RNNT的启发引入了blank符号，目的是覆盖当前语音帧对齐的文本信息为空的情况）。

第二类方法：将speechLLM的流式问题定义为读写策略问题（类似于语音同声传译，在每个步骤中LLM模型自己推理出是等待更多的语音输入特征即READ还是预测目标文本即WRITE），并通过交叉注意力来实现这个可学习的读写策略（具体而言，音频特征和文本token传入LLM之前使用交叉注意力层学习’当前文本关注语音提示的相关部分即提取与当前自回归步骤更相关的特征‘）。按照读写策略实现的streaming-speechLLM模型架构如下图，这个方法主要优势是：1）流式方法（基于交叉注意学习对齐问题）具备通用性，能同时支持单调对齐和非单调对齐的任务（例如语音翻译因为是非单调对齐的，如果按照前文所提的‘强制对齐方法构建音频-文本embedding交错对齐序列’就是困难问题）；2）支持端到端优化对齐模块；3）计算效率高，假设L_t和L_a分别代表文本和音频的序列的总长度，则常规的speechLLM（例如第一类方法相关论文speech ReaLLM等）计算复杂度为(L_t + L_a)^2 = L_t^2 + L_a^2 + 2 * L_t * L_a ，而本方法仅需L_t * L_a + L_t^2，并且一般音频序列长度L_t远大于文本序列长度L_a所以计算速度近似提升L_a倍。这类方法详见论文 BESTOW：https://arxiv.org/abs/2406.19954

one more thing

speechLLM新范式从mms、audioPaLM到gmini等研究成果发布，可见语音大模型新范式的几个关键点：超大规模自监督SSL预训练，在scaling law加持下依托海量无标注数据集进行预训练，显著增强模型（音频模态）的泛化能力（支持多语言多任务）；decoder-only模型架构：音频信号过音频encoder分帧并离散化（或投影至LLM词典空间），实现音频、文本等多模态数据统一IO（接口），并统一按照自回归方式过decoder-only架构的LLM进行处理（统一数据接口和架构目的是实现‘大一统’）。

关于未来从openai、google等公司的gpt4o、gmini先进模型和在机器人领域的研发投入，表明整个AI行业并行多个核心技术路线：一方面追求如《Her》般具备更高（人机交互）智能的AGI；另一方面开发具身智能，参与生产活动以实现社会生产力效率的革新，创造更广泛的价值。