标签语音下的文章

微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

微软开源的VibeVoice模型是一个新型的文本到语音（TTS）模型，能够生成长达90分钟、多达4位不同说话者的对话式音频。该模型采用连续语音标记化技术和下一代标记扩散框架，结合大型语言模型（LLM），实现了高效处理长序列音频的能力，同时保持高保真度。VibeVoice支持跨语言、富有表现力的语音合...

samool

2025 年 09 月 06 日

暂无评论