微软开源的VibeVoice模型是一个新型的文本到语音(TTS)模型,能够生成长达90分钟、多达4位不同说话者的对话式音频。该模型采用连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现了高效处理长序列音频的能力,同时保持高保真度。VibeVoice支持跨语言、富有表现力的语音合...
微软开源的VibeVoice模型是一个新型的文本到语音(TTS)模型,能够生成长达90分钟、多达4位不同说话者的对话式音频。该模型采用连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现了高效处理长序列音频的能力,同时保持高保真度。VibeVoice支持跨语言、富有表现力的语音合...