VibeVoice-ASR是微软研究院推出的开源统一语音转文本模型,作为VibeVoice语音AI全家桶的核心组件,专注于60分钟超长音频端到端处理,无需切片拼接,可一次性完成整段音频分析,生成包含"发言人、时间戳、内容"的结构化转录结果。支持自定义热词、多说话人识别,适配会议记录、访谈转录、播客字