VibeVoice-ASR是微软研究院推出的开源统一语音转文本模型,作为VibeVoice语音AI全家桶的核心组件,专注于60分钟超长音频端到端处理,无需切片拼接,可一次性完成整段音频分析,生成包含"发言人、时间戳、内容"的结构化转录结果。支持自定义热词、多说话人识别,适配会议记录、访谈转录、播客字幕等场景,采用高效连续语音分词器,兼顾准确率与速度,所有处理可本地完成,保障数据隐私,完全开源免费,支持Windows、macOS、Linux多平台部署,适配个人与企业级语音转文字需求。 核心参数 项目 详情 软件名称 …