去年10月,微软推出了一项转录功能-在Word中转录-旨在让用户利用云的力量转录音频。经过近一年的开发,现在可以免费向现有的Microsoft365订户提供美国英语版本的Transcribe in Word。它将在今年晚些时候进入Android和iOS。
你可以说微软来得太晚了-毕竟,语音到文本转换并不是什么新鲜事。但微软项目经理丹·帕里什(Dan Parish)表示,该公司“定位独特”,可以提供一站式抄写服务。“你不必担心在不同的Windows应用程序上大惊小怪,”他在与记者举行的简报会上说。“我们试图用我们在自然用户界面领域的所有投资--无论是触摸屏还是语音等等--让每个人都能以最适合自己的方式工作,这样他们就能更有效率,可以花更少的时间和精力创作最好的作品,而且他们可以真正专注于最重要的事情。”
使用Edge或Chrome的Microsoft 365订户在Office.com中创建新的Word文档时,现在将在主页选项卡下看到听写菜单。选择转录将启动录制,该录制可以随时暂停,而点击“立即保存并转录”按钮将会将录制发送到Azure云进行转录。预先录制的.wav、.mp4、.m4a和.mp3格式的文件可以通过新的上传音频选项上传。
一旦转录过程完成,录音和上传的音频的抄本就会出现在转录窗格中-快捷方式使用户可以将部分或整个抄本快速插入到Word文档中。生成文字记录所需的时间取决于网速和音频文件大小,录制的音频限制为200MB,每月5小时;上传的音频不受限制。(微软表示,它正在考虑在未来增加选项,以延长以前的上限。)。录音存储在OneDrive上的已转录文件文件夹中,您可以在其中重命名或删除录音,并且有一个编辑工具可用于更改某个部分的发言人姓名、将该发言人标签的所有匹配项更改为一个名称,或者修复姓名和打字错误。
当被问及在Word中转录对隐私的影响时,Parish表示,微软不会保留录音或转录结果,而是将它们存储在用户的个人OneDrive文件夹中。录音只被发送到Azure后端执行转录,而不是用于任何类型的分析。Parish还声称,支持Word抄写的语音识别模型已经在“不同的”数据集上进行了训练,以确保它们能够识别一系列的男性和女性说话者,包括那些来自不同种族背景的人。
除了抄写,Word现在还能识别基本的语音命令,如“开始列表”、“开始编号列表”、“添加斜体/粗体/下划线”和“添加省略号/与号/百分号”。完整的列表位于帮助面板中,在这里无需离开转录模式即可进行检查。
这些命令是由Dicate提供的,这是微软去年10月停用的一个插件,它支持原生的Office 365网络和移动集成。Dicate支持29种口语,实时翻译成60种语言,以及两种标点符号模式,它还可以识别自然语言命令,如“添加点点”(省略号)、“暂停听写”和“添加评论”,以及“插入笑脸/心形表情符号”等非正式命令。(微软表示,印地语、韩语、俄语、波兰语、泰语、更多西班牙语和更多中文地区正在进行中。)