对于绝大多数媒体工作者来说,整理录音绝对是最痛苦的活计,这项工作既漫长又无聊,一个小时的录音常常需要两三个小时的时间,才能将其转化为完整文字,遇到录音是英语的,会更头疼。 有过美国留学经历的Wu Tian对此深有体会,“英语不是我的母语,我需要花费10个小时来将一段1小时的录音整理成文字”,她在接受VentureBeat的采访时说道。 对一个人工智能科学家来说,整理录音这种低级重复劳动理应丢给机器去解决,这也就是Wu Tian现在的工作,百度SwiftScribe的项目经理。 SwiftScribe是一个人工智能驱动的录音整理软件,它的核心科技是2016年推出的语音识别引擎Deep Speech 2。
通过上万个小时对标记语音的训练,Deep Speech 2可以将语音转换成相应的字词和短语。据百度称,在SwiftScribe的协助下,一名速记员的工作时间可以缩短40%,大幅提升工作效率。 为了让SwiftScribe更好用,百度硅谷AI实验室还为软件设计了优秀的交互界面,使用者可以轻松编辑机器整理出来的文字,包括快进、倒退、调节播放速度等。除此以外,使用SwiftScribe编辑文稿时,系统还会收集用户的修改行为数据,进一步训练背后的人工智能核心Deep Speech 2,提升将来识别的准确性。 有趣的是,虽然百度一直以来着重宣传它在中国人工智能领域的领先地位,但在语音识别(ASR)技术上,它似乎一直落在国内另一家技术公司——科大讯飞后面。这一次推出的SwiftScribe也没有主打中文市场,目前该应用仅用于英语的语音文字转换。 语音识别领域一直是各大技术公司的必争之地,亚马逊、苹果、Google和微软都有自己的相关团队,不停努力去让速记员们下岗,不过它们大多把语音识别包装到自己的人工智能产品中,例如苹果Siri、亚马逊Echo,而很少作为独立的垂直产品推出。从这个角度看,百度SwiftScribe是速记员们最强大的竞争者。 百度SwiftScribe计划作为一项免费服务提供给公众,目前它还处于测试状态,没有完全开放。Wu Tian表示,希望SwiftScribe将来能够成为一个好生意。 |