微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

一款“语音实时转文字”工具，引出搜狗人工智能战略

搜狗搜狗听写语音识别人工智能深度学习速记

一款“语音实时转文字”工具，引出搜狗人工智能战略

作者：周雅

2017-08-10 10:45

分享至：

就在一周前搜狗宣布赴美上市计划的当天，搜狗公司CEO王小川在员工内部信中写了这样一句话：“已经没有人会怀疑搜狗的生存问题了，唯一的悬念是搜狗是否能在搜索领域实现颠覆，是否能在人工智能领域引领重大的创新。”一时间，王小川的“悬念”成为看点。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2017-08-10 10:45 • 周雅

CNET科技行者 8月10日北京消息（文/周雅）：就在一周前搜狗宣布赴美上市计划的当天，搜狗公司CEO王小川在员工内部信中写了这样一句话：“已经没有人会怀疑搜狗的生存问题了，唯一的悬念是搜狗是否能在搜索领域实现颠覆，是否能在人工智能领域引领重大的创新。”一时间，王小川的“悬念”成为看点——8月8日，搜狗正式迎来了第一款语音技术产品“搜狗听写”。

语音实时转文字背后有深度学习技术

搜狗听写的定位是“文字工作者的速记工具”。针对写文章、采访录音、会议记录、笔记整理、日常记事等场景，以实现高效记录和信息输入。

搜狗听写最亮眼的功能在于“听写”和“转写”两种模式。“听写”模式下，录音的同时可以实时识别结果；而“转写”模式下则可以离线录音，录音完成后一次性获取文字结果。

除此之外还有诸如支持手机边听边改、无线标重点（蓝牙打点）、多客户端同步、信息分享、摘要、断点续录等人性化功能，另外，针对图书馆、咖啡厅等安静场所，搜狗听写提供耳语识别技术——人说话音量低至30分贝时，依然可以准确识别。

被牛露云称作“大杀器”的一个功能，是搜狗听写与搜狗输入法的个人词库已经打通，可以视为媒体撰稿人之间文字互通的功能。

关于下载，搜狗听写除了支持Android、IOS版本之外，还开发了Windows版，Windows版特别针对会议场景，观众可以直接看到会议演讲者的实时字幕，字幕可能是直接文字的转写结果，也有可能是双语、多语对照结果，观众甚至可以直接扫码获取当天的录音和文本结果。

这样一款语音识别产品，实际上是基于深度学习技术，以提升复杂场景识别效果。

说到深度学习，离不开三要素：有没有大数据，有没有好的深度学习算法，以及能不能让深度学习算法在深度学习平台上高效运转。

搜狗语音交互中心技术总监陈伟介绍，关于大数据，“搜狗输入法每天语音识别的PV是2.6亿次，产生的语料规模是22万小时。”关于算法，搜狗早期较多使用深度神经网络，随后尝试了CN算法、LSTM的算法，现在转为CN+LSTM+DN的端到端的算法，可以更高效，准确率更高。

有了数据+算法，接下来就是运算，如何高效的给出模型以快速部署到线上，关键在于搜狗的深度学习平台。“我们可以在自有的深度学习平台上调动上百块算卡，快速的给出模型。”陈伟说。

实际上，目前市场不乏与搜狗听写同类型的语音识别产品，譬如科大讯飞早期推出的讯飞听见等，相较而言，搜狗听写的差异化在哪？搜狗语音交互中心负责人王砚峰答道，搜狗听写存在优势：

1、讯飞对应的产品，如讯飞听见、讯飞录音宝等，是不能支持长时间录音、并且免费转写的。而搜狗是首次做了长时录音设置，并且支持免费转写。

2、搜狗的产品是面向垂直场景，包括记者采访的场景、作家写作的场景等等。这些功能虽小，但很关键，体现在具体场景下，怎么绞尽脑汁的想尽办法，帮朋友解决问题。

3、搜狗听写支持手机端和Windows，还有语音实时转文字、边听边改、标重点、快速查找、多端同步、不限时长录音等人性化功能。

4、依托搜狗日均超过2.6亿次的语音请求，搜狗拥有海量的真实语料数据，可以使机器不断学习，不断提升识别准确率，可应用的场景也越来越广泛。

对于搜狗转写是否永久免费这个问题，王砚峰坦言，目前肯定是免费的，至于之后会不会收费，并不完全确定。至少按照现有的产品形态，可以肯定的是，在相当长时间内不考虑使用这个产品来赚钱。“作为一家互联网公司，通过技术来收取技术服务费不是搜狗的商业逻辑。至少到现在为止，搜狗还不想通过产品收费的方式来进行商业变现。”

搜狗语音交互中心负责人王砚峰

自然交互+知识计算背后是AI平台

搜狗听写不会是搜狗唯一的一款人工智能产品，在王小川的规划中，人工智能是搜狗下一阶段的重要战略。

早在2012年，搜狗便开始研发智能语音技术，并开始布局相关产品的落地。去年8月3日，搜狗举行知音引擎发布会，取得机器翻译的突破。跟进当时世界上最领先的机器翻译的深度学习框架（基于attion的端到端的框架），加上搜狗之前的语音识别基础，用3个月时间，搭建起知音引擎，成功的应用于去年的乌镇互联网大会，该引擎在今年5月份夺得WMT2017中英机器翻译的全球冠军；去年11月份，搜狗又推出机器同传，率先商用化...

这样的案例很多。比如搜狗去年年底推出的答题机器人“汪仔”，“汪仔”面向搜索引擎，实时的抓取海量信息，根据问题的上下文，通过文本的分析、自然语言处理的能力，把用户想要的答案提取出来。在今年5月份GMIS2017会上，“汪仔”与人工速记进行了五轮PK，最终以4：1完胜。

“到现在为止，我们可以很坚定的说，机器的识别能力与人工速记相比，已经取得了本质性的领先。”王砚峰说。

然而尽管如此，语音识别同样存在挑战。王砚峰说，语音识别产品未来要解决的，一是远场的问题——人与人之间的远距离喊话，大家可以听得很清楚，但机器的远距离识别是不好的；二是噪声声音识别问题。

彼时搜狗的人工智能战略还只是个轮廓：自然交互+知识计算，如今，轮廓变为框架，搜狗已经形成一个AI技术体系及平台。

平台由四个阶层组成，底层是大数据和深度学习技术；倒数第二层是语言的AI、语音的AI、图像的AI——搜狗的核心是语言，图像和语音都是围绕语言的交互方式；再上一层就是应用；最顶层就是搜狗的输入法和搜索两款主打产品。