百度们钟爱开放 AI 数据集，到底藏着什么野心？_互联网+_

在经历了 60 多年的起起伏伏之后，以机器学习为代表的人工智能，正不断向行业纵深处发展。而此次人工智能的崛起，纵然离不开包括Hinton、Yann LeCun 等人坚持不懈地改进深度神经网络算法。另一个更重要的原因则是，自移动互联网、传感器技术的快速发展，人类进入到一个生产海量数据的快车道，这些海量数据也成为「喂养」机器的「粮食」，从而让机器也变得越来越聪明。

因此，如果说云计算的逐步普及让计算能力成本下降，从而提升人工智能落地速度的话，那么如今数据就成为困扰人工智能进一步发展的主要障碍。不管是科研机构，还是个人开发者，都不可能具有如互联网巨头那样的海量数据，而数据采集和数据标注的高成本，也是横在市场面前的大山，这些共同构成百度等AI巨头开放大规模数据集的宏大背景。

11月16日，在一年一度的百度世界大会上，百度宣布推出百度AI公开数据集计划——BROAD（Baidu Research Open-Access Dataset），并开放室外场景理解数据集、视频精彩片段数据集、百度阅读理解数据集。数据开放的形式和体量在业界无出其右。

据悉，室外场景理解数据集作为世界范围内第一个带像素级语义标签的室外 3D 视频，试图将感知能力从物体级感知升级到像素级感知，进而了解图片中所有像素的属性和来源，实现更精准、安全的自动驾驶。视频精彩片段数据集能够提供视频帧的图片特征序列，是全球首创的公开精彩片段标注数据集。而百度阅读理解数据集 DuReader，则是迄今为止规模最大的中文公开领域阅读理解数据集。

可以说，在深度学习飞速发展、学习场景不断扩大的趋势下，百度的开源之路又向前拓展了一大步。

⬆️ 百度公开数据集发布计划“BROAD”

另据公开报道，百度 DuerOS 于当地时间 11 月 9 日正式在美国启动一项名叫「普罗米修斯」的计划。作为百度 DuerOS 今年最重要的战略规划之一，该计划包含开放超大规模对话式AI数据集、跨学科合作、学科共建等多种计划，以及一个百万美元基金用以鼓励和培养对话式AI领域的优秀项目和人才。具体到此次开放的超大规模数据集，包括远场唤醒、远场识别、多轮对话三个层面，供全球 AI 人才进行算法设计和模型训练。

事实上，百度此举也是行业发展的大趋势，最近以来，包括 Google、微软在内的人工智能巨头们也有类似举动。

借百度开放数据集的契机，不妨先来盘点下这些玩家。

1. 巨头搅局的开放数据集战场

在被微软收购后，Maluuba 公司推出了一个开放的对话数据集。这个数据集主要围绕旅行期间的预定场景，也就是查找航班和预定酒店。

据了解，利用这个数据集，开发者可以构建一个具有一定「记忆」能力的对话机器人，比如，当用户同时向对话机器人下达「预定到上海的国航航班」和「预定到广州的XX酒店」命令的时候，微软的这个数据集可以帮助开发者实现多个命令的同时应答，从而让整个对话过程更流畅，提升用户体验。

Google 的数据集开放则更「随意」也更初级。在 Google TensorFlow和 AIY 网站共同开放的 Speedch Commands Dataset 数据集中，包含了 30 个命令短语，65000 次大约 1 秒钟的发音。

与微软面向特定场景的数据集相比，Google 这个数据集的智能交互中仅仅有一些「是」与「否」的特定回复，其面向的也是一些基础开发者，或者说，这个数据集更像是为了推广其 TensorFlow 开源平台。

而百度此次借助「BROAD」开放的视频精彩片段、阅读理解数据集，以及通过「普罗米修斯」开放的对话数据集，不管是数据规模还是数据集的技术难度，都具有一定的领先优势。

先看数据规模。在 BROAD 视频精彩片段数据集中，包含了 1500 个综艺长视频，总长达到 1200 个小时，短视频更是多达 18000 个。而在「普罗米修斯」的对话数据集中，涵盖了对话机器人从（远场）语音唤醒、（远场）识别到交互对话的多个环节，每一个环节的数据量都非常大。

比如在远场唤醒数据集里，就包含了数十万条「小度小度」（百度 DuerOS 的唤醒词）以及其他主流中文唤醒词的录音数据，还包括数百小时的错误唤醒数据，而远场识别数据集里，也包含数千个小时中文远场语音识别数据。

另外，这些数据集的「产生」过程也是来自于真实网络环境下的真实问题，比如，当用户在百度搜索里通过文本或语音搜索某些问题时，这些数据都会经过脱敏处理后成为训练机器的重要「粮食」。考虑到百度搜索在中文互联网里的重要影响力和庞大的用户群体，因此由这些真实问题、真实需求形成数据集对于机器而言，也更具「营养价值」。

其次，值得注意的是，此次百度开放的三大数据集，不仅包括大规模的数据，而且提供了一整套评估数据集训练的标准。以远场语音唤醒为例，这可谓语音对话的第一步，利用大量语音数据的训练后，对话机器人到底有没有变「聪明」呢？

在百度开放的远场唤醒数据集中，提供了众多关键的验收指标和方法，主要围绕唤醒率、误唤醒率、计算复杂度等维度评估算法的性能。同样，对于远场语音识别的标准，这个数据集也发布了字准率、句准率的指标，用于衡量机器的训练效果。

综上来看，在整个行业陆续开放数据集的趋势中，微软、Google、百度分别从不同的角度切入到这个新战场，如果说微软是专注某些领域、Google是注重基础功能，那么百度目前所开放的数据集规模之大、覆盖之广，则彰显出百度在「All in AI」战略驱动下的决心和诚意。

当然，微软、Google 也好，百度也罢，开放数据集的背后，也藏着不小的野心。

2.开放数据集的寓意

正如上文所言，困扰当下人工智能普及的主要障碍是数据，这也迫切需要 Google、百度等这些握有海量数据的大公司做出行动，而对这些巨头来说，他们也看到了开放数据集的现实意义和长远价值。

首先，利用这些开放的数据集，可以进一步降低机器学习、深度学习的门槛，加速整个行业向人工智能转移。当微软将人工智能列入优先发展战略、当 Google 决定「AI First」、当百度喊出「ALL in AI」，这些巨头更希望行业做出响应和反馈。开放数据集的举措，让机器学习、深度学习的开发、应用更具普惠价值。

其次，大量开放的数据集，不仅有助于提升产品体验，也有望形成生态效应。目前，业界押注语音为新一代交互方式，因此，基于语音交互的数据集也是当下数据集开放的主流。通过开放语音交互不同环节的数据集，吸引更多开发者加入 AI 生态体系，能够进一步提升百度在语音交互领域的话语权和影响力，并继续吸引开发者、合作伙伴加入其中，这是一个正相关的闭环机制。而基于室外场景、视频理解、阅读理解的数据集开放，更大大加速相关领域问题研究的探索进度，真正填补现存数据来源、问题覆盖、构建方式等方面的不足。

第三，通过开放数据集，能够进一步吸引、发掘人才。人工智能时代里的人才争夺持续升温，相对于人才金字塔顶尖的著名教授，金字塔中部乃至底部的人才更具长远价值。

在一系列大规模数据集开放及扶持计划中，百度对人才培养的决心显而易见，比如联合高校、共建实验室合作、计划启动国际阅读理解挑战赛，再比如颁布对话式人工智能人才认证以及100万美元的专项基金等等。

3.写在最后

事实上，整个 2017 年，围绕人工智能的炒作新闻充斥在社会的各个角落，但行业的发展已经逐步进入稳定期。

对百度、Google、微软等巨头而言，通过不断开放自己的人工智能平台、数据，构建人工智能的生态效应，在加速公司转型的同时，能够影响整个行业发展，形成全新的护城河，同时让人工智能开发门槛更低、更具大众普惠价值。

对创业者以及开发者来说，移动互联网的红利已经消失，但人工智能的「诱惑」也同时到来。与移动互联网相比，人工智能带给人类社会的变革更深刻也更具商业前景，此时加入人工智能的创业浪潮，利用诸如百度、Google 开放的数据集，可以更专注打磨自己的产品，从而迈出成为「独角兽」公司的第一步。返回搜狐，查看更多

责任编辑：