人工智能的技术路线_互联网+_

人工智能的技术路线

白季中

让机器像人类一样思考，达到甚至超越人类的智能水平，一直是人类不断追求的目标。自1956年人工智能概念兴起，人类将这门前沿学科研究、探索、开发的成果用于模拟、延伸和扩展人工智能的理论、方法、技术和应用。经过近60年的发展，人工智能已经发展出知识表示、机器学习、智能搜索、自然语言理解、推理规划、模式识别、神经网络、计算机视觉、智能机器人、自动程序设计等多种方法和技术，并已逐步得到广泛使用。

近几年来，以深度学习和类脑智能计算为代表的人工智能核心技术的突破，以及云计算和大数据的长足发展，使得图像识别、语音识别、自然语言处理等前沿技术的能力和应用效果得到了极大的提升，因而倍受工业界和科技界的广泛关注。

深度学习和类脑智能计算的技术创新

深度学习是人工智能机器学习研究中的一个新领域，被《麻省理工学院科技评论》杂志评选为2013年度十大突破性技术之首。该项技术最早是由Hinton等人于2006年在《Science》杂志上提出，源于人工智能神经网络的研究，其动机在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，例如图像、语音和文本等。

深度学习的本质思想是构建多个神经元层，每层都提取一定的特征和信息，通过组合底层特征形成更加抽象的高层来表示属性、类别或特征，以发现数据的分布式特征。以图像识别为例，第一层提取边界信息，第二层提取边界轮廓信息，然后轮廓可组合成子部分，子部分组合成物体。反之，则可以由物体逐层提取特征，通过特征或者属性的不同组合来判定图片中是哪个种类的物体。

自2006年以来，深度学习成为人工智能研究领域关注的焦点，斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年，美国国防部DARPA计划资助深度学习项目，参与方有斯坦福大学、纽约大学和NEC美国研究院，随后谷歌、微软、百度等拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点。

类脑智能计算是人工智能领域基于生物方法的人脑逆向工程重要的研究方向之一，其核心目的在于破解人脑思维机理。随着人类脑科学的发展，类脑智能计算研究已经让机器人和人工智能的研究从行为模拟进步到脑神经元模拟了。至此，人工智能研究将不再是猜测人脑是如何工作的，而是从单个神经元的形态、活动的模拟开始，逐步构建神经元微环路、脑区，直至全脑模拟。

目前，欧盟已先后提出蓝色大脑计划和人脑计划，美国于2013年设立了脑科学研究计划，将在10年内投入30亿美元。近年，高通和IBM公司相继推出类人脑的学习型芯片架构Zeroth和SyNAPSE。国内中科院自动化所也启动了类人脑工程研究，开展了基于认知神经科学、脑网络研究的相关理论探索，模拟真实人脑神经网络，构建类脑神经计算芯片与系统。

在中国，百度公司首席科学家、机器学习领域大师吴恩达负责百度研究院，通过深度学习来模拟人类大脑的神经元，打造目前世界上最大规模的深度神经网络，其参数规模超过百亿级别，参数复杂度几乎超过现存的任何多媒体领域用到的数学模型，能够处理上千亿的特征向量。百度的深度学习技术已被应用在语音、图像、文本识别、自然语言处理等产品中。与此同时，百度是全球首家使用GPU用于人工智能和深度学习领域的公司，与普通CPU服务器相比效率提升超过30倍，提升计算能力，处理海量训练数据。

大数据驱动“视、听、说”技术的突破

深度学习和类脑智能计算技术的发展带来了机器学习的新浪潮，推动“大数据+深度模型”时代的来临，以及人工智能和人机交互大踏步前进，推动图像识别、语音识别、自然语言处理等“视、听、说”前沿技术的突破。

图像识别技术是深度学习最早尝试的技术领域。著名人工智能学者、纽约大学教授Yann LeCun（雅恩·乐昆）等人在上世纪80年代末发明了卷积神经网络（Convolutional Neural Networks，简称CNN），它是一种带有卷积结构的深度神经网络。CNN的结构受到著名的Hubel-Wiesel生物视觉模型的启发，尤其是模拟视觉皮层V1和V2中Simple Cell和Complex Cell的行为。CNN在处理如手写数字等小规模问题上取得过当时世界最好的结果，但一直没有取得巨大成功，主要原因是CNN在大规模图像上效果不佳。直到2012年10月，Hinton等人利用更深度的CNN在著名的ImageNet问题上取得了当时世界最好的结果，使得图像识别效果大幅提升，其主要原因一方面来自算法的提升，例如防止过拟合技术（Overfitting），更重要的是GPU带来的计算能力的提升和更多的训练数据。

据了解，百度在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等，并推出相应的桌面和移动搜索产品。2013年，深度学习模型被成功应用于图像的识别和理解，错误率降低了30%，人脸验证的准确率则超过98%。从百度的经验来看，深度学习应用于图像识别不但能大大提升准确性，而且避免了人工特征抽取的时间消耗，从而大大提高在线计算效率。未来，深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。

长期以来，以混合高斯模型（Gaussian Mixture Model，简称GMM）为代表的统计概率模型一直在语音识别应用中占有垄断性地位，它本质上是一种浅层网络建模，不能充分描述语音特征的状态空间分布，特征维数一般是几十维。采用深度神经网络后，人类可以充分描述特征之间的相关性，可以把连续多帧的语音特征并在一起，构成一个高维特征，最终的深度神经网络可以采用高维特征训练来模拟。由于深度神经网络采用模拟人脑的多层结果，人类可以逐级地进行信息特征抽取，最终形成适合模式分类的较理想特征。

这种多层结构与人脑在处理语音图像信息时有很大的相似性。深度神经网络的建模技术，在实际线上服务时，能够无缝地与传统语音识别技术相结合，在不引起任何系统额外耗费的情况下，大幅度提升语音识别系统的识别率，从而彻底改变语音识别原有的技术框架。如百度于2012年11月上线了基于深度神经网络技术的语音搜索系统，成为最早采用深度神经网络技术进行商业语音服务的公司之一。

除了语音和图像，自然语言处理（Natural Language Processing，简称NLP）也是深度学习发挥作用的技术领域。经过几十年的发展，基于统计的模型已经成为NLP的主流，但作为统计方法之一的人工神经网络在NLP领域几乎没有受到重视。2008年，NEC美国研究院Ronan Collobert等人采用嵌入式方法和多层一维卷积的结构来研究NLP问题，取得了与业务最前沿相当的准确率。最近，斯坦福大学教授Chris Manning等人将深度学习用于NLP的工作也值得关注。总的来说，深度学习在NLP上取得的进展没有在语音图像上那么令人印象深刻，但存在很大的探索空间。

如今，在移动互联网和大数据时代，大量的互联网用户将产生包括文本、图像、语音、视频、地理位置在内的大量数据，规模呈爆炸式增长。IDC预测，到2020年全球将总共拥有44ZB的数据量。面对海量数据，以深度学习为代表的新兴机器学习技术，可以做到传统人工智能算法无法做到的事情，输出结果会随着数据处理量的增大而更加准确，取得更好的效果，进而形成人工智能的正循环。