分享到: | 更多 |
使用海量数据来识别照片和语音并实时翻译讲话,深度学习计算机朝着真正的人工迈进了一大步。英国《自然》杂志近日就此进行了报道。
深度学习东山再起
2012年,位于美国加州山景城的神秘莫测的Google X实验室的研究人员用1000台计算机(共有1.6万个处理器)构建出了全球最大的电子模拟神经网络——拥有10亿个连接的人工神经网络“谷歌大脑”,并通过向其展示自YouTube视频中提取出的约1000万张静止的图像,考察其能学到什么。结果显示,在无外界指令的自发条件下,该人工神经网络自主学会了识别人脸、人体甚至猫等类别的事物。
也许这看起来只是琐碎的成就,除了表明猫的主人们热衷于上传宠物视频,导致互联网上猫的视频随处可见之外,说明不了更多问题,因此,这一发现也让记者们讪笑不已。但实际上,该成果是深度学习东山再起的一个里程碑。
这一进步也意味着,谷歌在人工智能领域又达到了一个新的高度,在业界引发广泛关注。对电脑用户而言,人工智能研究一直前景广阔,但迄今成果寥寥,不过情况慢慢发生了变化。在过去几年内,包括谷歌、苹果和IBM等在内的互联网巨擘们一直在积极争夺在深度学习方面拥有专业技术的初创公司和研究人员。
对每个消费者来说,深度学习计算机的显著进步所带来的好处包括:软件能更好地对照片进行筛查、理解语音指令并将对文本进行翻译。而对科学家和医学界人士而言,深度学习计算机能用来筛查药物,标示出大脑内真实的神经网络并预测蛋白质的功能。
“人工智能研究领域遇到的挫败可谓不可胜数,但也取得了稍许进步,或许,未来的研究会一马平川。”深度学习专家、美国纽约大学数据科学中心的主任杨乐康(音译)表示。
“接下来的几年内,很多人会投入深度学习的洪流当中。”美国加州大学伯克利分校的计算机图像识别专家吉腾德拉·马利克也认同这一观点。
让机器学会思考和做决定
在解释深度学习之前,我们需要了解什么是机器学习。机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。机器学习的发展大致经历了两次浪潮:浅层学习和深度学习。
深度学习这一技术已有30年的历史了。深度学习旨在模仿人脑的神经网络,其作用就如人类大脑里掌管知觉、运动指令、意识、语言的“新皮层”,它能自己学习辨识声音、图像和其他数据,从而帮助计算机破解一些人类几乎完全依靠直觉来解决的琐碎问题,从识别人脸到理解语言等。
深度学习本身也源于一个更古老的计算理念:神经网络。这些神经网络系统模拟的是人脑内神经细胞之间的紧密关联。这些神经细胞可以彼此沟通,互相施加影响,当把这样一个神经网络暴露在数据面前,不同神经细胞之间的关系会发生改变。这样,网络就会发展出对某个类别的输入数据作出特定反应的能力。通过这种方式,网络就拥有了学习能力,“学”到了一些东西。
“谷歌大脑”大约有100万个模拟神经细胞,模拟了10亿个连接,比此前的任何深度神经网络都要大10多倍。“谷歌大脑”项目的创办人安德鲁·恩格现在是美国斯坦福大学人工智能实验室的主任,致力于使深度学习系统再扩大10倍。
发展历程缓慢艰辛
在上世纪50年代,计算机还是新兴事物,那时,第一代人工智能研究人员就满怀期望地预测,完全成熟的人工智能很快就会到来。但随着人们慢慢认识到客观世界的极端复杂性,尤其是当人们开始接触到诸如人脸为什么是人脸而非一张面具或猴脸这样的知觉或感性问题时,这种过于乐观的想法才逐渐偃旗息鼓。
到了上世纪80年代,这种更好的方式似乎是神经网络内的深度学习。这样的系统可以从头开始学习规则,而且具有令人愉悦的对称性——使用受到大脑启发的机制来完成类似大脑的功能。在这一系统中,模拟的神经细胞被组织成不同的层,当向这样的系统展示一副人脸的图片时,第一层只是注意所有黑像素和亮像素;接下来的一层可能可以意识到这些像素会形成边角;再下一层或许可以识别出横线和竖线;最后一层或许可以认出眼睛,能够意识到两只眼睛实际上出现在同一张脸上。
其他竞争性的想法
当然,也并非所有科学家都看好深度学习,他们正在尝试使用其他方法来解决问题。比如,美国华盛顿大学计算机科学与工程系教授、艾伦人工智能研究所的负责人奥伦·埃齐奥尼的目标是发明一台计算机——当给其“喂食”一堆经过扫描的教科书后,其能通过标准化的小学科学测试(如果其不断加强,最终能通过大学入学考试)。为了通过这些测试,这台计算机必须能阅读并理解图表和文本。不过,艾伦人工智能研究所如何实现这一目标还是一个未知数。但对埃齐奥尼来说,神经网络和深度学习并非他们的首选。
一个竞争性的想法是,让计算机能在基本输入事实上的基础上进行推理,而非从头开始学习事实。因此,科学家们或许会为这种计算机编写程序,让其识别“所有的女孩都是人”这样的论断。接着,当一篇提到一个女孩的文本被提交给这台计算机时,计算机能推导出这个女孩是人。但这样的计算机也有自己的问题,因为我们周围的世界太纷繁复杂,即使没有数百万个,也有数十万个这样的事实。
目前,在这方面表现最好的就是IBM公司的计算机沃森(Watson)。Watson运算更快,记忆力更好,它也懂一些人类语言中的暗喻和双关。2011年,Watson在美国最受欢迎的智力竞赛节目Jeopardy中战胜人类,获得冠军,从而声名大噪。尽管如此,IBM公司沃森解决方案实验室的科学家们对深度学习在改进模式识别方面的优异表现也产生了兴趣。
谷歌也是如此,尽管其图像标记方面的最新进展主要得益于辛顿的深度学习网络,但其他研发部门也得到了足够多的关注。2012年12月,谷歌雇佣未来学家雷·库兹韦尔做其工程部主管,库兹韦尔的主要任务是使用但不局限于深度学习的技术,来为计算机寻找不同的方式,让其能从日常经验中学习。
去年5月份,谷歌购买了一台由加拿大D-Wave公司研制而成的量子计算机。尽管从理论上而言,这台计算机能用于深度学习领域,但科学家们目前主要用其来处理非人工智能方面的任务,比如困难的数学计算等。
深度学习带来了机器学习的一个新浪潮,受到从学术界到工业界的广泛重视,也导致了“大数据+深度模型”时代的来临。在应用方面,深度学习使得语音图像的智能识别和理解取得惊人进展,从而推动人工智能和人机交互大踏步前进。尽管如此,深度学习仍然还处于襁褓阶段。“它是未来的一部分。”德哈尔说,我们才刚刚开始。如果我们能在理论、建模和工程方面,突破深度学习技术面临的一系列难题,人工智能的梦想将不再遥远。
来源:《科技日报》