4月29日,谷歌CEO在年度公开信中写道,我们将进入人工智能为先的世界,但并没有透露多少细节。本文详尽梳理了谷歌所有的——没错,是所有的——人工智能项目及其开发内幕,供你纵览这家公司打造人工智能帝国的布局。
谷歌如何打造人工智能帝国?
这个搜索巨头正在将它的人工智能服务开源,让每个人都可以使用。2007 年11月,谷歌通过发布安卓手机开源操作系统,为自己在移动市场的支配地位奠定了基础。八年之后,安卓获得了80%的市场份额,如今谷歌又故技重施——这次开源的是人工智能。
不久前,谷歌公布了分布式TensorFlow,它的机器学习开源平台。任何人只要拥有电脑和网络连接(并且懂一点点深度学习算法)就能使用有史以来最强大的机器学习平台。超过50个谷歌产品已采用了TensorFlow ,以便把深度学习(使用深度神经网络的机器学习)当作工具来操控。这些产品有的能从照片应用程序中认出你和你的朋友,有的能改善谷歌的核心搜索引擎。谷歌已经成为了一家机器学习公司。现在谷歌把那些能让其产品独一无二的秘方拿了出来,要让全世界都来使用。
TensorFlow, 人工智能领域的安卓
TensorFlow是一个文件库,它使得研究者和计算机科学家能够建造出系统,对诸如照片或音频等数据进行分解,并由计算机基于这些信息做出关于未来的决策。这便是机器学习的基础:计算机去理解数据,并使用这些数据来做出决策。在极端复杂的情形中,机器学习是一种让计算机变得更聪明的有力武器,而这已属于更广泛的、也更难以定义的人工智能领域了。TensorFlow极其复杂,因为它在吸取和输出数据时具有极高的精度和速度。它毫无疑问已经属于人工智能工具的范畴。
这里有个实质性的细节:TensorFlow系统使用数据流图。在该系统中,具有多重维度(值)的数据从一种数学计算传递到下一种数学计算。这些复杂的数据块被称为张量(Tensors),那些数学计算过程被称为节点(nodes)。数据从一个节点到下一个节点的变化能显示出数据的全面系统关系。这些张量在节点图中流动,而这正是 TensorFlow(“张量流”)这一名称的由来。
当然,开源的TensorFlow使得研究人员甚至研究生们都有机会用这一专业级软件来工作。但这样做的真实后果是,谷歌将有潜力将其影响力渗透到市场上的每家机器学习公司的研究之中。现在,企业无论大小——不管是微小的初创公司还是与谷歌并肩的巨头——都可以启用TensorFlow系统,按自己的需要来调整它,并使用它来与谷歌进行竞争。最最要紧的是,TensorFlow的发布使得谷歌这家全球最大的互联网公司具有了人工智能领域的权威地位。
斯坦福的计算机科学教授Christopher Manning三个月前就可以使用TensorFlow,所以他的学生那时起就有机会去摆弄这个系统。经过几周的使用之后,Manning决定他将在自己的课程中使用TensorFlow。除了把TensorFlow 比喻成人工智能界的安卓之外,他还把TensorFlow平台比作Gmail这个谷歌最普及的邮件服务。邮件服务领域仍存在着大量竞争者,但Gmail更干净,并且在大多数应用中更可行。
“并不是说,在TensorFlow出现之前不存在任何高水平的深度学习库。”Mining 说,“不过大体上,其他库都是一些三个学者加一个研究生就能搞出来的东西。”
图片团队的研究员 Tom Duerig 说,即使谷歌的雇员能看到用户的照片,这对公司的研究也没什么用。
“我们希望能从根本上加速机器学习研究和部署。”
尽管像Torch和Theano等其他应用程序也有小的更新,但这次谷歌出动全部研发力量来发展其机器学习方面的基础设施,这是前所未有的。Manning说,一方面,TensorFlow是谷歌送给机器学习社区的一份大礼(这份礼物能让用于优化神经网络的时间减少一百倍),另一方面,谷歌也能通过将该工具开源而间接地获利。
“少数几家公司一直在试图把人工智能领域中的一大部分有才华者都雇佣到自己手下,特别是在深度学习领域。” Manning说。“谷歌不是慈善机构。我可以肯定,当谷歌开放这个平台后,我们会有许多博士生在大学的时候就已经喜欢上谷歌的深度学习工具了。”
谷歌的顶级工程师,Tensorflow的两位作者之一(另一位是 Rajat Monga)Jeff Dean在预估机器学习社区对TensorFlow的采用情况时态度很谨慎。他说,尽管谷歌在工作中发现TensorFlow极其有用,但它能否被广泛采用取决于整个社区是否觉得TensorFlow很有用。重要的是,为整个社区提供一个工具,通过使用它人们不仅能更快地构建想法,而且能更快地将东西付诸实现。
“基本上,我们希望能加速机器学习研究和部署。”Dean说。这对社区来说是一份大礼,同时最理想的情况是,社区的人们也会进行回馈,将他们与其他研究者(以及谷歌)一起研发出的东西分享出来。“机器学习社区真的非常擅长改进想法,那真的非常好。不过,要对那些与研究性想法相关联的正在运行的代码进行改进,那就不太一样了。” Dean说。
他也提到TensorFlow将会帮到那些从从谷歌回到校园的实习生,因为现在他们可以进入这个曾经为谷歌所专有的系统并继续完成他们在谷歌期间尚未完成的工作了。
TensorFlow系统对个体研究者来说是一个十分完整的工具包。该系统是一个完整的独立运行库,拥有各种工具和Apache 2.0许可证,因此它也可以在商业环境下使用。人们既可以在台式电脑或笔记本上编辑它,也可以在移动端应用它(首先会发布安卓版,之后还会推出iOS版)。TensorFlow还会提供学习指南和文档,以供人们了解如何调整和玩转这个平台。
Manning建议,在移动设备上运行深度学习算法的能力将成为TensorFlow的一个重要特征,将它与其他开源系统区分开来。
对那些想要直接使用现有系统的人,谷歌提供了一个预编写二进制版本以便研究者可以直接使用它。它还拥有一个应用程序接口(API),以供软件开发者训练和控制他们的TensorFlow模型。它可不是什么冒牌货—— 谷歌App以及其他50多个产品都在使用它的系统。
谷歌想让它的AI遍布四方。谷歌的机器学习和人工智能(谷歌更喜欢称之为机器智能)影响了它的许多著名产品。
谷歌AI实验室揭秘
谷歌正在向全世界开放这个平台,这让我们有机会能瞥见这家公司在发展机器学习系统方面是怎么想的。
在内部,谷歌过去三年都在建造一个大规模的人工智能平台,而现在谷歌把它向全世界开放。不过,谷歌自己更愿意称之为机器智能。他们感到,人工智能这个词带有太多的引申含义,而基本上他们想要做的只是在机器中实现真正的智能。
这是他们在公司中已经使用过许多年的模型:任何想要玩人工神经网络的工程师都可以创建自己的系统分支然后去摆弄它。这种开放结构允许公司内的100个团队创建强大的机器学习技术。
“机器学习是一种核心的、革新性的方式。我们靠它来重新思考我们做事情的方式。” 谷歌CEO Sundar Pichai 在公司2015年十月的电话会议上说。“我们正在有意地把它应用于我们所有的产品,无论是搜索、广告、YouTube还是Google Play。我们还处于早期阶段,但你将会看到我们在所有这些领域以系统性的方式运用机器学习。”
欢迎来到谷歌,这里一切皆 AI,AI 乃一切
很难为谷歌的机器智能研究画出一张详细的图,因为它总在改变,而且渗透到了公司中的几乎每个团队中。
谷歌的工程副总裁John Giannandrea把这称为一种“嵌入式模型”。我是在位于加州阳光明媚的山景城的谷歌总部的一座造型优美的现代建筑里见到他的。我当时身处一个严格来说不对公众开放的楼层里。在我独处的间歇里,一位工程师走过来发现我没有佩戴员工证。他问我是谁,我说我是一名撰稿人,但这并没有平息他的疑虑。谷歌以将其研究向公众开放为荣,但实验室中的工作仍是严格保密的。
对我来说,谷歌的嵌入式模型意味着我需要大量的步行来采访。谷歌总部包括三百五十万平方英尺的办公空间,横跨七英亩的土地。谷歌员工在办公楼之间骑车来往,还有许多员工在打理得很好的花园里抱着笔记本电脑,有的在解决复杂的计算机科学难题,有的在趁午后小憩的时间玩Minecraft游戏。不同的团队在不同的建筑中工作,而嵌入式机器智能的研究者们在团队间转换的时候,也需要在从一栋楼搬到另一栋楼。
在办公楼内部,我看到的东西和普通办公楼的样子差不多。里面有小隔间、电脑、显示器等等,人们正在以平静的语调讨论问题并紧张地朝我这个记者投来一撇。墙上有一些凹进去的空间,可以供人打盹——总之,就是这些办公室里常见的东西。
谷歌图片研究人员正在谷歌位于山景城的总部里研究机器智能问题,在一间看起来很平凡的办公室里。
在组织结构上,这里有一群研究者始终在研究一般性的机器智能问题,并将其工作反馈给谷歌的图片应用、语音搜索和网络搜索等核心产品。还有一些项目,谷歌启动它们是为了能推动相关问题的进步。Giannandra举了手写文字这个例子。
“我们,作为一个公司,希望能理解人们是怎么写字的。因此我们会长久地向它投入,即便我们并没有形成产品。”他说。
不过,由于谷歌有如此众多的产品,通常无论研究出了什么东西,总会有一款工具能把它用上。(谷歌的手写文字技术最终被用于谷歌的笔记软件 Google Keep。)“谷歌总是在寻求更好的语音识别、语言翻译和语音理解。”
当确定了研究出的东西能用在哪里之后,研究人员就会到产品团队去协助产品的实现。产品团队研发各种我们都在使用的具体应用,例如图片 App 或谷歌翻译。
而负责一般性研究的团队们则按照研究兴趣来划分。有一个团队聚焦于教计算机学会“看”,另一个团队致力于理解语言,还有一个团队寻求更好的语音识别,等等。
“谷歌总是在寻求更好的语音识别、语言翻译和语音理解——所以,这些计算机科学的前沿研究领域是我们始终都会投入的。”
有超过1000个研究人员在谷歌为这些机器智能应用而工作,并在应用性研究和理论性研究之间不断切换。有些研究人员在处理一些更简单的问题,这些问题不需要考虑严格意义上的人工智能,而主要是依靠统计性预测方法。
根据谷歌发言人Jason Freidenfelds的说法,谷歌那刚刚诞生的母公司Alphabet并不会对谷歌的机器智能研究的进展方式产生太大的影响。这些研究人员仍将在作为子公司的Google中工作,但当他们需要与Life Sciences或 Google X等其他子公司在机器学习应用方面合作时,也不会有任何障碍。
未来之声
谷歌的众多工具中的一颗冉冉升起的明星是语音搜索。哪怕你还不知道它到底是什么,你也很可能已经使用过它了:它是谷歌搜索条中的那个小小的麦克风图标,当你按动它后,你就可以通过说话而非打字来进行搜索。这个小麦克风图标也出现在iPhone和安卓的谷歌搜索App中。在许多智能手机的安卓搜索条中也能发现它。
尽管从表面上看它只是Siri的一个竞争产品,谷歌语音搜索实际上已成为通向谷歌那巨大的知识库的第二扇大门。令语言识别团队感到高兴的是,它正在变得越来越受欢迎。
尽管谷歌并未公布语音搜索相比于文字搜索的份额,它仍然提供了一些统计证据:移动搜索如今比桌面搜索更受欢迎,移动语音搜索去年增长了一倍,大约50%的美国手机和平板用户知道他们可以用语音向谷歌提问,其中三分之一的人曾用语音向谷歌提问过。
尽管谷歌不会公布语音搜索到底有多大的使用量,它的新闻发言团队仍然通过上面这一串数据让我确信,语音搜索的使用量极大。
除了每年进行数百次迭代之外,谷歌搜索这些年大致上仍以原先的方式运行着。不过,要让人们足够有信心来对着手机讲话,这需要艰苦的拼搏。高级研究员Francoise Beaufays研发谷歌语音搜索背后的语音识别引擎。他说,用户之所以越来越多,是因为语音搜索服务的质量提高了。
“当我们刚开始做语音识别时,用户并不是完全有信心。他们也会用它,但你会发现有一个延迟,那时候技术还不像现在这么好。“Beaufays说。“现在速度变快了,人们可以方便地在办公室用语音来做任何事情了。”Beaufays带着法语口音,说话很快,而当她谈到神经网络构架的市场,语速就更流畅了。她领导语音团队抛弃了陈旧的、曾用来识别声音的引擎,并用一种新的、更高级的使用递归神经网络的系统来取代它。
为了让机器理解语音,它需要首先学会词和词组的发音是怎样。这意味着,需要大量的音频文件。这些文件通过算法来处理,该算法会产生一个巨大的图,图中包含每个声音与其他声音、词和词组之间的对应关系。当一段音频被呈现给电脑时,它会这样进行分析:把这段音频的波形放入图中移动,试图从图中找到一条能最好地解释这段音频的路径。
“在这条路径的终点将会产生这样的结果:‘ 我们检查了这个声音序列,这个声音序列对应于这个词的序列,而这个词的序列则构成了这个句子。”Beaufays说。
你每次进行语音搜索时,音频都会被上传到谷歌服务器
这一切都要靠那些最初的音频文件,这些文件被称为训练数据。这些训练数据实际上是从真实谷歌用户的数百万条语音搜索中得来。每当你进行语音搜索时,音频都会被上传到谷歌服务器,如果如果你选择允许谷歌使用这音频,它就会被谷歌整合到用来训练机器的音频库中去。
不过,数据在使用之前还有经历若干步骤。首先(而且对用户来说最重要的是),所有的用户信息都被擦除。这意味着,时间戳、位置数据和用户资料等东西都会被擦除。接着这些原始波形被发送给一位人类速记员,因为算法需要每一段音频都附有可靠的文字转写。所有的音频都需要这种元数据,而一段“坏”的音频实际上就是一段未能恰当转写的音频。有时候,研究者甚至会为音频添加人工噪音,以便让机器能理解不同的词在不同环境中听起来是什么样。
Beaufays强调,用户可以选择是否参与该项目。这很重要,因为随着谷歌持续地积累越来越多的关于世界和关于我们生活的信息,对隐私的合理关切正在日益增长。不过如果你不想让谷歌使用你的语音,你可以拒绝它使用。而且,在使用语音搜索之后,也可以通过若干方式来删除搜索记录。
这些技术使得语音搜索变得更高效。根据谷歌的说法,两年前语音搜索错误率是25%,这意味着每四个搜索中就有一个返回了错误结果。现在,错误率只有8%。
然而,如果谷歌不能利用用户的数据来训练它的话,会是什么样?