banner
leaf

leaf

It is better to manage the army than to manage the people. And the enemy.
follow
substack
tg_channel

重启科技浪潮山姆·奥特曼传

时间线#

1960 年 —— 康奈尔大学教授弗兰克・罗森布拉特在纽约布法罗的一间实验室中打造了 “马克一号” 感知机,这是早期的神经网络。
1969 年 —— 麻省理工学院教授马文・明斯基和西摩・佩珀特出版了《感知机》一书,指出了罗森布拉特技术中的缺陷。
1971 年 —— 杰夫・辛顿开始在爱丁堡大学攻读人工智能博士学位。
1973 年 —— 第一次人工智能寒冬到来。
1978 年 —— 杰夫・辛顿开始在加州大学圣迭戈分校做博士后研究。
1982 年 —— 卡内基 —— 梅隆大学招聘了杰夫・辛顿。
1984 年 —— 杰夫・辛顿和杨立昆在法国相遇。
1986 年 —— 戴维・鲁梅尔哈特、杰夫・辛顿和罗纳德・威廉姆斯发表了他们关于 “反向传播” 的论文,扩展了神经网络的功能。
—— 杨立昆加入了位于新泽西州霍尔姆德尔的贝尔实验室,在那里他开始打造 LeNet,一个可以识别手写数字的神经网络。
1987 年 —— 杰夫・辛顿离开卡内基 —— 梅隆大学,加入多伦多大学。
1989 年 —— 卡内基 —— 梅隆大学的研究生迪安・波默洛制造了 ALVINN,一辆基于神经网络的自动驾驶汽车。
1992 年 —— 约书亚・本吉奥在贝尔实验室做博士后研究时遇到了杨立昆。
1993 年 —— 蒙特利尔大学招聘了约书亚・本吉奥。
1998 年 —— 杰夫・辛顿在伦敦大学学院成立了盖茨比计算神经科学中心。
——20 世纪 90 年代到 21 世纪的第一个十年:第二次人工智能寒冬。
2000 年 —— 杰夫・辛顿回到多伦多大学。
2003 年 —— 杨立昆加入纽约大学。
2004 年 —— 在加拿大政府的资助下,杰夫・辛顿开始举办 “神经计算和适应性感知” 研讨会。杨立昆和约书亚・本吉奥加入了他的行列。
2007 年 —— 杰夫・辛顿创造了术语 “深度学习”,一种描述神经网络的方式。
2008 年 —— 杰夫・辛顿在不列颠哥伦比亚省的惠斯勒偶遇微软研究员邓力。
2009 年 —— 杰夫・辛顿访问位于西雅图的微软研究院实验室,探索语音识别的深度学习。
2010 年 —— 辛顿的两名学生阿卜杜勒 —— 拉赫曼・穆罕默德和乔治・达尔访问微软。
—— 戴密斯・哈萨比斯、沙恩・莱格和穆斯塔法・苏莱曼创立 DeepMind。
—— 斯坦福大学教授吴恩达向谷歌首席执行官拉里・佩奇推介 “马文项目”。
2011 年 —— 多伦多大学研究员纳夫迪普・贾特利在蒙特利尔的谷歌公司实习,通过深度学习打造新的语音识别系统。
—— 吴恩达、杰夫・迪恩和格雷格・科拉多创立 “谷歌大脑”。
—— 谷歌部署基于深度学习的语音识别服务。
2012 年 —— 吴恩达、杰夫・迪恩和格雷格・科拉多发表了 “小猫论文”。
—— 吴恩达离开谷歌。
—— 杰夫・辛顿在 “谷歌大脑” 做 “实习生”。
—— 杰夫・辛顿、伊利亚・萨特斯基弗和亚历克斯・克里哲夫斯基发表了 AlexNet 论文。
—— 杰夫・辛顿、伊利亚・萨特斯基弗和亚历克斯・克里哲夫斯基拍卖了他们的公司 DNNresearch。
2013 年 —— 杰夫・辛顿、伊利亚・萨特斯基弗和亚历克斯・克里哲夫斯基加入谷歌。
—— 马克・扎克伯格和杨立昆创立 Facebook 人工智能研究实验室。
2014 年 —— 谷歌收购 DeepMind。
—— 伊恩・古德费洛发表了 GAN 论文,描述了一种生成照片的方法。
—— 伊利亚・萨特斯基弗发表了论文《从序列到序列》,这是机器翻译的一个进步。
2015 年 —— 杰夫・辛顿在 DeepMind 度过夏天。
——AlphaGo 在伦敦击败范辉。
—— 埃隆・马斯克、萨姆・阿尔特曼、伊利亚・萨特斯基弗和格雷格・布罗克曼创立 OpenAI。
2016 年 ——DeepMind 公布 “DeepMind 健康”。
——AlphaGo 在韩国首尔击败李世石。
—— 陆奇离开微软。
—— 谷歌部署基于深度学习的翻译服务。
—— 唐纳德・特朗普在美国大选中击败希拉里・克林顿。
2017 年 —— 陆奇加入百度。
——AlphaGo 在中国击败柯洁。
—— 中国发布《新一代人工智能发展规划》。
—— 杰夫・辛顿公布 “胶囊网络”。
—— 英伟达推出渐进式 GAN,它可以生成照片级的人脸。
——“深度造假” 出现在互联网上。
2018 年 —— 埃隆・马斯克离开 OpenAI。
—— 谷歌员工抗议马文项目。
—— 谷歌发布了 BERT,一种学习语言技能的系统。
2019 年 —— 顶级研究人员抗议亚马逊的人脸识别技术。
—— 杰夫・辛顿、杨立昆和约书亚・本吉奥获得 2018 年图灵奖。
—— 微软向 OpenAI 投资 10 亿美元。
2020 年 ——Covariant 在柏林发布分拣机器人。

ChatGPT 和名叫奥特曼的地球人

爆红的 ChatGPT

人类历史上第一次出现用户增长速度这么快的应用产品。

只花了 5 天时间,ChatGPT 就捕获了 100 万用户,2 个月后,ChatGPT 在全球收获了第一亿位用户。如果你对这样的数据没有太多概念,我们可以做一个横向对比,参考一下近几年其他全球流行的顶尖应用的用户增长数据,它们达到月活过亿的神话,需要多长时间?

现已更名为 “X”。现已更名为 “Meta”。

  • iTunes 用了 6 年半,Twitter 用了 5 年,Facebook 用了 4 年半,WhatsApp 用了 3 年半,Instagram 用了 2 年半,TikTok 用了 9 个月,而横空出世的 ChatGPT 在 2022 年 11 月 30 日上线后,仅花了 60 天,就创下了月活过亿的神话,成为历史上用户增长速度最快的互联网应用程序。更可怕的是,这一纪录在短期内似乎难以打破。

  • 如果你走上街头,在任意一个咖啡馆或者自习室,都能看到有人对着电脑桌面,正在与 ChatGPT 交谈;即使你一个月没出门,也能在各个社交平台看到人们对它的疯狂讨论,或者与 ChatGPT 的对话截图…… 来自各行各业的人与 ChatGPT 聊天,用 ChatGPT 写邮件、寻找文献、翻译文章,甚至是写代码和小说。

所以不难理解《财富》杂志对它给予的高度评价:“每一代人的人生科技浪潮里,总会出现一种总有人推动地球科技变革新的产品,它将从昏暗无光的地下室、杂乱无章的青少年卧室,以及孤独的学者洞穴中向外发射,短时间内风靡全球,变成了你的祖母都知道如何使用的东西。”

那么,ChatGPT 到底是什么?#

  • 简单来说,它是一款聊天机器人模型,一个自然语言生成式 AI,美国人工智能公司 OpenAI 基于 GPT 自然语言生成式模型的最新衍生品。

如果你一时间难以理解这些理科生喜欢挂在嘴边的生僻名词,可以简单将 ChatGPT 与我们常用的搜索引擎做个对比,它们在某些方面具备相同的功能:

  • 搜索引擎是通过匹配关键词,为我们展示搜索结果,而 ChatGPT 则是通过对自然语言提问的分析,直接给出一个答案或解决方案。相当于一个集合了搜索引擎功能的智能助手,它更能贴合用户的任何提问需求,并且快速组织出一个逻辑自洽的完整回答。

当然,ChatGPT 远远不止于此。强大的学习功能,让它能够在与用户的交互之中持续进步,越来越理解你的问题和需求,并且不断修正,趋于完美,最终给出更能满足用户需求的答案。

因此,ChatGPT 对普通人的影响很快显现。包括美国大学生、广大自由职业者在内的不少普通人,已经用自己的行动做出了投票。根据最新调查,ChatGPT 流行后,美国大学生成了最忠实的第一批用户,超过九成的大学生正在使用 ChatGPT 完成作业,这一行为逼迫不少大学将使用 ChatGPT 列为作弊行为。而在职场领域,ChatGPT 通过了 L3 级别谷歌编码岗位的面试,要知道,这个岗位的平均年薪是 18.3 万美元。

随着科技进步,人工智能技术在不知不觉中一次又一次地超越了人们所判定的无法达到的极限。

  • 从 1997 年 IBM “深蓝” 计算机首次在国际象棋中击败人类,到 IBM 人工智能机器人 “沃森” 在智力竞赛《危险边缘》中战胜了人类 “常胜将军”,再到 2016 年谷歌旗下的 AlphaGo 在围棋大战中战胜所有人类天才棋手,2019 年号称 “AI 赌神” 的 Pluribus 在德州扑克中碾压人类玩家……AI 的进化之路远远超过人类的想象。

当杰夫・辛顿在多伦多市区登上开往太浩湖的公共汽车时,他已经有 7 年时间没有坐下来过了。他经常说:“我上一次坐下来是在 2005 年,那是一个错误。” 十几岁时,他在给母亲搬取暖器的时候第一次受了伤。到了 50 多岁,他如果要坐下来,就要冒着腰椎间盘滑脱的风险,而一旦腰椎间盘滑脱了,疼痛会使他卧床数周。所以,他不再坐下。他在多伦多大学的办公室里用的是一张站立式办公桌。吃饭的时候,他就跪在桌旁的一个小泡沫垫板上,泰然自若,像一位祭坛旁的僧人。乘坐汽车的时候,他会躺在后座上。如果是长途旅行,他就乘火车。他不能乘飞机,至少不能搭乘商业航空公司的飞机,因为这些飞机在起飞和降落时要求乘客保持坐姿。他说:“我每天都很煎熬,情况发展到了可能会瘫痪的地步,所以我很认真地对待这件事。如果我能完全控制自己的生活,它就不会带来任何问题。”

  • 那年秋天,他躺在公共汽车的后座上奔赴纽约,再乘火车一路前往位于加利福尼亚州特拉基的内华达山脉顶峰,然后在出租车的后座上伸直双腿,30 分钟后,他抵达了太浩湖。之后,他创立了一家新公司。公司的创始人还包括另外两个人,他们是在他大学实验室里做研究的年轻研究生。这家公司不生产任何产品,也没有生产产品的计划。公司的网站上只提供了一个名字 ——DNNresearch1,这个名字比这个网站还缺乏吸引力。当时 64 岁的辛顿在学术界看来很自在,他留着一头乱蓬蓬的白发,穿着羊毛衫,有幽默感,在这两名学生的游说之下,他才决定创立这家公司。但当他抵达太浩湖时,中国最大的科技公司之一已经出价 1 200 万美元,要收购他刚刚起步的公司,另外三家公司也很快加入竞拍,其中包括两家美国最大的科技公司。

  • 辛顿去了哈拉斯和哈维斯,这两家高耸的赌场酒店位于太浩湖南边的滑雪山脚下。那些由玻璃、钢铁和石块构成的建筑物矗立于内华达州的松树之间,赌场酒店也可以作为会议中心,提供数百间酒店客房、数十个会议厅和各种各样的二流餐厅。

Important

2012 年 12 月,那里举办了一场名为 NIPS 的计算机科学家年度聚会。NIPS 的全称是 “神经信息处理系统”,尽管从名称上看是要深入研究计算机的未来,但 NIPS 其实是一个专注于人工智能的会议。作为一名出生于伦敦的学者,自 20 世纪 70 年代初以来,辛顿一直在英国、美国和加拿大的大学探索人工智能的前沿领域,他几乎每年都会来 NIPS,但这次不同。

虽然那家中国公司已经锁定了对 DNNresearch 的兴趣,但他知道其他人也感兴趣,NIPS 似乎是一个理想的拍卖场所。
两个月之前,辛顿和他的学生改变了机器看待世界的方式。他们已经打造了所谓的 “神经网络”,即一个模仿大脑神经元网络的数学系统,它能够以前所未有的准确度识别常见的物体,比如花朵、小狗和汽车。2 辛顿和他的学生展示出,神经网络可以通过分析大量的数据来学习这种非常人性化的技能。他称之为 “深度学习”,其潜力巨大。这项技术不仅会改变计算机视觉,还会改变一切,从可对话式数字助理到自动驾驶汽车,再到新药研发。

神经网络的概念可以追溯到 20 世纪 50 年代,但是早期的开拓者从未让这项技术像他们希望的那样工作。

到了 21 世纪,大多数研究人员都放弃了这项技术,认为这是一条技术上的死胡同,并对研究人员在过去 50 年间试图让数学系统以某种方式模仿人类大脑的自负探索感到困惑。当那些仍然在探索这项技术的研究员向学术期刊提交论文时,他们通常会将研究伪装成其他东西,用不太会冒犯其他科学家同行的语言来代替神经网络这个词。但是,仍然有少数人相信这项技术终有兑现预期的那一天,辛顿就是其中之一。他设计的机器不仅能识别物体,还能识别口语词汇、理解自然语言并进行对话,甚至可能解决人类自己无法解决的问题,为探索生物学、医学、地质学和其他科学的奥秘提供了创新的、更精确的方法。即使在他自己的大学里,这也是一种古怪的立场。他持续地请求学校聘请另一位教授与他一起工作,在漫长而曲折的奋斗中打造能够自行学习的机器,但学校多年来一直予以拒绝。“一个疯狂的人做这件事就够了。” 他说。但是,在 2012 年的春天和夏天,辛顿和他的两名学生取得了突破:他们证明了,神经网络能够以超越其他任何技术的精度识别常见的物体。他们在那年秋天发表了一篇长达 9 页的论文,并向全世界宣布,这项技术就像辛顿长期以来所宣称的那样强大。

几天之后,辛顿收到了一封电子邮件,来自一位名叫余凯的人工智能研究员,他当时在中国科技巨头百度公司工作。表面上看,辛顿和余凯没有什么共同之处。辛顿出生于战后英国的一个著名的科学家家庭,这一家人的影响力与自身的怪癖相得益彰。辛顿曾在剑桥大学学习,在爱丁堡大学获得人工智能博士学位,并在接下来的 30 年里担任计算机科学教授。

余凯出生的时间比辛顿晚 30 年,他在中国长大,父亲是一名汽车工程师,余凯先后在中国南京和德国慕尼黑读书,然后去了美国硅谷的一家企业研究实验室工作。这两个人的阶级、年龄、文化、语言和地域各不相同,但他们拥有一个共同的兴趣:神经网络。

他们最早是在加拿大的一场学术研讨会上认识的,这场研讨会属于民间活动的一部分,旨在重振这个在科学界几乎处于休眠状态的研究领域,并将这一想法重新命名为 “深度学习”。余凯是参与传播这一信仰的人之一。回到中国之后,他把这个想法带到了百度,在那里,他的研究引起了公司首席执行官的注意。当这篇长达 9 页的论文在多伦多大学发表时,余凯告诉百度的智囊团,他们应该尽快招募辛顿。在邮件中,他将辛顿介绍给了百度的一位副总裁,这位副总裁为辛顿短短几年的工作成果报价 1 200 万美元。
起初,辛顿在北京的这家 “追求者” 认为双方已经达成了协议,但辛顿并不是那么确定。最近几个月,与他建立联系的还有其他几家公司,规模有大有小,其中包括百度的两个美国大型竞争对手。这些公司也打电话到辛顿在多伦多大学的办公室,询问需要支付多大的代价才能招募他及他的学生。看到了更多的机会之后,他问百度,在接受其 1 200 万美元的报价之前,他是否可以寻求其他的报价,百度同意了。于是,他彻底扭转了形势。在学生的启发下,他意识到百度及其竞争对手更有可能花巨资收购一家公司,而不是花同样的钱从学术界招募几名新员工。于是他创立了一家自己的小公司,命名为 DNNresearch,以呼应他们专注研究的 “深度神经网络”(Deep Neural Networks)。他还咨询了多伦多的一名律师,关于如何让一家仅有三名员工、没有产品、几乎没有经营记录的初创公司的价格最大化。在这位律师看来,他有两个选择:

  • 一是可以聘请一名专业的谈判代表,但这样做存在一定的风险,可能会激怒那些预期的潜在收购方;

  • 二是可以组织一场拍卖活动。辛顿选择了拍卖。

    最终,4 家公司加入了对他的新公司的竞拍:百度、谷歌、微软和 DeepMind。当时,DeepMind 是一家成立仅两年的世界上大多数人从未听说过的初创公司,它设立在英国伦敦,由一位年轻的神经科学家戴密斯・哈萨比斯创立,而它即将成为这个时代最著名且最有影响力的人工智能实验室。
    在举行拍卖的那一周,谷歌的工程主管阿兰・尤斯塔斯(Alan Eustace)驾驶自己的双引擎飞机降落在太浩湖南岸附近的机场。他和谷歌最受尊敬的工程师杰夫・迪恩(Jeff Dean)一起与辛顿及其学生在哈拉斯赌场酒店顶楼的餐厅共进晚餐,这是一家牛排店,其装饰点缀着 1 000 个空酒瓶。当天是辛顿的 65 岁生日。他站在吧台旁,其他人坐在高脚凳上,他们讨论了谷歌的野心、拍卖,以及他在多伦多大学实验室正在进行的最新研究。对谷歌的人来说,这顿晚餐主要是为了和辛顿的两名他们从未谋面的年轻学生初步接触一下。百度、微软和 DeepMind 也派了代表到太浩湖参加活动,其他人在拍卖中各司其职。为辛顿和他的学生拉开比赛序幕的百度研究员余凯,在拍卖开始前已经与他们开过会了。但是,所有的竞拍者并没有在同一时间聚集在同一个地方。拍卖是通过电子邮件进行的,大多数报价都是通过竞拍者的高管从世界各地发出的,包括加州、伦敦和北京。辛顿向各方保密了其他竞拍者的身份。
    辛顿在哈拉斯赌场酒店的房间里进行拍卖,房间号是 731,这里可以俯瞰内华达州的松树和白雪皑皑的山峰。每天,他都会给下一轮的报价设定时间,在指定的时间,他的两名学生来到他的房间,通过他的笔记本电脑查看报价情况。两张大床的床头之间有张桌子,上面倒放着一个垃圾桶,笔记本电脑就放在垃圾桶上,这样辛顿就可以站着打字了。报价是通过谷歌运营的电子邮件服务 Gmail 进行的,因为辛顿有一个 Gmail 的电子邮件账号。但是,微软不喜欢这样的安排。在拍卖开始前的几天,微软抱怨称,其最大的竞争对手谷歌可能会窃取他们的私密信息,并以某种方式操纵报价。尽管对辛顿来说,这并不是一个严重的问题,但他也曾与学生们讨论过这种可能性,他认为,这更多的是微软对谷歌强大且不断增长的实力的一种尖锐评论。

从技术上讲,谷歌可以阅读任何 Gmail 邮件信息。尽管邮件服务条款说它不会,但现实是,如果它违反了这些条款,可能也没有人会知道。最终,辛顿和微软都将他们的担忧放在了一边。他说:“我们相当有信心,谷歌不会阅读我们的邮件。” 尽管当时没有人意识到这一点,但这是一个充满意义的时刻。
拍卖规则很简单:每次拍卖开始之后,这 4 家公司有一个小时的时间将报价提高至少 100 万美元。这一个小时的倒计时以最新报价的电子邮件时间戳为准,一个小时之后,如果没有新的报价出现,当天的拍卖就结束。DeepMind 用公司股份报价,而不用现金,但它无法与科技领域的巨头们竞争,很快就退出了。百度、谷歌和微软留了下来。随着报价不断攀升,先是 1 500 万美元,然后是 2 000 万美元,微软也退出了,但后来又重新回来。当辛顿和他的学生们讨论自己更愿意加入哪家公司时,每一个微小的时刻都似乎意义重大。在某天下午的晚些时候,当望着窗外的滑雪山峰时,他们看到两架飞行方向相反的飞机飞过,在空中留下了一个交叉的轨迹,像一个巨大的字母 X。在房间里的兴奋气氛中,他们想知道这意味着什么,然后才想起谷歌的总部设在一个名为山景城的地方。“这是否意味着我们应该加入谷歌,” 辛顿问,“还是说不应该加入?”
报价到 2 200 万美元时,辛顿暂停了拍卖,他与其中一名竞拍者进行了讨论,半个小时之后,微软再次退出。现在,就剩下百度和谷歌了,随着时间的推移,两家公司的报价更高了。最初是由余凯为百度报价,但当价格达到 2 400 万美元时,一名百度的高管从北京接手了。余凯时不时会去 731 房间看看,希望至少能稍微了解一下拍卖的走向。
尽管余凯对此毫不知情,但他的出现对辛顿来说是一个问题。辛顿已经 65 岁了,去太浩湖时经常生病,那里的空气寒冷、稀薄且干燥。他担心自己可能会再次生病,他不想余凯或其他任何人看到他这样。“我不想让他们认为我年纪大了,衰老了。” 他说。于是,他把靠墙的折叠沙发上的坐垫都拿下来,放在两张床之间的地板上,把一个熨衣板和其他几个结实的东西插在缝隙里,再用水浸湿几条毛巾搭在上面,每天晚上,他都睡在这个临时搭建的 “雨棚” 所创造出的潮湿空气中。辛顿觉得,这会让他的病情得到控制。问题是,随着拍卖的进行,余凯这个戴着眼镜的圆脸男子不断地跑过来聊天。辛顿不想让余凯看到自己为了保持健康下了多大的决心。所以,每次余凯过来,辛顿都会把目光转向他的两个学生,也就是他的三人公司里的另外两个人,让他们把坐垫、熨衣板和湿毛巾都藏起来。“这是副总裁们的职责。” 他对他们说。

有一次,余凯没拿背包就离开了房间,当辛顿和他的学生们注意到椅子上的背包时,他们考虑是否应该打开,看看里面有什么东西能透露百度的意向报价。但他们没有这么做,因为觉得不妥。不管怎么样,他们很快就意识到百度愿意出更高的价格:2 500 万美元、3 000 万美元、3 500 万美元。不可避免的是,下一次报价要到一个小时倒计时终止前的一两分钟才会出现,这使得原本接近尾声的拍卖再次被拉长。

  • 价格攀升到如此之高,辛顿于是把报价的窗口时间从一个小时缩短到 30 分钟。报价迅速攀升至 4 000 万美元、4 100 万美元、4 200 万美元、4 300 万美元。“感觉我们像是在拍电影。” 他说。一天晚上,接近午夜,当价格达到 4 400 万美元时,他再次暂停了拍卖。他需要睡一觉。

第二天,大约在拍卖开始前 30 分钟,他发了一封电子邮件,说拍卖开始的时间将被推迟。大约一个小时后,他又发了一封。拍卖结束了。在头一天晚上的某个时刻,辛顿决定把他的公司卖给谷歌,而不再把价格推得更高。在发给百度的邮件中,他说自己将把收到的其他任何信息转发给他的新雇主,尽管他没有说新雇主是谁。
后来他承认,这是他一直想要的。就连余凯也猜到辛顿最终会去谷歌,或者至少是另一家美国公司,因为辛顿的腰背健康状况让他无法承受中国之旅。事实上,余凯很高兴百度在竞拍中占据了一席之地。他认为,通过将美国竞争对手推向极限,百度的智囊团已经意识到深度学习在未来几年有多么重要。
辛顿终止了拍卖,因为对他来说,为自己的研究找到合适的归宿比最终获得最高的价格更重要。当他告诉谷歌的报价者他接受 4 400 万美元的价格时,他们认为这是在开玩笑,因为他们觉得他不可能放弃仍然在不断攀升的报价。辛顿不是在开玩笑,和他一样,他的学生们也看到了这种情况。他们是学者,不是创业者,更忠于自己的创意和想法,而不是其他任何东西。
但是,辛顿没有意识到他们的想法有多大的价值。没人知道。在这 4 家公司里散布着一小批科学家,辛顿及其学生们与他们一起,很快就将这个单一的想法推向了科技行业的中心。在此过程中,他们突然戏剧性地加速了人工智能的进步,包括可对话式数字助理、自动驾驶汽车、机器人、自动化医疗健康,以及自动化战争和监控(尽管这二者从来不是他们的目的)。“它改变了我看待技术的方式,” 阿兰・尤斯塔斯说,“也改变了很多人对技术的看法。”

有一些研究人员(其中最著名的是 DeepMind 背后年轻的神经科学家戴密斯・哈萨比斯)甚至认为自己正在建造一台机器,这台机器可以做人脑能做的任何事情,并且只会做得更好。从计算机时代的早期开始,这种可能性就抓住了人们的想象力。没有人确切知道这台机器什么时候会出现,虽然从短期来看,推出的机器距离真正的智能还有很长的一段路,但其社会影响远远超出了所有人的预期。强大的技术总是让人类着迷而恐惧,人类一次又一次地在它们身上豪赌。这一次,筹码比这个想法背后的科学家们所知道的还要高。深度学习的兴起标志着数字技术的构建方式出现了根本的改变。工程师们不再细致地定义机器应该如何运行,一次一条规则,一次一行代码,他们开始打造可以通过自身经验学习任务的机器,这些经验包含了巨量的数字信息,甚至没有人能完全理解。结果他们得到了一种全新的机器,这种机器不仅比以前的机器更加强大,而且更加神秘和不可预测。
当谷歌和其他科技巨头采用这项技术时,没有人会意识到,这项技术还在学习研究人员身上带有的偏见。这些研究人员大多是白人男性,直到新一批的研究人员 —— 包括女性和有色人种 —— 指出这个问题,他们才意识到问题的严重性。随着这项技术涉及的领域更加广泛,包括医疗健康、政府监控和军队,可能出错的方式也变得更多。深度学习带来了一种力量,当它被那些科技界的超级巨头掌握时,连设计者都不完全知道该如何控制这种力量。而驱动这些巨头的,是它们对收入和利润贪得无厌的渴望。
辛顿的拍卖活动在太浩湖结束之后,NIPS 会议也进入尾声,余凯登上了前往北京的飞机。在飞机上,他遇到了一位出生于中国的微软研究员,名叫邓力。邓力与辛顿有过一段交往,他也在这场拍卖中扮演了自己的角色。余凯和邓力是通过多年的人工智能会议和研讨会熟悉起来的,他们在飞往亚洲的长途飞行中挑选了相邻的座位。由于辛顿没有透露竞拍者的名字,他们两人都不太确定哪些公司参与了拍卖。他们当然想知道,而且邓力也喜欢聊天。他们在机舱后部站了几个小时,讨论深度学习的兴起,但他们都囿于自己的雇主,觉得有义务不透露参与拍卖的事情。所以,他们围着这个问题绕弯子,试图了解对方知道些什么,而不泄露自己的秘密。虽然没有说出来,但他们都知道,一场新的比赛开始了。他们受雇的公司将不得不应对谷歌的大动作。这就是科技行业的运作方式,这是一场 “全球军备竞赛” 的开始,这场竞赛将以一种几年前看似荒谬的方式迅速升级。

与此同时,杰夫・辛顿乘火车回到了多伦多。他最终将前往位于美国加州山景城的谷歌总部,虽然加入了该公司,但他仍保留着多伦多大学的教授职位,并坚持自己的目标和信念,他为其他众多很快会跟随他的脚步进入一些全球最大的科技公司的学者树立了榜样。多年之后,当大家让他透露当初有哪些公司参与竞拍时,他以自己的方式做了回答。“我签了一些协议,约定永远不会透露我们与谁谈过。我和微软签了一份,和百度签了一份,还和谷歌签了一份,” 他说,“最好不要深究。” 他没有提到 DeepMind,但那是另一个故事了。在太浩湖拍卖之后,这家伦敦公司的创始人戴密斯・哈萨比斯把自己的观点烙印在了这个世界上。在某些方面,他认同了辛顿的观点;在其他方面,他可能看得更远。很快,哈萨比斯也加入了同样的 “全球军备竞赛”。
这是辛顿、哈萨比斯以及引发这场竞赛的其他科学家的故事,他们是一小群来自全球各地的不拘一格的研究人员,他们会花费几十年来培育一个想法,要经常面对各种无端的怀疑,然后这个想法可能会突然变得成熟,它会被吸进世界上最大的一些企业的机器之中,而这是一个他们全都没有预料到的混乱世界。

感知机:最早的神经网络之一#

 
海军设计的会思考的科学怪物。

  • 1958 年 7 月 7 日,在位于美国白宫以西大约 15 个街区的华盛顿特区的美国国家气象局里,有几个人聚集在办公室里的一台机器旁。1 这台机器和冰箱一样长,宽度翻番,高度差不多,它只是一台大型计算机的一部分,这台计算机像一套多件家具一样散布在整个房间里。机器被包裹在银色的塑料中,上面反射着光线,面板上有一排排的圆形小灯泡、红色方形按钮和粗大的塑料开关,开关有白色的,也有灰色的。在正常情况下,这台价值 200 万美元的机器承担着美国国家气象局前身的计算工作。但在这一天,它被租借给了美国海军和一位名叫弗兰克・罗森布拉特(Frank Rosenblatt)的 29 岁康奈尔大学教授。
    在一名报社记者的注视下,罗森布拉特和他的海军小队将两张白色卡片输入机器,其中一张在左边标记了一个小方块,另一张标记在右边。最初,机器无法区分它们,但在读取了另外 50 张卡片后,情况发生了变化。几乎每一次,机器都能正确识别出卡片上标记的位置,即左边或右边。罗森布拉特解释说,这台机器自己学会了这项技能,得益于一个模仿人脑的数学系统,他称之为感知机(Perceptron)。他说,未来这个系统将学会识别印刷的字母、手写的单词、口述的命令,甚至人脸,最终喊出人的名字,它还可以将一种语言翻译成另一种语言。2 他补充说,理论上,它可以在流水线上克隆自己,探索遥远的星球,并从计算领域穿越到感知领域。

第二天早上,《纽约时报》刊登的文章写道:“海军今天展示了一台电子计算机原型,预期未来它可以走、说、看、写、自我复制,并意识到自身的存在。”3 周日版的第二篇文章指出,海军官员不愿称之为机器,因为它 “太像一个没有生命的人类了” 4。罗森布拉特对大众媒体报道这件事情的方式越来越反感,尤其是俄克拉何马州的一篇报道的标题(《海军设计的会思考的科学怪物》5)。在之后的几年里,在同事之间以及在发表的研究成果中,他都用更有分寸的语言描述了这个项目。他坚称,这不是在人工智能方面的尝试,并承认其局限性。尽管如此,这个想法还是从他的控制下逃出去了。
感知机是最早的神经网络之一,也是杰夫・辛顿在 50 多年后拍卖给最高报价者的技术的早期化身。
但在达到 4 400 万美元的价格之前,这项技术在学术上一直默默无闻,更不用说 1958 年夏天《纽约时报》那不切实际的未来预测了。到了 20 世纪 70 年代初,在那些美好的预测遭遇罗森布拉特时代的技术局限之后,这个想法几乎就此夭折。

 
弗兰克・罗森布拉特在 1928 年 7 月 11 日出生于纽约的新罗谢尔 6,就在布朗克斯区以北。他就读于布朗克斯科学高中 7,这是一所精英公立高中,培养出了 8 名诺贝尔奖获得者 8、6 名普利策奖获得者、8 名美国国家科学奖章获得者 9 和 3 名图灵奖获得者 10,图灵奖是世界顶尖的计算机科学奖。罗森布拉特身材瘦小,下巴多肉,头发又短又黑,呈波浪状,戴着标准的黑框眼镜,他学的是心理学,但兴趣广泛。

  • 1953 年,《纽约时报》发表了一篇短短的报道,介绍一台他用来处理博士论文数据的早期计算机。11 这台计算机名为 EPAC,是 “电子特征分析计算机” 的简称,用来分析病人的心理特征。随着时间的流逝,他开始相信,机器可以提供对内心更深层次的理解。博士毕业后,他加入了位于布法罗的康奈尔航空实验室 12,该实验室距离纽约州伊萨卡的康奈尔大学主校区约 150 英里 [1]。这个飞行研究中心是在第二次世界大战期间由一家设计飞机的公司捐赠给康奈尔大学的,它在战后的几年里演变成了一个不拘一格的实验室,其运营几乎没有受到伊萨卡政府部门的监督管理。正是在这里,罗森布拉特设计了感知机,并得到了美国海军研究办公室的资助。

罗森布拉特将该项目视为了解大脑内部运作机制的一个窗口。13 他相信,如果能用一台机器来重构大脑,他就能探索他所谓的 “自然智能” 的奥秘。14 根据 10 年前芝加哥大学的两位研究人员最初提出的想法,感知机能够分析物体,并寻找能识别这些物体的模型(比如,卡片的左边或右边是否有标记)。它通过一系列的数学计算来实现这一点,其运行(在非常广泛的意义上)就像大脑中的神经元网络一样。当感知机查看每个物体并试图识别时,它会得到一些正确的结果,也会得到一些错误的结果。但它可以从错误中吸取教训,有条不紊地调整每项数学计算,直到错误少之又少。就像大脑中的一个神经元一样,每次计算本身几乎没有意义,它只是一个更大的算法的输入项。但是,更大的算法是一种数学配方,它实际上可以做一些有用的事情,或者至少是希望所在。1958 年夏天,在气象局里,罗森布拉特展示了这个想法的开端 —— 一台模拟感知机运行在气象局的 IBM 704 计算机上,那是当时领先的商用计算机。

  • 15 然后,在布法罗的实验室里,他和一组工程师一起工作,开始围绕同样的想法打造一台全新的机器,他称之为马克一号(Mark I)。与当时的其他机器不同,它是被设计用来观察周围的世界的。在那年晚些时候,罗森布拉特在华盛顿会见自己的支持者时告诉一名记者:“一个非生物系统将以一种有意义的方式实现其对外部环境的管理,这还是第一次。”

  • 他在海军研究办公室的主要合作者并没有以同样夸张的眼光看待感知机,但罗森布拉特不为所动。“现在,我的同事不赞成人们听到的关于机械大脑的漫谈,” 他边喝咖啡边告诉记者,“但事实正是如此。”

  • 17 一个盛放奶油的银色小罐子放在他面前的桌子上,他拿了起来。罗森布拉特说,虽然这是他第一次看到这个小罐子,但他仍然能认出这是一个小罐子。他解释说,感知机也能做到同样的事情。它可以总结出如何区分狗与猫。但他承认,这项技术离实际应用还有很长的路要走:它缺乏深度感知和 “判断力的完善”。

  • 18 但他对其潜力充满信心,他说,感知机有一天会进入太空,并将其观测结果传回地球。当记者问感知机有没有什么做不到的事情时,罗森布拉特举起了双手。他说:“爱,希望,绝望。简言之,就是人性。如果连我们都不理解人类的性冲动,那么我们应该对机器有什么期待?”19
    那年的 12 月,《纽约客》称赞罗森布拉特的创造是大脑的第一个重要对手。此前,该杂志曾惊叹于 IBM 704 能下一盘国际象棋。现在,它将感知机描述为一台更加卓越的机器,一台可以实现 “人类思维” 的计算机。20 该杂志称,尽管科学家声称只有生物系统才能看见、感觉和思考,但感知机的行为 “就像它能看见、感觉和思考一样”21。罗森布拉特还没有造出这种机器,但这仅被视为一个小小的障碍而已。该杂志称:“它的出现,只是时间和钱的问题。”22

罗森布拉特在 1960 年完成了马克一号,它占据了 6 个电气设备架的空间,每个都有冰箱那么大,它插在一个看起来像照相机一样的东西上。23 尽管工程师已经移除了胶片加载器,换上了一个覆盖着 400 个黑点的方形小设备,但它就是一台照相机,这些黑点是能对光线变化产生反应的光电管。罗森布拉特和他的工程师们会在纸板上的方格内打印大写的字母 ——A、B、C、D 等。当他们将这些纸板放在照相机前面的画架上时,光电管可以读取纸板上字母的黑线,并将其与空白区域区分开来。于是,马克一号学会了识别字母,就像气象局的 IBM 计算机学会识别标记的卡片一样。这需要房间里的人提供一点儿帮助:当它识别字母时,技术人员会告诉机器它是对的还是错的。但最终,根据自己是否正确,马克一号从中不断地学习,找出区分 A 的斜线和 B 的双曲线的图形。在演示机器时,罗森布拉特有办法证明这种行为是通过学习获得的。他把手伸到电气设备的架子上,拉出几根电线,断开充当人造神经元的马达之间的连接。在他重新连接电线之后,机器再次识别字母时很费力,但在查看了更多的卡片并重新学习了同样的技能之后,它又回到了之前的水准。
这种电子装置运行得如此良好,引起了海军以外的其他机构的兴趣。在接下来的几年里,位于美国北加州的实验室斯坦福研究所(Stanford Research Institute, SRI)开始探索同样的想法,罗森布拉特自己的实验室赢得了美国邮政部门和空军的合同。邮政部门需要一种读取信封上地址的方法,空军希望在航拍照片中识别目标,但这一切都还很遥远。罗森布拉特的系统只是在识别印刷字母时勉强有效,毕竟这是一项相对简单的任务。当系统分析印有字母 A 的卡片时,每个光电管检查卡片上的一个特定点,比如右下角附近的一个区域。如果这个地方更多的是黑色而不是白色,马克一号就给它分配一个高的权重,这意味着它将在数学计算中发挥更重要的作用,最终决定什么是一个 A,什么不是。当读取一张新卡片时,如果大部分高权重的点被涂成黑色,机器就可以识别出字母 A,仅此而已。这项技术还不够灵活,无法识别出不规则的手写字母。
尽管该系统存在明显的缺陷,罗森布拉特仍然对其未来持乐观态度。其他人也相信这项技术会在未来几年有所改善,并以更为复杂的方式学习更为复杂的任务。但它面临着一个重大的障碍:马文・明斯基(Marvin Minsky)。

弗兰克・罗森布拉特和马文・明斯基在同一时期就读于布朗克斯科学高中。

  • 1945 年,明斯基的父母让他去美国的模范预科学校安多弗菲利普斯读书。“二战” 结束之后,他进入了哈佛大学。但他抱怨说,这两所学校都比不上布朗克斯科学高中,那里的课程更具挑战性,学生们也更有野心。“你可以和他们讨论你最精巧的想法,没有人会对你居高临下。” 他说。

  • 25 罗森布拉特去世后,明斯基指出,他的老同学是那种走在科学殿堂里的创造性思想家。像罗森布拉特一样,明斯基是人工智能领域的先驱,但他是从不同的角度看待这个领域的。
    在哈佛大学读本科时,明斯基使用了 3 000 多根真空管和一架旧的 B——52 轰炸机上的几个零件,打造了一台他称之为 SNARC 的机器,这可能是第一个神经网络。26 然后,在 20 世纪 50 年代初读研究生时,他继续探索最终催生了感知机的数学概念,但开始在人工智能方面投入更大的精力。271956 年夏天,在达特茅斯学院的一次会议上,他是将人工智能作为自己研究领域的少数科学家之一。28 达特茅斯学院的一位名叫约翰・麦卡锡(John McCarthy)的教授建议更广泛的学术界探索一个他称之为 “自动机研究” 的领域,但这对其他人来说意义不大。29 因此,他将其改名为 “人工智能”,并在那年夏天与几位志同道合的学者和研究人员一起组织了一场会议。达特茅斯会议的议程包括 “神经元网络”,但也包括 “自动计算机”、“抽象概念” 和 “自我完善”。30 那些参加会议的人将在 20 世纪 60 年代引领这场运动,其中最著名的是麦卡锡,他最终将自己的研究带到了西海岸的斯坦福大学;还有赫伯特・西蒙(Herbert Simon)和艾伦・纽厄尔(Alan Newell),他们在匹兹堡的卡内基 —— 梅隆大学建立了一间实验室;以及明斯基,他就职于新英格兰地区的麻省理工学院。他们的目标是利用任何能够让自己实现梦想的技术来重新创造人类智能,他们确信这不会花太长时间,一些人认为,10 年内机器将会击败国际象棋世界冠军,并发现自己的数学定理。31 明斯基从小就秃顶,耳朵很大,笑容顽皮,他成了一位人工智能的布道者,但他的布道并没有延伸到神经网络领域。神经网络只是构建人工智能的一种方式,明斯基像他的很多同事一样,开始探索其他途径。到了 20 世纪 60 年代,随着注意力被其他技术吸引,他开始质疑,除了罗森布拉特在纽约北部实验室演示的简单任务之外,神经网络是否能够处理其他任何事情。
    还有更大的群体在反对罗森布拉特的想法,明斯基只是其中的一部分。正如罗森布拉特自己在 1962 年出版的《神经动力学原理》(Principles of Neurodynamics)一书中所写的,感知机在学术界是一个有争议的概念,他把大部分责任归于新闻界。32 罗森布拉特说,那些在 20 世纪 50 年代末报道他的工作的记者 “像一群快乐的猎犬,带着旺盛的精力和自行决定的自由去完成这项任务”33。他尤其抱怨一则俄克拉何马州的头条新闻,该新闻称,要激发人们对罗森布拉特严肃的科学研究工作的信心,还有很长的路要走。在华盛顿那件事发生 4 年之后,他收回了自己早期的说法,并坚持认为感知机不是在人工智能方面的尝试,至少不是像明斯基这样的研究人员所理解的人工智能。他写道:“感知机项目主要关注的不是发明‘人工智能’设备,而是研究‘自然智能’背后的物理结构和神经动力学原理。它的效用在于让我们能够确定各种心理特征出现的物理条件。”34 换句话说,他想了解人脑是如何工作的,而不是把一个新的大脑带到这个世界上。因为大脑是一个谜,他无法重新创造大脑。但是他相信,他可以用机器来探索这个谜,甚至可能解开这个谜。
    从一开始,人工智能与计算机科学、心理学和神经科学的界限就模糊不清,因为围绕着这种新技术,出现了各个学术阵营,每个阵营都按照自己的方式描绘技术的前景。一些心理学家、神经科学家甚至计算机科学家都以罗森布拉特的方式来看待机器:机器是大脑的映射。

    其他人却轻蔑地看待这个宏大的想法,认为计算机的运转与大脑的运转完全不一样,计算机如果要模仿智能,就必须用自己的方式来实现。但是,还没有一个人能接近打造所谓的人工智能的目标。尽管该领域的开创者们认为重建大脑的道路是一条捷径,实际上那却非常漫长。他们的 “原罪” 就是声称自己的领域为人工智能,这给几十年来的旁观者们留下了这样的印象:科学家们正处于重新创造大脑能力的边缘,而事实上,他们并没有。

  • 1966 年,几十名研究人员前往波多黎各,聚集在圣胡安的希尔顿酒店。35 他们聚在一起讨论当时被称为 “模式识别” 的技术的最新进展,这项技术可以识别图像中的图形和其他数据。罗森布拉特将感知机视为大脑的模型,而其他人将它视为模式识别的一种手段。在后来的几年里,一些评论家想象罗森布拉特与明斯基如何在各种学术会议上针锋相对,公开辩论感知机的未来,就像在圣胡安召开的会议上一样,但他们的竞争是含蓄的。罗森布拉特甚至没有去过波多黎各。在希尔顿酒店内,当一位名叫约翰・芒森(John Munson)的年轻科学家在会议上发言时,紧张的气氛出现了。芒森在斯坦福研究所工作,这间北加州的实验室在马克一号出现后就接受了罗森布拉特的想法。在实验室里,他与一支更大的研究团队一起,试图打造一个可以阅读手写字符而不仅仅是打印的字母的神经网络,他在会议上的演讲旨在展示这项研究的进展。但是,当芒森结束演讲并接受现场提问时,明斯基站了起来。“像你这样聪明的年轻人,怎么能把时间浪费在这种事情上呢?” 他问道。
    坐在观众席上的罗恩・斯旺格(Ron Swonger)感到很惊讶,他是马克一号的诞生地康奈尔航空实验室的一名工程师,明斯基的言论让他感到很愤怒,他质疑这次攻击是否与前面发表的演讲有关。明斯基并不关心手写字符的识别,他攻击的正是感知机这个想法。“这是一个没有未来的想法。” 他说。在会场上的理查德・杜达(Richard Duda)是尝试打造手写字符识别系统的团队成员之一,当明斯基对感知机反映大脑神经元网络的说法不以为然时,观众的笑声刺痛了杜达。这种表演是明斯基的典型做法,他喜欢激起公众的争议。他曾经对一整个会议室的物理学家说,人工智能领域在短短几年内取得的进步,比物理学在几个世纪内取得的进步还要多。但是杜达也认为,这位麻省理工学院的教授有实际的理由攻击斯坦福研究所和康奈尔航空实验室这些研究机构的工作:麻省理工学院在与这些实验室竞争同样的政府研究经费。在会议之后的环节,当另一名研究人员展示了一个用于创建计算机图形的新系统时,明斯基称赞了其独创性,并再次抨击了罗森布拉特的想法。“感知机能做到这个吗?” 他说。

会议结束后,明斯基和一位名叫西摩・佩珀特(Seymour Papert)的麻省理工学院同事出版了一本关于神经网络的书,他们将其命名为《感知机》(Perceptrons)36。很多人认为,在未来的 15 年里,这本书关闭了罗森布拉特的想法之门。明斯基和佩珀特用优雅的细节描述了感知机,这些细节在很多方面超越了罗森布拉特自己的描述。他们明白感知机能做什么,但他们也明白它的缺陷所在。他们表示,感知机无法处理数学家所谓的 “异或” 问题,这是一个深奥的概念,有着更大的含义。当在纸板上展示两个点时,感知机可以告诉你两个点是否都是黑色的,也可以告诉你它们是否都是白色的,但它无法回答一个简单的问题:“它们是两种不同的颜色吗?” 这表明,在某些情况下,感知机无法识别简单的图形,更不用说航拍照片中极其复杂的图形或识别口语单词了。有一些研究人员,包括罗森布拉特在内,已经在探索一种旨在修复这一缺陷的新型感知机。尽管如此,在明斯基的新书出版之后,政府资金转移到了其他技术领域,罗森布拉特的想法也从人们的视野中消失了。在明斯基的带领下,大多数研究人员接受了所谓的 “符号人工智能” 的概念。

弗兰克・罗森布拉特的目标是打造一个能够像大脑一样自主学习的系统。在后来的几年里,科学家称之为 “连接主义”,因为像大脑一样,它依赖于大量相互关联的计算。但是,罗森布拉特的系统比大脑简单得多,它只能在一些小的方面学习。像该领域其他领先的研究人员一样,明斯基认为,除非计算机科学家愿意放弃这一想法的限制,以一种完全不同且更直接的方式打造系统,否则他们很难重新创造智能。通过分析数据,神经网络可以自主学习,但符号人工智能做不到。

符号人工智能是按照人类工程师制定的非常特殊的指令运行的,这些离散的规则定义了在可能遇到的每种情况下,机器应该做的所有事情。他们称之为符号人工智能,是因为这些指令向机器展示了如何对特定的符号集合(如数字和字母)执行特定的操作。在接下来的 10 年里,这是主导人工智能研究的方向。该研究在 20 世纪 80 年代中期达到了野心勃勃的顶峰,当时有一个名为 Cyc 的项目,试图一次一个逻辑规则地重建常识。37 一个由计算机科学家组成的小组,总部设在得克萨斯州的奥斯汀,每天记录一些基本的真理,比如 “你不能同时出现在两个地方” 和 “当你喝咖啡时,你要让杯口朝上”。他们知道这需要几十年甚至几个世纪的时间。但是,像其他很多人一样,他们认为这是唯一的方法。
罗森布拉特试图将感知机的范围拓展到图像之外。回到康奈尔航空实验室,他和其他研究人员开发了一个用于识别口语词汇的系统,名叫 “托伯莫里”(Tobermory),这个名字源于一个英国短篇故事中的会说话的小猫,但此系统从未真正奏效过。到了 20 世纪 60 年代末,罗森布拉特转向了一个完全不同的研究领域,在老鼠身上进行大脑实验。38 在一组老鼠学会在迷宫中寻找出路之后,他会将它们的大脑物质注射给第二组老鼠,然后将第二组老鼠放进迷宫,看看它们的大脑是否吸收了第一组老鼠已学会的东西。结果没有定论。
1971 年夏天,在他 43 岁生日当天,罗森布拉特在切萨皮克湾的一次帆船事故中丧生。报纸上没有提及水面上发生了什么,但是,据他的一位同事说,他的帆船上带了两名以前从未出海航行的学生。帆船的吊杆在摆动时将罗森布拉特撞到了水里,但学生们不知道如何将船掉头。当他在海湾里溺亡时,船还在继续前进。

辛顿与人工智能的第一次寒冬#

 

旧的想法碰新概念的。#

20 世纪 80 年代中期的一个下午,大约 20 名学者聚集在波士顿郊外的一个古老的法国庄园式建筑里,这里是麻省理工学院教授和学生的静修所,马文・明斯基在这所大学仍然统治着国际人工智能研究员群体。这些学者坐在房间中央的一张大木桌旁,杰夫・辛顿绕着桌子踱步,递给现场每个人一份长长的、夸张的、满是数学公式的学术论文,其中描述了一个他称之为 “玻尔兹曼机” 的东西。这个以奥地利著名物理学家和哲学家名字命名的东西是一种新的神经网络,它克服了明斯基 15 年前指出的感知机的缺陷。明斯基取掉订书钉,在面前的桌子上把论文打印件一页一页依次展开,低头看着这一长串的论文页。辛顿走到房间的前面,发表了一场简短的演讲,解释他最新的数学创造。明斯基没有说话,只是看了看。然后,当演讲结束时,他站起身来走出房间,留下那些论文页整齐地排列在桌子上。
尽管神经网络的概念在明斯基的《感知机》一书中失宠,但在匹兹堡卡内基 —— 梅隆大学担任计算机科学教授的辛顿仍坚持这一信念,他与巴尔的摩约翰斯・霍普金斯大学的神经科学家特里・谢诺夫斯基(Terry Sejnowski)合作,开发出了玻尔兹曼机。他们是后来被当代人称为 “地下神经网络” 的一部分。人工智能运动的其余部分都集中在符号方法上,包括在得克萨斯州奥斯汀正在进行的 Cyc 项目。相比之下,辛顿和谢诺夫斯基认为,人工智能的未来仍然在于能够自主学习的系统。这场波士顿会议让他们有机会与更广泛的学术界分享他们的最新研究。
对辛顿来说,明斯基的反应是他的典型风格。辛顿第一次见到这位麻省理工学院的教授是在 5 年前,在他看来,这位教授非常好奇且富有创造力,但同时也有着奇怪的童真,而且有点儿不负责任。辛顿经常讲述明斯基教他如何制作 “完美的黑色”—— 一种完全没有颜色的颜色。明斯基解释说,用颜料不可能做出完美的黑色,因为颜料总是会反射光线。但是,你可以用排列成 V 形的几层剃须刀片来实现,这样光线就会进入 V 形结构,在刀片之间无休止地反射,永远不会逃脱出来。明斯基实际上并没有演示过这个技巧,辛顿也从未尝试过。这就是经典的明斯基的风格 —— 引人入胜,发人深省,但看似随意,且未经验证。这表明,他并非一直说那些自己相信的事情。当然,当谈到神经网络时,明斯基可能会抨击其严重不足之处,并且写了一本书,很多人认为这本书证明了神经网络是一条死胡同,但他的真实立场不一定如此明确。辛顿认为,明斯基是一名 “失落的神经网络追随者”,这种人曾经认同机器的行为像大脑中的神经元网络,但当这个想法没有达到他的期望时,他的幻想破灭了,但他仍然至少会对它实现预期抱有一些希望。在明斯基离开波士顿的那场演讲后,辛顿将他放置在桌子上的论文页收了起来,并把它们邮寄到明斯基的办公室,辛顿还留下了一个简短的便条,上面写着:“你可能是不小心把这些东西落下的。”

 
杰夫・辛顿出生于第二次世界大战刚结束时的英国温布尔登。他是 19 世纪英国数学家和哲学家乔治・布尔(George Boole)1 和 19 世纪书写美国历史的外科医生詹姆斯・辛顿(James Hinton)2 的玄孙,前者提出的 “布尔逻辑” 为每一台现代计算机提供了数学基础。他的曾祖父是数学家兼奇幻作家查尔斯・霍华德・辛顿(Charles Howard Hinton)3,他提出的 “第四维度” 的概念,包括他所谓的 “宇宙魔方”,贯穿了随后 130 年的流行科幻小说,并在 21 世纪的第一个十年的漫威超级英雄电影中达到了流行文化的顶峰。他的叔祖父塞巴斯蒂安・辛顿(Sebastian Hinton)4 发明了攀爬架。他的堂姐、核物理学家琼安・辛顿(Joan Hinton)5 是曼哈顿计划中为数不多的女性成员之一。在伦敦和后来的布里斯托,伴随他一起长大的是三个兄弟姐妹、一只猫鼬、十几只中国龟,还有生活在车库后面土坑里的两条毒蛇。他的父亲是英国皇家学会会员、昆虫学家霍华德・埃佛勒斯・辛顿(Howard Everest Hinton)6,他对野生动物的兴趣超越了昆虫的范畴。和他的父亲一样,他的中间名也源于另一位亲戚乔治・埃佛勒斯爵士(Sir George Everest)7,一位印度的测绘总长,其名字取自世界最高的山峰。大家都期望有一天,杰夫・辛顿会跟随父亲的脚步进入学术界,尽管不太清楚他将来会研究什么。
他想研究大脑。他经常说,他的兴趣是在十几岁的时候被激发出来的,当时一位朋友告诉他,大脑像全息图一样工作,通过神经元网络存储记忆的片段,就像全息图在一段胶片上存储三维图像的片段一样。这是一个简单的类比,但这个想法吸引了他。作为剑桥大学国王学院的本科生,他想要更好地了解大脑。他很快就意识到,问题在于没有人对大脑的了解比他多多少。科学家了解大脑的某些部分,但他们对所有这些部分如何结合在一起,并最终提供视觉、听觉、记忆、学习和思考的能力知之甚少。辛顿尝试去研究生理学和化学、物理学和心理学,但没有人能提供他想要的答案。他攻读了物理学学位,但辍学了,因为他认为自己的数学能力不够强,于是他转而去攻读哲学。之后他放弃了哲学,选择了实验心理学。最终,尽管承担着继续学业的压力,或者可能是来自父亲的压力,但辛顿完全离开了学术界。当他还是个孩子的时候,他就认为自己的父亲是一位不妥协的知识分子,也是一个力量巨大的人 —— 一位英国皇家学会的会员,能用一只胳膊做引体向上。“只要工作得足够努力,也许当你的年纪是我现在年龄的两倍时,你就能实现我一半的成就了。” 他的父亲经常对他这么说,但没有讽刺的意味。从剑桥大学毕业后,辛顿心中总是萦绕着父亲的看法,于是他搬到了伦敦,成了一名木匠。他说:“我不是做一些花哨的木工活儿,而是以木工为生。”
那一年,他读了加拿大心理学家唐纳德・赫布(Donald Hebb)的《行为组织》(The Organization of Behavior)一书,这本书解释了让大脑进行学习的基本生物过程。8 赫布认为,学习是沿着一系列神经元发射微小电信号的结果,这些电信号引起了物理变化,以一种新的方式将这些神经元连接在一起。正如他的追随者所说的那样:“神经元一起发射,并连接在一起。” 这一理论被称为 “赫布定律”,它激发了弗兰克・罗森布拉特等科学家在 20 世纪 50 年代开发出了人工神经网络,9 也激发了杰夫・辛顿。每周六,辛顿都会带着一个笔记本去伦敦北部伊斯灵顿的公共图书馆,用一上午的时间在赫布提出的想法的基础上,将自己关于大脑应该如何工作的想法写在笔记本上。他在周六上午记录下来的这些潦草的内容,除了对他自己有意义之外,对谁都没有意义,但它们最终将他带回了学术界。这些内容恰好与英国政府对人工智能的第一波大投资和爱丁堡大学研究生项目的兴起相吻合。
在这些年里,一个冰冷的现实是,神经科学家和心理学家对大脑的工作原理知之甚少,而计算机科学家根本无法模仿大脑的行为。但就像辛顿之前的弗兰克・罗森布拉特一样,辛顿开始相信,生物和人工双方都可以帮助对方前进。他将人工智能视为测试他所提出的关于大脑如何工作的理论的一种方式,并希望最终理解其奥秘。他如果能理解这些奥秘,就能反过来打造更为强大的人工智能。在伦敦做了一年木匠之后,他在父亲任教的布里斯托大学接受了一份心理学方面的短期工作,并以此为跳板进入爱丁堡大学的人工智能项目。几年后,一位同事在一次学术会议上介绍他时,说他物理不及格,还从心理学专业退学,然后进入了一个完全没有标准的领域:人工智能。这是辛顿常常重复讲述的一个故事,但有一个附加说明。他会说:“我并非物理不及格,也不是从心理学专业退学。我是心理学不及格,从物理专业退学 —— 这样讲更有利于维护声誉。”
在爱丁堡大学,他在一间实验室里赢得了一个学习机会,这间实验室由研究员克里斯托弗・朗吉特 —— 希金斯(Christopher Longuet-Higgins)负责。朗吉特 —— 希金斯曾是剑桥大学的理论化学家,也是该领域的后起之秀,但在 20 世纪 60 年代末,他被人工智能的理念吸引了。10 因此,他离开剑桥前往爱丁堡,并接受了一种与支撑感知机的方法相同的人工智能。他提出的连接主义方法与辛顿在伊斯灵顿图书馆记录在笔记本中的理论相吻合。但这种智识上的和谐转瞬即逝,在辛顿接受实验室的职位但还未到岗时,朗吉特 —— 希金斯又改变了主意。在阅读了明斯基和佩珀特关于感知机的书,以及明斯基在麻省理工学院的一名学生关于自然语言系统的一篇论文之后,他放弃了类似大脑的架构,并转向了符号人工智能 —— 这也是整个领域发生转变的体现。这意味着,辛顿在研究生期间的研究领域不仅被他的同事忽视,也被他自己的导师忽视。辛顿说:“我们每周见一次面,有时会以一场大喊大叫的争论结束。”
辛顿在计算机科学方面几乎没有经验,他对数学也不感兴趣,包括驱动神经网络的线性代数。他有时会实践自己所谓的 “基于信仰的差异化”。他会想出一个创意,包括支撑的微分方程,并直接假设数学相关的部分是正确的,而让其他人去辛苦完成所需的计算,以确保它确实是正确的,或者在绝对必要的时候自己来求解方程。但是,对于大脑如何工作以及机器如何模仿大脑,他有着明确的信念。当他告诉这个领域的任何人他正在研究神经网络时,他们不可避免地会提到明斯基和佩珀特。“神经网络已经被证明是错误的,” 他们会说,“你应该做点儿别的研究。” 但是,尽管明斯基和佩珀特的书将大多数研究人员推离了连接主义,但它拉近了连接主义与辛顿的距离。他在爱丁堡大学的第一年就读了那本书。他觉得明斯基和佩珀特描述的感知机几乎是对罗森布拉特工作的讽刺漫画。他们从未完全认识到,罗森布拉特在技术中也看到了他们所看到的缺陷,而他们描述这些不足的诀窍,是罗森布拉特所缺少的,也许正因为如此,他才不知道如何解决这些问题。他不会因为无法证明自己的理论而放慢脚步。辛顿认为,对于具有超越罗森布拉特的复杂性的神经网络,通过精确定位其局限性,明斯基和佩珀特最终使解决这些问题变得更加容易。
但这还需要 10 年的时间。

 
辛顿进入爱丁堡大学的那一年,即 1971 年,英国政府进行了一项关于人工智能进展的研究。11 事实证明,这非常糟糕。“大多数人工智能研究和相关领域的工作人员承认,他们对过去 25 年取得的成就感到非常失望,” 报告称,“迄今为止,在该领域的任何地方取得的成果,都没有实现它当初承诺的重大影响。”12 因此,政府对该领域的资金投入被削减,该领域迎来了研究人员后来所说的 “人工智能的寒冬”。此时,建立在高姿态人工智能概念背后的大肆宣传与该领域有限的技术进步之间产生了冲突,这导致相关政府官员开始缩减额外投资,进一步放缓了研究的进展。可以与此类比的是核冬天,即核战之后,烟尘覆盖天空,连续多年阻挡阳光。到辛顿完成其论文时,他的研究已经处于一个不断缩小的领域的边缘。后来他的父亲去世了。“这个老家伙在我取得成功之前就死了,” 辛顿说,“不仅如此,他还得了一种具有高度遗传性的癌症。他做的最后一件事情,就是增加我的死亡概率。”
完成论文之后,随着人工智能的寒冬越来越冷,辛顿艰难地寻找工作。只有一所大学给他提供了面试机会。他别无选择,只能放眼国外,包括美国。美国的人工智能研究也在减少,因为美国的政府机构也得出了与英国相同的结论,减少了对大型大学的资助。但是,在加利福尼亚州的南部,令他非常惊讶的是,他发现了一小群与他相信同样想法的人。
他们被称为 PDP 小组。PDP 是 “并行分布式处理”(parallel distributed processing)的缩写,是 “感知机”、“神经网络” 或 “连接主义” 的另一种说法。这也算是一个双关语。在 20 世纪 70 年代末的那些年,PDP 是一种计算机芯片,被用在一些产业上最强大的机器上。但是,PDP 小组的学者不是计算机科学家,他们甚至不认为自己是人工智能研究人员。这个小组里有加州大学圣迭戈分校心理学系的几位学者,以及至少一位神经科学家 —— 来自街对面的生物研究中心索尔克研究所的弗朗西斯・克里克(Francis Crick)。在将注意力转向大脑之前,克里克因为发现了 DNA(脱氧核糖核酸)分子结构而获得了诺贝尔奖。1979 年秋天,他在《科学美国人》杂志上发表了一篇呼吁文章,竭力建议更大范围的科学界至少应该尝试理解大脑是如何工作的。13 辛顿当时正在大学从事博士后研究,他经历了一种学术文化冲击。在英国,学术界秉持一种知识上的单一文化;在美国,学术界的格局足够丰富,可以容纳一些不同意见。“这里的学术界可能会有不同的观点,” 辛顿说,“但这些观点都可以存在。” 在这里,如果他告诉其他研究人员他正在研究神经网络,他们会听。
从弗兰克・罗森布拉特到南加州正在进行的研究,这两者之间有一条直线。20 世纪 60 年代,罗森布拉特和其他科学家希望开发一种新的神经网络,一个跨越多层神经元的系统。在 20 世纪 80 年代初,这也是加州大学圣迭戈分校的希望。感知机是一个单层网络,这意味着在网络接收的东西(印在纸板上方格内的大写字母的图像)和输出的东西(它在图像中找到的 A)之间只有一层神经元。但是罗森布拉特认为,如果研究人员能够建立一个多层的网络,每一层都向下一层提供信息,这个系统就可以学习感知机无法学习的复杂图形。换句话说,一个更像大脑的系统就会出现。当感知机分析印有字母 A 的卡片时,每个神经元检查卡片上的一个点,并判断这个特定的点是否属于定义字母 A 的三条黑线的典型组成部分。但是对多层网络来说,这只是一个起点。给这个更复杂的系统一张照片,比如一只小狗的照片,随后它会开启一个更为复杂的分析过程。第一层神经元会检查每个像素:它是黑色还是白色,棕色还是黄色?然后,第一层会把学到的东西输入第二层,这一层的另一组神经元将在这些像素中寻找图形,比如一小条直线或一小条弧线。第三层将在图形中寻找图像。它可能会把几条线拼在一起,找到一只耳朵或一颗牙齿的图像,或者把这些微小的弧线组合起来,找到一只眼睛或一个鼻孔的图像。最终,这个多层的网络可以拼出一只小狗的图像。这至少是个想法,实际上,当时还没有人实现。他们在圣迭戈正在为此努力。
加州大学圣迭戈分校的一位名叫戴维・鲁梅尔哈特(David Rumelhart)的教授是 PDP 小组的主要人物之一,他拥有心理学和数学学位。当被问及鲁梅尔哈特时,辛顿常常回忆他们被迫听双方都毫无兴趣的一场讲座的时光。讲座结束时,辛顿抱怨说他刚刚浪费了一个小时的生命,鲁梅尔哈特说他并不介意。鲁梅尔哈特说,如果可以忽略台上的讲座,他就有 60 分钟不间断的时间来思考自己的研究了。对辛顿来说,这就是他长期合作者的缩影。
鲁梅尔哈特给自己设定了一个非常特殊但又核心的挑战。要打造一个多层的神经网络,其中的一个大问题是,你很难确定每个神经元对整体计算的相对重要性(权重)。对于感知机这样的单层网络,这至少是可行的:系统可以自动设置其单层神经元的权重。但是对于多层网络,这种方法根本行不通。神经元之间的关系过于广泛和复杂。改变一个神经元的权重,就意味着要改变其他所有依赖于其行为的神经元。人们需要一种更强大的数学方法,将每个权重的设定与其他所有权重结合起来。鲁梅尔哈特认为,答案是一个叫 “反向传播”(backpropation)的过程。这本质上是一种基于微分的算法,当神经元能够分析更多数据并更好地理解每个权重是什么的时候,它就会发送一种数学反馈,沿着神经元的层次结构向下传递。
辛顿刚拿到博士学位并到达圣迭戈时,他们讨论了这个想法,他告诉鲁梅尔哈特,这个数学把戏永远不会成功。他说,毕竟,设计感知机的弗兰克・罗森布拉特已经证明了它永远不会有效。如果你打造了一个神经网络,并将所有的权重设置为零,系统就可以学会自己调整权重,将变动往下串联多层。但最终,每一个权重都会和其他权重一样落在同一个地方。无论你如何努力地让系统采用相对权重,它的自然趋势都是不断校平。正如弗兰克・罗森布拉特所展示的,这只是数学的运行方式。用数学术语来说,这个系统无法 “打破对称性”。一个神经元永远不会比其他任何神经元更重要,这是一个问题。这意味着这个神经网络并不比感知机好多少。
鲁梅尔哈特听取了辛顿的反对意见,然后提了一个建议。“如果没有将权重设置为零呢?” 他问道,“如果数字是随机的呢?” 他建议,如果在开始时将所有的权重设置为不同的数值,那么数学的运行情况会有差异,不会将所有的权重校平。它会找到对应的权重,让系统真正识别出复杂的图形,比如一张小狗的照片。
辛顿常常说 “旧的想法也是新的”,他认为科学家永远不应该放弃一个想法,除非有人证明了它行不通。20 年前,罗森布拉特已经证明了反向传播是行不通的,所以辛顿放弃了。然后,鲁梅尔哈特提出了这个小建议。在接下来的几个星期里,他们两人开始着手打造一个从随机权重开始的系统,这个系统可能会打破对称性。它给每个神经元分配不同的权重,通过设置这些权重,系统实际上可以识别图像中的图形。这些都是简单的图像,该系统无法识别狗、猫或汽车,但由于反向传播,它现在可以处理被称为 “异或” 的事情了,这弥补了 10 多年前马文・明斯基所指出的神经网络的缺陷。系统可以检查一张纸板上的两个点,并回答那个难懂的问题:“它们是两种不同的颜色吗?” 但他们的系统也仅限于此,他们再次将这个想法搁置一边。然而,他们找到了绕过罗森布拉特的证明的方法。
在随后的几年里,辛顿与特里・谢诺夫斯基建立了单独的合作关系,后者当时是普林斯顿大学生物系的博士后。他们通过第二个(未命名的)连接主义者小组会面,这个小组每年在全美各地召开一次会议,讨论的很多话题与在圣迭戈讨论的相同,反向传播就是其中之一,玻尔兹曼机也是。多年之后,当有人让辛顿给那些对数学或科学知之甚少的普通人解释玻尔兹曼机时,他拒绝了。他说,这就像让诺贝尔奖得主、物理学家理查德・费曼(Richard Feynman)解释他在量子电动力学方面的工作。当任何人要求费曼用外行人能理解的语言解释他赢得诺贝尔奖的工作时,他都会拒绝。14 他会说:“如果我能向普通人解释,那它就不值得赢得诺贝尔奖了。” 玻尔兹曼机当然也很难解释,部分原因在于,它是一个数学系统,基于奥地利物理学家路德维希・玻尔兹曼(Ludwig Boltzmann)的一条百年理论,涉及一个似乎与人工智能完全无关的现象(加热气体中粒子的平衡)。但其目标很简单,它是一种打造更好的神经网络的方式。
和感知机一样,玻尔兹曼机通过分析数据,包括声音和图像数据来学习。但它增加了一个新的变化,就是会创造自己的声音和图像,然后通过对比自己创造的数据与分析的数据,来进行学习。这有点儿像人类的思维方式,因为人类可以想象图像、声音和文字。人们会做梦,夜晚和白天都会,然后在现实世界中运用这些想法和幻象。借助玻尔兹曼机,辛顿和谢诺夫斯基希望用数字技术重新创造这一人类现象。“这是我一生之中最激动人心的时刻,” 谢诺夫斯基说,“我们确信我们已经弄清楚了大脑是如何工作的。” 但是,与反向传播一样,玻尔兹曼机也是一项正在进行中的研究,它没有做任何有用的事情。多年来,它也徘徊在学术界的边缘。
辛顿对各种不受欢迎的想法都抱有宗教般的信仰,这可能让他脱离了主流,但也确实给他带来了一份新工作。一位名叫斯科特・法尔曼(Scott Fahlman)的卡内基 —— 梅隆大学教授与辛顿和谢诺夫斯基一起参加了年度连接主义者大会,法尔曼开始认识到,招募辛顿可以成为该大学对冲其在人工智能领域押注的一种方式。与麻省理工学院、斯坦福大学和世界上大多数其他实验室一样,卡内基 —— 梅隆大学专注于符号人工智能研究。法尔曼认为,神经网络是一个 “疯狂的想法”,但他也承认大学里正在开发的其他想法可能同样疯狂。1981 年,在法尔曼的保荐下,辛顿去卡内基 —— 梅隆大学面试了,他做了两场讲座:一场在心理学系,一场在计算机科学系。他的讲座就像一条信息的消防水带,信息极度密集,他根本没有给不熟悉该领域的人多少停顿的时间,因为他在讲每句话时都挥动手臂,将双手分开,然后在表明自己的观点时又将双手合在一起。他在讲座中并没有强调数学或计算机科学,仅仅是因为他对数学或计算机科学没那么感兴趣。他更多的是强调想法,那些有兴趣并且能够跟上他思路的人感到莫名地兴奋。那一天,他的讲座引起了人工智能运动的开创者之一艾伦・纽厄尔的注意,纽厄尔是数十年来推动符号方法的领军人物,是卡内基 —— 梅隆大学计算机科学系主任。第二天下午,纽厄尔给了辛顿一份该系的工作,但辛顿在接受之前推辞了一下。
“有些事你应该知道。” 辛顿说。
“什么事?” 纽厄尔问。
“实际上,我对计算机科学一无所知。”
“没事。我们这里有人懂这个。”
“既然如此,我接受这份工作。”
“工资呢?” 纽厄尔问。
“哦,我不在乎,” 辛顿说,“我做这些不是为了钱。”
后来,辛顿发现他的工资仅仅是同事工资的大约 3/4(2.6 万美元对 3.5 万美元),但他为自己的非正统研究找到了归宿。他继续研究玻尔兹曼机,还经常在周末开车去巴尔的摩,这样他就可以与约翰斯・霍普金斯大学实验室里的谢诺夫斯基合作了。在此过程中,他还开始完善反向传播的研究,认为它会产生有用的比较。他觉得自己需要一些可以与玻尔兹曼机做对比的东西,而反向传播就是不错的选择。在卡内基 —— 梅隆大学,他不仅有机会探索这两个项目,还能使用更好、更快的计算机硬件。这推动了研究工作向前发展,使这些数学系统能够从更多的数据中学到更多的东西。1985 年,也就是他在波士顿向明斯基演讲的一年之后,突破性工作出现了。但产生突破的不是玻尔兹曼机,而是反向传播。
在加州大学圣迭戈分校,辛顿和鲁梅尔哈特证明了多层神经网络可以调整自身的权重。然后,在卡内基 —— 梅隆大学,辛顿证明了这个神经网络实际上可以做的事情不仅仅是给数学家留下深刻的印象。当他输入家谱的碎片信息时,它可以学会识别家庭成员之间的各种关系,这项小技能表明它能够做到更多。如果他告诉这个神经网络,约翰的母亲是维多利亚,维多利亚的丈夫是比尔,它就可以推断出比尔是约翰的父亲。辛顿不知道的是,在完全独立的领域,其他人已经设计出了类似于反向传播的数学技术。但与之前的人不同的是,辛顿展示出的这种数学想法具有前景,它不仅可以用于图像,还可以用于文字。它也比其他人工智能技术更有潜力,因为它可以自己学习。
第二年,辛顿与一位名叫罗莎琳德・扎林(Rosalind Zalin)的英国学者结婚了,这是他在英国萨塞克斯大学做博士后研究时认识的一位分子生物学家。她相信顺势疗法,这将成为他们两人关系紧张的根源。“对一位分子生物学家来说,相信顺势疗法是不光彩的。所以,生活很艰难,” 辛顿说,“我们不得不达成一致,不谈论这个。” 她是一名坚定的社会主义者,不喜欢匹兹堡或罗纳德・里根的美国政治。但对辛顿来说,在这段时期,他自己的研究富有成果。婚礼当天早上,他消失了半个小时,给世界领先的科学期刊《自然》的编辑寄去了一个包裹。包裹里有一篇描述反向传播的研究论文,作者是鲁梅尔哈特和一位名叫罗纳德・威廉姆斯(Ronald Williams)的美国东北大学教授。这篇论文在当年年底发表了。15
这是被整个世界忽视的那种学术时刻,但在这篇论文发表之后,神经网络进入了一个乐观和进步的新时代。随着该领域走出第一个漫长的寒冬,并乘着更大的人工智能投资的浪潮前进,研究人员所说的反向传播不再仅仅是一个想法了。
第一次实际应用发生在 1987 年。卡内基 —— 梅隆人工智能实验室的研究人员正试图制造一种可以自动驾驶的卡车。他们以一辆形似救护车的宝蓝色雪佛兰汽车为基础,在车顶安装了一个手提箱大小的摄像机,并在后备厢里装上了当时被称为 “超级计算机” 的东西 —— 这种机器处理数据的速度比当时典型的商用计算机快 100 倍。整体的思路是,这台包括几块电路板、一些电线和硅芯片的机器,将读取车顶摄像头传来的图像,并决定卡车在前方道路上应该如何行驶。但这需要一些努力。几名研究生正在为所有的驾驶行为人工编写代码,一次一行软件代码,为卡车在道路上遇到的各种情况编写详细的指令。这是一项徒劳的工作。到了那年秋天,也就是该项目启动几年之后,这辆车的速度只有每秒几英寸 [1]。
然后,在 1987 年,一位名叫迪安・波默洛(Dean Pomerleau)的一年级博士生将所有的代码丢到一边,用鲁梅尔哈特和辛顿提出的想法重建了软件。
他称自己的系统为 ALVINN。两个 N 代表 “神经网络”。在他完成后,卡车能以一种全新的方式运行了,它可以通过观察人类如何在道路上行进来学习行驶。当波默洛和他的同事驾驶卡车穿过匹兹堡的申利公园,沿着沥青自行车道蜿蜒前行时,卡车利用车顶摄像头拍摄的图像来跟踪司机们在做什么。正如弗兰克・罗森布拉特的感知机可以通过分析纸板上的方格来学习识别字母一样,这辆卡车可以通过分析人类如何处理道路上的每个转弯来学习行驶。很快,它就独自在申利公园行驶了。起初,这辆加大马力的宝蓝色雪佛兰汽车载着几百斤的计算机硬件和电气设备,以每小时 9~10 英里或更慢的速度行驶。但随着它继续与波默洛和其他研究人员一起学习,在更高的速度下分析更多道路上的更多图像,它继续得到改进。美国中产阶级家庭往往在他们的车窗上贴着 “车上有婴儿” 或 “车上有奶奶” 的标志,于是波默洛和他的研究伙伴给 ALVINN 贴上了一个写着 “车上没有人” 的标志。这是真的,至少在精神上如此。1991 年一个星期天的清晨,ALVINN 以接近 60 英里的时速从匹兹堡开到宾夕法尼亚州的伊利市。在明斯基和佩珀特的《感知机》一书出版 20 多年后,ALVINN 做到了他们说神经网络做不到的事情。
辛顿没有去现场见证。1987 年,也就是波默洛来到卡内基 —— 梅隆大学的那一年,辛顿和妻子离开美国,前往加拿大。他愿意说的理由是罗纳德・里根。在美国,人工智能研究的大部分经费来自军事和情报组织,其中最著名的是美国国防部高级研究计划局(DARPA),这是美国国防部中专门研究新兴技术的部门。它创建于 1958 年,是为了回应苏联发射人造卫星而设立的,从人工智能最早的时候起,它就一直资助该领域的研究。16 这是在《感知机》一书出版后,明斯基从罗森布拉特和其他连接主义者那里撤出的赞助资金的主要来源,它也资助了波默洛对 ALVINN 的研究。但在当时的美国政治环境中,围绕着伊朗门事件的争议频发,里根政府官员秘密向伊朗出售武器,以资助反对尼加拉瓜社会主义政府的行动。17 辛顿逐渐对依赖美国国防部高级研究计划局的资金感到不满,同时他的妻子怂恿他搬到加拿大,她说自己不能继续在美国生活了。在神经网络研究复兴的高峰时期,辛顿离开了卡内基 —— 梅隆大学,到多伦多大学担任教授。
在这次搬家几年之后,当辛顿大费周章地为自己的研究寻找新的资金时,他怀疑自己是否做出了正确的决定。
“我本应该去伯克利的。” 他对妻子说。
“伯克利?” 他的妻子说,“我愿意去伯克利。”
“但你说过你不会住在美国。”
“那不是美国,是加州。”
但是,他们已经做出了决定,他到了多伦多。这次搬家改变了人工智能的未来,更不用说地缘政治的格局了。

连接主义的圈子
 
我一直认为我绝对是正确的。
杨立昆坐在台式电脑前,穿着一件白衬衣,外面套着深蓝色的毛衣。1 那是 1989 年,当时台式电脑仍然靠电线连接着微波炉大小的显示器,并配有旋钮来调节屏幕颜色和亮度。另一根电线从这台机器的后部延伸到一个看起来像是倒挂的台灯的东西,但那不是台灯,而是一部摄像机。左撇子杨立昆会心一笑,用左手拿起一张纸条,上面有个手写的电话号码 201—949—4038,他把纸条放到摄像机下面。这时,纸条的影像出现在了显示器屏幕上。当他敲击键盘时,屏幕顶部出现了一道闪光,这是一个快速计算的提示,几秒之后,机器读取了纸条上的内容,并以数字化的形式显示出相同的数字:201—949—4038。
这就是 LeNet,一个由杨立昆创建的系统,该系统最终以他的名字命名。上面所说的这个电话号码可以接通他在新泽西州霍尔姆德尔的贝尔实验室研究中心办公室。这间实验室看起来就像一个新未来主义的镜像盒子,是一栋由芬兰裔美国建筑师埃罗・萨里宁(Eero Saarinen)设计的建筑物,实验室里有几十名研究人员在电信巨头 —— 美国电话电报公司(AT & T)的支持下探索新的想法。贝尔实验室可能是世界上最著名的研究机构,负责研究晶体管、激光、Unix(尤内克斯)计算机操作系统和 C 语言(编程语言)。那时,长着一张娃娃脸的来自巴黎的 29 岁的计算机科学家和电气工程师杨立昆正在开发一种新的图像识别系统,该系统基于杰夫・辛顿和戴维・鲁梅尔哈特几年前提出的想法。LeNet 通过分析美国邮政服务部门无法投递的信件信封上潦草的字迹,学会了识别手写数字。当杨立昆将信封的图像输入神经网络时,神经网络对图中的每个数字都进行了数以千计的实例分析 —— 从 0 到 9,经过大约两周的训练后,它可以自行识别每个数字了。
在霍尔姆德尔的贝尔实验室大楼里,杨立昆坐在台式电脑前,多用了几组数字来重复测试这个技巧。最后一组数字的图像看起来像是小学艺术项目:4 有正常情形的两倍宽,6 由一系列的圆圈构成,2 则由一堆直线组成。但是,机器将它们全都读出来了,而且读得很正确。尽管学习识别电话号码或邮政编码这种简单的任务就需要几周的时间,但杨立昆认为,随着越来越强大的计算机硬件加速其训练过程,这项技术将会继续改进,并且可以使用更短的时间从更多的数据中学习。他认为,沿着这条道路,机器几乎可以识别任何被摄像机捕获其图像的东西,包括狗、猫、汽车,甚至人脸。与 40 年前的弗兰克・罗森布拉特一样,他也相信,随着这种研究的继续,机器会像人类一样学会听和说,甚至可能学会推理,但他没有明说。他说:“我们那时就在思考这个,但没有真正说出来。” 这么多年来,研究人员一直声称人工智能近在咫尺,但实际不然,研究界的规范已经发生了变化。如果你声称找到了一条通往智能的道路,那么你并不会得到重视。“除非你有证据证明自己的说法是正确的,否则你不该做出这样的声明,” 杨立昆说,“你开发了系统,它奏效了,你就可以说‘看,这就是基于这个数据集的结果’。但即便如此,也没有人相信你。即使你真的有证据,并且展示了它是有效的,也没有人会相信你。”

 
1975 年 10 月,在巴黎北部的一座中世纪修道院 —— 罗亚蒙修道院里,美国语言学家诺姆・乔姆斯基(Noam Chomsky)和瑞士心理学家让・皮亚杰(Jean Piaget)就学习的本质展开了辩论。25 年后,一本论文集解构了这场影响广泛的辩论,杨立昆作为一名年轻的工科学生阅读了这些论文。顺便说一句,这本书有 89 页的篇幅提到了感知机,称它是一种 “能够通过定期接触原始数据的方式形成简单假设” 的设备,杨立昆被吸引住了,立刻迷上了机器可以学习的想法。他认为,学习与智能密不可分。“任何有大脑的动物都可以学习。” 他经常说。
当时,很少有研究人员关注神经网络,但那些关注神经网络的研究人员认为,神经网络不是人工智能,而是另一种形式的模式识别,杨立昆在法国高等电气与电子工程学院(ESIEE)读本科时就开始研究这个想法了。他研究的大部分论文都是日本研究人员用英语写的,因为日本是少数几个仍在进行这项研究的地方之一。然后,他发现了北美的研究活动。1985 年,杨立昆参加了在巴黎举办的一次会议,该会议专门探索计算机科学领域的创新和不同寻常的方法。辛顿也参加了会议,并做了一场关于玻尔兹曼机的演讲。当他的演讲结束时,杨立昆跟着他走出会场,确信他是世界上少数持有相同信仰的人之一。在混乱的人群中,杨立昆无法接近他,但随后辛顿转向另一个人问道:“你认识一个叫杨立昆的人吗?” 后来大家才知道,辛顿是从特里・谢诺夫斯基那里听说了这名年轻的工科学生的,而谢诺夫斯基是玻尔兹曼机背后的另一位研究人员,几周前他在一场研讨会上遇到过杨立昆。这个名字其实辛顿已经忘了,他只是在会议手册中看到了杨立昆的研究论文标题,他想,谢诺夫斯基所说的一定是这个人。

第二天,两人在当地的一家北非餐厅共进午餐。尽管辛顿几乎不懂法语,杨立昆也只懂一点儿英语,但他们在一起吃着粗麦粉,讨论着连接主义的变幻无常,交流起来并没有什么困难。杨立昆觉得辛顿好像是在补充他要说的话。“我发现,我们说的是相同的‘语言’。” 他说。两年后,杨立昆完成了自己的博士论文,他在论文中探索的是一种类似于反向传播的技术。辛顿看到后立刻飞往巴黎,加入了论文委员会,尽管他仍然几乎不懂法语。通常,在阅读研究论文时,他会跳过数学的内容,直接阅读文本部分。而对于杨立昆的论文,他别无选择,只能跳过文本,阅读数学部分。关于论文的答辩,双方同意辛顿用英语提问,杨立昆用法语回答。效果非常好,只是辛顿听不懂答案。
在漫长的寒冬过后,神经网络开始从寒冷中复苏。迪安・波默洛还在卡内基 —— 梅隆大学研究他的自动驾驶汽车。与此同时,谢诺夫斯基正在使用一种他叫作 “NETtalk” 的东西兴风作浪。3 他使用一种可以产生合成声音的硬件设备打造了一个可以学习大声朗读的神经网络。这个设备有点儿像英国物理学家霍金在神经退行性疾病夺走他的声音后所使用的机器人语音盒。当这个神经网络分析满是英语单词及匹配音素(即每个字母如何发音)的儿童书籍时,它可以自行读出单词。它可以学会 “gh” 的发音何时像 “f”(比如在 “enough” 中)以及 “ti” 的发音何时像 “sh”(比如在 “nation” 中)。当他在会议上演讲时,谢诺夫斯基会播放一段记录各个阶段设备训练情况的录音。起初,它像婴儿一样咿呀学语。过了半天,它开始读出可辨别的单词。一周之后,它就可以大声朗读了。他的系统展示了神经网络的功能和工作原理。当谢诺夫斯基将这一成果带到一系列学术会议上,以及在《今日秀》节目上与数百万名电视观众分享这一成就时,它激发了大西洋两岸的连接主义研究。

在获得博士学位后,杨立昆跟随辛顿到多伦多大学做了一年的博士后研究。他从法国带了两只手提箱:一只装着衣服,另一只装着他的个人电脑。虽然这两个人相处得很好,但他们的兴趣不尽相同。辛顿的动力主要在于一种理解大脑的需要,而训练有素的电气工程师杨立昆还对计算机硬件、神经网络中的数学以及打造广义上的人工智能感兴趣。杨立昆的事业受到了乔姆斯基和皮亚杰辩论的启发,也受到了导演斯坦利・库布里克(Stanley Kubrick)在《2001:太空漫游》中所展现的 Hal9000(人工智能电脑)及其他未来机器的启发,这部电影是他 9 岁时在巴黎剧院观看的 70 毫米宽银幕全景电影。40 多年后,当他打造一间世界领先的企业实验室时,他将装裱好的电影剧照挂在墙上。在他的职业生涯中,当他探索神经网络和其他算法技术时,他还设计了计算机芯片和越野自动驾驶汽车。“我尽我所能。” 他说。他体现的是人工智能的方式,人工智能是一种学术追求,与其说它是一门正式的科学,不如说它是一种态度,它融合了众多不同形式的研究,将它们全部拉入一项通常过于雄心勃勃的奋斗之中,即打造出行为类似人类的机器。即便只是模仿人类智能的一小部分,就像辛顿想要做的那样,也是一项艰巨的任务。将智能应用于汽车、飞机和机器人则会更加困难。但杨立昆比后来脱颖而出的其他很多研究人员更实际、更踏实。在未来的几十年里,关于神经网络最终是否有用,会存在一些质疑的声音。然后,一旦神经网络的力量显现,一些人又会质疑人工智能是否会毁灭人类。杨立昆觉得这两个问题都很可笑,无论是在私下还是在公开场合,他从来都直言不讳。就像几十年后,他在获得图灵奖(计算机领域的诺贝尔奖)当晚的一段视频中所说的那样:“我一直认为我绝对是正确的。” 他相信,神经网络是一条路径,通向的是非常真实和非常有用的技术。他就是这样说的。
他取得的突破是一种在视觉皮质上建模的神经网络的变体,而视觉皮质就是大脑中处理视觉的部分。4 受到日本计算机科学家福岛邦彦(Kunihiko Fukushima)工作的启发,杨立昆把它叫作 “卷积神经网络”。就像视觉皮质的不同部分处理眼睛捕捉的不同部分的光一样,卷积神经网络将图像切割成众多方块,并分别分析每一个方块,在这些方块中找到小图案,并在信息通过其人造神经元网络时将它们构建成更大的图案。这是一个将决定杨立昆职业生涯的想法。“如果杰夫・辛顿是一只狐狸,那么杨立昆就是一只刺猬。” 加州大学伯克利分校教授吉腾德拉・马利克(Jitendra Malik)说,他借用的是哲学家以赛亚・伯林(Isaiah Berlin)的一个我们都很熟悉的类比,“辛顿的想法层出不穷,无数的想法朝着不同的方向跳跃,而杨立昆要专一得多。狐狸知道很多小事,而刺猬只知道一件大事。”
跟随辛顿在多伦多大学学习的那一年,杨立昆第一次提出了自己的想法。然后,当他进入贝尔实验室时,这个想法得到了繁荣发展。贝尔实验室拥有训练他的卷积神经网络所需的大量数据(成千上万封无法投递的信件),还拥有分析这些信封上的字迹所需的额外处理能力(一台崭新的太阳微系统工作站)。他告诉自己的老板,他之所以加入贝尔实验室,是因为对方承诺他可以拥有自己的工作站,不必像在多伦多大学做博士后研究时那样多人共用一台机器。在加入贝尔实验室几周之后,他使用相同的基本算法开发了一套可以识别手写数字的系统,其准确度超过了美国电话电报公司正在开发的其他任何技术。这套系统运行良好,而且他很快就找到了商业应用方法。除了贝尔实验室之外,美国电话电报公司还拥有一家名为 NCR 的公司,该公司出售收银机和其他商业设备。到了 20 世纪 90 年代中期,NCR 将杨立昆的技术出售给银行,用于自动读取手写支票。有一段时间,美国超过 10% 的支票都是由杨立昆开发的产品读取的。

但他的梦想更大。在霍尔姆德尔的贝尔实验室建筑群的玻璃墙(被称为 “世界上最大的镜子”)内,杨立昆和他的同事们设计了一种叫作 ANNA 的微芯片。这个首字母缩略词中嵌套了另一个首字母缩略词,ANNA 是 “模拟神经网络 ALU”(Analog Neural Network ALU)的缩写,而 ALU 代表 “算术逻辑单元”(Arithmetic Logic Unit),是一种数字电路,适合运行驱动神经网络的数学运算。5 杨立昆的团队没有使用普通芯片来运行他们的算法,而是为这一特定工作设计了一款芯片。这意味着它的处理速度远远超过当时标准的处理器:大约每秒 40 亿次操作。这一基本概念 —— 专门为神经网络制造的硅片 —— 将重塑全球芯片产业,尽管这一时刻还需要 20 年才会到来。

杨立昆开发的银行扫描仪面市后不久,美国电话电报公司这个过去几十年分裂成很多小公司的国家电话系统再次分裂。NCR 和杨立昆的研究小组突然分家,银行扫描仪项目被解散,这让杨立昆大失所望、心情沮丧。随着他的团队转向万维网这项在美国主流社会刚刚起步的技术,他完全停止了对神经网络的研究。当公司开始解雇研究人员时,杨立昆明确表示,他也想要一张解雇告知书。他告诉实验室的负责人:“我丝毫不在乎公司要我做什么,反正我正在研究计算机视觉。” 解雇告知书如期而至。

  • 1995 年,贝尔实验室的两位研究人员 —— 弗拉基米尔・瓦普尼克(Vladimir Vapnik)和拉里・杰克尔(Larry Jackel)打了一个赌。6 瓦普尼克说,在 10 年内,“心智正常的人不会再使用神经网络”,但杰克尔站在连接主义者一边。他们赌了一顿 “丰盛的晚餐”,拟好协议并签上名字,杨立昆是见证人。很快,杰克尔看起来似乎要输了。过了几个月,连接主义研究的更多领域笼罩上了另一股寒意。波默洛的卡车可以自动驾驶,谢诺夫斯基的 NETtalk 可以学习大声朗读,杨立昆的银行扫描仪可以读取手写支票。但很明显,那辆卡车除了私家道路和直线高速公路,无法在其他任何道路上行驶;NETtalk 可能会被看作派对上的把戏;而除了使用杨立昆的银行扫描仪,市面上还有其他方式可以读取支票。杨立昆的卷积神经网络在分析更为复杂的图像时不起作用,比如狗、猫和汽车的照片,也没有人知道这些网络以后能否起作用。最终,虽然杰克尔赢得了赌注,但事实证明这是一场空洞的胜利。在他们打赌 10 年之后,研究人员可能仍然在使用神经网络,但是相比于多年前杨立昆在他的台式机器上所做的事情,这项技术能做的工作并没有变得更多。“我赌赢了,主要是因为杨立昆没有放弃,” 杰克尔说,“他基本上被外界忽视了,但他自己并没有放弃。”

这场赌局结束后不久,在一场关于人工智能的演讲中,斯坦福大学的一位名叫吴恩达(Andrew Ng)的计算机科学教授向整个会场的研究生描述了神经网络。然后,他补充了一条说明:“杨立昆是唯一能真正让神经网络生效的人。” 但是,就连杨立昆自己对未来也没有确定的判断。他在个人网站上写下了一些伤感的话,将自己的芯片研究描述为停留在过去的东西,将自己在新泽西州协助开发的硅处理器描述为 “第一个(也可能是最后一个)真正做有用事情的神经网络芯片”7。多年之后,当被问及这些话时,他不以为然,并很快指出他和他的学生在 10 年结束时又回到了这个领域。但他感受到的不确定性就在那里。神经网络确实需要更多的计算能力,但没有人意识到它到底需要多少。正如杰夫・辛顿后来所说的:“没人想过要问‘假设我们还需要 100 万倍的计算能力会怎么样’。”

 
当杨立昆在新泽西州开发他的银行扫描仪时,克里斯・布罗克特(Chris Brockett)正在华盛顿大学亚洲语言文学系教授日语,后来微软聘请布罗克特担任人工智能研究员。这是 1996 年,距离这家科技巨头创建其第一间专门的研究实验室才过不久。微软的目标是打造能够理解自然语言的系统,而自然语言是人们日常书写和说的语言。当时,这属于语言学家的工作。布罗克特曾在他的祖国新西兰学习语言学和文学,后来又到日本和美国学习,像他这样的语言专家整天都在编写详细的规则,旨在向机器展示人类是如何把单词拼凑在一起的。他们会解释为什么时间将 “飞逝”(f ly),小心翼翼地将名词 “合同”(contract)与动词 “签约”(contract)分开,详细描述说英语的人在选择形容词次序时奇怪且基本上无意识的方式,等等。这项工作让人想起奥斯汀的 Cyc 项目,或者在迪安・波默洛出现之前卡内基 —— 梅隆大学在自动驾驶汽车领域的工作,这是一种重新创造人类知识的尝试,无论微软雇用多少语言学家,这种尝试都无法在几十年内到达终点。20 世纪 90 年代末,在马文・明斯基和约翰・麦卡锡等著名研究人员的带领下,大多数大学和科技公司就是这样打造计算机视觉、语音识别和自然语言理解技术的。专家们一次一条规则地将技术拼凑出来。
布罗克特坐在西雅图郊外微软总部的一间办公室里,花了将近 7 年的时间编写自然语言规则。然后,在 2003 年的一个下午,在大厅尽头一间通风的会议室里,他的两位同事公布了一个新项目。他们正在打造一个系统,使用基于统计的技术 —— 每个单词在每种语言中出现的频率 —— 在不同语言之间进行翻译。如果一组单词在两种语言中出现的频率和语境相同,这就可能是正确的翻译。两位研究人员在 6 周前才开始这个项目,但已经获得了至少看起来有点儿像真实语言的成果。坐在拥挤的房间后面看着演示,布罗克特突然惊恐发作,他以为是心脏病,然后被紧急送往医院。他后来称,这是他的 “灵光乍现的时刻”,他意识到自己花了 7 年时间写下的规则现在已经过时了。他说:“我 52 岁的身体经历过这样的时刻,我看到了未来,但我没有参与其中。”

全世界的自然语言研究人员很快就彻底转变了他们的方法,接受了当天下午在西雅图郊外的实验室里公布的那种统计模型。这只是 20 世纪 90 年代和 21 世纪初在更大的人工智能研究圈子里传播的众多数学方法之一,其他方法包括 “随机森林”(random forests)、“增强树”(boosted trees)和 “支持向量机”(support vector machines)等。研究人员将一些方法应用于自然语言理解,将另一些应用于语音识别和图像识别。神经网络的发展停滞不前,但其他很多方法开始变得成熟,得到了改进,并开始主导人工智能领域的特定角落。它们离完美都非常遥远。尽管用统计法进行翻译所获得的早期成功足以让克里斯・布罗克特激动到进医院,但它只在一定程度上有效,而且只适用于较短的短语,即句子的片段。一旦一个短语被翻译出来,翻译者就需要一套复杂的规则来把它转换成正确的时态,应用正确的词尾,并使它与句子中的其他所有短语相吻合。即便如此,翻译也是混乱的,它只是大致正确,就像童年的游戏,你通过重新排列只有几个单词的小纸条来编出一个故事。但这仍然超出了神经网络的能力。

  • 到 2004 年,卷神经网络已被视为处理任何任务的第三优选择,一种其最好的时代已经过去的旧技术。正如一位研究人员对当时在瑞士学习神经网络的年轻研究生亚历克斯・格雷夫斯(Alex Graves)所说的那样:“神经网络是为那些不了解统计学的人准备的。” 在斯坦福大学寻找专业时,一个名叫伊恩・古德费洛(Ian Goodfellow)的 19 岁本科生选修了一门叫作 “认知科学 —— 思维和学习的研究” 的课程,讲师一度将神经网络斥为无法处理 “异或” 问题的技术。这是 20 年前被反驳过的一条延续了 40 年的批评。
    在美国,连接主义研究几乎从顶尖大学消失了,但纽约大学的一间严肃实验室还没有放弃它。头发往后扎成马尾辫的杨立昆于 2003 年在此获得了教授职位。加拿大成了那些仍然相信这些想法的人的避难所,辛顿在多伦多大学,杨立昆在贝尔实验室的一位老同事、另一位出生于巴黎的研究人员约书亚・本吉奥在蒙特利尔大学的一间实验室担任主管。在此期间,伊恩・古德费洛申请了计算机科学专业的研究生,有几所学校给他提供了入学名额,包括斯坦福大学、加州大学伯克利分校和蒙特利尔大学。他更喜欢蒙特利尔大学,但当他拜访该校时,一名蒙特利尔大学的学生试图说服他不要去。斯坦福大学的计算机科学项目在北美排名第三,加州大学伯克利分校排名第四。这两所大学都位于阳光明媚的加州。蒙特利尔大学排名在 150 名左右,而且那里天气很冷。
    “斯坦福大学!世界上最负盛名的大学之一!” 这名蒙特利尔大学的学生告诉他,当他们在春末穿过这座城市时,地上还有积雪,“你到底在想什么?”
    “我想研究神经网络。” 古德费洛说。
    具有讽刺意味的是,当古德费洛在蒙特利尔大学探索神经网络时,他的一位老教授吴恩达在看到加拿大不断涌现的研究后,在斯坦福大学的实验室里接受了神经网络的想法。但无论是在自己的大学还是在更广泛的学术圈,吴恩达都是一个离群的人,他没有充分的数据来说服周围的人,让他们认为神经网络值得探索。在此期间,他在波士顿的一场研讨会上做了一次演讲,宣扬神经网络是未来的浪潮。在他演讲时,计算机视觉领域的实际领导者之一、加州大学伯克利分校的教授吉腾德拉・马利克站了起来,像明斯基一样指责演讲者胡说八道,说他是在发表自嗨式的声明,而完全没有提供可以用来做支撑的证据。

大约在同一时间,辛顿向 NIPS 会议提交了一份论文,他后来正是在这个会议上拍卖了自己的公司。这个会议是在 20 世纪 80 年代后期构想出来的,目的是为研究人员探索各种神经网络,包括生物神经网络和人工神经网络,提供一个渠道。但是,会议组织者拒绝了辛顿的论文,因为他们接收了另一篇关于神经网络的论文,并且认为同一年接收两篇是不合适的。“神经” 是一个不好的词,即使在专门讨论神经信息处理系统的会议上也是如此。在整个领域发表的所有研究论文中,关于神经网络的论文出现的比例不足 5%。一些研究人员在向会议和期刊提交论文时,为了提高成功的概率,会使用完全不同的说法代替 “神经网络” 一词,比如 “函数近似” 或 “非线性回归”。对于自己最重要的发明,杨立昆将 “神经” 一词从其名称中删除了,“卷积神经网络” 变成了 “卷积网络”。

尽管如此,杨立昆认为,一些无可争议的重要论文还是被人工智能领域的权威人士拒绝了,当这些论文被拒绝时,他原本可以公开进行斗争,坚持认为他的观点是正确的。有些人认为,这是无拘无束的自信,也有一些人认为,这暴露了一种不安全感,一种隐含的遗憾,即他的工作没有得到该领域领导者的认可。有一年,他的一名博士生克莱门特・法拉贝特(Clement Farabet)开发了一个神经网络,它可以分析视频,并把不同种类的物体区分开 —— 树木与建筑、车与人。8 这是机器人或自动驾驶汽车向计算机视觉迈出的一步,相比于其他方法,该系统完成任务的误差更小,速度更快。但是在一个领先的视觉会议上,审查者断然拒绝了他的论文。杨立昆给会议主席回复了一封信,说这些审查太荒谬了,他都不知道如何在不侮辱审查者的情况下写驳斥理由。会议主席把这封信发到了网上,让所有人都能看到,虽然他去掉了杨立昆的名字,但很明显大家都能看出是谁写的。

其他真正研究神经网络的地方只有欧洲和日本,其中之一是瑞士的一间实验室,担任主管的是于尔根・施米德胡贝(Jurgen Schmidhuber)。小时候,施米德胡贝告诉自己的弟弟,人类的大脑可以用铜线重建,9 从 15 岁开始,他的抱负就是打造一台比他自己更智能的机器,然后退休。1020 世纪 80 年代,他在读大学本科时就接受了神经网络,后来从研究生院毕业后,他发现自己的抱负与一位名叫安杰洛・达勒・摩尔(Angelo Dalle Molle)的意大利利口酒巨头的抱负紧密相连。1120 世纪 80 年代末,用洋蓟酿制利口酒发家致富之后,达勒・摩尔在瑞士靠近意大利边境的卢加诺湖畔建立了一间人工智能实验室,致力于用智能机器改造社会,这些机器将可以承担传统上属于人类的所有工作。很快,该实验室就聘请了施米德胡贝。
施米德胡贝身高约一米九,身材匀称,下巴方方正正。他喜欢戴软呢帽和鸭舌帽,穿尼赫鲁高领夹克,这是模仿早期詹姆斯・邦德电影中的反派恩斯特・布洛菲尔德(Ernst Blofeld)的穿着,后者就穿着自己的尼赫鲁高领夹克。“你可以想象他在抚摸一只白猫的样子。” 他之前的一名学生说。施米德胡贝的服装不知何故与瑞士的实验室很相配,这个实验室看起来也像是邦德电影中会出现的 —— 一座湖边的欧洲堡垒,四周是棕榈树。在达勒・摩尔人工智能研究所内部,施米德胡贝和他的一名学生打造了他们所描述的具有短期记忆的神经网络。它可以 “记住” 最近分析过的数据,并在运行的每一步都利用这种回忆改进它的分析。他们称之为 LSTM,即长短期记忆(Long Short-Term Memory)。它实际上并没有发挥多大作用,但施米德胡贝认为,这种技术将在未来几年带来智能。他所描述的一些神经网络不仅有记忆,还有感觉。“在我们的实验室里,意识在运转。” 他说。正如一名学生后来带着几分感情所说的那样:“他听起来像一个疯子。”

辛顿会开玩笑说,LSTM 是 “在我看来很傻”(looks silly to me)的意思。从罗森布拉特、明斯基和麦卡锡开始到现在,人工智能研究人员具有悠久的传统,施米德胡贝是其中一个特别丰富多彩的例子。自从这个领域被开创出来,其领导人物就漫不经心地预示了逼真的技术,但这种技术远没有真正发挥作用。有时,这是一种从政府机构或风险资本家那里筹集资金的方式;有时,人们真的相信人工智能即将到来,这种态度可以推动研究向前发展。如果技术没有达到所宣传的效果,那么它可能会停滞多年。
连接主义的圈子很小,领导人物都是欧洲人 —— 英国人、法国人、德国人,连这些研究人员背后的政治、宗教和文化信仰也不属于美国主流。辛顿公开宣称自己是社会主义者;本吉奥放弃了法国国籍,因为他不想服兵役;杨立昆称自己是 “激进的无神论者”。辛顿将坚持一些非常个人化的信仰 —— 无神论、社会主义、连接主义,尽管在以 4 400 万美元将公司卖给谷歌之后,他常常称自己有一股 “鱼子酱做派”[1]。“这是恰当的术语吗?” 他会这么问,尽管他很清楚答案是肯定的。

 
20 世纪 90 年代对杨立昆来说很艰难,而对辛顿来说就更为艰难了。搬到多伦多之后不久,他和妻子收养了两个来自南美洲的孩子,一个是来自秘鲁的男孩托马斯,一个是来自危地马拉的女孩艾玛。当他的妻子感到腹部疼痛并且体重开始下降时,两个孩子都不到 6 岁。虽然这种情况持续了几个月,但她拒绝去看医生,坚持自己顺势疗法的信念。当她最终让步时,她被诊断出已经患有卵巢癌。即便如此,她还是坚持采取顺势疗法进行治疗,而不肯化疗。6 个月后,她去世了。

辛顿认为他当研究员的日子结束了。他必须要照顾孩子们,托马斯在家里存在所谓的 “特殊需求”,需要额外的关注。“我习惯于把时间用来思考。” 辛顿说。20 年后,当他和杨立昆一起接受图灵奖时,他感谢了自己的第二任妻子,一位名叫杰基・福特(Jackie Ford)的英国艺术史学家,他们开始于 20 世纪 90 年代末的婚姻挽救了他的事业,杰基帮助他抚养了孩子们。他们在萨塞克斯大学相识,并在英国约会了一年,后来在他移居圣迭戈时两人分开了。在他们重新相聚后,他搬到了英国,并在伦敦大学学院找到了一份工作,但他们很快就回到了加拿大,因为他觉得孩子们在多伦多更受欢迎。
因此,在千禧年之际,辛顿回到了多伦多大学计算机科学大楼角落里的办公室,在这里他可以眺望穿过校园中心的鹅卵石街道。窗户很大,吸走了办公室里的温暖,并把热量散发到外面零度以下的寒冷之中。这间办公室成了仍然相信神经网络的小规模研究员群体的中心,部分原因在于辛顿在该领域的历史地位,部分原因在于他的创造力、激情以及讽刺性的幽默感吸引了人们围绕在他的周围,即使只是在一些很短暂的时刻。如果你给他发一封电子邮件,问他更喜欢别人叫他杰弗里(Geoffrey)还是杰夫(Geoff),那么他的回答同样显得聪明可爱:
我更喜欢杰弗里。
谢谢,
杰夫
一位名叫阿珀・海韦里恩(Aapo Hyvarinen)的研究人员曾经发表过一篇学术论文 12,承认并总结了辛顿的幽默感和他在数学思想上的信念:
这篇论文的基本思想是在与杰夫・辛顿的讨论中形成的,然而,他不愿意成为合著者,因为这篇论文包含了太多的方程。
辛顿会根据自己因为忘记吃饭而减掉多少体重来评价自己的想法。一名学生说,辛顿的家人送给他最好的圣诞礼物就是同意他回到实验室做更多的研究。而且,正如很多同事经常说的,他有一个终身的习惯:他会跑进房间,说他终于弄明白了大脑是如何工作的,然后解释他的新理论,接着像来的时候一样快速离开。几天之后,他会回来说自己关于大脑的理论完全是错的,但他现在又有了一个新的理论。
鲁斯・萨拉赫丁诺夫(Russ Salakhutdinov)将成为世界领先的连接主义研究者之一,也会是苹果公司的一名影响深远的员工,他
2004 年在多伦多大学遇到辛顿时已经退出了这个领域。辛顿向他讲述了一个新项目,即一种按照一次一层的方式训练大规模神经网络的方法,并且输入的数据要比过去可能提供的多得多。辛顿称之为 “深度信仰网络”(deep belief networks)。在那一刻,辛顿哄着萨拉赫丁诺夫回归该领域。同时,这个名称也吸引了他。一个名叫纳夫迪普・贾特利(Navdeep Jaitly)的年轻学生在拜访了楼里的一位教授后,看到辛顿的办公室外有很多学生在排队,然后他就被吸引住了,来到了多伦多实验室。另一名学生,乔治・达尔(George Dahl),在更广泛的机器学习研究领域也发现了类似的情况。每次看到一篇重要的研究论文或者一位重要的研究人员,达尔都会发现与辛顿有直接的联系。“我不知道是杰夫选择了那些最终取得成功的人,还是他以某种方式让他们获得了成功。经历过之后,我认为是后者。” 达尔说。

达尔是一位英语教授的儿子,他在学术上是一个理想主义者,把进入研究生院比作进入修道院。“你希望拥有一个不可逃避的命运,某种召唤,当你的信念消失时,它会带着你度过黑暗时代。” 他常常这么说。他认定,自己的召唤就是杰夫・辛顿。他并不孤单。达尔拜访了阿尔伯塔大学的另一个机器学习小组,一个名叫弗拉德・姆尼(Vlad Mnih)的学生试图让他相信,阿尔伯塔大学,而不是多伦多大学,才是他的归属。但是,当达尔那年秋天出现在多伦多大学,走进学校给他安排的一张办公桌旁的用品室时,他发现姆尼也在那里。那年夏天,姆尼就加入了辛顿的实验室。

2004 年,尽管整个领域对神经网络的兴趣减弱,但辛顿对这个想法加倍重视,希望在这个小的连接主义者圈子里加速研究。“杰夫小组的主题一直是,旧的东西也可以是新的,” 达尔说,“如果这是一个好想法,你就继续努力 20 年。如果这是一个好想法,你就继续尝试,直到成功。它不会因为你第一次尝试不起作用就不再是一个好想法。” 利用加拿大高级研究所的少量资金 —— 每年不足 40 万美元,辛顿打造了一个新的集体,专注于他所说的 “神经计算和适应性感知”,每年为那些仍然坚持连接主义信念的研究人员举办两场研讨会,其中包括计算机科学家、电气工程师、神经科学家和心理学家。杨立昆和本吉奥也是其中的成员,后来加入百度的中国研究员余凯也是。辛顿后来把这个集体在一起进行研究比作鲍勃・伍德沃德(Bob Woodward)与卡尔・伯恩斯坦(Carl Bernstein)在深挖水门事件时一起工作,而不是分开来。这种方式可以分享想法,而在多伦多大学,其中一个想法就是给这项非常古老的技术取一个新名字。

60 岁生日那天,辛顿在温哥华举行的年度 NIPS 大会上发表演讲,“深度学习” 这个词第一次出现在标题中。这是一次巧妙的品牌重塑。提到多层神经网络,讲深度学习并不是什么新鲜事。但 “深度学习” 是一个令人回味的术语,旨在激励研究人员在一个再次失宠的领域进行研究。当他在演讲中说其他人都在做 “浅薄学习” 时,听众们发出了笑声,他知道这是一个好名字。从长远来看,这将被证明是一个高明的选择,它立刻提高了在学术界边缘工作的这一小部分研究人员的声誉。在有一年的 NIPS 大会上,有人整理了一段恶搞视频,视频里的人一个接一个去拥抱 “深度学习”,就好像发了疯一样。
“我曾经是个摇滚明星,” 一名皈依者说,“但后来我发现了深度学习。”
“辛顿是领袖,” 另一个人说,“要跟着领袖走。”
这很有趣,因为它是真实发生的事。这是一项有着几十年历史的技术,虽然它从未证明过自身的价值,但有些人仍然相信它。
在发起人工智能运动的达特茅斯夏季会议召开 50 年之后,马文・明斯基和其他很多创始元勋回到达特茅斯大学举行周年庆典。这一次,明斯基在台上,另一位研究人员站在台下。他就是特里・谢诺夫斯基,从东部的巴尔的摩搬到西部的圣迭戈之后,他现在是索尔克研究所的教授。谢诺夫斯基告诉明斯基,一些人工智能研究人员将明斯基视为魔鬼,因为他和他的书已经阻碍了神经网络的发展。
“你是魔鬼吗?” 谢诺夫斯基问道。明斯基把这个问题搁在一边,解释了神经网络的众多局限性,并正确地指出,神经网络从未实现大家期待它实现的事情。
于是,谢诺夫斯基又问:“你是魔鬼吗?”
明斯基被激怒了,最后回答说:“是的,我是。”

微软的尝试与谷歌的新突破#

 在谷歌,你要做自己想做的,而不是谷歌想让你做的。

  • 2008 年 12 月 11 日,邓力走进加拿大不列颠哥伦比亚省惠斯勒的一家酒店,这个地方位于温哥华以北,在即将举办 2010 年冬奥会滑雪比赛的白雪覆盖的山峰脚下。他不是去滑雪的,而是为了科学而来。每年,数百名研究人员会前往温哥华参加年度人工智能会议 NIPS。大会结束后,大多数人都会前往惠斯勒参加更为私密的 NIPS 研讨会,内容包括为期两天的学术演讲、苏格拉底式辩论和非正式交流,研究人员共同探讨人工智能的近期前景。邓力出生于中国,在美国接受教育,他在整个职业生涯中都致力于开发语音识别软件,他起初担任加拿大滑铁卢大学的教授,后来成为微软位于西雅图附近的研发实验室的研究人员。

  • 10 多年来,像微软这样的公司一直在销售 “语音记录” 软件,将这项技术视为在个人电脑和笔记本电脑上进行自动听写的一种方式。但不可否认的事实是,这项技术并没有那么好用,当你对着长长的桌面麦克风清晰地说话时,在记录下来的单词中,错误的数量超过正确的。像当时大多数人工智能研究一样,这项技术的进步速度非常缓慢。在微软,邓力和他的团队花了 3 年的时间来打造他们最新的语音系统,该系统下一版的准确率可能仅比上一版提高 5%。然后,在惠斯勒的某个晚上,他见到了杰夫・辛顿。
    邓力在加拿大的时候就认识辛顿。

  • 20 世纪 90 年代初,在连接主义研究的短暂复兴期间,邓力的一名学生写了一篇论文 1,探索神经网络作为语音识别的一种方式,当时多伦多大学教授辛顿也加入了论文委员会。在随后的几年里,随着连接主义在产业界和学术界失宠,这两位研究人员很少见面。尽管辛顿坚持神经网络的想法,但语音识别只是他在多伦多大学实验室的一个兴趣爱好,这意味着他和邓力在完全不同的圈子里活动。但当他们走进希尔顿惠斯勒度假村和温泉中心的同一个房间时,邓力和辛顿直接交流了起来。房间里没几个人,只有几名研究人员坐在桌旁,等待有人向他们询问关于他们最新研究的问题。邓力非常容易激动,而且更健谈一些,几乎跟所有人都能直接交流。
    “有什么新鲜事吗?” 邓力问道。
    “深度学习。” 辛顿回答。他说,神经网络开始在语音方面奏效了。
    邓力并没有真的相信。辛顿不是一名语音研究人员,而且神经网络从未在任何事情上奏效过。

  • 在微软,邓力正在开发属于自己的一种新的语音识别方法,他实在没有时间再一次进入未知的算法领域。但辛顿很坚持,他说,他的研究没有受到太多的关注,但在过去几年里,他和自己的学生发表了一系列论文,相比于之前的技术,他的 “深层信念网络” 可以从更多的数据中进行学习,在性能上正在接近领先的语音识别方法。“你必须试一试。” 辛顿不停地说。邓力说他会的,他们交换了电子邮件地址。然后,几个月的时间过去了。
    到了夏天,在手头有点儿空余时间的时候,邓力开始阅读关于当时被称为 “神经语音识别” 的技术的文献。他对这项技术的性能印象深刻,于是给辛顿发了电子邮件,建议他们围绕这个想法组织一场新的惠斯勒研讨会,但对这项被全球语音界系统性忽视的技术的长期前景,他仍然表示怀疑。它在简单的测试中运行良好,但其他很多算法也是如此。然后,随着下一场惠斯勒研讨会的临近,辛顿又给邓力发了一封电子邮件,附上了一份研究论文的初稿 2,该论文将他的技术又推进了一步。结果表明,在分析了大约 3 个小时的口语词汇之后,神经网络的性能甚至可以与最好的语音方法相媲美。邓力还是不相信。多伦多大学的研究人员描述其技术的方式让人非常难以理解,他们的测试也仅基于实验室记录的声音数据库,而不是真实世界的语音。辛顿和他的学生进入了一个他们并不完全熟悉的研究领域,这是能看得出来的。“这篇论文存在一些问题,” 邓力说,“但我简直不敢相信,他们得到了跟我一样的结果。” 所以,他要求查看他们测试的原始数据。当他打开电子邮件,看着数据,亲眼看到这项技术能做什么的时候,他相信了。

 
那年夏天,邓力邀请辛顿到微软位于华盛顿州雷蒙德市的研究实验室待一段时间,辛顿答应了,但前提是,他必须能够到那里去。近年来,他的腰背问题越来越严重,已经到了他再次质疑自己的研究能否继续的地步。40 年前,他在给母亲搬取暖器时,腰椎间盘滑脱了,随着时间的推移,这个腰椎间盘变得越来越不稳定。这些天,当他弯腰或坐下时,腰椎间盘就可能滑脱。他说:“这是遗传、愚蠢和坏运气共同造成的,就像生活中其他所有糟糕的事情一样。” 他认为,很明显,唯一的解决办法是不再坐下来(用他的话说,例外情况是生物学上的必然性导致的 “每天坐下一两次,每次几分钟”)。在多伦多大学的实验室里与学生们见面时,他会平躺在办公桌上或隔着一张折叠床靠在墙上,以缓解疼痛。这也意味着他不能开车,也不能坐飞机。

于是,2009 年秋天,他坐地铁到多伦多市区的公交车站,早早就开始排队,这样他就可以占上开往布法罗的公交车后座,然后躺下并假装睡着了,这样就没有人会试图移动他。“在加拿大,这一招儿很有效。” 他说。(从美国回加拿大时,这招儿不管用:“我躺在后座假装睡着了,有个家伙却走过来踢我。”)到达布法罗之后,他准备了去微软实验室工作所需的签证,然后乘了将近三天的火车贯穿全美国才来到西雅图。直到了解了旅行要花多长时间,邓力才意识到辛顿的腰背是个问题。在火车到达之前,他给办公室添置了一张站立式办公桌,这样他们就可以并肩工作了。
辛顿于 11 月中旬抵达,他躺在出租车的后座上,准备穿越横跨华盛顿湖的浮桥,这座浮桥将西雅图与它的东区连接起来,然后才到雷德蒙。雷德蒙是一个郊区小镇,这里的建筑主要是一些中型的办公楼,属于一家非常大的企业。辛顿和邓力一起工作的办公室位于微软 99 号楼的 3 楼,这是一栋花岗岩和玻璃建筑,是该公司研发实验室的核心。这就是让语言学家克里斯・布罗克特恐慌发作的那间实验室,该实验室偏学术风格,不像微软的其他部门那样关注市场和资金,而是关注未来的技术。在这间实验室 1991 年启动运营时,微软也开始主导国际软件市场,该实验室的主要目标之一是开发出能够识别口语词汇的技术。在接下来的 15 年里,微软支付了异常高额的工资,招募了该领域的很多顶尖研究人员,包括邓力。但是,当辛顿抵达雷德蒙时,微软在全世界的地位正在发生变化,权力平衡正从软件巨头转移到科技行业的其他领域。谷歌、苹果、亚马逊和 Facebook(脸书)正在崛起,抓住了新的市场和新的资金 —— 互联网搜索、智能手机、网络零售和社交网络。依靠运行在大多数台式电脑和笔记本电脑上的 Windows 操作系统,微软仍然统治着计算机软件领域,但是,在扩张为全球最大的公司之一并建立了与普通公司一样的官僚制度之后,微软调整方向的速度变慢了。

微软的 99 号楼是一栋 4 层小楼,其实验室、会议室和办公室环绕着一个大中庭和一个小咖啡厅。辛顿和邓力计划根据多伦多大学的研究成果打造一个原型,训练一个神经网络来识别口语词汇。这个项目只有他们两个人参与,但工作刚开始就遇到一点儿麻烦。辛顿需要密码才能登录微软的计算机网络,而获得密码的唯一途径是通过一部公司的电话,但公司电话又需要自己的密码。他们发了无数封电子邮件,试图获得一部电话的密码,但都没有成功,邓力只好带着辛顿来到 4 楼的技术支持台。微软有一个特殊的规定,即如果访客只停留一天的时间,微软就可以提供一个临时网络密码,在技术支持台工作的女士给了他们一个。但是,当辛顿问她第二天早上密码是否还有效时,她把密码拿了回来,说:“如果你停留一天以上,你就不能用这个密码。”
在他们最终找到了接入网络的方法之后,这个项目在几天之内就完成了。有一次,当辛顿在他的台式电脑上输入计算机代码时,邓力在他旁边用同一个键盘输入。对容易激动的邓力来说,这很正常,但辛顿从未见过这样的事情。“我习惯了大家在交流的时候互相打断,” 他说,“但我不习惯在输入代码时被其他人在同一个键盘上输入代码打断。” 他们用一种名为 MATLAB 的编程语言创建了原型,代码的篇幅不超过 10 页,大部分是辛顿编写的。尽管辛顿淡化了他作为数学家和计算机科学家的技能,但邓力还是被其代码的优雅简洁风格打动了。“一行一行,都太清晰了。” 邓力想。但给他留下深刻印象的,不仅仅是代码的清晰度。在他们用微软的语音数据训练了这个系统后,它奏效了 —— 不是仅仅与当时领先的系统一样好,而是好到足以让邓力意识到,这才是语音识别的未来。商业系统使用其他的手工方法来识别语音,但那些方法并没有真正奏效。但邓力可以看出,他和辛顿已经打造了一个系统,随着它不断地从大量数据中进行学习,这个系统可能会变得更加强大。

他们的原型所欠缺的,是分析所有数据时所需的额外处理能力。在多伦多大学,辛顿采用了一种非常特殊的计算机芯片,叫 GPU。像英伟达这样的硅谷芯片制造商最初设计这些芯片是为了给《光环》和《侠盗猎车手》等热门的电子游戏快速渲染图形,但在这个过程中,深度学习的研究人员意识到,GPU 同样擅长运行支撑神经网络的数学。在邓力和辛顿打造其语音原型的同一间微软实验室里,有三名工程师曾在 2005 年对这个想法进行了修改完善。

  1. 另外,斯坦福大学的一个团队也在同一时间偶然发现了同样的技术诀窍。
  2. 基于这些芯片,神经网络能够在更短的时间内从更多的数据中进行学习。这与杨立昆 20 世纪 90 年代初在贝尔实验室的工作如出一辙,不同的是,GPU 是现成的硬件。研究人员不必制造新的芯片来加速深度学习的进程。多亏了像《侠盗猎车手》这样的游戏和 Xbox 这样的游戏机,他们才可以使用已经存在的芯片进行训练。在多伦多大学,辛顿和他的两名学生 —— 阿卜杜勒 —— 拉赫曼・穆罕默德(Abdel-rahman Mohamed)和英语教授的儿子乔治・达尔,利用这些专门的芯片训练了他们的语音系统,这就是推动该系统超越最先进技术的核心。

在辛顿结束在微软的短暂停留之后,邓力坚持让穆罕默德和达尔都来微软的 99 号楼做客,而且希望他们在不同的时间来,这样这个项目的进展在接下来的几个月里都不会停滞。辛顿和他的学生都同意这个延长的实验,并解释说,如果没有一套完全不同的硬件,包括一块价值一万美元的 GPU 显卡,这个项目就不会成功。起初,邓力对这一代价感到犹豫不决。他的上司亚历克斯・阿塞罗(Alex Acero)告诉他,这是一笔不必要的开支,阿塞罗后来去了苹果公司负责 iPhone(苹果手机)上的智能语音助手 Siri。GPU 是用来玩游戏的,而不是用来做人工智能研究的。“不要浪费钱。” 他说,并且告诉邓力不用考虑昂贵的英伟达设备,在当地的弗莱电子商店购买通用显卡就行。但辛顿敦促邓力进行反驳,他解释说,廉价的硬件会破坏实验的目的。神经网络要连续几天分析微软的语音数据,如果这些通用显卡运行那么久,那么它们可能被烧毁。但他提出的一个更重要的观点是,神经网络要依靠额外的处理能力实现蓬勃发展。邓力不仅需要购买单价为一万美元的 GPU 显卡,而且可能需要不止一块,外加一台可以运行该显卡的专用服务器,服务器的价格与显卡的价格相当。辛顿在给邓力的一封电子邮件中说:“这将花费你大约一万美元。我们自己则要订购三套,但我们是一所资金雄厚的加拿大大学,不是一家资金短缺的软件销售商。” 最终,邓力购买了必要的硬件。

那一年,微软聘请了彼得・李(Peter Lee)作为其雷德蒙研究实验室的新负责人。彼得・李是一名训练有素的研究人员,具有管理人员的气质,他曾在卡内基 —— 梅隆大学工作过 20 多年,最终成为计算机科学系主任。当他刚加入微软并开始审核实验室的研究预算时,他无意中发现了一张工作表单,上面列出了邓力语音项目的费用,包括支付给辛顿、穆罕默德和达尔的费用,在惠斯勒语音研讨会支出的费用,以及购买 GPU 的费用。彼得・李大吃一惊,他认为这整个安排是他看到的最愚蠢的想法之一。20 世纪 80 年代,他在卡内基 —— 梅隆大学认识了辛顿,当时他就认为神经网络很荒谬。现在,他甚至认为他们疯了。但是,当他来到雷德蒙的时候,这个项目已经启动。彼得・李说:“我有时会想,如果我一年前被微软聘用,那么这一切都不会发生。”

突破是在那年夏天发生的,当时乔治・达尔来拜访微软实验室。达尔是一个长着一张大脸却戴着一副小眼镜的高个子男人,他在大学二年级时就决定将研究机器学习作为自己一生的追求,他认为这是一种替代的计算机编程方式 —— 即使你不完全知道如何处理,它也能帮你解决问题,你只需要让机器进行学习即可。他沉浸在神经网络之中,但并不是一位真正的语音研究人员。“我开始研究语音的唯一原因,是杰夫团队中的其他人都在研究视觉。” 他经常这么说。他想要证明,辛顿的实验室里酝酿出的想法不仅仅适用于图像。他做到了。“乔治不太懂语音,” 邓力说,“但他懂 GPU。在微软,达尔利用这些单价一万美元的显卡,利用微软通过必应语音搜索服务收集的口语词汇,对神经网络进行了训练,他使辛顿的语音识别原型的性能超越了该公司正在开发的其他任何产品。达尔、穆罕默德和辛顿所展示的是,神经网络可以在一片嘈杂的语音海洋中筛选出重要的东西,发现人类工程师无法自行找到的模式,区分众多微妙的声音,识别不同的单词。这是人工智能漫长历史中的一个转折点。在几个月的时间里,一位教授和他的两名研究生的成果超越了世界上最大的公司之一已经研发了十几年的一个系统。”“辛顿是个天才,” 邓力说,“他知道如何不断地制造影响力。”

 
几个月之后,站在多伦多大学的办公桌前,望着国王学院路的鹅卵石路面,杰夫・辛顿打开了一封陌生人发的电子邮件,发信人是威尔・内维特(Will Neveitt),他问辛顿能否派一名学生去北加州的谷歌总部。通过语音识别工作,辛顿和他的学生们在整个科技行业引发了连锁反应。在微软培育了一个新的语音项目并公布研究成果给所有人看到之后,辛顿和学生们将这个技巧应用在了第二家科技巨头 IBM 身上。2010 年秋天,在拜访微软 9 个月之后,阿卜杜勒 —— 拉赫曼・穆罕默德开始与 IBM 的托马斯・沃森研究中心合作,该中心所在的大楼是建筑师埃罗・萨里宁的另一个雄伟的作品,配有镜面窗户,隐藏在纽约市北部起伏的群山之中。现在,轮到谷歌了。
穆罕默德还在和 IBM 合作,而乔治・达尔忙于其他研究,所以辛顿向一个几乎与他们的语音工作没有关系的学生求助。这名学生就是纳夫迪普・贾特利,他的父亲是加拿大的印度裔移民,他在成为计算生物学家几年之后,最近才开始参与人工智能的研究。他是一位特别和䔽可亲的研究人员,剃着光头,跟达尔一起在辛顿办公室走廊尽头的供应室里工作,他还在市场上做行业实习。辛顿曾试图在黑莓智能手机制造商 RIM(移动研究公司)给他找一个职位,但这家加拿大公司表示对语音识别不感兴趣。就在几年前,RIM 配备键盘的设备还主导着手机市场,但它已经错过了触屏智能手机领域的飞跃。现在,下一次大飞跃即将被这家公司错过。当辛顿第一次向贾特利推荐谷歌的工作时,他拒绝了。他和妻子即将迎来一个孩子,另外,因为他已经在美国申请了绿卡,他知道自己无法获得在谷歌工作所需的签证。但几天之后,他重新考虑了一下,要求给辛顿发电子邮件的谷歌员工威尔・内维特购买一台装有 GPU 的机器。
当贾特利的谷歌实习开始时,内维特已经离开了谷歌,他的替代者是一位在法国出生的工程师,名叫文森特・万豪克(Vincent Vanhoucke)。万豪克发现自己拥有一台巨大的配备 GPU 的机器,但不太知道该怎么用,他还有一名加拿大的实习生,实习生知道如何使用这台机器,但因为没有签证,实习生不被允许在放置机器的办公室里工作。因此,万豪克给谷歌位于加拿大蒙特利尔小办事处的人打了电话,找到了一张空办公桌。那年夏天,贾特利就在这里工作,几乎完全靠着自己,通过互联网接入那台巨大的配备 GPU 的机器。但首先,他短暂地去了一趟北加州,这样他就可以见到万豪克,并让 GPU 机器开始运行。“没有其他人知道如何处理这些事,” 万豪克说,“所以必须由他自己来做。”
当贾特利抵达时,这台机器被藏在走廊尽头的一个角落里,远离万豪克和语音识别团队的其他成员。“它在打印机后面嗡嗡作响。” 万豪克说。他不想把机器放在别人的办公室里或者任何靠近别人工作地点的地方。每个 GPU 都配备了一个风扇,为了防止硬件过热,风扇会不停地运转,他担心有人会厌倦这种噪声,并在不知道机器在干什么的情况下就把它关了。他把机器放在打印机后面,这样任何听到风扇呼呼作响的人都会把所有的噪声归咎于打印机。这种机器在谷歌和微软都显得很奇怪,但原因不同。在打造其网络服务帝国的过程中,谷歌建立了一个覆盖数十万台计算机的全球数据中心网络。公司的工程师可以立即从任何一台谷歌个人电脑或笔记本电脑上获得巨大的计算能力。他们就是这样开发和测试新软件的,而不是靠把机器塞在打印机后面的角落里。“公司的文化是,每个人都在大数据中心运行他们的软件,” 万豪克说,“我们有很多电脑,你为什么要去买一台自己的电脑呢?” 问题是,谷歌数据中心的机器没有配备 GPU 芯片,而这正是贾特利所需要的。
他想在这里做穆罕默德和达尔在微软和 IBM 做过的事情:用神经网络重构公司现有的语音识别系统。但他还想走得更远。微软和 IBM 的部分系统仍然依赖于其他技术,贾特利的目标是拓展神经网络所学的知识,他希望最终打造一个通过分析口语词汇来学习一切的系统。在贾特利离开多伦多之前,达尔告诉他不要听大公司的话。达尔说:“在谷歌,你要做自己想做的事情,而不是谷歌想让你做的事情。” 因此,当贾特利在加州见到万豪克和其他人时,他提出要开发一个更大的神经网络。起初,他们有点儿犹豫。即使训练一个较小的神经网络也需要几天时间,而如果贾特利用谷歌的数据训练一个网络,那么他可能需要几周时间,但他只在那里待一个夏天。有一个谷歌的人问贾特利能否用 2 000 个小时的口语词汇训练一个网络,贾特利犹豫了。在多伦多大学,穆罕默德和达尔用 3 个小时的数据训练过网络。在微软,他们用了 12 个小时的数据。谷歌所有的数据规模都更大,因为该公司通过其大规模通用的网络服务,包括从谷歌搜索到 YouTube(优兔)的所有服务,来收集文本、声音和视频。但贾特利坚持自己的立场,在会议结束后,他给辛顿发了电子邮件。
“有人做过 2 000 个小时的训练吗?” 他问道。
“没有,” 辛顿回答,“但我不知道这为什么行不通。”
到了蒙特利尔之后,通过互联网接入那台嗡嗡作响的配备 GPU 的机器,贾特利在不到一周的时间里训练了他的第一个神经网络。当他测试这个新系统时,仅有约 21% 的单词会被识别错误 —— 这是一个了不起的壮举。在全球安卓智能手机上运行的谷歌语音识别服务的错误率为 23%。又过了两周之后,他将系统的错误率降到了 18%。在贾特利开始测试之前,万豪克和他的团队认为这个项目是一个有趣的实验,他们从未想过它的性能会接近谷歌已经打造出来的东西。“我们原本认为自己处在一个不同级别的联盟,” 万豪克说,“结果并非如此。”
这个系统运行得相当好、相当快,于是贾特利接着训练可以在 YouTube 视频中搜索特定口语词汇的第二个系统。(如果你让它找 “惊喜” 这个词,它就会指出视频中说出这个词的时刻。)谷歌已经推出了一项可以做同样事情的服务,但是它的错误率是 53%。在夏天结束之前,贾特利将他的系统的错误率降到了 48%,而且几乎完全是自己独立完成的。他想,能留在蒙特利尔工作是一件幸事,因为没有人会约束他。他忘记了自己的极限,每天晚上都工作到 11 点甚至午夜。当他回到家时,他的妻子会把孩子抱给他,孩子因为肠绞痛大半夜都没睡。但是,第二天重复同样的循环对他而言并不难。“这让人上瘾,” 他说,“结果越来越好。”
在贾特利和他的家人回到多伦多之后,万豪克把他的整个团队都转移到了这个项目上。谷歌知道微软和 IBM 正在打造类似的技术,而它想第一个实现。问题是,贾特利的系统处理速度要提升 10 倍才能处理互联网上的实时查询。在目前这种速度下,没有人会使用它。当这个团队开始削减时,来自完全不同部门的另一个团队加入进来。碰巧的是,当贾特利在蒙特利尔埋头苦干时,其他几位研究人员,包括另一名辛顿的门徒,正在谷歌的加州总部创建一间专门的深度学习实验室。与万豪克的团队一起,这间新实验室在不到 6 个月的时间里,将这项技术推向了安卓智能手机。起初,谷歌并没有告诉全世界它的语音识别服务发生了变化,上线后不久,万豪克就接到了一家小公司的电话,这家公司为最新的安卓手机提供一种芯片。当你对着手机咆哮时,这种芯片可以消除背景噪声 —— 这是一种清理声音的方法,这样语音识别系统就可以更容易地识别用户说话的内容。但这家公司告诉万豪克,其芯片已经无效,它无法再提升语音识别服务的性能了。万豪克听到他说的话,没过多久就意识到发生了什么。

谷歌新的语音识别算法系统非常优秀,它使得消除噪声的芯片过时了。事实上,当芯片无法清理声音时,该系统尤其有效。谷歌的神经网络已经学会了如何处理噪声。

证据:从谷歌大脑到 AlexNet#

 
真空中的光速曾被认为是每小时 35 英里左右。然后,杰夫・迪恩花了一个周末优化了物理学。
吴恩达坐在离谷歌总部不远的一家日本餐厅里,等待拉里・佩奇的到来。谷歌的这位创始人兼首席执行官迟到了,吴恩达知道他会迟到。那是 2010 年底,近年来,谷歌已经成长为互联网领域最强大的一股力量,从一家规模虽小但利润惊人的网络搜索公司发展为一个科技帝国,主导着从个人电子邮件、网络视频到智能手机的一切。吴恩达是附近斯坦福大学的计算机科学教授,他坐在靠墙的一张桌子旁。他觉得,相比于坐在餐厅中间,佩奇坐在边上的话被认出或者被搭讪的可能性要低一些。跟他坐在一起等待的,是他的一位斯坦福大学同事 —— 塞巴斯蒂安・特隆(Sebastian Thrun)。在佩奇让特隆管理一个项目后,特隆就离开了大学,这个项目直到 2010 年 10 月才被公之于众:谷歌自动驾驶汽车。1 现在,由特隆担任中间人,吴恩达要给佩奇介绍一个新的想法。

  • 34 岁的吴恩达是一个个子挺高的男人,说话的声音却近乎耳语,他在笔记本电脑上准备了一张线图来解释自己的想法,但是当佩奇最终到达并坐下来时,吴恩达觉得,在与谷歌首席执行官共进午餐时,从包里拿出一台笔记本电脑不太妥当。所以,他用手势来描述这个想法,线图的走势向上、向右。随着神经网络分析越来越多的数据,它变得越来越精确,无论是学习视觉、声音还是语言。谷歌拥有的是数据 —— 多年来通过谷歌搜索、Gmail 和 YouTube 等服务收集的照片、视频、语音和文本。吴恩达已经在斯坦福大学的实验室里探索了深度学习,现在,他希望依靠谷歌的影响力来支持这个想法。特隆正在谷歌新的 “登月实验室”(也就是之前的谷歌 X 实验室)里制造一辆自动驾驶汽车。他们设想了另一个基于深度学习的登月实验室计划。

吴恩达出生于伦敦,在新加坡长大,是一位中国香港医生的儿子。在进入斯坦福大学之前,他分别在卡内基 —— 梅隆大学、麻省理工学院和加州大学伯克利分校学习了计算机科学、经济学和统计学,在斯坦福大学,他的第一个大项目是自动直升机。他很快就与另一位机器人专家结婚了,并在工程杂志《电气和电子工程师学会会刊》(IEEE Spectrum)上宣布了这个消息,还配有彩色照片。

  1. 尽管他曾经告诉整个会场的学生,杨立昆是地球上唯一能从神经网络中挖掘出有用信息的人,但他还是随着潮流而动。辛顿说:“吴恩达是少数几个原本从事其他工作,然后转向神经网络的人之一,因为他意识到发生了什么。他的博士生导师认为他是个叛徒。” 在获得邀请后,他加入了辛顿用加拿大政府资金创建的小规模研究集体,来从事 “神经计算” 研究。辛顿将这项技术引入谷歌的一个部门,而吴恩达将其引入另一个部门,这绝非巧合。从同样的有利位置观察这项技术,吴恩达也看到了其发展方向。但是,在向拉里・佩奇推销这个想法时,他给了这个想法一个额外的机会。
    就像他杰夫・辛顿的工作的影响一样,他也深受一本 2004 年出版的名为《智能时代》(On Intelligence)的书的影响,这本书的作者是一位硅谷工程师、创业者和自大狂型的神经科学家杰夫・霍金斯(Jeff Hawkins)。
  2. 霍金斯在 20 世纪 90 年代发明了奔迈(PalmPilot),也就是 iPhone 的先驱,但他真正想做的是研究大脑。在他的书中,他认为整个新皮质 —— 大脑中处理视觉、听觉、语言和推理的部分 —— 是由单一的生物算法驱动的。他说,如果科学家能重新创造这种算法,他们就能重新创造大脑。吴恩达把这件事放在了心上。在斯坦福大学面对研究生的演讲中,他描述了一个涉及雪貂大脑的实验。视神经如果从视觉皮质(大脑中处理视觉的地方)断开,然后连接到听觉皮质(大脑中处理听觉的地方),雪貂仍然可以看到东西。正如吴恩达所解释的那样,大脑的这两个部分使用相同的基础算法,这种单一算法可以在机器中被重新构建。他认为,深度学习的兴起是朝着这个方向发展的。他说:“以前,学生们经常来我的办公室,说他们想从事智能机器的制造工作,我往往会心一笑,然后给他们出一个统计学的问题。但是我现在相信,智能是我们可以在有生之年重新创造的东西。”

在他与拉里・佩奇共进日式午餐后的几天里,他为谷歌创始人准备了一份正式的推销材料,这成了他方案里的基本内容。他告诉佩奇,深度学习不仅能提供图像识别、机器翻译和自然语言理解,还能推动机器走向真正的智能。在年底前,这个项目被批准了。它被称为 “马文项目”(Project Marvin),这是对马文・明斯基的致敬,没有任何讽刺的意思。

 
谷歌的总部位于加利福尼亚州山景城,在旧金山以南约 40 英里的 101 号高速公路旁,处于旧金山湾的最南端,办公区主体坐落在公路旁的一座小山上。在那里,一组红蓝黄主题的建筑环绕着一个长满青草的大庭院,庭院中有一个铺满沙子的排球场和一个金属恐龙雕像。当吴恩达在 2011 年初加入谷歌时,这里并不是他工作的地方。他在谷歌 X 实验室工作,该部门在山景城其他地方的一栋大楼里设立了工作室,处于不断扩张的主营业务的边缘。但在加入公司后不久,他和特隆去了一趟山上的总部,以便与谷歌搜索的负责人见面。为了落实探索吴恩达的想法所需的预算、资源和政治资本,特隆安排了他与谷歌内部几个主要人物的会面,第一位是主管谷歌搜索引擎近十年的阿密特・辛格哈尔(Amit Singhal)。吴恩达给他推销的内容与给拉里・佩奇的一样,只是更聚焦于搜索引擎,而搜索引擎是这家公司皇冠上的宝石。谷歌搜索引擎多年来一直很成功,已成为全世界通往互联网的主要门户,它以一种简单的方式回答用户的询问:对关键词做出响应。你用 5 个词搜索,然后将它们的顺序打乱再搜索,可能每次都会得到相同的结果。但吴恩达告诉辛格哈尔,深度学习可以改善他的搜索引擎,而如果没有深度学习,这种改善就永远不可能实现。通过分析数百万次的谷歌搜索行为,寻找人们点击和不点击的模式,神经网络可以学会给出更接近用户实际需要的东西。“用户可以直接问问题,而不仅仅是输入关键词。” 吴恩达说。
辛格哈尔却不感兴趣。“用户不想问问题,他们想输入关键词,” 他说,“如果我让他们问问题,他们只会感到困惑。” 即使他想超越关键词这种搜索方式,从根本上,他也反对去建立一个如此大规模地学习用户行为的系统。神经网络是一个 “黑盒子”,当它做出决策,比如选择搜索结果时,我们没有办法确切地知道它为什么做出这个决策。每一个决策都基于几天甚至几周的计算,这些计算运行在几十个计算机芯片中。没有一个人能够掌控神经网络所学的一切,而改变它所学到的东西绝非小事,需要新的数据和全新一轮的试错。在运行谷歌搜索 10 年之后,辛格哈尔不想失去对搜索引擎运行方式的控制。当他和工程师对他们的搜索引擎进行修改时,他们确切地知道自己在改变什么,并且他们可以向任何询问的人解释更改的内容,而神经网络不是这样的。辛格哈尔给出的信息很明确。“我不想跟你交流了。” 他说。
吴恩达还见了谷歌图像搜索和视频搜索服务的负责人,他们也拒绝了他。直到他和杰夫・迪恩走进同一间微型厨房,他才真正找到了合作者。

  1. 微型厨房是一个非常谷歌化的术语,指的是一种遍布整个办公区的公共空间,员工可以在这里找到零食、饮料、餐具、微波炉,甚至可以简单地聊聊天。迪恩是谷歌的传奇人物。

杰夫・迪恩是一位热带疾病研究员和一位医学人类学家的儿子,他在成长的过程中在全球各地很多地方待过。由于父母的工作性质,他们家从他出生的夏威夷搬到了索马里,在那里,他在中学期间协助管理了一座难民营。当他还是佐治亚州亚特兰大的一名高三学生时,他的父亲在当地的疾病控制和预防中心工作,杰夫・迪恩为疾控中心开发了一款软件工具,帮助研究人员搜集疾病数据,并且在约 40 年后,这些数据仍然是整个发展中国家流行病学的主要内容。5 在研究生阶段,他学习的是计算机科学的基础层 ——“编译器”,它可以将软件代码转化为计算机可以理解的东西。毕业之后,他加入了由 DEC(数字设备公司)运营的硅谷研究实验室,随着这家曾经的计算机行业巨头的影响力不断减弱,他成为在谷歌公司开始快速发展时加入谷歌的顶级 DEC 研究人员之一。6 谷歌早期的成功通常被归功于 PageRank(网页排名),这是拉里・佩奇和他的联合创始人谢尔盖・布林在斯坦福大学读研究生期间开发的搜索算法。迪恩身材苗条,下巴方方的,身上带着一种古典的帅气,说话时带着礼貌的羞涩和轻微的口齿不清,他对公司的快速发展来说同样重要。他和其他一些工程师搭建了全面支撑谷歌搜索引擎的软件系统,这些系统跨越数千台计算机服务器和多个数据中心,让 PageRank 在每一秒都能立即为数百万人提供服务。

塞巴斯蒂安・特隆说:“迪恩的专长是用数百万台计算机构建一个系统,并使其运行得像一台计算机一样。在计算机历史上,从来没有人做到过这样。”
在工程师群体里,迪恩像硅谷的其他人一样受到尊敬。“在我还是一名年轻工程师时,这是我们的午餐话题。我们会围坐在一起谈论他有多么强大,” 凯文・斯科特(Kevin Scott)回忆道,他是一个早期的谷歌人,后来成了微软的首席技术官,“他有一种不可思议的能力,能够针对这些非常复杂的技术细节来确定它们的本质。” 在某年愚人节的那天 —— 这是谷歌成立初期的一个神圣时刻,该公司的内网上出现了一个网站,展示了一份叫作 “杰夫・迪恩事实” 的清单,这是即兴模仿在互联网上疯传的 “查克・诺里斯事实”,而后者是对这位 20 世纪 80 年代动作电影明星表达的讽刺性赞美。
・杰夫・迪恩曾经在一次图灵测试中失败,因为他在不到一秒的时间里正确识别了第 203 个斐波那契数。
・杰夫・迪恩在提交代码之前对其进行了编译和运行,只是为了检查编译器和 CPU 的错误。
・杰夫・迪恩的个人识别码是圆周率的最后 4 位。
・真空中的光速曾被认为是每小时 35 英里左右。然后,杰夫・迪恩花了一个周末优化了物理学。
该网站鼓励其他谷歌员工添加他们自己的 “事实”,很多人也这样做了。创建网站的年轻工程师肯顿・瓦达(Kenton Varda)小心翼翼地隐藏了自己的身份,但在将隐藏在谷歌服务器日志中的一些数字线索拼凑起来之后,迪恩找到了他,并给他发了一封感谢信。起初这只是一个愚人节玩笑,后来却演变成了谷歌神话,一个经常在公司内外被重复讲述的故事。

吴恩达知道,杰夫・迪恩将为他的项目带来其他人很少可以提供的技术专长,以及有助于项目在公司内部蓬勃发展的政治资本。因此,他们在微型厨房的碰面至关重要,当时迪恩问吴恩达在谷歌做什么,吴恩达小声说他在打造神经网络。根据公司的传说,这是一个偶然的时刻,却引发了谷歌人工智能实验室的创建。但实际上,迪恩在碰面之前已经给吴恩达发了邮件。从到公司的最初几天起,吴恩达就知道他的项目取决于杰夫・迪恩的兴趣。他一直关心如何让迪恩加入,并让他留在其中。他不知道的是,迪恩曾经接触过神经网络。迪恩比吴恩达年长近 10 岁,20 世纪 90 年代初在明尼苏达大学读本科的时候,在连接主义研究的第一次复兴时期,迪恩就探索了这个想法。为了写毕业论文,他在一台名为 “恺撒” 的有 64 个处理器的机器上训练了一个神经网络,该机器在当时看起来非常强大,但对这项技术最终需要做的有用的事情来说,它还相去甚远。他说:“我觉得,通过在 64 个处理器上进行并行计算,也许我们能够做一些有趣的事情,但我太天真了。” 他需要 100 万倍的计算能力,而不是 60 多倍。所以,当吴恩达说他正在研究神经网络时,迪恩完全知道这意味着什么。事实上,另外两位谷歌人,包括一位名叫格雷格・科拉多(Greg Corrado)的神经科学家,已经在探索这个想法了。“我们在谷歌有很多电脑,” 他以典型的直白方式告诉吴恩达,“为什么我们不训练一些真正庞大的神经网络?” 毕竟,这是迪恩的专长 —— 汇集数百甚至数千台机器的计算能力,并将它们应用于同一个问题。那年冬天,他在谷歌 X 实验室内部配置了一张额外的办公桌,并将他的 “20% 的时间”—— 谷歌人传统上每周花一天时间做自己感兴趣的业余项目 —— 投入吴恩达的项目。一开始,马文项目只是另一个实验,吴恩达、迪恩和科拉多只是把他们的一部分精力放在这项工作上。

他们打造了一个系统,呼应了 21 世纪初一个非常人性化的网络消遣:在 YouTube 视频中观察猫。

  • 7 . 它利用遍布谷歌数据中心的 16 000 多块计算机芯片的能力,分析了数百万条视频,并自学了如何识别一只猫。8 尽管结果远不如当时领先的图像识别工具准确,但这是神经网络在 60 年发展进程中往前迈出的一步。第二年夏天,吴恩达、迪恩和科拉多发表了他们的研究成果,在人工智能专家中,这份研究被称为 “小猫论文”(Cat Paper)。
  1. 该项目还出现在《纽约时报》上,被描述为 “人脑的模拟”。
  2. 10 这就是研究人员看待他们工作的方式。神经科学家迪恩和科拉多最终将所有的时间都投入吴恩达的项目中。他们还从斯坦福大学和多伦多大学聘请了额外的研究人员,因为该项目从谷歌 X 实验室 “毕业” 之后进入了一个专门的人工智能实验室 ——“谷歌大脑”。
    行业中的其他人,甚至 “谷歌大脑” 里的部分人,都没有意识到将会发生什么。正当实验室发展到了这个关键的时刻,吴恩达却决定离开。他还有一个在进行中的项目需要他的关注。他在创立一家初创公司 Coursera,专门从事 MOOC,即大规模开放在线课程,这是一种通过互联网提供大学教育的方式。2012 年,创业者、投资人和记者们确信,这是能彻底改变世界的硅谷创意之一。与此同时,塞巴斯蒂安・特隆也在创建一家类似的初创公司,名为 Udacity(优达学城)。但是,这两家公司都无法与 “谷歌大脑” 内部即将展开的项目相提并论。
    吴恩达的离开,间接地催化了这个项目。临走前,他推荐了一位替代者:杰夫・辛顿。多年之后看来,这对所有相关人员来说似乎是自然而然的一步。辛顿不仅仅是吴恩达的导师,他在一年前将纳夫迪普・贾特利送到谷歌时,就已经为实验室的第一次巨大成功播下了种子,这一成功让辛顿培育了几十年的技术得以实现。但是,当谷歌在 2012 年春天来找他时,他对离开多伦多大学不感兴趣。他是一位 64 岁的终身教授,负责培养一大批研究生和博士后,所以他只同意在谷歌的新实验室待一个夏天。
  3. 由于谷歌招聘规则的特殊性,该公司以暑期实习生的名义将他引入,同时招聘的还包括几十名大学生。在迎新周期间,辛顿感觉自己像一个怪人,当时似乎只有他不知道 LDAP 是登录谷歌计算机网络的一种方式。
  4. 12“过了没几分钟,他们决定抽出 4 名教练中的一个,让他站在我旁边。” 他回忆道。但在这次迎新周上,他也注意到了另一群稍显格格不入的人:几位高管和他们的私人助理,他们似乎都笑得合不拢嘴。一天午饭时,辛顿走近他们,问他们为什么参加迎新周,他们说自己的公司刚刚被谷歌收购。于是辛顿觉得,把一家公司卖给谷歌是一个让自己开心的好方法。

在那个夏天,“谷歌大脑” 的团队已经扩展到十几名研究人员,他们搬进了一栋大楼,该大楼与拉里・佩奇和其他高管团队所在的大楼隔着一个院子。辛顿认识其中一位名叫马克・奥雷利奥・兰扎托(Marc’Aurelio Ranzato)的研究人员,他曾是多伦多大学的博士后,他还对杰夫・迪恩印象深刻。他把迪恩比作巴恩斯・沃利斯(Barnes Wallis),后者是英国经典战争电影《溃坝者》(The Dan Busters)中描绘的一位 2 0 世纪的科学家和发明家。在影片中,沃利斯向一名政府官员索要一架惠灵顿轰炸机。
13. 他需要一种测试炸弹在水面弹跳的方法,这是一个看似荒谬的想法,没有人认为会奏效。这位官员拒绝了,解释说正在打仗,惠灵顿轰炸机很难找到。这位官员说:“它们的价值甚至超过同等重量的黄金。” 但当沃利斯透露是他设计了惠灵顿轰炸机时,这位官员终于给了他想要的东西。在辛顿进行暑期 “实习” 期间,有一个项目遭遇了谷歌对可用计算能力的限制。于是,研究人员告诉杰夫・迪恩,迪恩又订购了价值 200 万美元的设备。是他创建了谷歌的基础设施,这意味着他可以在他认为合适的时候使用。辛顿说:“他打造了一种可以让‘谷歌大脑’的团队运作起来的机制,我们不用担心其他任何事情。如果你需要什么,你找迪恩,他就能给你。” 辛顿认为,迪恩的奇怪之处在于,与大多数如此聪明、如此强大的人不同,他不是自我驱动型的,但总是愿意合作。辛顿把他比作艾萨克・牛顿,只不过牛顿是个 “浑蛋”:“大多数聪明人,比如牛顿这样的人,都会记仇。杰夫・迪恩的个性中似乎没有那种元素。”
具有讽刺意味的是,实验室的方法完全错了。他们使用了错误的计算能力,并且运行了错误的神经网络。纳夫迪普・贾特利的语音系统是在 GPU 芯片上成功训练出来的。然而,迪恩和 “谷歌大脑” 的其他创始人是在支撑谷歌全球数据中心网络的机器上训练系统的,这些机器使用了成千上万个 CPU(这种芯片是计算机的核心),而不是 GPU。14 塞巴斯蒂安・特隆曾游说谷歌的基础设施主管在其数据中心内安装配备 GPU 的机器,但遭到了拒绝,理由是这将使该公司的数据中心运营复杂化,并推高成本。当杰夫・迪恩和他的团队在一次大型人工智能会议上展示他们的方法时,当时还是蒙特利尔大学学生的伊恩・古德费洛就从观众席的座位上站起来,斥责他们没有使用 GPU—— 尽管他很快就会后悔自己如此轻率地公开批评杰夫・迪恩。“当时我不知道他是谁,” 古德费洛说,“而现在我有点儿崇拜他了。” 那个被称为 DistBelief 的系统也运行了错误的神经网络。通常,研究人员必须先给每幅图像贴上标签,然后才能帮助训练神经网络。他们必须将每只猫识别为一只猫,并在每只动物周围画一个数字 “边界框”。但是,谷歌的 “小猫论文” 详细介绍了一个系统,该系统可以学习从未标记的原始图像中识别猫和其他物体。尽管迪恩和他的合作者展示了他们可以在不标记图像的情况下训练一个系统,但事实证明,如果给神经网络的数据是被标记过的,系统就会更加准确、可靠和高效。那年秋天,辛顿在谷歌短暂 “实习” 后回到多伦多大学,他和他的两名学生非常清楚地证明了,谷歌走错了路线。于是,他们创建了一个系统,这个系统可以分析标记过的图像,并学会识别物体,其准确度远远超过任何人以前打造的任何技术,这表明,当人类将其指向正确的方向时,机器的效率会更高。如果有人给神经网络指明猫的确切位置,神经网络就会以更加强大的方式进行学习。

 

2012 年春天,杰夫・辛顿打电话给加州大学伯克利分校的教授吉腾德拉・马利克,后者曾公开抨击过吴恩达的一个观点 —— 深度学习是计算机视觉的未来。尽管深度学习在语音识别上取得了成功,但马利克和他的同事质疑这项技术能否掌握识别图像的艺术。因为马利克通常把陌生来电当作试图向他推销东西的推销员打来的,所以他能接起辛顿的电话倒是令人惊讶。电话接通后,辛顿说:“我听说你不喜欢深度学习。” 马利克说是的,当辛顿问及原因时,马利克说,任何关于深度学习在计算机视觉方面可能优于其他任何技术的说法,都缺乏科学证据支持。辛顿指出,最近的论文表明,深度学习在多个基准测试中识别物体的效果都很好。马利克说这些数据集太陈旧了,没人关心它们。“这无法说服任何一个与你的意识形态偏好不一致的人。” 他说。辛顿于是问怎样才能说服他。
起初,马利克说深度学习必须掌握一个名为 PASCAL 的欧洲数据集。“PASCAL 的体量太小了,” 辛顿告诉他,“要让系统有效,我们需要大量的训练数据。ImageNet 如何?” 马利克答应了。ImageNet 竞赛是一场年度比赛,由斯坦福大学的一间实验室举办,那个地方位于伯克利以南约 40 英里。15 该实验室已经汇编了一个巨大的数据库,里面有被精心标记的照片,从小狗、鲜花到汽车,不一而足。全球的研究人员每年都在竞争中打造系统,比试哪个系统能够识别出最多的图像。辛顿认为,如果能在 ImageNet 竞赛中脱颖而出,他就肯定会赢得这场争论。他没有告诉马利克的是,他的实验室已经在为即将到来的比赛打造一个神经网络,多亏了他的两名学生 —— 伊利亚・萨特斯基弗和亚历克斯・克里哲夫斯基,这个系统快要完工了。
萨特斯基弗和克里哲夫斯基是人工智能研究国际化的典型代表。两人都出生在苏联,随后移居以色列,再之后到了加拿大多伦多。但除此之外,他们之间的差异很大。野心勃勃、略显急躁甚至爱出风头的萨特斯基弗,早在 9 年前就敲开了辛顿办公室的大门,当时他还是多伦多大学的本科生,他通过在当地一家快餐店炸薯条来挣外快。当门打开时,他立即操着短促的东欧口音问,他能否加入辛顿的深度学习实验室。
“你为什么不约个时间,这样我们可以谈谈。” 辛顿说。
“好的,” 萨特斯基弗说,“现在怎么样?”
于是,辛顿邀请他进来。萨特斯基弗是一名数学系的学生,在那几分钟里,他看起来像一个敏锐的人。辛顿给了他一篇反向传播论文的复印件 —— 这份论文在 25 年前揭示了深层神经网络的潜力 —— 并告诉他读完之后再回来。几天后,萨特斯基弗回来了。
“我不明白。” 他说。
“这只是基本的微积分。” 辛顿说,他既惊讶又失望。
“哦,不是的。我不明白的是,你为什么不求导并采用一个合理的函数优化器。”
“我花了 5 年时间才想到这一点。” 辛顿对自己说。于是他递给这名 21 岁的学生第二篇论文。一周后,萨特斯基弗又回来了。
“我不明白。” 他说。
“为什么呢?”
“你训练一个神经网络来解决一个问题,然后,如果你想解决一个不同的问题,你又要用另一个神经网络重新开始,继续训练它来解决一个不同的问题。其实,你应该训练一个神经网络来解决所有的问题。”
辛顿意识到,萨特斯基弗有一种得出结论的方法,即使经验丰富的研究人员也需要花数年时间才能得到这些结论,于是辛顿邀请他加入自己的实验室。当他刚刚加入时,他的受教育水平远远落后于其他学生 —— 辛顿认为可能落后了几年,但他在几周之内就赶上了。辛顿把他视为自己教过的唯一一个比自己有更多好想法的学生,而萨特斯基弗 —— 他总是把自己的黑发剪得很短 —— 似乎总是愁眉苦脸,并以一种近乎疯狂的能量去尝试这些想法。当一些伟大的想法出现时,他会在与乔治・达尔合住的多伦多大学公寓的中央,用倒立俯卧撑的方式来强调这一时刻。“成功有保障了。” 他会说。2010 年,在阅读了瑞士的于尔根・施米德胡贝的实验室发表的一篇论文后,他和其他几位研究人员站在走廊里,宣布神经网络将解决计算机视觉问题,并坚称这仅仅是由谁去做这项工作的问题。
辛顿和萨特斯基弗这些有想法的人看到了神经网络要如何在 ImageNet 竞赛中胜出,但他们需要亚历克斯・克里哲夫斯基的技能才能实现。言简意赅且腼腆的克里哲夫斯基并不赞成这个伟大的想法,但他是一位非常有才华的软件工程师,拥有创建神经网络的诀窍。依靠经验、直觉和一点儿运气,像克里哲夫斯基这样的研究人员通过反复试验打造了这些系统,通过几个小时甚至几天的计算机计算,他们努力从中得到一个结果,而这些计算是他们永远无法自行完成的。他们将微小的数学运算工作分配给数十个数字神经元,将数千张小狗的照片输入这个人工神经网络,并希望经过数小时的计算,它能学会识别小狗。如果没有成功,他们就调整数学公式,然后一次又一次地尝试,直到成功。克里哲夫斯基是一些人口中的 “黑暗艺术” 大师。但更重要的是,至少在目前,他有办法从一台装有 GPU 芯片的机器中榨出最后一点速度,而 GPU 芯片仍然是一种不寻常的计算机硬件。“他非常擅长神经网络研究,” 辛顿说,“但他也是一位了不起的软件工程师。”
在萨特斯基弗提到 ImageNet 竞赛之前,克里哲夫斯基甚至没有听说过它,在了解这个计划的内容之后,他也不像实验室伙伴那样对它的可能性充满热情。萨特斯基弗花了几周时间修改数据,这样处理起来就会特别容易,而辛顿告诉克里哲夫斯基,每次将神经网络的性能提高 1%,他就可以有额外的一周时间来写他的 “深度论文”,这是一个全校知名的项目,已经晚了几周。(“那是个玩笑。” 克里哲夫斯基说。“他可能以为这是个玩笑,但并非如此。” 辛顿说。)
克里哲夫斯基仍然跟父母住在一起,他在卧室的计算机上训练他的神经网络。几周过去了,他从机器的两个 GPU 显卡中挖掘了越来越多的性能,这意味着他可以将越来越多的数据输入他的神经网络。辛顿常常说,多伦多大学甚至都不用支付电费。每周,克里哲夫斯基都会启动训练,随着时间的推移,在他卧室计算机的屏幕上,他可以看到训练的进展 —— 黑色的屏幕上写满了往上计数的白色数字。一周之后,他用一组新的图像测试该系统,但是没有达到目标,所以他修改 GPU 代码,并调整神经元的权重,然后再训练一周、再一周。每周,辛顿都会在他的实验室里监督学生们的聚会,这些聚会就像贵格会的教友聚会一样。大家只是坐在那里,直到有人决定畅所欲言,分享他们正在做的工作和看到的进展。克里哲夫斯基很少说话,但是,当辛顿让他说出训练结果时,房间里爆发出一种真正的兴奋感。“每周,他都会试图让亚历克斯・克里哲夫斯基多说一点儿,他知道这有多么了不起。” 亚历克斯・格雷夫斯回忆道,他是那些年实验室里的另一名成员。到了秋天,克里哲夫斯基的神经网络已经超过了当时最先进的技术水平。它的精确度几乎达到了全世界第二好的系统的两倍。16 它赢得了 ImageNet 竞赛。
克里哲夫斯基、萨特斯基弗和辛顿接着发表了一篇论文来描述他们的系统(后来被命名为 AlexNet),克里哲夫斯基 10 月底在意大利佛罗伦萨举行的计算机视觉会议上公布了这篇论文。面对 100 多名研究人员,他用典型的柔和且近乎带有歉意的语气描述了这个项目。当他发言结束时,会场里爆发出一些争论。一位名叫阿列克谢・埃弗罗斯(Alexei Efros)的加州大学伯克利分校教授从会场前排的座位上站起来,告诉会场里的其他人,ImageNet 竞赛不是一种可靠的计算机视觉测试。“它不像真实世界。” 他说,其中可能包括数百张 T 恤的照片,AlexNet 可能已经学会了识别这些 T 恤,但这些 T 恤是整齐地摆放在桌子上的,没有一丝皱纹,不是穿在真人身上的。“也许你可以在亚马逊的目录中检测到这些 T 恤,但这无助于你检测真实世界里的 T 恤。” 埃弗罗斯在伯克利分校的同事吉腾德拉・马利克曾告诉辛顿,如果一个神经网络能赢得 ImageNet 竞赛,那么这将改变他对深度学习的看法。马利克说他对此印象深刻,但在这项技术被应用于其他数据集之前,他不会给出自己的判断。克里哲夫斯基没有机会为自己的工作辩护,辩护工作是由杨立昆来承担的,他站出来说,这是计算机视觉历史上一个明确的转折点。“这就是证据。” 他的声音从房间的另一头传来。
他是对的。在面对多年来对神经网络未来的怀疑之后,事实证明他是正确的。

在赢得 ImageNet 竞赛的过程中,辛顿和他的学生们使用了杨立昆在 20 世纪 80 年代后期创新成果的一个修改版本:卷积神经网络。但对杨立昆实验室的一些学生来说,这也是一种失落。在辛顿和他的学生们发表了 AlexNet 的论文之后,杨立昆的学生们感到,一种深深的遗憾降临在他们的实验室 —— 一种感觉,经过 30 年的奋斗,他们跌跌撞撞地走到了最后一关。“多伦多大学的学生比纽约大学的学生行动更快。” 杨立昆在当天晚上讨论这篇论文时,这样对埃弗罗斯和马利克说。
在随后的几年里,辛顿将深度学习比作大陆漂移理论。阿尔弗雷德・魏格纳(Alfred Wegener)第一次提出这个理论是在 1912 年。

  1. 几十年来,这个理论不断地被地质学界驳回,部分原因是魏格纳不是地质学家。辛顿说:“魏格纳有证据,但他是一名气候学家,不是‘我们中的一员’,所以他被嘲笑了。神经网络的情况也是如此。” 有大量的证据表明,神经网络可以在各种各样的任务中取得成功,但它被忽视了。“如果你从随机权重开始,且拥有大量的数据,那么你会实现所有这些美妙的结果,要我们相信这个简直是太过分了,你做梦去吧,一厢情愿。”
    最终,阿尔弗雷德・魏格纳被证明是正确的,但是他没有活到享受被认可的那一刻。他死于去格陵兰探险的途中。在深度学习领域,没有活到见证这一刻的先驱是戴维・鲁梅尔哈特。在 20 世纪 90 年代,他患上了一种叫皮克病的大脑退行性疾病,这种疾病开始破坏他的判断力。18 在被确诊之前,他在一段漫长而幸福的婚姻后与妻子离婚,并为了另一段不太幸福的婚姻而辞职。他最终搬到了密歇根州,他的哥哥在那里照顾他。他于 2011 年去世,比 AlexNet 出现的时间早了一年。“如果还活着,” 辛顿说,“他会是一位重要人物。”

AlexNet 的论文成了计算机科学史上最有影响力的论文之一,被其他科学家引用超过 6 万次。辛顿常常说,这篇论文被引用的次数至少比他父亲写过的任何一篇论文都多 5.9 万次。“但是谁会数呢?” 他会问。AlexNet 不仅是深度学习的转折点,也是全球科技行业的转折点。它表明,神经网络可以在多个领域取得成功 —— 不仅仅是语音识别,而 GPU 对于这一成功至关重要,它改变了软件和硬件市场。在百度认识到其重要性后,深度学习研究员余凯向李彦宏解释了这一时刻。在邓力赢得时任执行副总裁陆奇的支持后,微软也认识到了。谷歌同样如此。
正是在这个关键时刻,辛顿创建了 DNNresearch 公司。那年 12 月,他们在太浩湖酒店的房间里,以 4 400 万美元的价格拍卖了这家公司。在分配收益的时候,辛顿的计划一直是三人平分。但辛顿的两名研究生告诉他,他应该得到更大的份额:40%。“你们这是在放弃一大笔钱,” 他告诉两名学生,“你们先回房间睡觉去吧。”
第二天早上回来时,他们依然坚持要辛顿拿更大的份额。“这体现了他们是什么样的人,” 辛顿说,“但没有体现出我是什么样的人。”

DeepMind 的野心与谷歌的收购#

 让我们真正做大!
对阿兰・尤斯塔斯而言,收购 DNNresearch 只是一个开始。作为谷歌的工程主管,他一心想垄断深度学习研究人员的全球市场,或者至少接近这个目标。几个月前,首席执行官拉里・佩奇将此作为优先事项,当时他和谷歌高管团队的其他成员聚集在南太平洋的一座(未披露的)岛屿上举行战略会议。

  • 佩奇告诉他的副手们,深度学习将会改变这个行业,谷歌需要率先到达那里。“让我们真正做大!” 他说。尤斯塔斯是会议室里唯一真正知道他在说什么的人。“他们都退缩了,” 尤斯塔斯回忆道,“但我没有。” 然后,佩奇让尤斯塔斯自由发挥,以确保在这个仍然很小的领域里掌控所有领先的研究人员,这可能需要招募数百名新员工。他已经从多伦多大学带来了辛顿、萨特斯基弗和克里哲夫斯基,现在,
  • 在 2013 年 12 月的最后几天,他又飞往伦敦去追逐 DeepMind。

DeepMind 差不多与 “谷歌大脑” 同时成立,这是一家有着极其崇高的目标的初创公司。公司旨在打造所谓的 “通用人工智能” 技术,这项技术可以做到人类大脑能做的任何事情,并且会做得更好。这还需要几年、几十年甚至几个世纪的时间,但这家小公司的创始人相信总有一天会实现,就像吴恩达和其他乐观的研究人员一样,他们相信,像多伦多大学这样的实验室所酝酿的很多想法都是强有力的起点。尽管与主要竞争对手相比,DeepMind 欠缺雄厚的财力,但它还是会去参与竞拍辛顿的初创公司,并且聚集了可能是世界上最令人印象深刻的年轻的人工智能研究人员,即使与谷歌迅速增长的名单相比也是如此。结果,这个潜在的偷猎者成了其他偷猎者(包括谷歌最大的竞争对手 Facebook 和微软)的目标。这给尤斯塔斯的行动增添了一些紧迫感。尤斯塔斯、杰夫・迪恩和另外两名谷歌人计划在伦敦市中心拉塞尔广场附近的 DeepMind 办公室待上两天,这样他们就可以考察实验室的技术和人才了,他们知道,应该还有一名谷歌人会加入他们:杰夫・辛顿。但是,当尤斯塔斯要求辛顿加入他们的跨大西洋考察之旅时,辛顿礼貌地拒绝了,说自己腰背的状况不允许他出行。他说,航空公司会要求他在飞机起飞和降落时坐下,但他已决定不再坐下了。起初,尤斯塔斯表面上接受了辛顿的拒绝,但他说自己会找到解决办法。

尤斯塔斯不仅仅是一名工程师。他身材修长,腰板笔挺,戴着一副无框眼镜,他还是一名飞行员、跳伞运动员和一个全能型寻求刺激的人,他用制造计算机芯片时的那种冷静、理性来规划每一次新的刺激。当他穿上压力服,从飘浮在地球上方 25 英里平流层中的气球上一跃而下时,他很快就创造了一项世界纪录。

  1. 就在最近,他和其他几名跳伞者从一架湾流喷气式飞机上跳伞 —— 一件从未有人做过的事情 —— 这让他产生了一个想法。在他们中的任何一个人跳下之前,必须有人打开飞机后部的门,而为了确保他们在跳跃之前不会翻滚到远处,他们穿上了全身式登山安全带,安全带上有两条长长的黑色带子,挂在机舱内壁的金属环上。尤斯塔斯认定,如果谷歌租一架私人飞机,他们就可以给辛顿套上安全带,把他放在固定于地板的床上,然后用同样的方法把他挂到飞机上。他们就是这么做的。他们乘坐私人湾流飞机到伦敦,辛顿躺在一张由两个座位折叠成的临时床上,两条带子把他固定住。“所有人都对我很满意,” 辛顿说,“因为这让他们也可以乘坐私人飞机。”
    这架私人飞机的基地位于加州圣何塞,这些飞机经常被谷歌和其他硅谷科技巨头租用,不同的公司使用时,机组人员还会改变机舱内的照明方案,以匹配其企业标志。
  • 2013 年 12 月的一个星期天,谷歌的人登机时,灯是蓝色、红色和黄色的。辛顿不确定安全带如何保证他的人身安全,但他觉得这样至少能让他在飞机起飞和降落时不至于在飞机里翻滚,也不至于一头撞上谷歌的同事。那天晚上,他们在伦敦着陆,第二天早上,辛顿走进了 DeepMind 的办公室。

 
DeepMind 由一群强大的头脑领导。其中两人,戴密斯・哈萨比斯和戴维・西尔弗(David Silver),相识于在剑桥大学读本科的时候,但他们最初是在西尔弗的家乡、英国东海岸附近举办的一场青年国际象棋锦标赛上相遇的。

  1. “在哈萨比斯认识我之前,我就知道他了,” 西尔弗说,“我看到他出现在我们镇上,他赢得了比赛,然后离开了。” 哈萨比斯的母亲是一位华裔新加坡人,父亲是希腊裔塞浦路斯人,他们在伦敦北部经营着一家玩具店,哈萨比斯一度是世界上排名第二的 14 岁以下的国际象棋选手,但他的天赋不仅限于国际象棋。他以计算机科学第一名的成绩毕业于剑桥大学,他有办法掌握大多数思维类的游戏。1998 年,21 岁时,他参加了在伦敦皇家节日大厅举行的 “全能脑力” 比赛,来自世界各地的选手们挑选五类游戏参与比赛,包括国际象棋、围棋、拼字游戏、双陆棋和扑克,哈萨比斯大获全胜。在接下来的五年里,他又赢了四次,另外那一次,是他没参加。在第二次赢得比赛后,他在网络日记中写道:“尽管脑力运动看起来很高深,但它与其他任何运动一样竞争激烈。在最高级别的比赛中,一切都会发生。辱骂对手、摇晃桌子和各种作弊手段都是比赛的一部分。我过去参加的青年国际象棋锦标赛的桌子下面安装了隔板,以防止参赛者互相踢腿。别被骗了,这就是战争。”
  2. 3 杰夫・辛顿后来说,哈萨比斯堪称有史以来最伟大的游戏玩家,然后辛顿尖锐地补充说,他的实力不仅展示在智力上,还展示在他对胜利的极端且坚定不移的渴望上。在 “全能脑力” 比赛上取得成功之后,哈萨比斯在《外交风云》(Diplomacy)游戏比赛上赢得了世界团体冠军。
  3. 这是一款以第一次世界大战前的欧洲为背景的棋盘游戏,在该游戏中,顶尖玩家要依靠国际象棋棋手的分析和战略技巧,同时也需要利用谈判、欺骗和共谋等计策才能走向胜利。“他有三样东西,” 辛顿说,“他很聪明,很有竞争性,也非常擅长社交。这是一个危险的技能组合。”
    有两件事情让哈萨比斯痴迷。一件是设计电子游戏。在缺席 “全能脑力” 比赛那年,他帮助著名的英国设计师彼得・莫利纽克斯(Peter Molyneux)创建了《主题公园》(Theme Park)游戏,在这款游戏里,玩家们建造并运营一个巨大的数字模拟摩天轮与过山车游乐园。

5. 这款游戏的销量估计有 1 000 万份,它激发了一种重新创造大量物理世界的全新游戏类型 —— 模拟游戏。另一件让哈萨比斯痴迷的事是人工智能。他相信自己有一天会创造出一台可以模仿大脑的机器。在接下来的几年里,随着他创立起 DeepMind,这两件令他痴迷的事让人难以预料地融合在了一起。

在剑桥大学本科生戴维・西尔弗身上,哈萨比斯找到了一种志趣相投的感觉。大学毕业后,他们两人创立了一家名为 Elixir 的电子游戏公司。哈萨比斯在伦敦发展这家公司的过程中,一直在网上记录着公司内外的生活(大部分是公司内部的)。

  1. 这是一种宣传手段,由他的一位设计师代笔,这种方式引起了人们对他的公司及其游戏的兴趣。但他在某些地方非常诚实,展示了自己的极客魅力、足智多谋和钢铁般坚定的必胜决心。有一次,他记录了自己与英国知名的游戏发行商 Eidos 的会面情况,Eidos 同意发行 Elixir 的第一款游戏。哈萨比斯说,对一家游戏开发商来说,与发行商建立深厚的信任感是至关重要的,他觉得在伦敦办公室里的这次长谈会面取得了成功。但是当会议结束时,Eidos 的董事会主席 —— 伊恩・利文斯通(Ian Livingstone),一个后来因为行业贡献而被授予大英帝国司令勋章的人 —— 注意到会议室里有一张桌上足球台,他向哈萨比斯提出挑战。哈萨比斯思考了一下他是否应该输掉这场比赛,以便让他的发行商感到开心,然后得出结论:除了赢下来,他别无选择。哈萨比斯说:“伊恩不是一个普通的玩家,有传言说,他曾和史蒂夫・杰克逊(Steve Jackson)一起获得过赫尔大学的双人冠军。这把我置于一个可怕的境地。成为 Eidos 董事会主席的手下败将(面对出色的球技)意味着获得一张门票。不过,你得在某个地方划清界限。毕竟,游戏就是游戏。我以 6∶3 的比分获胜。”
  2. 7 他的日记似乎不局限于 Elixir 公司,也涉及他的下一次创业。启动第一次创业时,他坐在家里的长椅上,听着科幻电影《银翼杀手》(Blade Runner)的配乐(第十二首,《雨中泪水独白》,单曲循环)。正如斯坦利・库布里克在 20 世纪 60 年代末启发了年轻的杨立昆一样,雷德利・斯科特(Ridley Scott)在 20 世纪 80 年代初用这部现代科幻经典抓住了年轻的哈萨比斯的想象力。在这部经典影片中,一位科学家和他专横的公司制造了一些行为像人类的机器。随着规模较小的游戏开发商被挤出市场,哈萨比斯关闭了 Elixir,并决定创建另一家公司。他认为,新公司将会比上一家更加野心勃勃,回到他在计算机科学和科幻小说的根本上。
  3. 2005 年,他下定决心创建一家能够再造人类智能的公司。他知道自己离迈出第一小步还差好几年时间。在实际创办一家公司之前,他在伦敦大学学院攻读了神经科学博士学位,希望在再造大脑之前更好地了解大脑。“我在学术界的逗留总是暂时的。” 他说。戴维・西尔弗也回到了学术界,但不是作为神经科学家。8 他在加拿大阿尔伯塔大学进入了一个相邻的领域 —— 人工智能。在重新走到一起创办 DeepMind 之前,他们两人在研究领域上的差异表明了神经科学与人工智能之间的关系,至少这些年推动人工智能实现巨大变化的很多研究人员都是这么看的。没有人能真正理解大脑,也没有人能再造它,但有些人相信这两种努力最终会相互带动。哈萨比斯称之为 “一种良性的循环”。

在伦敦大学学院,哈萨比斯探索的是大脑中记忆与想象的交集。在一篇论文中,他研究了一些大脑受损后出现遗忘症、无法记住过去的人,他发现这些人在想象自己处于新环境时也很困难,比如去购物中心或去海滩度假。
9 识别、存储和回忆图像在某种程度上与创造图像有关联。2007 年,世界领先的学术期刊《科学》提名这项研究成果为年度十大科学突破之一。10 但这只是另一块垫脚石而已。在获得博士学位之后,哈萨比斯开始在伦敦大学学院实验室的盖茨比计算神经科学中心做博士后研究,该研究中心聚焦于神经科学和人工智能的交会处,由英国超市巨头戴维・塞恩斯伯里(David Sainsbury)资助,创始教授是杰夫・辛顿。
在创办仅仅三年之后,辛顿就离开了这个职位,回到多伦多大学担任教授,而哈萨比斯那时还在经营他的游戏公司。几年之后,他们才终于相遇,但也仅仅是匆匆一见。哈萨比斯与盖茨比中心的一位研究人员沙恩・莱格(Shane Legg)达成了共识。正如他后来回忆的那样,当时通用人工智能并不是严肃的科学家们公开讨论的内容,即使在盖茨比中心这样的地方。“这基本上是一个被人耻笑的领域,” 他说,“如果你跟任何人谈论通用人工智能,最好的情况是别人认为你很古怪,最坏的情况是别人认为你具有某种妄想的、非科学的特征。” 但莱格是新西兰人,他曾一边练习芭蕾,一边学习计算机科学和数学,他和哈萨比斯有着同样的见解。他梦想打造 “超级智能”,一种可以超越大脑能力的技术,尽管他担心这些机器有一天会危及人类的未来。他在论文中说,超级智能可以带来前所未有的财富和机会,或者导致威胁人类生存的 “噩梦场景”。11 他认为,即使打造出超级智能的可能性微乎其微,研究人员也必须考虑可能的后果。“一个人如果认同,真正的智能机器的影响可能是深远的,并且在可预见的未来至少有很小的概率会发生这种情况,那么他就需要谨慎地提前做好准备。如果到了智能机器短期内很有可能出现的时候,我们再来深入讨论和思考所涉及的问题,那就太晚了,” 他写道,“我们现在就需要认真对待这些事情。”12 他更大的信念是,大脑本身将为构建超级智能提供一张地图,这就是他来到盖茨比中心的原因。“那里似乎是一个非常自然的去处。” 他说。在那里,他可以探索他所谓的 “大脑和机器学习之间的联系”。
多年之后,杰夫・辛顿描述沙恩・莱格时,将他与戴密斯・哈萨比斯做了对比:“他不那么聪明,不那么好胜,也不那么擅长社交。但是,几乎所有人都是这样的。” 即便如此,在接下来的几年里,莱格的想法几乎与他更知名的搭档的想法具有同样的影响力。
哈萨比斯和莱格有着同样的野心。用他们自己的话来说,他们想 “解决智能问题”。但是,在最佳实现方式上,他们意见不一。莱格建议他们从学术界开始,而哈萨比斯说,他们别无选择,只能进入产业界,他坚持认为,要获得必要的资源来面对如此极端的任务,这是唯一的方法。哈萨比斯了解学术界,在 Elixir 创业了一段时间后,他也了解了商业世界。他不想为了创业而创业。他想创建一家公司,以便为他们希望促进的长期研究做好独特的准备。他告诉莱格,他们可以从风险投资机构那里融资,其金额要超过教授写资助申请所获得的资金。另外,他们能够以大学无法实现的速度搭建好必要的硬件。莱格最终同意了。“我们实际上没有将计划告诉盖茨比中心的其他任何人,” 哈萨比斯说,“他们会认为我们有点儿疯狂。”
在博士后阶段,他们开始与一位名叫穆斯塔法・苏莱曼(Mustafa Suleyman)的创业者和社会活动家待在一起。当他们三人决定成立 DeepMind 时,苏莱曼提供财务构思,负责创造公司的收入以维持研究所需。他们在 2010 年秋天推出了 DeepMind,它的名字是对深度学习和神经科学的认可,也是对英国科幻小说《银河系搭车客指南》中计算生命终极问题的超级计算机 “沉思”(Deep Thought)的致敬。对于一家着眼于人工智能领域且致力于在近期解决问题的公司,哈萨比斯、莱格和苏莱曼拥有各自独特的观点,他们也公开对这项技术在现在和未来的危险性表示关注。公司的既定目标 —— 写在商业计划书的第一行 —— 是通用人工智能。但与此同时,他们也告诉任何愿意倾听的人,包括潜在的投资人:这项研究可能很危险。他们说永远不会与军方共享自己的技术,并且警告说超级智能可能会成为一种生存威胁,这一点与莱格论文中的观点相呼应。
在公司成立之前,他们就接触了 DeepMind 最重要的投资人。最近几年,莱格参加了一个名为奇点峰会的未来学家年度会议。“奇点” 是一个理论时刻,此时技术已经进步到了人类无法控制的地步。这个小型会议的创始人们属于一个由边缘学者、创业者和追随者组成的不拘一格的团体,他们相信这一时刻即将到来。他们不仅致力于探索人工智能,还关注生命延长技术、干细胞研究和其他不同的未来主义。其中一位创始人名叫埃利泽・尤德考斯基(Eliezer Yudkowsky),他是自学成才的哲学家,并且自称人工智能研究人员,他在 21 世纪第一个十年的早期向莱格介绍了超级智能的概念,当时他们在与一家总部位于纽约的初创公司 Intelligensis 合作。但是,哈萨比斯和莱格把目光投向了会议的另一位创始人:彼得・蒂尔(Peter Thiel)。
2010 年夏天,哈萨比斯和莱格计划在奇点峰会上发表演讲,他们知道每位演讲者都会被邀请到蒂尔位于旧金山的别墅参加私人聚会。13 蒂尔是网络支付服务商贝宝(PayPal)的创始成员之一,后来他作为 Facebook、LinkedIn(领英)和 Airbnb(爱彼迎)的早期投资人,获得了更大的声誉和更多的财富。哈萨比斯和莱格觉得,他们如果能进入蒂尔的别墅,就有机会向他推销自己的公司,并游说他参与投资。蒂尔不仅有钱,还有意愿。他是一个相信极端想法的人,甚至比典型的硅谷风险投资家更相信极端想法。毕竟,他在资助奇点峰会。在未来的几年里,与硅谷的很多巨头不同,他全力支持特朗普,在 2016 年美国总统选举之前及之后都是如此。“我们需要一个疯狂到足以投资一家通用人工智能公司的人,” 莱格说,“他是一个具有深度逆向思维的人 —— 针对所有的事情。这个领域的大多数人都不认同我们所做的事情,所以他的深度逆向思维很可能会对我们有利。”
会议在旧金山市中心的一家酒店里召开,哈萨比斯在第一天发表了一场演讲,他认为,打造人工智能的最佳方式是模仿人类大脑的工作方式。当工程师按照大脑的形象设计技术时,他称之为 “生物方法”,无论是神经网络还是其他数字化创新,都是如此。14“我们应该专注于大脑的算法水平,” 他说,“提取大脑在解决问题时的那种表征和算法,而这些问题是我们想要通用人工智能来解决的。”15 这是定义 DeepMind 的核心支柱之一。第二天,沙恩・莱格用自己的演讲描述了另一个核心支柱。他告诉听众,人工智能研究人员需要明确的方法来跟踪自己的进展。否则,他们无法知道自己什么时候走上了正确的道路。16“我想知道我们要去哪里,” 他说,“我们需要一个关于什么是智能的概念,需要一种衡量它的方法。”17 哈萨比斯和莱格不仅仅是在描述他们的新公司将如何运作。最重要的是,他们的演讲是一种接近蒂尔的方式。
蒂尔的别墅坐落在贝克街,隔着一个淡水湖与旧金山艺术宫遥望,旧金山艺术宫是约 100 年前为了一场艺术展而建造的一座石头城堡。当哈萨比斯和莱格穿过前门走进客厅时,迎接他们的是一副棋盘。每颗棋子都摆在自己的位置上,白棋与黑棋对垒,等待有人来下棋。他们先见到了尤德考斯基,尤德考斯基将他们介绍给了蒂尔。但他们没有推销自己的公司 —— 至少没有马上推销。哈萨比斯开始谈论国际象棋。18 他告诉蒂尔,他也是一名棋手,他们讨论了这种古老游戏的持久力量。哈萨比斯说,它延续了这么多个世纪,是因为马和象之间的紧张关系,及其在技能和弱点上的拉锯战。蒂尔被迷住了,邀请他们两人第二天再来,这样他们就可以推销自己的公司了。
当他们第二天早上回来时,蒂尔穿着短裤和 T 恤,刚刚结束日常锻炼,大汗淋漓。他们坐到餐桌前,一名管家给他拿来了一杯可乐。哈萨比斯开始推销,他说自己不仅仅是一名游戏玩家,还是一位神经科学家,他们正在按照人脑的形象打造通用人工智能,并且将从学会玩游戏的系统开始进行漫长的探索,全球计算能力的持续指数级增长将推动他们的技术达到更高的水平。对于这次推销,连彼得・蒂尔都感到惊讶。“这件事可能有点儿大。” 他说。但他们一直在交谈,在接下来的几周里,沟通仍在继续,蒂尔和他的风险投资机构 —— 创始人基金(Founders Fund)的几位合伙人都参加了。最后,他主要的反对意见不在于公司的野心过大,而在于公司的总部设在伦敦。这让他关注被投公司更困难一些,这也是硅谷风险投资家的典型担忧。尽管如此,他还是在 DeepMind 第一轮 200 万英镑的种子投资中投了 140 万英镑。19 在接下来的几个月和几年里,其他知名投资人也加入进来,包括埃隆・马斯克,这位硅谷的大亨在创建火箭公司 SpaceX 和电动汽车公司特斯拉之前,曾与蒂尔一起创立了贝宝公司。“投资有一个特定的圈子,” 莱格说,“他是决定参与投资的亿万富翁之一。”
DeepMind 的雪球就此滚动起来。哈萨比斯和莱格聘请了辛顿和杨立昆担任技术顾问,这家初创公司很快招募了该领域的很多后起之秀:弗拉德・姆尼,他曾在多伦多大学辛顿门下学习;科拉伊・卡武库奥格鲁,他是一位出生于土耳其的研究人员,曾在纽约大学杨立昆手下工作;亚历克斯・格雷夫斯,他在跟随辛顿从事博士后研究之前,在瑞士是于尔根・施米德胡贝的学生。他们告诉彼得・蒂尔,学习玩游戏是起点。自 20 世纪 50 年代以来,游戏一直是人工智能的试验场,当时的计算机科学家制造了第一个自动化棋手。201990 年,研究人员打造了一台名叫奇努克(Chinook)的机器,它击败了世界上最好的跳棋选手,这是一个转折点。217 年之后,IBM 的 “深蓝” 超级计算机超越了国际象棋特级大师加里・卡斯帕罗夫(Garry Kasparov)。222011 年,另一台 IBM 机器 “沃森” 超越了《危险边缘》游戏的所有赢家!23 现在,由弗拉德・姆尼领导的一组 DeepMind 研究人员开始开发一个系统,玩家基于此系统可以玩雅达利的老游戏,包括 20 世纪 80 年代的经典游戏,如《太空入侵者》(Space Invaders)、《乒乓》(Pong)和《越狱》(Breakout)。哈萨比斯和莱格坚持认为,在人工智能的开发过程中,研究人员应该密切评估其进展,原因之一是这有助于深入关注其中的危险。这些游戏提供了这种评估标准。分数是绝对的,结果是确定的。“这就是我们插下旗子并攻下山头的方式,” 哈萨比斯说,“接下来我们应该去哪里?下一座珠穆朗玛峰在哪里?” 另外,玩游戏的人工智能提供了一种非常好的演示。演示可以促进软件销售,有时也可以促进公司的出售。在 2013 年初,这一点是显而易见的,甚至是不可否认的。

  • 在《越狱》游戏中,玩家用一个小球拍将球弹向一堵彩砖墙。当球击中一块砖时,它会消掉,玩家就赢得了几分。但是,如果球拍漏掉球的次数太多,比赛就结束了。在 DeepMind,姆尼和他的同事们打造了一个深度神经网络,它通过反复试错来学习《越狱》的细微差别,玩了成千上万局游戏,同时密切跟踪哪些动作有效、哪些无效,这种技术被称为 “强化学习”。这个神经网络可以在两个多小时内掌握这款游戏。
  • 24 在最开始的 30 分钟内,它学会了基本概念 —— 朝着球移动、将球击向砖块 —— 尽管它还没有掌握游戏。一个小时之后,它变得足够熟练了,每次都能击中球,每次命中都能得分。两个小时之后,它学会了一个控制游戏的技巧,即将球击到彩砖墙后面去,使它落入一个狭小空间,在那里,它几乎可以无休止地反弹,一块接一块地击中砖块,一点一点地得分,而且永远不会弹回球拍。最终,该系统玩游戏的速度和精度超越了所有人类玩家。
    在姆尼和他的团队打造了这个系统之后不久,DeepMind 给公司的投资方创始人基金的投资人,包括一个名叫卢克・诺塞克(Luke Nosek)的人,发送了一段视频。诺塞克最初是与彼得・蒂尔和埃隆・马斯克一起作为贝宝公司的创始团队成员而声名鹊起的,他们就是所谓的 “贝宝黑帮”(PayPal Maf ia)。在收到 DeepMind 的雅达利游戏人工智能视频之后不久,正如诺塞克后来对一位同事所说的那样,他和马斯克在一架私人飞机上,当他们观看视频并讨论 DeepMind 时,另一位碰巧在飞机上的硅谷亿万富翁拉里・佩奇无意中听到了他们的对话。佩奇就这样了解到了 DeepMind,并引发了一场追逐,这场追逐最终以谷歌一行人乘坐湾流飞机前往伦敦而告终。佩奇想收购这家初创公司,即使在如此早期的阶段。但哈萨比斯感到不太确定,他一直打算创建属于自己的公司,至少他对员工是这么说的。他说 DeepMind 将在未来 20 年甚至更长时间内保持独立。

 
辛顿和其他谷歌人乘电梯去 DeepMind 办公室,却被困在两层楼之间。在他们等待的时候,辛顿担心迟到会让 DeepMind 的人感觉不佳,其中很多人他都认识。“这一定很尴尬。” 他想。当电梯终于重新启动,这些谷歌人到达顶层时,他们受到了哈萨比斯的迎接,哈萨比斯把他们带进了一间会议室,里面有一张长长的会议桌。他并没有表现出尴尬,只是有些紧张,他担心将实验室的研究暴露给一家公司,而这家公司拥有超级强大的资源,能够以他自己的实验室永远无法实施的方式加速这项研究。他不想暴露公司的秘密,除非他确定自己想出售公司,同时谷歌愿意收购。在谷歌人进入房间后,他开始讲话,介绍了 DeepMind 的使命。随后,几位 DeepMind 研究人员透露了实验室正在研究的部分内容,从具体的到理论的。与钱相关的部分由弗拉德・姆尼来介绍,跟往常一样,这指的是《越狱》。
当姆尼介绍这个项目时,筋疲力尽的杰夫・辛顿躺在地板上,其他人坐在旁边的桌子旁。偶尔,当辛顿想提问时,姆尼会看到他把手举了起来。姆尼想,这就像他们在多伦多大学的日子一样。演示结束时,杰夫・迪恩问,系统是否真的在学习《越狱》的技能。姆尼说是的,它在自动寻找一些特定的策略,因为这些策略赢得了最多的奖励 —— 在这种情况下,指的是最高的分数。这项强化学习技术并不是谷歌正在探索的,但它是 DeepMind 内部的一个主要研究领域。沙恩・莱格在他的博士后导师发表了一篇论文后接受了这个概念,该论文认为大脑的工作方式与此基本相同。DeepMind 已经招募了很多专门研究这个想法的研究人员,包括戴维・西尔弗。阿兰・尤斯塔斯认为,强化学习让 DeepMind 构建了一个系统,这是在通用人工智能方面的第一次真正尝试。“系统在大约一半的比赛中有超人的表现,在有些情况下,表现令人震惊,” 他说,“这台机器会制定出一个撒手锏般的策略。”
雅达利游戏演示结束之后,沙恩・莱格根据他的博士论文做了一场演讲,描述了一种可以在任何环境中学习新任务的数学智能体。弗拉德・姆尼和他的团队已经打造出了一些智能体,它们可以在《越狱》和《太空入侵者》等游戏中学习新的行为。莱格提出的是这项工作的延伸 —— 超越游戏并进入更为复杂的数字领域以及现实世界。就像软件智能体可以学习通关《越狱》一样,机器人可以学习在客厅里行走,汽车可以学习在社区里导航。或者,以大致相同的方式,这些智能体中的一个可以学习掌握英语。这些问题都要困难得多。游戏是一个封闭的宇宙,其中的奖励机制是明确定义的,有积分和终点线。而现实世界要复杂得多,奖励机制更难以定义,但这是 DeepMind 为自己规划的路线。尤斯塔斯说:“沙恩・莱格的论文构成了他们所做的事情的核心。”
这是一个遥远的未来目标,但是在这个过程中,会有很多小的步骤,这些步骤会在不久的将来形成实际的应用。在谷歌人的注视下,在苏格兰长大、父母都是美国人的亚历克斯・格雷夫斯展示了其中的一个应用:可手写的系统。通过分析定义物体的模式,神经网络就可以学会识别它。如果系统能理解这些模式,那么系统也可以生成该物体的图像。在分析了一组手写单词后,格雷夫斯的系统就可以生成手写单词的图像。他们希望,通过分析小狗和小猫的照片,这种技术也能生成小狗和小猫的图像。研究人员称之为 “生成模型”,这也是 DeepMind 研究的一个重要领域。
当谷歌在全世界范围给每位研究人员支付几十万美元(如果不到数百万美元)薪酬时,对于亚历克斯・格雷夫斯这样的人,DeepMind 每年支付的薪酬不到 10 万美元,这是公司所能承受的。这家小公司在成立三年之后,仍然没有产生收入。苏莱曼和他的团队正在试图开发一款移动应用程序,通过人工智能来帮助用户筛选出最新款的时装 —— 时尚编辑和作家偶尔会在人工智能研究人员的陪同下来到拉塞尔广场的办公室,还有一个单独的小组即将在苹果应用商店上线一款新的人工智能电子游戏,但尚未产生收入。当格雷夫斯和其他研究人员向来自谷歌的访问者描述自己的工作时,哈萨比斯知道,有些事情必须改变了。
演示结束后,杰夫・迪恩问哈萨比斯是否可以看一下公司的计算机代码。哈萨比斯起初犹豫不决,但随后同意了,迪恩坐在一台机器旁,旁边是科拉伊・卡武库奥格鲁,他是 Torch(该公司用来构建和训练其机器学习模型的软件)的负责人。看了大约 15 分钟的代码之后,迪恩就知道 DeepMind 能与谷歌匹配。“很显然,这是由那些知道自己在做什么的人做出来的,” 他说,“我觉得,他们的文化与我们的文化是兼容的。” 至此,毫无疑问谷歌将收购这间伦敦实验室。马克・扎克伯格和 Facebook 最近加入了与谷歌、微软和百度的竞争,以获得这类人才,谷歌下定决心要保持自己的领先地位。尽管哈萨比斯早就向员工承诺 DeepMind 将保持独立,但他现在别无选择,只能出售。如果不卖,公司就会死掉。莱格说:“这些市值千亿美元的企业不顾一切地招募我们所有的顶尖人才,这让我们无法承受。我们设法留住所有人,但是从长远来看,这是不可持续的。”
尽管如此,在把 DeepMind 出售给谷歌的谈判过程中,他们至少争取到了哈萨比斯对其员工所做的部分承诺。DeepMind 保持独立的时间不会超过三周了,更不用提 20 年的事情,但哈萨比斯、莱格以及苏莱曼坚持要求,他们与谷歌的协议中要包括两个条件,以维护他们的理想。其中一条是禁止谷歌将任何 DeepMind 的技术用于军事目的,另一条是要求谷歌设立一个独立的道德委员会,负责监督 DeepMind 通用人工智能技术的使用,无论该技术什么时候能实现。一些了解协议的人质疑这些条款是否有必要,在随后的几年里,很多人工智能圈子里的人认为这只是一个噱头,旨在提高 DeepMind 的出售价格。“如果他们说自己的技术是危险的,其技术似乎就显得更强大,他们就可以要求更高的对价。” 有人这么说。但是,DeepMind 的创始人坚称,除非这些要求得到满足,否则不会出售公司,他们将继续为相同的理想而奋斗,直到最后。
在加利福尼亚州登上湾流飞机之前,辛顿曾说他将乘火车回加拿大 —— 这是一个为了保护其伦敦之行秘密的封面故事。在返程的航班上,飞机绕了一小段航程去加拿大让他下飞机,降落在多伦多的时间就是他如果乘火车大约应该到达的时间。这个计策如约实施。1 月,谷歌宣布以 6.5 亿美元收购了一家拥有 50 名员工的公司 ——DeepMind,这是该公司另一件大功告成的事。25Facebook 也参与竞拍了这间伦敦实验室,而每位 DeepMind 创始人可以从 Facebook 套现的金额是从谷歌套现金额的两倍。

谁拥有智能 PART TWO WHO OWNSINTELLIGENCE#

你好,我是 Facebook 的马克。
2013 年 11 月下旬,克莱门特・法拉贝特坐在位于布鲁克林的一居室公寓的沙发上,在笔记本电脑上编写代码,这时他的 iPhone 手机铃响了,屏幕上显示的是 “加州门洛帕克”。他接起电话,一个声音说道:“你好,我 Facebook 的马克。” 法拉贝特是纽约大学深度学习实验室的研究员。几周前,另一位 Facebook 高管出人意料地联系了他,但他仍然没想到马克・扎克伯格会打来电话。扎克伯格以非常直接和毫不客气的方式告诉法拉贝特,他将前往太浩湖参加 NIPS 会议,并询问他们是否可以在内华达州见面交流。距离 NIPS 会议召开还有不到一周的时间,法拉贝特也没有计划那一年的旅行,但他同意在会议开始的前一天,在哈拉斯赌场酒店的顶层套房与扎克伯格会面。挂掉电话后,他赶紧预订了一个跨境航班和一个住宿的地方,但直到他抵达内华达州,走进哈拉斯的顶层套房,看到坐在 Facebook 创始人兼首席执行官后面沙发上的人是谁,他才彻底意识到发生了什么。那个人就是杨立昆。

扎克伯格没有穿鞋。在接下来的半个小时里,他穿着袜子在套房里来回踱步,称人工智能是 “下一个大事件” 和 “Facebook 的下一步”。这是谷歌一行人飞往伦敦与 DeepMind 会面的前一周。Facebook 正在打造一间自己的深度学习实验室,公司几天前已经聘请了杨立昆来负责该实验室。现在,与杨立昆和 Facebook 首席技术官迈克・斯科洛普夫(Mike Schroepfer)一起,扎克伯格正在为这个新项目招募人才。法拉贝特是一位出生于法国里昂的学者,专门研究图像识别,并用了数年的时间设计用于训练神经网络的计算机芯片,而他只是在当天下午进入哈拉斯顶层套房与扎克伯格见面的众多研究人员之一。“他基本上想招募所有的人,” 法拉贝特说,“他知道这个领域每位研究人员的名字。”
那天晚上,Facebook 在酒店的一个舞厅里举办了一场私人聚会。1 几十名工程师、计算机科学家和学者挤在一个错层结构的空间里,这里还有一个可以俯瞰下面人群的露台。杨立昆宣布,公司正在曼哈顿筹备一间人工智能实验室,实验室离他在纽约大学的办公室不远。“这是一场天堂(也被称为纽约市)里的婚礼。” 杨立昆说,然后举起酒杯敬 “马克和斯科洛普夫”。

2Facebook 已经聘请了另一位纽约大学的教授在新的实验室里与杨立昆一起工作,这间实验室被称为 FAIR,全称是 Facebook 人工智能研究实验室,几个更著名的人物很快将加入他们,包括从谷歌挖来的三位研究人员。但最终,尽管跟随杨立昆学习的时间很长,但法国人克莱门特・法拉贝特没有加入。他和其他几位学者正在创建一家叫 Madbits 的创业公司,他下定决心坚持到底。6 个月之后,在这家小小的新公司接近发布第一款产品时,它就被硅谷的另一家社交网络巨头 Twitter(推特)收购了。对人才的争夺已经如此激烈,而且愈演愈烈。

 Facebook 位于硅谷的总部是一片感觉像迪士尼乐园的企业园区。这要归功于一个由壁画家、雕塑家、丝网印刷工艺师和其他驻场艺术家组成的团队,每栋建筑、每间房间、每条走廊和每个门厅都精心装饰着丰富多彩的奢侈品,在这中间,餐厅也以同样的热情为自己做广告,大托尼比萨位于一角,汉堡小屋位于另一角。那年早些时候,在 16 号楼里面,靠近皇家泰迪玉米片的地方,马克・扎克伯格与 DeepMind 的创始人坐在一起。他们之间有一个知名的对接人 —— 彼得・蒂尔,他是 DeepMind 的第一位投资人,也是 Facebook 的董事会成员。不过,扎克伯格还不太确定如何看待这家来自伦敦的小微初创公司。他最近约见了其他几家初创公司,它们都在做所谓的人工智能的东西,而 DeepMind 似乎只是众多同行中的一家。
交流结束后,一位名为卢博米尔・布尔德夫(Lubomir Bourdev)的 Facebook 工程师告诉扎克伯格,他们听到的信息绝不夸张,哈萨比斯和莱格已经掌握了一项正在兴起的技术。“这些家伙是来真的。” 布尔德夫说。作为计算机视觉领域的专家,布尔德夫正在领导一项新的尝试,他要打造一项服务来自动识别上传到 Facebook 的照片和视频中的物体。在 AlexNet 之后,他跟其他很多见过深度学习的人一样,知道神经网络将改变数字技术的构建方式。他告诉扎克伯格,DeepMind 是 Facebook 应该收购的公司。
在 2013 年,这还是一个奇怪的想法。在更广泛的科技行业,包括 Facebook 的大多数工程师和高管在内,人们甚至都没有听说过深度学习,当然也不理解它日益增加的重要性。说得更确切一些:Facebook 是一家社交网络公司,它打造互联网技术是为了眼下,而不是为了通用人工智能或其他任何在未来几年内不太可能进入现实世界的技术。该公司的座右铭是 “快速行动,破除陈规”,这个口号几乎没完没了地重复出现在遍布企业园区墙壁上的小小的丝网印刷标志上。Facebook 运营的社交网络覆盖全球超过十亿人口,并且致力于尽快扩展和扩大这项服务。它没有从事 DeepMind 想要做的那种研究,那种研究更多的是探索新的前沿,而不是快速行动和破除陈规。但现在,在 Facebook 成为世界上最强大的公司之一后,扎克伯格下定决心,Facebook 要与其他公司 —— 谷歌、微软、苹果和亚马逊 —— 竞争 “下一个大事件”。
这就是科技行业的运作方式。最大的一些公司正在陷入一场永不停息的竞赛,追逐下一项变革性技术,无论那是什么。每家公司都想率先抵达那里,如果有谁抢先一步,那么其他人将面临更大的压力,必须毫不拖延地抵达。通过收购杰夫・辛顿的初创公司,谷歌首先介入了深度学习。到 2013 年中,扎克伯格决定他也必须抵达那里,即使他竞争的是第二名。Facebook 只是一个社交网络,没有关系;在这个社交网络上,他不在乎除了定向广告和图像识别之外,深度学习并没有明显适合 Facebook 的东西,也不在乎公司没有做真正长期的研究。扎克伯格一心想把深度学习研究带到 Facebook。这就是他交给斯科洛普夫的工作。

  • 5 年前,在扎克伯格的哈佛室友、公司联合创始人达斯汀・莫斯科维茨(Dustin Moskovitz)辞去工程主管一职后,迈克・斯科洛普夫就加入 Facebook 并担任该职。他戴着黑框眼镜,留着恺撒式的短发,这个发型与扎克伯格的很像。斯科洛普夫比 Facebook 的首席执行官大了将近 10 岁,他是一名硅谷资深人士,曾在斯坦福大学与其他一些硅谷资深人士一起学习。他曾在 Mozilla 公司担任首席技术官,该公司在 21 世纪初挑战了微软及其 IE 浏览器的垄断地位。当他加入 Facebook 时,他的主要工作是确保为世界上最大的社交网络提供支持的硬件和软件能够稳定地运行,能处理从 1 亿人扩展到 10 亿人甚至更多人的负载。但在 2013 年,当他被提升为首席技术官时,他的优先事项发生了变化。现在他的任务是推动 Facebook 进入全新的技术领域,从深度学习开始。“马克对未来的观点相当清晰,这只是例子之一。” 斯科洛普夫后来说。他没有说的是,谷歌也已经得出了同样的结论。

最终,扎克伯格和斯科洛普夫对 DeepMind 进行了一次不成功的报价收购。哈萨比斯告诉他的同事们,他觉得自己跟扎克伯格没有 “化学反应”,他不太明白这位 Facebook 创始人想要用 DeepMind 做什么,DeepMind 的实验室与 Facebook 痴迷于增长的企业文化不相符。但对哈萨比斯、莱格和苏莱曼来说,更大的问题是,扎克伯格没有认同他们对人工智能崛起的伦理担忧,无论是短期还是长期的担忧。他还拒绝接受一项合同条款,该条款保证 DeepMind 的技术将由一个独立的道德委员会监督。“如果只是为了钱,那么我们本可以赚得更多,” 莱格说,“但我们不是。”
伊恩・古德费洛是蒙特利尔大学的一名研究生,他很快就成了该领域的知名人士之一,他也是 Facebook 在此期间招募的众多研究人员之一。当他参观 Facebook 公司总部并与扎克伯格见面时,扎克伯格花了很多时间谈论 DeepMind,这让他印象深刻。古德费洛说:“我想我应该猜到了,他正在考虑收购的事。” 但当 Facebook 与谷歌一样,着眼于相同的技术未来时,Facebook 面临着一个先有鸡还是先有蛋的问题:公司无法吸引顶尖的研究人员,因为没有研究实验室;同时,公司没有设立研究实验室,因为它无法吸引顶尖的研究人员。突破口是马克・奥雷利奥・兰扎托。作为一名来自意大利帕多瓦的前职业小提琴手,兰扎托曾曲折地进入了技术世界,因为他无法以音乐家的身份谋生,他认为可以将自己重新塑造为一名录音工程师。然后,他进入了声音和图像的人工智能领域。这位瘦瘦的、说话轻声细语的意大利人曾在纽约大学杨立昆的门下学习,然后在多伦多大学辛顿门下学习,成为辛顿在 21 世纪第一个十年后期组织的神经计算研讨会上的常客。就在 “谷歌大脑” 创建之际,吴恩达将他作为首批招募的员工之一带到了实验室。他是研究 “小猫论文” 和新的安卓语音服务的研究人员之一。
然后,在 2013 年夏天,Facebook 打来了电话。
那一年,Facebook 承办了湾区视觉会议,这是一场聚集整个硅谷计算机视觉研究人员的年度聚会。会议由 Facebook 的工程师卢博米尔・布尔德夫组织,就是他力荐扎克伯格收购 DeepMind 的。Facebook 的一位同事建议让兰扎托来担任主题发言人,于是布尔德夫去谷歌总部与这位年轻的意大利研究员共进午餐,沿着 101 号高速公路,谷歌的总部位于 Facebook 园区以南约 7 英里处。起初,兰扎托以为布尔德夫是想在谷歌找一份工作,但随着午餐的进行,很明显,这位 Facebook 工程师不仅想让兰扎托在湾区视觉会议上发言,还想让他加入 Facebook。兰扎托提出异议。尽管他在 “谷歌大脑” 工作得并不是很开心 —— 他花了更多的时间在工程工作上,而花在他喜欢的创造性研究上的时间较少 —— 但 Facebook 似乎没有什么改善,它甚至都没有人工智能实验室。但在接下来的几周里,通过电话和电子邮件的沟通,布尔德夫一直在征询他的意见。
某一天,兰扎托打电话给他以前的研究生院导师杨立昆,提及 Facebook 要招募他的事。杨立昆没有赞成。早在 2002 年,杨立昆也曾面临类似的境地。当时成立仅 4 年的谷歌给他提供了一份研究主管的工作机会,他拒绝了,因为他担心公司从事这类工作的能力。(当时谷歌只有大约 600 名员工。)“很明显,谷歌正走在一条非常好的轨道上,但它的规模还无法承担得起研究的投入。” 他说。此外,谷歌似乎更注重短期结果,而不是长期规划。很多人认为这是该公司的一大优势,认为正是这一点让谷歌仅用 6 个月的时间就在安卓手机上部署了深度学习语音引擎,从而超越了微软和 IBM,抢占了一个相当具有影响力的市场。但这种关注立竿见影的效果的做法曾让杨立昆感到担忧,现在让他感到担忧的是,Facebook 似乎也在以同样的方式运营。“他们不做研究,” 杨立昆告诉兰扎托,“你要确保自己在那里真的能做研究。”
尽管如此,兰扎托还是同意再次与布尔德夫见面,这次是在 Facebook 的总部,在他们下午的交流接近尾声时,布尔德夫说他想让兰扎托见另一个人。他们穿过园区,走进另一栋大楼,来到一间有玻璃墙的会议室,马克・扎克伯格在里面。几天之后,兰扎托同意加入 Facebook。扎克伯格承诺设立一间用于长期研究的实验室,并在自己的办公桌旁给他留了一张桌子。在随后的几年里,这成为扎克伯格和斯科洛普夫推动公司进入新技术领域的重要手段,从深度学习到虚拟现实,每个新的团队都坐在老板的旁边。一开始,这让一些人对公司产生了误解。Facebook 智囊团的其他成员认为,在扎克伯格的旁边设置一间长期的研究实验室会与公司 “快速行动,破除陈规” 的文化相冲突,并在普通员工中传播怨恨。但 Facebook 由扎克伯格主导,他是创始人兼首席执行官,与大多数首席执行官不同的是,他在董事会里控制着大多数的投票权。
一个月后,扎克伯格给杨立昆打了电话。他解释了公司在做什么,并请求帮助。杨立昆受宠若惊,尤其是当扎克伯格强调读过他的研究论文时。但杨立昆说,在纽约大学做一名学者让他很开心,除了提供一些建议,他做不了什么。他说:“我可以跟你探讨,但仅此而已。” 杨立昆过去跟斯科洛普夫也有过类似的对话,他的立场一直都是这样的。不过,扎克伯格一直在努力。Facebook 又走进了一条死胡同。斯科洛普夫接触过该领域的其他几位领导者,从吴恩达到约书亚・本吉奥,但该公司仍然没有人来负责其实验室,他们需要一个有实力吸引世界顶尖研究人员的人。
然后,在 11 月下旬,兰扎托告诉扎克伯格,他将前往 NIPS。“什么是 NIPS?” 扎克伯格问。兰扎托解释说,数百名人工智能研究人员会聚集在太浩湖的一家赌场酒店,扎克伯格问是否可以跟着去。兰扎托说,考虑到扎克伯格是一个流行文化的标志,这可能会有点儿尴尬,但他建议,如果安排他的老板在太浩湖发表演讲,他们就可以避免扎克伯格在未经通知的情况下随意参加会议,从而避免分散大家的注意力。于是,扎克伯格与会议组织者安排了一场演讲,然后又更进了一步。得知杨立昆将在 NIPS 开始的前一周到硅谷参加一场研讨会,扎克伯格邀请这位纽约大学教授去他在帕洛阿尔托的家中吃饭。
扎克伯格住在一栋有白色壁板外墙的房子里,这栋房子隐藏在斯坦福大学周围精心修剪的树丛中。在与杨立昆共进晚餐的过程中,就在他们两人之间,扎克伯格解释了 Facebook 在人工智能方面的宏伟愿景。他告诉杨立昆,未来在社交网络上的互动将由强大到足以独立完成任务的技术驱动。在短期内,这些技术将识别照片中的人脸,识别语音指令,并在不同的语言之间进行翻译。从长远来看,智能体或机器人将巡视 Facebook 的数字世界,接受指令,并根据需要执行指令。需要预订航班吗?告诉机器人。要给你妻子订购鲜花?机器人也能做到。当杨立昆问 Facebook 是否有任何不感兴趣的人工智能研究领域时,扎克伯格说:“可能是机器人学。” 但其他一切 —— 数字领域的一切 —— 都在兴趣范围之内。
更大的问题是扎克伯格如何看待企业研究的哲学。杨立昆相信 “开放”—— 与更广泛的研究人员群体公开分享概念、算法和技术,而不是隔离在一家公司或一所大学里。他的观点是,这种信息的自由交流会加速整个研究的进展。每个人都可以在其他人的工作基础上再接再厉。开放研究是该领域学者们的规范,但通常来说,大型互联网公司会将其最重要的技术视为商业秘密,小心翼翼地保护细节,不让外人知道。扎克伯格解释说,Facebook 是一个很大的例外。该公司成长于开源软件时代,在那个时代,软件代码在互联网上自由共享,并且 Facebook 已经广泛且深入地将这一概念扩展到其技术帝国的方方面面,甚至共享了为 Facebook 提供服务的大型计算机数据中心里定制硬件的设计。3 扎克伯格认为,Facebook 的价值在于那些使用社交网络的用户,而不在于其软件或硬件。即使有了原材料,也没有人能重新创造一个 Facebook,但如果公司共享原材料,其他人就可以帮助改进它们。杨立昆和扎克伯格之间存在共同点。
第二天,杨立昆参观了 Facebook 总部,在 “水族馆” 里与扎克伯格、斯科洛普夫和其他人聊天。“水族馆” 是 Facebook 老板开会用的一间玻璃墙会议室。扎克伯格没有闪烁其词,他说:“我们需要你来创建一间 Facebook 人工智能实验室。” 杨立昆说他有两个条件:“我不会离开纽约,也不会放弃在纽约大学的工作。” 扎克伯格当场就同意了。在接下来的几天里,该公司还聘请了另一位纽约大学教授 —— 罗布・弗格斯(Rob Fergus),他刚刚和一位名叫马特・泽勒(Matt Zeiler)的年轻研究生一起赢得了 ImageNet 竞赛。然后,扎克伯格飞到了 NIPS。在会议开始的前一天晚上,他在 Facebook 私人派对上透露了公司将设立新实验室。随后,他在会议主厅发表演讲时,向全世界公布了这一消息。

 
当杰夫・辛顿把他的公司卖给谷歌时,他保留了自己在多伦多大学的教授职位。他不想抛弃他的学生们,也不想离开他现在的家乡。这是一种独特的安排。此前,谷歌一直坚持要求其聘用的任何学者要么从大学请假,要么完全辞职。但辛顿不接受这一点,尽管独特的新安排在收益上并不完全对他有利。“我知道多伦多大学付给我的钱要少于我可能获得的养老金,” 他说,“所以我是付钱给学校,让他们允许我继续教书的。” 辛顿的初创公司 DNNresearch 发生的最大一笔金钱开支,是支付与谷歌进行协议谈判的律师费 —— 大约 40 万美元。这份协议为杨立昆和其他很多跟随辛顿进入产业界的学者树立了样板。与辛顿类似,杨立昆把自己的时间分配在纽约大学和 Facebook 之间,尽管比例完全不同。他每周有一天在大学,四天在公司。
因为在谷歌和 Facebook 等企业工作的大多数顶尖研究人员都来自学术界,而且还有很多人仍然是学术界人士,至少在部分时间如此,所以杨立昆的开放研究愿景变成了规范。“我不知道如何做研究,除非研究是开放的,除非我们是研究圈子的一部分,” 杨立昆说,“因为如果你的研究秘密进行,你的研究质量会很差,你无法吸引最好的人才,你不会招募到有能力推动最先进技术发展的人。” 即使像杰夫・迪恩这样在注重保密的公司文化中成长起来的老手,也开始看到开放的优势。4 谷歌开始像 Facebook 或其他任何科技巨头一样公开分享其研究成果,发布描述其最新技术的研究论文,甚至开源大部分的软件。这一行为加速了这些技术的发展,有助于吸引顶尖的研究人员,并进一步加速这一过程。
这个美丽新世界的失败者是微软。当辛顿和他的学生们与邓力在语音识别方面联手时,微软目睹了深度学习的兴起,该公司在美国和中国的语音实验室都在关注这项技术。2012 年底,在谷歌将其新的语音引擎部署到安卓手机上之后,微软的研究主管里克・拉希德(Rick Rashid)在中国的一次活动上展示了该公司自己的语音研究成果,披露了一个可以接收口语单词并将其翻译成另一种语言的原型产品。
5. 他常常说,很多观众在看到和听到这项技术能做什么时都流泪了。然后,在 2013 年秋天,在微软长期从事视觉研究的拉里・齐特尼克(Larry Zitnick)招募了加州大学伯克利分校的研究生罗斯・吉尔西克(Ross Girshick),让他来创建一间新的计算机视觉实验室,专门研究深度学习。他对吉尔西克的一次演讲印象深刻,后者在演讲中描述了一个系统,该系统的图像识别水平超越了辛顿和他的学生们在 2012 年 12 月所展示的水平。在加入他们的人当中,有一个名叫梅格・米切尔(Meg Mitchell)的年轻研究员,他开始将类似的技术应用于语言。米切尔是南加州人,曾在苏格兰学习计算语言学,后来成为深度学习运动的关键人物,此前她告诉《彭博新闻》,人工智能遇到了 “人海”(sea of dudes)的问题 —— 这种新型技术将无法实现其承诺,因为它几乎完全是由男性构建的。这个问题将困扰包括微软在内的一些大型互联网公司。目前,这三名研究人员正在致力于打造能够读取照片并自动生成标题的系统。但是,尽管实验室试图顺应时代的文化氛围 —— 团队成员在办公室开阔区域的办公桌旁并肩工作,这种硅谷风格的设置在微软研究院内部并不常见 —— 但进展缓慢。部分问题在于,他们正在几台微不足道的藏在办公桌底下的 GPU 机器上训练神经网络,还有一部分问题在于他们使用了 “错误” 的软件。

20 世纪 90 年代,当该公司引领全球软件业务时,其主要优势来源于 Windows 操作系统,该系统运行在全球 90% 以上的家用和商用电脑上,以及在全球数据中心内部提供网络应用的大多数服务器上。但是到了 2014 年,微软在 Windows 上的深度投入给公司带来了压力。新一波的互联网企业和计算机科学家没有使用 Windows。他们选择了 Linux,这是一个可以自由使用和修改的开源操作系统。Linux 提供了一种更便宜、更灵活的方式来构建大规模分布式系统并定义互联网时代,包括深度学习。在构建这些系统的过程中,全球范围内的人工智能研究人员自由地交换各种基于 Linux 的构建模块,但这些微软研究人员被 Windows 系统所束缚,他们花了大量时间试图找到下一个不成熟的产品,希望使得这些 Linux 工具能够在微软的操作系统上运行。

  • 所以,当 Facebook 打电话来招募时,他们就离开了。Facebook 提供了一个机会,让研究人员可以更快地打造这种新的人工智能,更快地将其推向市场,最关键的是,让它与谷歌以及其他很多公司与学术实验室正在进行的所有工作连接起来。这与微软在 20 世纪 90 年代获胜的 “军备竞赛” 不同,在现在这场竞赛中,一些公司失去了武器,或者至少是失去了很多武器。微软看到了正在发生的事情,然后,一个竞争对手夺走了它的优势资源,Facebook 招募了吉尔西克和齐特尼克,而梅格・米切尔去了谷歌。
    另一个挑战是招募和留住顶尖研究人员的巨额费用,这不仅仅是针对微软而言。因为这一领域的人才非常稀少 —— 其价格已经由谷歌收购 DNNresearch 和 DeepMind 决定了 —— 这些行业巨头在四五年的时间里向研究人员支付了数百万甚至数千万美元,包括工资、奖金和公司股票。根据 DeepMind 在英国的年度财务账目,有一年的员工成本总计为 2.6 亿美元,而该公司当时只有 700 名员工,平均每名员工 37.1 万美元。6 刚从研究生院毕业的年轻博士生每年就能挣到 50 万美元,该领域的明星研究人员可以获得更多的收入,一方面因为他们独特的技能,另一方面因为他们的名字可以吸引其他拥有同样技能的人。正如微软副总裁彼得・李告诉《彭博商业周刊》的那样,招募一名人工智能研究人员的成本与招募一名美国职业橄榄球联盟四分卫的成本相当。
  1. 另一位玩家的崛起也加剧了这种残酷的气氛。在 Facebook 公布其研究实验室以及谷歌收购 DeepMind 之后,百度宣布,吴恩达将为该公司管理其硅谷和北京两地的实验室。

炒作
 
成功是有保证的。
2012 年,阿兰・尤斯塔斯在一次跨国飞行中读着飞机座椅背后的一份免费杂志,他偶然看到了奥地利冒险家菲利克斯・鲍姆加特纳(Felix Baumgartner)的介绍。鲍姆加特纳和他的团队正在计划依靠一种新型太空舱让这个奥地利人像宇航员一样进入平流层,然后从那里来一次单人跳伞挑战。但是,尤斯塔斯认为,他们的方法是完全错误的。他认为,如果他们不是把鲍姆加特纳当作宇航员,而是当作一名戴着水下呼吸器的潜水员,那么结果会更好:他确信,使用配备了水下呼吸器的潜水服是一种更为灵活的方式,可以提供人类在稀薄空气中生存所需的一切。菲利克斯・鲍姆加特纳从距离地球 24 英里的太空舱中跳下,很快创造了高空跳伞的世界纪录。1 但是,尤斯塔斯已经打算打破这项纪录。在接下来的两年里,他把大部分业余时间都用于与一家私人工程公司合作,制作一套高空 “潜水服” 以及其他一切所需的东西,以超越鲍姆加特纳。他计划在 2014 年秋天从新墨西哥州罗斯韦尔的一条废弃跑道上空几英里的地方进行飞跃。但在此之前,他与谷歌进行了最后一次 “飞跃”。
在谷歌以 4 400 万美元收购了克里哲夫斯基、萨特斯基弗和辛顿的公司,并以 6.5 亿美元收购了 DeepMind 之后,尤斯塔斯几乎彻底垄断了深度学习研究人员的市场。来自多伦多大学的三人组很快发现,谷歌仍然欠缺的是加速这些研究人员工作所需的硬件设施,这些设施才能匹配他们的天赋和野心。克里哲夫斯基用为 GPU 芯片编写的代码赢得了 ImageNet 竞赛,但当抵达硅谷的山景城时,他们发现谷歌的版本是由一位名叫沃伊切赫・扎伦巴(Wojciech Zaremba)的研究人员开发的,使用的是标准芯片,就像其他所有为 DistBelief 开发的东西一样(DistBelief 是谷歌为运行其神经网络而定制的硬件和软件系统)。它被称为 WojNet,是以扎伦巴的名字命名的,辛顿反对这个项目的名字,后来辛顿开始称之为 AlexNet,全球人工智能研究人员的圈子也纷纷效仿。克里哲夫斯基反对谷歌的技术,公司花了几个月的时间来打造运行神经网络的系统,但他没有兴趣使用。
在这家公司上班的第一天,他就在当地的一家电子商店买了一台 GPU 机器,把它放在走廊尽头的壁橱里,接入网络,并开始在这个单独的硬件上训练他的神经网络,而其他研究人员把 GPU 机器随手放在自己的桌子下面。虽然电费由谷歌来支付,但与克里哲夫斯基在多伦多大学时在卧室里的工作方式相比,现在没有太大的区别。谷歌的其他人在公司庞大的数据中心网络上开发和运行其软件,利用的可能是世界上最大的私人计算机集群,但克里哲夫斯基不得不接受一些小得多的东西。管理公司数据中心的人认为,没有理由在数据中心里铺满 GPU 机器。
这些思想更传统的谷歌人没有意识到的是,深度学习是未来,而 GPU 可以加速这一新兴技术的发展,其速度是普通计算机芯片无法企及的。这种情况经常发生在大型科技公司或小公司内部:大多数人看不到自己正在做的事情之外的东西。阿兰・尤斯塔斯认为,诀窍在于让自己处在一些特定人群周围,这些人能够将新的专业知识应用到旧技术似乎无法解决的问题上。“大多数人是以特定的方式、特定的视角和特定的历史来看待特定问题的,” 他说,“他们无法看到那些能改变格局的专业知识的交会点。” 这也是他在高空跳伞时秉持的哲学。当他计划飞跃时,他的妻子不想让他参加。她坚持要他自拍一段视频,解释自己为什么要去冒险,这样如果他活不下来,她就可以拿给他们的孩子看。他拍了,但告诉她风险很小,几乎不存在风险。他和他的团队找到了一种新的飞跃方式,尽管其他人可能不理解,但他知道这是可行的。“人们经常问我:‘你不怕死吗?’但我与不怕死的人相反,” 他说,“我招募了我能找到的最棒的人,我们一起努力,基本上消除了每一项可能的风险,并对每一项风险进行测试,试图达到一种看似非常危险、实则非常安全的效果。”
杰夫・迪恩的办公室离克里哲夫斯基的办公室不远,迪恩知道谷歌的硬件需要调整。除非基于 GPU 重建 DistBelief,否则公司无法进一步推动深度学习的发展。因此,在 2014 年春天,他约见了谷歌的人工智能主管约翰・詹南德雷亚(John Giannandrea),公司的每个人都称他为 “J.G.”,他负责管理多年来协助创建的 “谷歌大脑” 和人工智能专家这两个姐妹团队。当克里哲夫斯基这样的研究人员的桌子底下或走廊尽头壁橱里需要更多的 GPU 时,他们就会去找他。J.G. 和杰夫・迪恩坐下来讨论,他们应该在一个巨大的数据中心里安装多少个图形芯片,才能满足研究人员的需求。
最初的建议数量是 2 万个,但他们认为这个数量太少了,应该要 4 万个。不过,当他们向谷歌谨慎的决策层提交申请时,他们立即遭到拒绝。4 万个 GPU 构成的网络要花费公司大约 1.3 亿美元,尽管谷歌经常在数据中心硬件上投入巨额资金,但他们从未投资过这样的硬件。所以,迪恩和詹南德雷亚把他们的申请提交给了阿兰・尤斯塔斯,而他即将从平流层飞跃。尤斯塔斯理解这件事,他又将申请提交给了拉里・佩奇,就在他穿着 “潜水服” 打破鲍姆加特纳的高空跳伞纪录之前,1.3 亿美元的图形芯片申请获得了批准。2 芯片安装之后不到一个月,所有 4 万个芯片都夜以继日地运行起来,开始训练一个又一个的神经网络。

 
那时,亚历克斯・克里哲夫斯基正在为谷歌一个完全不同的部门工作。当年 12 月,在假期回多伦多看望父母时,他收到了一位女士的电子邮件,这位女士是阿妮莉亚・安杰洛娃(Anelia Angelova),她想参与谷歌的自动驾驶汽车项目。她实际上并没有在这个领域工作过,而是曾在 “谷歌大脑” 与克里哲夫斯基共事。但她知道实验室正在进行的计算机视觉研究 —— 这是克里哲夫斯基在多伦多大学工作的延伸 —— 将重塑谷歌制造自动驾驶汽车的方式。谷歌的自动驾驶汽车项目已经启动了将近 5 年时间,该项目在公司内部被称为 “司机”。这意味着,在没有深度学习帮助的情况下,谷歌花了近 5 年的时间尝试打造自动驾驶汽车。
在 20 世纪 80 年代末的卡内基 —— 梅隆大学,迪安・波默洛曾经在神经网络的帮助下设计过一辆自动驾驶汽车,但当谷歌在将近 20 年后开始从事自动驾驶汽车研究时,研究领域的核心人员,包括卡内基 —— 梅隆大学为谷歌项目招募的很多研究人员,早已放弃了这个想法。神经网络可以帮助打造一辆能够独自行驶在空旷街道上的汽车,但仅此而已。这是一种好奇的尝试,而不是打造可以像人类司机那样在繁忙的交通环境中行驶的车辆。然而,安杰洛娃并不信服。在谷歌的一栋空荡荡的大楼里,在其他人都回家享受假期时,她开始研究深度学习,将它作为汽车在行人过马路或在人行道上漫步时对他们进行监测的一种方法。因为一切对她来说都是全新的,她向那个被她称为 “深度网络大师” 的男人伸出了手。他同意帮忙,因此,在度假期间,她和克里哲夫斯基创建了一个系统,通过分析数千张街道照片,系统学会了如何识别行人。当大家新年假期之后回来工作时,他们与汽车项目的负责人分享了他们的新原型。这个原型非常有效,他们都被邀请去参与 “司机” 项目。后来这个项目被分拆成独立的公司,并改名为 Waymo。“谷歌大脑” 最终把克里哲夫斯基的办公桌给了一名实习生,因为克里哲夫斯基几乎从来没有用过这张桌子,他总是在 “司机” 那边。
“司机” 项目的工程师称他为 “人工智能密语者” 3,他的方法很快在整个项目中传播开来。深度学习成为谷歌汽车识别道路上的各种物体 —— 停车标志、街道标记、其他车辆等 —— 的一种方式。克里哲夫斯基称这些为 “容易摘到的果子”。在接下来的几年里,他和同事们将这项技术推广到汽车导航系统的其他部分。经过合适的数据的训练,深度学习可以帮助汽车规划前进路线,甚至预测未来事件。
在过去的 5 年里,汽车团队一直以手工的方式对汽车的行为进行编程。而现在,他们可以打造自主学习的系统,不再试图一次一行代码地去定义行人是什么样的了,他们可以使用成千上万张街道照片,在几天之内训练一个系统。理论上,如果谷歌能够收集足够的数据 —— 显示汽车在道路上可能遇到的各种情况的图像,然后将其输入一个巨大的神经网络,这个单一的系统就可以完成所有的驾驶行为。在最顺利的情况下,这种未来的情形还需要很多年才能实现,但在 2014 年,这就是谷歌调整之后的方向。

这一时刻是谷歌内部更大规模调整的一部分。至此,神经网络这个单独的想法改变了谷歌在其不断扩张的帝国版图中构建技术的方式,无论是在物理世界,还是在数字世界。在这 4 万个 GPU 芯片以及更多芯片 —— 一个名为 “麦克卡车项目” 的数据中心 —— 的帮助下,深度学习已经渗透了一切领域,从谷歌照片应用程序(可以在海量的图像中迅速找到目标)到 Gmail(可以预测你将要键入的单词)。它还可以让 AdWords 的运行更为高效,公司 560 亿美元年收入的绝大部分是由这个在线广告系统实现的。4 通过分析用户曾点击过哪些广告的数据,深度学习可以帮助系统预测他们以后会点击什么,更多的点击意味着更多的收入。谷歌花费了数亿美元购买 GPU 芯片,还花了数百万美元招募研究人员,但它已经将这些钱赚回来了。
很快,谷歌搜索的主管阿密特・辛格哈尔承认,互联网技术正在发生变化。2011 年,当吴恩达和巴斯蒂安・特隆与他接触时,他曾强烈抵制深度学习。现在,他和他的工程师们别无选择,只能放弃对搜索引擎构建方式的严格控制。2015 年,他们推出了一个名为 RankBrain 的系统,5 该系统使用神经网络来辅助选择搜索结果,这一举措推动增加了公司约 15% 的搜索查询。6 总的来说,在预测用户点击行为时,它比资深搜索工程师更为准确。几个月之后,辛格哈尔被指控性骚扰并离开了公司,7 人工智能主管约翰・詹南德雷亚取而代之,成为谷歌搜索的新主管。8
在伦敦,戴密斯・哈萨比斯很快透露,DeepMind 已经开发了一个系统,它可以降低谷歌数据中心的网络功耗,并借鉴了该实验室用来破解《越狱》游戏的相同技术。9 该系统决定何时打开、何时关闭单个计算机服务器中的冷却风扇,何时打开、何时关闭数据中心进行额外冷却的窗口,何时使用冷却器和冷却塔,以及服务器何时可以不使用这些设施。10 哈萨比斯说,谷歌的数据中心如此之大,DeepMind 的技术如此有效,它已经为公司节省了数亿美元。11 换句话说,这补偿了收购 DeepMind 的成本。
谷歌 GPU 集群的强大之处在于,它允许该公司对大量的技术进行大规模试验。打造神经网络是一项反复试验的工作,有了成千上万的 GPU 芯片可供使用,研究人员就可以在更短的时间内探索更多的可能性。同样的现象很快刺激了其他公司。在出售 1.3 亿美元的图形芯片给谷歌的刺激下,英伟达围绕深度学习的思路进行了重组,很快就不再满足于仅仅出售用于人工智能研究的芯片,而是自己也参与了研究,探索图像识别和自动驾驶汽车的边界,希望进一步拓展市场。在吴恩达的带领下,百度也在各个方面进行了探索,从新的广告系统到能够预测其数据中心内硬盘何时发生故障的技术。但最大的变化是可对话式数字助理的兴起,这些服务不仅接收从网络浏览器中输入的关键词,还能像搜索引擎一样通过一些互联网链接进行响应。它们可以倾听你的问题和命令,并以语音的方式回答,就像一个真人一样。谷歌在安卓手机上重构了语音识别,在它超越了苹果 Siri 的效果之后,同样的技术在整个行业普及开来。2014 年,亚马逊推出了 Alexa(个人语音助手),并将这项技术从手机端转移到了客厅的茶几上,其他市场也迅速跟进。现在被称为 “谷歌助手” 的谷歌技术,既可以在手机上运行,也可以在茶几设备上运行。百度、微软甚至 Facebook 都打造了自己的助手。
随着所有这些产品、服务和想法的激增,再加上这些公司和很多其他科技公司的营销部门通常以夸张的方式宣传它们,“人工智能” 成了这 10 年的流行词,无休止地在新闻稿、网站、博客和新闻报道中重复出现。一如既往,这是一个让人感到充满压力的术语。对普通大众来说,“人工智能” 重振了科幻小说的比喻 —— 可对话的计算机、有感知能力的机器、拟人化的机器人,它们可以做人类能做的任何事情,但最终可能会毁灭它们的创造者。我们更不用说媒体在头条新闻、照片和报道中提到像《2001:太空漫游》和《终结者》这样的电影,试图描述新的技术浪潮了。这就像是弗兰克・罗森布拉特和感知机的历史重现。随着深度学习的兴起,自动驾驶汽车的概念也随之兴起。就在同一时期,牛津大学的一个学术团队发布了一项研究,预测自动化技术将很快在就业市场上崭露头角。12 在某种程度上,这一切都混合成了一锅快要溢出的大杂烩,其中包含非常真实的技术进步、毫无根据的炒作、疯狂的预测,以及对未来的担忧。“人工智能” 则是描述这一切的术语。

媒体在人工智能上的叙事需要英雄,于是它们选择了辛顿、杨立昆、本吉奥,有时还会包括吴恩达,这在很大程度上归功于谷歌和 Facebook 在推广上的努力。但媒体宣传并没有延伸到于尔根・施米德胡贝这里,生活在德国卢加诺湖畔的这名研究人员在 20 世纪 90 年代和 21 世纪初在欧洲点燃了神经网络的火炬。有些人对施米德胡贝被排除在外表示异议,包括他自己。2005 年,他和后来加入 DeepMind 的研究员亚历克斯・格雷夫斯发表了一篇论文,描述了一个基于长短期记忆的语音识别系统 —— 具有短期记忆的神经网络。“这是疯狂的施米德胡贝的成果,” 辛顿告诉自己,“但它确实有效。” 现在,这项技术正在为谷歌和微软等公司的语音服务提供支持,施米德胡贝想要得到他应得的。在辛顿、杨立昆和本吉奥在《自然》杂志上发表了一篇关于深度学习兴起的论文后,施米德胡贝写了一篇评论文章,认为这些 “加拿大人” 并不像他们看起来那样具有影响力,因为他们的工作是建立在欧洲和日本其他人的想法之上的。大约在同一时期,当伊恩・古德费洛介绍他关于 GAN(生成对抗网络)的论文时 —— 这项技术很快就在整个行业产生了反响 —— 施米德胡贝从观众席中站了起来,指责他没有引用瑞士 20 世纪 90 年代的相关论文。他经常做这种事情,以至于他的名字变成了一个动词,比如:“你一直都在施米德胡贝。”13 但他并不是唯一一个为正在发生的事情邀功的人。多年来,很多深度学习研究人员的想法在这个圈子一直被忽视,他们感到迫切需要宣扬自己在一场真正的技术变革中的个人贡献。“每个人的内心都有对荣誉的一点儿虚荣,” 辛顿说,“你也可以在自己身上看到这一点,意识到这一点很好。”
亚历克斯・克里哲夫斯基是一个例外。正如辛顿所说:“他内心没有那么在意名声。” 坐在 “司机” 项目的办公桌前,克里哲夫斯基是这场人工智能热潮的核心人物,但他不认为自己的角色有那么重要,也不认为自己的角色在于人工智能。他的角色在于深度学习,深度学习只是数学、模式识别,或者正如他所说的 ——“非线性回归”。这些技术已经存在了几十年,只是像他这样的人在正确的时间出现了,当时有足够的数据和足够的处理能力来让这一切发挥作用。他打造的技术一点儿也不智能,这些技术只在非常特殊的情况下有效。“深度学习不应该被称为人工智能,” 克里哲夫斯基说,“我读研究生是为了研究曲线设置,而不是人工智能。” 他的工作,先是在 “谷歌大脑”,然后在自动驾驶汽车项目,都是将数学应用于新场景。这与任何重建大脑的尝试都相去甚远,更谈不上需要担心有一天机器会超出我们的控制范围。这是计算机科学,其他人都认同,但这并不能成为头条新闻的观点。更响亮的声音来自他在多伦多大学实验室的老同学伊利亚・萨特斯基弗。

 
2011 年,还在多伦多大学的时候,萨特斯基弗飞到伦敦参加 DeepMind 的面试。他在拉塞尔广场附近跟戴密斯・哈萨比斯和沙恩・莱格碰面,在三个人交流时,哈萨比斯和莱格解释了他们正在做什么。他们在打造通用人工智能,而起点是会玩游戏的系统。萨特斯基弗一边听,一边觉得他们已经脱离了现实,他觉得通用人工智能不是严肃的研究人员谈论的话题。所以,他拒绝了这家初创公司提供的工作,回到了大学,最终加入了谷歌。但是一进入谷歌,他就意识到人工智能研究的本质正在发生变化,它不再是一两个人在学术实验室里摆弄神经网络了,参与的都是大团队,所有人都朝着共同的大目标努力,背后有大量的计算能力做支撑。他一直喜欢大的想法,当他进入 “谷歌大脑” 时,他的想法变得更大了。作为伦敦实验室和 “谷歌大脑” 跨大西洋合作的一部分,他在 DeepMind 办公室待了两个月,之后他开始相信,取得真正进展的唯一途径是触达看似遥不可及的东西。他的想法与杰夫・迪恩(他更关心对市场产生即时影响)的目标不同,也与杨立昆(他一心用自己的研究展望未来,但从未走得太远)的目标不同,而是更接近于 DeepMind 创始人的观点。他说的好像遥远的未来就在眼前 —— 可以超越人类思维的机器,可以创建其他计算机数据中心的计算机数据中心。他和他的同事们需要的只是更多的数据和处理能力。然后,他们就可以训练一个系统去做任何事情了 —— 不仅仅是开车,还包括阅读、交谈和思考。“他是一个不惧怕相信的人,” 谢尔盖・莱文(Sergey Levine)说,莱文是一位机器人研究员,这些年来在谷歌一直与萨特斯基弗共事,“不怕的人有很多,但他尤其不怕。”
当萨特斯基弗加入谷歌时,深度学习已经重构了语音和图像识别。下一个重大步骤是 “机器翻译”,这项技术可以即时将任何一种语言翻译成其他语言。这是一个更加困难的问题。它涉及的不是识别单一的东西,比如照片中的小狗。它是将 “一系列的东西”(比如组成一个句子的单词)转换成另一个系列(那个句子的翻译)。这需要一种完全不同的神经网络,但萨特斯基弗相信解决方案并不遥远,他并不孤单。“谷歌大脑” 的两位同事的目标跟他一样,在百度和蒙特利尔大学等地方,还有其他人也在尝试同样的道路。
“谷歌大脑” 已经探索出了一种被称作 “词嵌入” 的技术,这涉及通过大量的文本分析(新闻文章、维基百科文章、自出版书籍等),使用神经网络来构建英语的数学地图,以显示该语言中每个单词和其他单词之间的关系。14 这不是一张你可以想象的地图。它不是像路线图那样的二维,也不是像电子游戏那样的三维,它有成千上万个维度,类似的东西你从未见过,也永远看不到。在这张地图上,“哈佛” 这个词与 “大学”、“常春藤” 和 “波士顿” 很接近,尽管这些词在语言上并不相关。地图给每个单词一个数学值,这个值定义了它与语言中其他部分的关系,这被称为 “向量”。“哈佛” 的向量看起来很像 “耶鲁” 的向量,但它们并不完全相同。与 “耶鲁” 接近的是 “大学” 和 “常春藤”,但不是 “波士顿”。
萨特斯基弗的翻译系统是这一想法的延伸。15 运用瑞士的于尔根・施米德胡贝和亚历克斯・格雷夫斯开发的长短期记忆方法,萨特斯基弗将大量的英语文本和它们的法语译文一起输入神经网络。通过分析原文和译文,这个神经网络学会了为一个英语句子建立一个向量,然后将其映射到一个具有相似向量的法语句子。即使你不懂法语,你也能看到其中数学的力量。“玛丽崇拜约翰” 的向量与 “玛丽爱上了约翰” 和 “玛丽尊重约翰” 的向量非常相似,而与 “约翰崇拜玛丽” 的向量完全不同。“她在花园里给了我一张卡片” 的向量与 “我在花园里收了她给的一张卡片” 和 “在花园里,她给了我一张卡片” 的向量相匹配。到了年底,萨特斯基弗和他的合作者们打造的系统的性能超过了其他所有翻译技术,至少在他们测试的少量英语和法语翻译中是这样的。
2014 年 12 月,当年的 NIPS 会议在加拿大蒙特利尔举行,萨特斯基弗向来自全球的研究人员展示了一篇描述他们工作的论文。16 他告诉与会的观众们,这个系统的优势在于其简洁性。“我们用最小的创新,获得了最大的结果。” 他说,观众掌声雷动,甚至让他大吃一惊。他解释说,神经网络的力量在于,你可以向它输入数据,它会自行学习。虽然训练这些数学系统有时就像黑魔法,但这个项目并非如此。“它想工作。” 他说。在接收数据并进行一段时间的训练之后,它就会给出结果,不需要反复试验。但萨特斯基弗并不认为这仅仅是在翻译上的突破,他认为这是在任何涉及序列的人工智能问题上的突破,从自动为照片生成标题,到用一两句话对一篇新闻文章做即时总结。他说,人类在几分之一秒内能做的任何事情,神经网络也能做,它只需要正确的数据。他告诉观众:“真正的结论是,如果你有一个非常大的数据集和非常大的神经网络,那么成功是有保证的。”
杰夫・辛顿在会场的后面观看他的演讲。正如萨特斯基弗所说的 “成功是有保证的”,他认为:“只有萨特斯基弗才不受到质疑。” 有些研究人员对这种大胆的说法感到愤怒,但其他人被吸引住了。萨特斯基弗可以这样说,而不会引起太多的怨恨。他就是这样的人,虽然从别人口中说出来有些可笑,但从他口中说出来的就是真实的。他也是对的,至少在翻译方面是这样的。在接下来的 18 个月里,“谷歌大脑” 将这个原型转变成了一个被数百万人使用的商业系统,这与该实验室三年前对纳夫迪普・贾特利的语音原型所做的工作如出一辙。但在这里,该实验室改变了等式,这在整个领域引发了另一波涟漪,并最终放大了伊利亚・萨特斯基弗和其他很多人的野心。

 
“我们需要另一个谷歌。” 杰夫・迪恩告诉乌尔斯・霍尔泽(Urs Holzle),后者是一位出生于瑞士的计算机科学家,谷歌数据中心的负责人。这是真的。谷歌在部分安卓手机上发布新的语音识别服务几个月之后,迪恩意识到一个问题:如果谷歌继续扩展这项服务,那么这项服务最终就能覆盖全球 10 多亿部安卓手机,而这 10 多亿部手机每天只分别使用这项服务 3 分钟,公司却将需要两倍的数据中心来处理所有额外的流量。这是一个巨大的问题。谷歌的数据中心已经超过 15 个 —— 从美国加州到芬兰,再到新加坡 —— 每个数据中心的建设成本都高达数亿美元。17 但是,在与霍尔泽及其他几位专门研究数据中心基础设施的同事召开的常务会议上,迪恩提出了一个替代方案:他们可以开发一种新的计算机芯片,仅用于提供神经网络。
谷歌在开发自主的数据中心硬件方面有着较长的历史。18 它的数据中心如此庞大,消耗了巨量的电力,为了以更便宜、更高效的方式提供谷歌服务,霍尔泽和他的团队花了数年时间设计计算机服务器、网络设备和其他设备。这项鲜有讨论的业务与惠普、戴尔和思科这些商业硬件制造商形成竞争,并最终从它们的核心业务中抢走了大量资金。由于谷歌开发了自己的硬件,它不需要在公开市场上采购,随着 Facebook、亚马逊和其他公司开始效仿,这些互联网巨头创造了一个计算机硬件的影子行业。19 但是,谷歌从来没有开发过自己的计算机芯片,它的竞争对手们也没有。因为这需要更高水平的专业知识和更大的投资,在经济上不划算。英特尔和英伟达等公司以如此庞大的规模生产芯片,其成本优势是谷歌无法匹敌的,并且它们生产的芯片能够完成谷歌需要完成的工作。英伟达的 GPU 芯片推动了深度学习的兴起,帮助训练了像安卓语音服务这样的系统。但是,现在迪恩正在处理一个新问题。在训练了这项服务后,他需要一种更有效的方式来运行它 —— 通过互联网提供服务,并将其传递给全世界。迪恩可以用 GPU 或标准处理器来实现,但这两者都没有他所需要的高效性能。因此,他和他的团队开发了一种新的芯片,专门用于运行神经网络。他们在周围各种不同的部门筹集资金,包括搜索团队。此时,所有人都已经看到了深度学习能够做什么。
多年来,谷歌一直在威斯康星州麦迪逊的一个半秘密实验室里设计数据中心硬件。霍尔泽是一位前计算机科学教授,戴着钻石耳钉,留着一头蓬松的斑白短发,他将这项工作视为公司真正的竞争优势,小心翼翼地保护其设计免受 Facebook 和亚马逊等竞争对手的关注。麦迪逊是一个偏僻的地方,但还是依靠威斯康星大学工程学院吸引了源源不断的人才。现在,迪恩和霍尔泽在新的芯片项目中利用了这些人才资源,同时还从惠普等硅谷公司聘请了经验丰富的芯片工程师。他们的成果就是张量处理器,即 TPU,它是设计用来处理支撑神经网络的张量的,而张量就是数学对象。其中的诀窍在于它的计算不像典型的处理器那样精确。20 神经网络进行的计算量如此之大,但每次计算都不必精确,它处理的是整数而不是浮点数。TPU 不是将 13.646 乘以 45.828,而是砍掉了小数点,将 13 和 45 相乘。这意味着它每秒钟可以执行数万亿次额外的计算,而这正是迪恩和他的团队需要的,不仅是为了语音服务,也是为了语言翻译。
萨特斯基弗的工作是研究,而不是开发大规模的消费级产品。他的系统可以很好地处理普通词汇,但不能处理更大体量的词汇,也不能真正与谷歌 10 多年来通过互联网提供的翻译服务竞争 —— 现有的服务是建立在完善的老式规则和统计数据之上的。但多亏了他搜集的所有数据,公司才去搜集了大量的翻译,使用萨特斯基弗和他的同事们所展示的方法,这些翻译有助于训练一个更大的神经网络。他们的数据集比萨特斯基弗过去训练系统所用的数据集大 100 到 1 000 倍。21 因此,在 2015 年,迪恩挑选了三名工程师来打造一个可以从这些数据中学习的系统。22
谷歌现有的翻译服务是将句子分解成片段,再将它们转换成另一种语言的片段,然后努力将这些片段连接成一个连贯的整体,因此,深夜电视节目主持人吉米・法伦(Jimmy Fallon)开玩笑说谷歌翻译的句子杂乱无章、略显混乱、不够连贯。对英语和法语来说,其 BLEU 评分(衡量翻译质量的标准方法)不足 30 分,这意味着效果不太好,而且在 4 年的时间里只提高了 3 分多。23 经过短短几个月的工作,迪恩的团队打造了一个神经网络,其评分比现有系统高 7 分。24 与所有深度学习方法一样,该方法的强大之处在于这是一个单一的学习任务,没有必要把句子分解成几个部分。“突然之间,事情从不可理解变成了可以理解,” 麦克达夫・休斯(Macduff Hughes)说,他是开发旧系统的团队负责人,“就像有人把灯打开了。”
但是,有一个问题。翻译一个由 10 个单词组成的句子需要 10 秒钟,这在开放的互联网上永远都行不通。25 用户是不会使用的。休斯认为,公司需要三年时间来完善该系统,使其能够毫不拖延地提交翻译。26 但是,迪恩不这么认为。27 在旧金山一家酒店里召开的公司会议上,他告诉休斯:“我们如果下定决心,就可以在年底前完成。”28 休斯对此表示怀疑,但他告诉他的团队要在年底前为新的服务做好准备。29 他说:“我不会是那个说杰夫・迪恩无法实现这一速度的人。”30
他们在和百度赛跑。几个月前,这家中国互联网巨头发表了一篇描述类似研究成果的论文,31 同年夏天,它又发表了一篇论文,展示了与 “谷歌大脑” 内部打造的系统相当的性能。随着杰夫・迪恩和他的团队打造出新版本的谷歌翻译,他们决定在中英文翻译上首次推出该服务。由于这两种语言之间的巨大差异,这是为深度学习提供最大改进的配对。从长远来看,这也是翻译能够提供最大好处的配对。毕竟,这是世界上最大的两个经济体。最终,谷歌工程师比迪恩的最后期限还提前了三个月,原因就在于 TPU。在谷歌新芯片的帮助下,2 月,在普通硬件上需要翻译 10 秒的句子可以在几毫秒内被翻译出来。32 他们在美国劳动节之后发布了这项服务的第一个版本,远远早于百度。33“我很惊讶它能如此有效。我想每个人都会感到惊讶的,” 辛顿说,“没人能想到,这么快就能这么有效。”

 
当杰夫・辛顿来到谷歌时,他和杰夫・迪恩参与了一个他们称之为 “蒸馏”(Distillation)的项目。34 这是一种采用他们在公司内部训练的巨型神经网络的方式,他们将它所学的一切缩小到合适的规模,使得谷歌可以在实时网络服务中实际使用,迅速将其技能传递给全球网民。这是辛顿漫长的职业生涯(神经网络)与迪恩的职业生涯(全球计算)的结合。然后,辛顿超越了神经网络,转向一种全新的、更复杂的模仿大脑的工作。那是他在 20 世纪 70 年代末首先提出的一个想法,他称之为 “胶囊网络”。在谷歌收购 DeepMind 后的那个夏天,辛顿计划在伦敦实验室待上三个月,并决定用这三个月的时间来研究这个 “新的旧想法”。
他买了两张从纽约到英国南安普敦的 “玛丽女王 2 号” 的船票 —— 一张是他自己的,一张是给他的妻子杰基・福特的,她是一位艺术史学家。在第一任妻子罗莎琳德因卵巢癌去世后,辛顿在 20 世纪 90 年代末与杰基结婚。他们计划在一个星期天从纽约启航。在他们离开多伦多之前的一个星期四,杰基被诊断为患有晚期胰腺癌。医生预计她还有大约一年的生存期,并建议她立即开始化疗。在知道没有治愈的机会后,她决定去英国旅行,然后在秋天时回到多伦多开始治疗。她的家人和很多朋友还在英国,这将是她最后一次见到他们。因此,她和辛顿去了纽约,并于周日起航前往南安普敦。辛顿确实花了整个夏天围绕着 “胶囊网络” 的想法工作,但没有取得太大进展。

神经网络的爆发:AlphaGo 的胜利
 
哈萨比斯推动 AlphaGo 就像奥本海默执行曼哈顿计划一样。
2015 年 10 月 31 日,在 Facebook 迪斯尼乐园般的公司总部,首席技术官迈克・斯科洛普夫站在一张桌子的一端,向满屋子的记者发表讲话。1 他指着墙上平板显示器上的幻灯片,描述了该公司最新的一系列研究项目 —— 在无人机、卫星、虚拟现实和人工智能方面的实践。就像一些精心策划的事件一样,这些项目大部分也都是旧闻。然后,他提到 Facebook 纽约和加州办公室的几位研究人员正在教神经网络下围棋。几十年来,机器在跳棋、国际象棋、双陆棋、《奥赛罗》,甚至《危险边缘》等游戏中击败了世界上最好的玩家!但是,围棋是一款还没有机器可以击败人类的智力游戏。2014 年,《连线》杂志发表了一篇专题报道,讲述了一位法国计算机科学家花了 10 年时间试图构建人工智能,以挑战世界上最好的围棋选手。2 像国际人工智能研究界的大多数人一样,这位科学家认为他或其他任何人还需要 10 年才能达到这个高度。但正如斯科洛普夫对满屋子的记者所说的那样,Facebook 的研究人员相信,他们可以利用深度学习更快地破解这个游戏,如果他们真的破解了,那么这将标志着人工智能的一次重大飞跃。3
围棋是两位棋手在一张 19 乘 19 的格子棋盘上对弈。他们轮流在交叉线放置棋子,试图占领部分棋盘,并在此过程中,吃掉对方的棋子。国际象棋模仿的是地面战斗,而围棋就像是模仿冷战。在棋盘一角的某一招棋,可能会在其他地方产生涟漪,以微妙且经常令人惊讶的方式改变游戏的格局。在国际象棋中,每一步大约有 35 种下法可供选择。在围棋中,每一步的下法有 200 个选择,因此围棋比国际象棋复杂得多。在 21 世纪第一个十年的中期,这意味着机器的性能无论有多么强大,都无法在任何合理的时间内计算出每一步棋的结果。但正如斯科洛普夫解释的那样,深度学习有望改变这种局面。在分析了数百万张照片中的数百万张面孔后,神经网络可以学会将你与你的兄弟区分开来,或者将你的大学室友与其他人区分开来。他说,用同样的方法,Facebook 的研究人员可以制造一台机器,模仿职业围棋手的技能。通过将数以百万计的围棋下法输入神经网络,他们可以教它识别,好的下法是什么样子的。“最好的棋手最终会看视觉图案,看棋盘的视觉效果,以直观的方式了解什么是好的下法,什么是不好的下法,” 他解释道,“因此,我们使用棋盘上的图案 —— 一个视觉记录系统 —— 来调整系统可能的下法。”4
他说,在某种程度上,Facebook 只是在教机器玩游戏。在另一个层面上,这样做是在推进人工智能发展,以重塑 Facebook。深度学习正在改进广告业务在公司社交网络产品上的用户定位方式,它为视力受损者分析照片并生成标题,5 它推动了公司内部开发的智能手机数字助理 Facebook M。6 利用支撑围棋实验的相同技术,Facebook 的研究人员正在打造一些系统,其目标不仅仅是识别口语单词,而且是真正理解自然语言。有一个团队最近开发了一个系统,这个系统可以阅读《指环王》中的段落,然后回答有关 “托尔金三部曲” 的问题,斯科洛普夫解释说,这些复杂问题涉及人物、地点和事物三者之间的空间关系。7 他还表示,该公司的技术要想破解围棋,并且真正理解自然语言,还需要几年的时间,但通往这两个未来的道路已经铺好。这是一条计算机科学家数十年来一直致力于铺设的道路,其中充满了喧嚣,只有少量实用技术。他说,现在人工智能运动终于赶上了它的大创意。
他没有告诉那些记者的是,其他人也在同样的道路上前进。在描述 Facebook 努力破解围棋的新闻报道出现几天之后,其中一家公司做出了回应。戴密斯・哈萨比斯出现在一段网络视频中,直视镜头,脸部占据了整个画面。8 这是 DeepMind 创始人一次罕见的露面。伦敦实验室大部分的发声方式是在《科学》和《自然》等知名学术期刊上发表研究论文,通常只有在取得重大突破后,实验室才会与外界交流。在视频中,哈萨比斯暗示研究工作仍在实验室内孕育着,涉及围棋游戏。他说:“我还不能谈论它,但再过几个月,我想会有相当大的惊喜。”9Facebook 争取媒体关注的做法激起了它最大的竞争对手的斗志。在哈萨比斯的那段网络视频出现几周之后,一名记者问杨立昆,DeepMind 是否有可能打造一个可以击败顶级围棋选手的系统。“不会。” 他说。他不止一次这么说,部分原因是他认为这项任务太难了,同时也因为他什么消息也没听到。圈子就那么小,“如果 DeepMind 击败了一名顶级围棋选手,” 杨立昆说,“有人会告诉我的。” 但是他错了。
几天之后,《自然》杂志刊登了一篇封面故事,其中哈萨比斯和 DeepMind 透露,他们的人工智能系统 AlphaGo 击败了三届欧洲围棋冠军。10 这件事发生在 10 月的一场闭门比赛中。杨立昆和 Facebook 在消息公布的前一天听到了这个消息。当天下午,在扎克伯格亲自推动的一场奇怪而不幸的抢先公关活动中,该公司提醒媒体注意扎克伯格和杨立昆在网上发布的帖子,这些帖子吹嘘了 Facebook 自己的围棋研究,以及该公司内部其他形式的人工智能正在开拓的道路。但事实仍然是谷歌和 DeepMind 处于领先地位。在那场闭门比赛中,AlphaGo 赢下了全部的五盘比赛,对手是欧洲冠军,一位名叫范辉(Fan Hui)的中国裔法国棋手。几周之后,在韩国首尔,它将挑战过去 10 年世界上最好的棋手李世石。

 
在谷歌收购 DeepMind 几周之后,戴密斯・哈萨比斯和其他几位 DeepMind 研究人员飞往美国北加州,与他们新母公司的领导者进行会谈,并演示实验室通过《越狱》在深度学习上取得的成果。11 会谈结束后,他们就分成了一些非正式的小组,哈萨比斯跟谢尔盖・布林聊了起来。交谈中,他们意识到两人有一个共同的兴趣:围棋。布林说,当他和佩奇在斯坦福大学创建谷歌时,他下了太多的围棋,以至于佩奇担心他们的公司永远也无法创立。哈萨比斯说,如果布林和他的团队愿意,他们可以打造一个能够击败世界冠军的系统。“我认为这是不可能的。” 布林说。那一刻,哈萨比斯下定决心要去实现它。
杰夫・辛顿将戴密斯・哈萨比斯比作罗伯特・奥本海默(Robert Oppenheimer),奥本海默在第二次世界大战期间负责实施的曼哈顿计划催生了第一颗原子弹。奥本海默是一位世界级的物理学家,他理解手头艰巨任务的科学性。但他也拥有必要的技能,来激励在他手下工作的庞大的科学家团队,结合他们不同的优势来支持更大的项目,并以某种方式克服他们的弱点。他知道如何打动男人(以及女人,包括杰夫・辛顿的堂姐琼安)。辛顿在哈萨比斯身上看到了同样的技能组合。辛顿说:“他推动 AlphaGo 就像奥本海默执行曼哈顿计划一样。如果由其他任何人来执行,那么他们都不会让它推进得这么快、这么好。”
在剑桥大学读书时就认识哈萨比斯的研究员戴维・西尔弗和 DeepMind 的第二位研究员黄士杰(Aja Huang)已经在着手推进围棋项目了,他们很快与伊利亚・萨特斯基弗和一位名叫克里斯・马迪森(Chris Maddison)的谷歌实习生联手,后者在北加州启动了他们自己的项目。这 4 名研究人员在 2014 年中期左右发表了一篇关于他们早期工作的论文,之后该项目扩展成了一项更大的项目,最终在次年战胜了欧洲围棋冠军范辉。12 这一结果震惊了全球围棋界和全球人工智能研究人员,但 AlphaGo 与李世石的对弈将会产生更大的影响。1997 年,当 IBM 的 “深蓝” 超级计算机在曼哈顿西区的一座高楼里超越世界级冠军加里・卡斯帕罗夫时,它是计算机科学的一个里程碑,得到了全球媒体广泛而热情的报道。但与韩国首尔的比赛相比,那只是一个小事件。在韩国 —— 更不用说在日本和中国了 —— 围棋是一项全国性的娱乐活动。会有超过 2 亿人观看 AlphaGo 与李世石的比赛,这个数字是美国超级碗橄榄球决赛观众人数的两倍。13
在这场五盘制比赛前一天的新闻发布会上,李世石夸口说他会以 4∶1 的比分轻松获胜,甚至是 5∶0。大多数棋手也这么认为。尽管 AlphaGo 击败范辉的方式让人们毫不怀疑这台机器是更好的棋手,但范辉和李世石之间的水平存在鸿沟。根据 ELO 等级分,李世石处于完全不同的棋手梯队,这个等级分是衡量棋手能力的一个相对指标。14 但哈萨比斯相信结果会完全不同。第二天下午,在第一盘比赛开始之前的两个小时,当哈萨比斯和几名记者一起吃午饭时,他拿着一份《韩国先驱报》,这是韩国的桃色英语日报。他和李世石同时出现在头版头条上,他没想到自己会受到如此多的关注。这位 39 岁的英国人看起来有点儿孩子气,还有些秃顶。他说:“我预计会得到很大的关注,但没想到这么大。” 尽管如此,在这顿包括饺子、泡菜和烤肉的午餐中 —— 他没有吃 —— 哈萨比斯说他 “谨慎自信”。他解释说,专家们不了解的是,自 10 月的比赛以来,AlphaGo 一直在不断磨炼自己的技能。他和他的团队最初通过向深度神经网络输入 3 000 万步下法来教机器下围棋。15 从那时起,AlphaGo 一场接一场地与自己对抗,同时仔细分析哪些下法被证明是成功的,哪些不是。这很像实验室为了玩老版雅达利游戏而打造的那些系统。在打败范辉后的几个月里,这台机器又跟自己下了几百万盘棋。AlphaGo 在持续自学围棋,而且学习的速度比任何人类都快。
在四季酒店顶楼的赛前餐会上,谷歌董事长埃里克・施密特(Eric Schmidt)坐在哈萨比斯的对面,用傲慢的方式阐述了深度学习的好处。一度有人称他为工程师,他予以纠正。“我不是工程师,” 他说,“我是一名计算机科学家。” 他回忆说,当他在 20 世纪 70 年代作为一名计算机科学家接受培训时,人工智能似乎承载了很大的预期,但随着 20 世纪 80 年代和 90 年代的到来,那个预期从未真正兑现。现在,这个预期正在成为现实。他说:“这项技术非常强大。” 他认为人工智能不仅仅是一种处理照片的方式,还代表了谷歌 750 亿美元互联网业务的未来,以及包括医疗健康在内的无数其他行业的未来。16 之后,当他们聚在楼下观看比赛时,杰夫・迪恩加入了哈萨比斯和施密特的行列。施密特和迪恩的出现,表明这场比赛对谷歌有多么重要。三天后,当比赛达到高潮时,谢尔盖・布林飞抵首尔。17
第一盘比赛,哈萨比斯在大厅里的私人观看室和 AlphaGo 控制室之间来来回回走动。控制室里摆满了个人电脑、笔记本电脑和平板显示器,所有这些都接入了太平洋另一端谷歌数据中心内数百台电脑上运行的一项服务。18 一周前,一组谷歌工程师将他们自己的超高速光纤电缆接入控制室,以确保与互联网的可靠连接。19 事实证明,控制室不需要提供太多的控制:经过几个月的训练,AlphaGo 完全可以在没有人类帮助的情况下独立下棋。并不是说哈萨比斯和他的团队想帮忙就能帮得上忙,他们之中没有一个人的水平能达到围棋特级大师的水平。他们能做的只是看着。西尔弗说:“我无法告诉你气氛有多么紧张,你很难知道该相信什么。一方面你要听评论员的讲解,另一方面你要看 AlphaGo 的评估,而且所有评论员的意见都不一致。”20
在比赛的第一天,他们和施密特、迪恩以及其他的谷歌贵宾一起见证了机器的胜利。在赛后的新闻发布会上,李世石坐在来自东西方的数百名记者和摄影师面前,告诉全世界,他很震惊。21“我没想到 AlphaGo 能以如此完美的方式下棋。” 这位 33 岁的棋手说。经过 4 个多小时的比赛,这台机器证明了它可以与世界上最好的选手相媲美。李世石说 AlphaGo 的才能让他措手不及,他会在第二盘比赛中改变策略。
第二盘比赛开始大约一个小时后,李世石站了起来,离开了对局室,走到一个私人露台上抽烟。出生于中国台湾的 DeepMind 研究员黄士杰在对局室里坐在李世石的对面,代表 AlphaGo 下每一步棋,他在棋盘右侧的一个很大的空白区域下了一颗黑色的棋子,落在一颗单独的白色棋子的侧下方。这是棋局的第 37 手。在外面的解说室里,作为唯一一位达到九段且是这项运动在西方的最高级别的围棋选手,麦克・雷蒙(Michael Redmond)愣了一会儿才反应过来。他对在网上关注比赛的 200 多万名说英语的观众说:“我真的不知道,这是一步好棋还是一步坏棋。”22 他的联合评论员克里斯・加洛克(Chris Garlock)是一家围棋网络杂志的长期编辑,也是美国围棋协会的副主席,他说:“我认为这是一个错误。”23 几分钟后李世石回来了,他又花了几分钟盯着棋盘。总的来算,他花了大约 15 分钟来应对,这在这盘比赛第一阶段每方两个小时的分配用时中占了很大一部分,并且他一直没有完全站稳脚跟。4 个多小时后,他认输了。他以 0∶2 的比分落后。
第 37 手也让范辉大吃一惊,他在几个月前被机器彻底击败,之后加入了 DeepMind 团队,在 AlphaGo 与李世石的比赛开始之前,他担任 AlphaGo 的对战伙伴。他从未击败过 DeepMind 的人工智能,但他与 AlphaGo 的相遇让他学到了一些新的下法。事实上,在他败给人工智能后的几周内,他已经在与顶级人类棋手的比赛中取得了六连胜,他的世界排名在这个过程中攀升到了新的高度。现在,站在四季酒店七楼解说室外,在第 37 手之后的几分钟里,他看到了这 “神之一手” 的效果。“这不是人类的下法,我从未见过有人下过这一手,” 他说,“太漂亮了。”24 他不停地重复这个词。太漂亮了。太漂亮了。太漂亮了。
第二天早上,戴维・西尔弗溜进了控制室,只是为了重温 AlphaGo 在选择第 37 手时所做的决定。在每盘比赛中,AlphaGo 利用其数千万次关于人类下法的训练,计算出人类采取特定下法的概率。它计算,第 37 手出现的概率是万分之一。AlphaGo 知道这不是一位职业围棋手会下出的招法。然而,通过与自己对战的数百万盘没有人类参与的棋局,它还是决定这么下。它意识到,虽然没有人会这么下,但这一手仍然是正确的。“它自己发现了这一点,” 西尔弗说,“通过它自己的内省过程。”25
这是一个苦乐参半的时刻。就在范辉为这漂亮的一手棋欢呼时,一种悲伤笼罩了整个四季酒店,甚至整个韩国。在前往赛后新闻发布会的路上,一位姓周的中国记者遇到了一位从美国飞来韩国的《连线》杂志记者。周记者说,他很高兴能与另一位关注科技的记者交流,他抱怨其他记者把这项活动当成了体育。他说,来报道的应该是关注人工智能的记者。但是后来,他的语气变了。周记者说,虽然 AlphaGo 赢得第一盘比赛时他很高兴,但他现在感到深深的绝望。他捶了捶自己的胸口以表明他的意思。第二天,在首尔另一个地方经营一家初创公司孵化器的韩国人吴英权(Oh-hyoung Kwon)说,他也感到很悲伤。26 这不是因为李世石是韩国人,而是因为他是人类。“对所有人类来说,这都是一个拐点。” 吴英权说,他的几名同事点头表示同意,“这让我们意识到人工智能离我们很近,也意识到了它的危险性。”27 周末,忧郁的情绪更加强烈了。李世石输掉了第三盘,因此输掉了整场比赛。28 坐在赛后新闻发布会的讲台上,这位韩国人感到很后悔。他说:“我不知道今天该说什么,但我想我必须先表达我的歉意。我应该展示出更好的状态、更好的结局、更好的较量。”29 几分钟后,马克・扎克伯格显然意识到他应该对技术的胜利表现出赞赏,于是他在 Facebook 上发了一条消息,祝贺戴密斯・哈萨比斯和 DeepMind。杨立昆也这么做了。但是,坐在李世石旁边的哈萨比斯发现,自己却希望这位韩国人至少能赢得剩下的两场比赛中的一场。30
在第四盘比赛的第 77 手之后,李世石又僵住了。这是第二盘比赛的重演,只是这次他花了更长的时间来思考下一步。棋盘的中央满是棋子,有黑的也有白的,他盯着这些棋子看了将近 20 分钟,他紧抓着自己的后脖颈,来回摇晃。最后,他把一颗白子放在棋盘中央的两颗黑子之间,有效地将两块黑棋一分为二。AlphaGo 陷入了困境。随着每盘比赛的进行,AlphaGo 会不断重新计算自己获胜的概率,在控制室的平板显示器上显示一个百分比。在李世石下出第 78 手时,机器应对了非常差的一手,它获胜的概率立即暴跌。哈萨比斯说:“到目前为止,AlphaGo 所做的所有思考都变得毫无用处。它必须重启。”31 然后,李世石从棋盘上抬起头来,盯着黄士杰,好像他战胜了那个人,而不是机器。从那以后,这台机器的赔率持续下降,在下了近 5 个小时后,它认输了。
两天后,当走过四季酒店的大厅时,哈萨比斯解释了机器的崩溃。AlphaGo 认为没有人会走第 78 手。它计算,这一手出现的概率是万分之一 —— 这是一个非常熟悉的数字。就跟面前的 AlphaGo 一样,李世石已经达到了一个新的水平,他在比赛的最后一天与哈萨比斯私下会面时也说了同样的话。这位韩国人说,与机器对弈,不仅重新点燃了他对围棋的热情,还拓展了他的思维,给了他新的灵感。“我已经进步了。” 他告诉哈萨比斯,同时也回应了范辉几天前所说的话。32 在接下来的 9 场比赛中,李世石都战胜了顶尖的人类棋手。
AlphaGo 与李世石之间的比赛,是人工智能的新运动在公众意识中爆发的时刻。这不仅是人工智能研究人员和科技公司的里程碑时刻,也是普通人的里程碑时刻。这在美国是真的,在韩国和中国更是如此,因为在这些国家,围棋被视为智力成就的顶峰。这场比赛揭示了技术的力量,在乐观时刻出现之前,技术将人类推向新高度的方式令人惊讶,同时这场比赛也揭示了人们对它的担忧,因为有一天它可能会让人类黯然失色。即使埃隆・马斯克警告了这些危险,但这也是人工智能前所未有的希望时期。在看完这场比赛之后,来自佛罗里达州的 45 岁的计算机程序员乔迪・恩塞恩(Jordi Ensign)出去文了两个文身。她将 AlphaGo 的第 37 手文在右臂内侧,将李世石的第 78 手文在左臂上。

梦想之地:微软的深度学习#

 
这并不是说谷歌的人喝的水有什么不同,搜索引擎要求他们解决一系列技术难题。
2016 年春天,陆奇蹬着一辆自行车,在西雅图以东 10 英里、距离微软总部不远的贝尔维尤市中心的公园里穿行。他摇摇晃晃地在长廊上骑车,努力保持自行车不倒。这不是一辆普通的自行车。当他向左转动车把时,自行车向右转,当他向右转动车把时,自行车向左转。他称之为 “逆向思维自行车”,因为唯一的骑行方式就是使用逆向思维。传统智慧认为:“你永远不会忘记如何骑自行车。” 但这正是他希望忘掉的。他在上海长大,在孩提时代第一次学会骑自行车的几十年后,他现在的目标是抹去过去所学会的一切,并将全新的行为模式融入大脑。他相信,这将为他的公司指明前进的方向。
陆奇在微软工作。2009 年加入该公司后,他负责打造搜索引擎必应(Bing),微软投资数十亿美元,试图以此打破谷歌搜索引擎的垄断。7 年后,当他和他的逆向思维自行车摇摇晃晃地穿过贝尔维尤市中心的公园时,他已经成为该公司最有权势的高管之一,领导着公司最新的人工智能业务。但是微软还处于追赶的地位,他非常清楚,问题在于公司多年来一直在新市场中挣扎着利用新技术取得进展。近十年来,公司想在智能手机市场上争夺一席之地,重新设计了 Windows 操作系统,以与 iPhone 和谷歌安卓手机竞争,还打造一个可对话的数字助理,以挑战 “谷歌大脑” 的语音技术,并且以不低于 76 亿美元的价格收购诺基亚,后者拥有几十年的手机设计和销售经验。1 但这些做法都没用。微软的手机仍然感觉像是老式的个人电脑,最终几乎没有占领任何市场。陆奇认为,微软的问题在于它用旧的方式处理新的问题。它在一个不复存在的市场上设计、部署和推广技术。一位哈佛商学院教授写过一系列解构老化企业弱点的文章,陆奇阅读后,开始认识到微软仍然是一家受程序记忆驱动的公司,这些记忆源于 20 世纪 80 年代和 90 年代,是公司的工程师、高管和中层管理人员第一次学习计算机业务时,在他们的大脑中留下的,而当时互联网、智能手机、开源软件和人工智能尚未兴起。公司需要改变思维方式,陆奇希望用他那辆逆向思维自行车来证明,公司可以做到。
这辆自行车是由一位名叫比尔・巴克斯顿(Bill Buxton)的微软同事和他的朋友简・卡里奇(Jane Courage)打造的。当陆奇第一次试骑这辆违反直觉的装置时,他们也来了。陆奇骑着自行车穿过贝尔维尤市中心的公园 —— 一个留着黑色短发、戴着金丝眼镜的矮个儿男人,从树荫下、从有倒影的池塘和瀑布旁骑过 —— 巴克斯顿和卡里奇举起他们的 iPhone,拍下这段骑行视频,一个人从前面拍,另一个从后面拍。他们的想法是与微软的其他高管分享 —— 总共有 35 个人,证明这是可以做到的,并最终让高管们也骑一下这辆自行车,感受一下这种从根本上改变想法是什么感觉。陆奇知道,学会骑这辆新自行车需要几个星期的时间。他知道一旦学会了,骑普通自行车所需的记忆就不在了。但他希望,自己的实例能够推动微软走向未来。
在努力保持自行车直立约 20 分钟后,他最后一次沿着长廊出发了。然后,当转动逆向思维自行车的车把时,他摔倒了,髋关节骨折。

 

2012 年秋天,邓力坐在 99 号楼的办公桌前,这里是微软研究院实验室的中心。他在阅读一篇未发表的论文,该论文描述了新的 “谷歌大脑” 实验室用来训练神经网络的硬件和软件系统,这就是谷歌称之为 DistBelief 的系统。2 一个小型委员会负责审查要在即将召开的 NIPS 会议上发布的论文,作为这个委员会的成员之一,邓力能比其他人提前几周看到它们。当初是邓力把杰夫・辛顿和他的学生带到微软研究院实验室的,他们在那里打造了一个神经网络,这个网络能够以前所未有的准确性识别口语词汇,之后邓力从远处看着谷歌用同样的技术击败微软并进入市场。现在,他意识到这项技术将远远超越口语词汇领域。“当我读到论文的时候,” 邓力回忆道,“我意识到了谷歌在做什么。”
微软花了 20 多年的时间投资人工智能,给很多世界顶尖的研究人员支付了大笔的资金 —— 随着深度学习的兴起,这却让公司处在劣势地位。几十年来,世界范围内的研究人员已经分成了不同的哲学派别。华盛顿大学教授佩德罗・多明戈斯(Pedro Domingos)在他的人工智能史《终极算法》(The Master Algorithm)一书中称它们为 “部落”。3 每个部落都有自己的哲学,而且往往看不起别人的哲学。信奉深度学习的连接主义者是一个部落,另一个部落是符号主义者,他们相信马文・明斯基等倡导的符号方法。其他部落信奉的想法包括统计分析、模仿自然选择的 “进化算法” 等。微软投资人工智能的时候,连接主义者还不是顶尖的研究人员,于是他们从其他部落招募,这意味着,虽然深度学习已经开始获得其他技术尚未实现的成功,但该公司的很多主要研究人员还是对神经网络的想法怀有深深的偏见。“说实话,整个微软研究院的上层都不相信它,” 陆奇说,“这就是环境。”
陆奇不是唯一一个对微软根深蒂固的文化表示担忧的人,辛顿也有很大的保留意见。他质疑微软研究人员的研究方式。与谷歌的研究人员不同,微软研究人员都是独立工作,不受商业化压力的任何影响。“当我还是一名学者时,我认为这很棒,因为你不必因为业务发展而弄脏自己的手,” 辛顿说,“但就实际让 10 亿人使用这项技术而言,谷歌的效率要高得多。” 他还对《名利场》上的一篇标题为《微软失去的 10 年》的文章表示担忧,这篇文章通过现任和前任微软高管的视角,探究了首席执行官史蒂夫・鲍尔默(Steve Ballmer)的 10 年任期。4 这篇报道的一个重大启示是,鲍尔默任期的微软使用了一种叫作 “堆栈排名” 的技术来评估员工的表现,并剔除一定比例的员工,而不管他们的实际业绩和意愿如何。在微软放弃收购他的初创公司之后,辛顿告诉邓力,他永远不可能加入这样一家公司。“不是钱的问题,是评估制度的问题,” 他说,“这种做法可能对销售人员有好处,但不适合研究人员。”
无论如何,微软的很多人对深度学习持怀疑态度。在邓力将杰夫・辛顿带到雷德蒙小镇之后,微软的研究副总裁彼得・李在自己的实验室里看到深度学习重构了语音识别,但他仍然不相信。这一突破似乎是一次性的,他没有理由认为同样的技术会在其他研究领域取得成功。然后,他飞往犹他州的雪鸟城,参加美国计算机科学系主任的会议。尽管他已经辞去了卡内基 —— 梅隆大学计算机科学系主任的职务,但作为跟上最新学术趋势的一种方式,他仍然参加了这次年度会议。那一年,在犹他州,他看到杰夫・迪恩发表了一场关于深度学习的演讲。回来后,他在 99 号楼的一个小会议室里安排了一次与邓力的会面,并请他解释是什么事情让迪恩感到如此兴奋。邓力开始描述 DistBelief 的论文以及它对激发谷歌产生更大野心的作用,并解释说微软的主要竞争对手正在为新的未来打造基础设施。“他们花了很多钱。” 他说。但是彼得・李打断了他,因为他知道,根据 NIPS 会议的规则,邓力在这篇论文发表之前是不允许讨论的。“那是一篇学术论文,” 他告诉邓力,“你不能给我看那个。” 邓力没有再提及这篇论文,但他一直在谈论谷歌和微软,以及这项技术的发展方向。最终,彼得・李仍然认为谷歌的野心是错误的。语音识别是一回事,图像识别是另一回事,两者都只是机器需要做的工作中的一小部分。“我只是想知道发生了什么。” 他说。但很快,他要求邓力参加该实验室主要智囊的一场会议。
他们聚集在公司办公区另一栋大楼里的一个更大的会议室。邓力站在讲台上,面对 20 多名研究人员和管理人员,他的笔记本电脑连接在身后墙上的平板显示器上,他随时准备用图表或照片来突出展示每个重要思想。但当他开始介绍深度学习的兴起时 —— 从微软的语音工作,到它在整个行业的传播 —— 他被会议室另一头的一个声音打断了。那是保罗・维奥拉(Paul Viola),他是公司在计算机视觉方面的主要专家之一。“神经网络从未奏效过。” 他说。邓力对此表示同意,然后继续他的演讲。但维奥拉再次打断了他,从座位上站起来,走到房间的前部,从墙上的平板显示器上拔掉了邓力笔记本电脑的连接线,并接上了自己的电脑。屏幕上出现了一本书的封面,封面上大部分是橙色的,有一些紫色的旋涡和用小白字印刷的标题,这是马文・明斯基的《感知机》一书。维奥拉说,几十年前,明斯基和佩珀特已经证明,神经网络存在根本性的缺陷,永远无法达到很多人所承诺的高峰。最终,邓力继续他的演讲,而维奥拉继续打断。他打断了太多次了,很快房间里传来一个声音,这个人叫他保持安静:“这是邓力的演讲还是你的演讲?” 说话的人是陆奇。
如果说陆奇是人工智能领域全球化特征的一个典型例子,那么他的背景就使他成为这个领域中最不可能的参与者之一。在 “文革” 时期,他在一个贫困的农村由祖父抚养长大。5 他就读的学校只有一名教师,这名教师要教 400 名学生。然而,他克服了所有不利的自然条件,在上海复旦大学获得了计算科学学位,并在 20 世纪 80 年代末吸引了美国计算机科学家爱德蒙德・克拉克(Edmund Clarke)的注意,他碰巧在中国寻找可以带回卡内基 —— 梅隆大学的人才。在某个星期天,克拉克要在复旦大学发表一场演讲。陆奇通常会骑着自行车穿过这座城市去看望他的父母,但是当天下了一场大雨,他就待在家里。那天下午,有人敲他的门,让他去克拉克的讲座上帮忙占个座位。因为下雨,太多的座位空着。于是陆奇听了讲座,他在演讲结束后的提问让克拉克印象深刻,之后他被邀请去卡内基 —— 梅隆大学申请一个留学机会。“我很幸运,” 他回忆道,“如果没有下雨,我就去看望父母了。”
当陆奇进入卡内基 —— 梅隆大学攻读博士学位时,他的英语水平很差。学校的一位教授是彼得・李,也是他未来在微软的同事。在陆奇入学的第一年,李教授给他的班级做了一次测试,要求他们编写一段代码,实现在内急(nature calls)时,可以从卡内基 —— 梅隆大学计算机科学大楼的任何地方找到去洗手间的最短路径。测试进行到一半时,陆奇走到李教授面前问道:“什么是内急?我没有听说过这个程序。” 尽管存在语言上的差距,但对李教授来说,很明显陆奇是一位具有极端和非凡天赋的计算机科学家。在卡内基 —— 梅隆大学毕业之后,陆奇先后在雅虎和微软实现不断晋升。当邓力在 99 号楼发表演讲时,陆奇正在公司主管必应搜索引擎和几个其他部门,与微软研究院密切合作。
他认为自己是少有的懂技术的技术管理者、战略家以及系统架构师,还是一位广泛阅读世界领先实验室研究论文的远见卓识者。他有办法用尖锐的、自成一体的、略显奇怪的技术公理来表达自己的想法:
计算是对信息进行有目的的操纵。
数据正在成为主要的生产手段。
深度学习在新的基础上进行计算。
甚至在 99 号楼开会之前,他就知道了这个行业的发展方向。像彼得・李一样,他最近参加了计算机科学家的一个私人聚会,“谷歌大脑” 的一位创始人在会上鼓吹深度学习的兴起。“富营”(Foo Camp)是一个被宣传为 “非传统会议” 的硅谷年度聚会,与会者在会议上制定议程,在吴恩达解释 “小猫论文” 背后的想法时,陆奇跟一小群人聚集在他的周围。在微软,在辛顿和他的学生们拜访公司之后,陆奇意识到了新的语音技术的出现,但直到他遇到吴恩达时,他才完全意识到发生了什么。他的工程师们煞费苦心地手工打造了微软搜索引擎的每一个模块,但是正如吴恩达所解释的那样,他们现在可以打造自行学习这些模块的系统了。在接下来的几周,他开始以典型的方式阅读纽约大学和多伦多大学等学校涌现出来的研究文献。邓力做深度学习兴起的演讲时,陆奇也听了,提了一些恰当的问题。因此,几周之后,当杰夫・辛顿发邮件给他,透露百度出价 1 200 万美元时,邓力就知道该怎么做了。他把这条消息转发给了陆奇,是陆奇敦促微软研究院的领导们加入竞拍,去尝试收购辛顿和他学生的公司。但是,微软研究院的领导们仍然持怀疑态度。

 
当陆奇在贝尔维尤公园摔伤髋关节几个月后重返工作岗位时,他仍然需要拄着拐杖走路。与此同时,AlphaGo 击败了李世石,科技行业掀起了一股人工智能热潮。甚至小一些的硅谷公司 —— 英伟达、Twitter、Uber(优步)—— 都因为一个想法而参与竞争。Twitter 收购了 Madbits,6 这家公司是纽约大学的研究员克莱门特・法拉贝特创立的,他之前拒绝过 Facebook 的工作机会;之后 Uber 收购了一家名为 “几何智能”(Geometric Intelligence)的初创公司,7 这是一个由纽约大学心理学家盖瑞・马库斯(Gary Marcus)召集起来的学术团体。深度学习和深度学习研究人员是当时的 “硬通货”。但是微软是有缺陷的,它不是一家互联网公司、智能手机公司或自动驾驶汽车公司,它实际上并没有在人工智能领域打造出需要 “下一个大事件” 的东西。
当他从第一次髋关节手术中恢复过来时,陆奇敦促微软智囊团接受自动驾驶汽车的想法。无数的科技公司和汽车制造商在自动驾驶汽车方面有着很大的领先优势,而陆奇并不确定微软将如何进入这个日益拥挤的市场。但这不是问题所在,他的观点并不是认为微软应该去销售自动驾驶汽车。他认为,微软应该打造一辆自动驾驶汽车。这将为公司提供在很多其他领域取得成功所需的技能、技术和洞察力。陆奇认为,谷歌之所以在如此多的市场占据主导地位,是因为它在互联网空前扩张的时代打造了一款搜索引擎。像杰夫・迪恩这样的工程师被迫打造从未有人开发过的技术,在随后的几年里,这些技术推动了从 Gmail 到 YouTube、再到安卓的一切。他说:“这并不是说谷歌的人喝的水有什么不同,而是说搜索引擎要求他们解决一系列技术难题。” 陆奇认为,打造一辆自动驾驶汽车同样会丰富微软的未来。“我们必须让自己看到计算机技术的未来。”
这个想法很荒谬,但并不比刺激微软最大竞争对手的想法更荒谬。谷歌给辛顿和他的学生支付 4 400 万美元是 “荒谬的”。仅仅几个月后,当市场上的其他玩家给该领域的其他人投入高得多的资金时,这似乎是一笔好生意。在韩国,AlphaGo 似乎打开了一个全新可能性的领域,现在整个行业都在追逐这项技术,似乎它是一切问题的答案,尽管在语音、图像识别及机器翻译以外的领域,它的未来仍然不明朗。陆奇从未说服微软智囊团打造自动驾驶汽车,但随着这股热潮笼罩了整个行业,他说服了他们至少应该做点儿什么。
深度学习革命中最重要的大玩家已经在为竞争而努力了。谷歌有辛顿、萨特斯基弗、克里哲夫斯基,以及哈萨比斯、莱格和西尔弗;Facebook 有杨立昆;百度有吴恩达。但在像辛顿或哈萨比斯这样的人物是一种 “无价商品” 的世界里,微软没有属于自己的顶尖人物,而这些人物是公司了解未来变化、打造新技术、吸引顶尖人才,以及推广企业品牌(最重要的)的一种方式。
对陆奇来说,唯一剩下的选择是约书亚・本吉奥,他是深度学习运动的第三位巨头,在辛顿和杨立昆分别在多伦多大学和纽约大学辛勤工作时,本吉奥在蒙特利尔大学创建了一间实验室。与辛顿和杨立昆不同,本吉奥专注于研究自然语言理解 —— 旨在掌握我们人类将单词以自然方式组合在一起的系统。他和他的学生们是下一项重大突破的核心,他们与谷歌和百度一起创造了一种新的机器翻译。问题是,他非常相信学术自由,就像他在贝尔实验室的前同事杨立昆一样。到 2016 年夏天,他已经拒绝了所有美国大型科技公司的邀请。但是,陆奇相信仍然可以把他带到微软 —— 微软愿意买单。那年秋天的一个早晨,在公司新任首席执行官萨提亚・纳德拉(Satya Nadella)的祝福下,陆奇、邓力和另一位微软研究员一起登上了飞往蒙特利尔的飞机。
他们在蒙特利尔大学的办公室里见到了本吉奥,那是一个堆满了书的小房间,几乎容纳不下他们 4 个人。本吉奥坦陈,不管他们出多少钱,他都不会加入微软。他有着浓密的眉毛和一头紧紧卷曲的斑白头发,说英语时只有一点儿法国口音,他的严肃态度既迷人又有点儿令人生畏。他说自己更喜欢蒙特利尔的生活,在那里他可以讲他的母语法语,他更喜欢学术研究的开放性,这是企业界仍然无法媲美的。除了大学的工作,本吉奥还给几家创业公司提供支持,他说自己要花一部分时间为一家名为 Maluuba 的加拿大初创公司提供咨询,这家公司专注于对话系统。这给了陆奇一些灵感,他说,如果微软收购了 Maluuba,本吉奥就可以用同样的时间为微软提供咨询。陆奇一大早跟纳德拉通过电子邮件沟通之后,他口头提出了收购这家初创公司,纳德拉说如果他们同意出售,陆奇当晚可以带着本吉奥和 Maluuba 的创始人飞到西雅图坐下来交流。
Maluuba 的两位创始人跟他们一起在大学里的一家咖啡馆吃午餐,他们拒绝了这一提议,因此没有飞往西雅图。两位创始人认为,这家成立于几个月前的初创公司仍需要发展的空间。陆奇继续施压,但他们不肯让步,本吉奥也不肯让步。他不想谈生意,只想谈人工智能。当他们讨论人工智能和机器人以及这些技术的走向时,他说未来的机器人需要睡觉。他认为,机器人需要睡觉,因为它们需要做梦。他的观点是,人工智能研究的未来在于不仅能识别图片和口语单词,还能自行生成自己的系统。做梦是人类进行学习的重要组成部分。晚上,我们 “重播” 白天经历的事情,把记忆植入大脑。总有一天,机器人也会如此。
午餐结束后,陆奇告诉他们,如果他们改变了主意,报价仍然有效。然后他拄着拐杖蹒跚地走出了咖啡馆。大约一年后,Maluuba 确实加入了微软,本吉奥也在微软担任了引人注目的顾问角色。但那个时候,陆奇已经离开了这家公司。他髋关节的第一轮手术并不完全成功:手术导致他的脊椎没有对齐,引起全身疼痛。当他从蒙特利尔回来,医生告诉他需要再做一次手术时,他告诉纳德拉,他留在微软已经没有意义了。身体恢复需要太长的时间,他不能把时间奉献给他需要投入的公司。微软在 2016 年 9 月宣布了他的离职。85 个月后,他回到中国,加入百度担任首席运营官。

  • 现在,ChatGPT 正在以惊人的速度冲击着人类的各行各业,改变人们原有的参与社会生产生活的习惯模式,并且继续一路狂飙,仍在超越人类的赛道上不断进化。“ChatGPT 可能马上取代你,这是它能做的 10 个工作”“未来 20 种职业或被 AI 取代” 等话题频上热搜。在被点名的这些行业或者职业中,尤其以技术、媒体、文案、服务、金融、法律、医疗、教育行业的从业人员为主,他们在兴奋的同时,也立即感受到了威胁 —— 因为 ChatGPT 能很好地完成包括写代码、代码改错、写短篇小说、翻译文献、写商业文案、做作业、出广告创意等一系列基础文字输出型任务。

所有人都在在历史科技浪潮里普通人总会提出关心一个问题:

  • 人工智能真的会在未来某个时刻跟人类抢饭碗,甚至取代人类吗?一份针对 6 个不同国家、500 名 ChatGPT 用户进行的调查显示,大部分打工人已经在考虑 ChatGPT 以及其他人工智能产品对自己所在行业的影响,并且开始主动适应 AI 对工作的影响。这份研究称,大约有 23% 在软件和技术领域工作的员工担心会因为它而失去工作,超过 40% 的雇主则表示有兴趣 “聘用” 营销文案花样繁多的 ChatGPT。

但是,也有观点认为,在突飞猛进的技术发展下,ChatGPT 和其他人工智能产品有可能在未来进一步改变工作的性质,但它们不会彻底取代对人类的需求。

  • 人类和人工智能产品将协作处理大多数工作内容,人工智能产品将成为我们的助理,而不是主导者。
  • ChatGPT 的答案也是如此。当你把 “是否会代替人类工作” 的问题抛给 ChatGPT 时,它表示,它旨在协助和增强人工任务,而不是取代人类。它们将作为人力资源的补充,提高人类解决问题的能力,提升效率和效果,最终推动技术和社会进步。

人工智能首先将提高社会整体运作效率,帮助很多行业做得更好,节省更多时间。但在不久的将来,或许一部分职位会渐渐被 AI 替代,我们在科幻小说或者科幻电影里看到的场景,正在大步迈向现实。我们需要与时俱进,熟悉并掌控这项新技术,就像计算机、手机、互联网等技术或者产品出现时,也慢慢改变了我们的生活一样。我们应该熟悉适应它们,并且相信,新技术一定会产生新的就业机会。

斯派克・琼斯编剧并执导的一部科幻爱情片。影片中,作家西奥多爱上了具有人工智能的虚拟助手。

在大多数科幻故事里,我们已经见到了太多 AI 最终毁灭人类的时刻,现实是,当 ChatGPT 不断满足我们当下的需求时,人类还在对它寄予更多期待 —— 我们发现,AI 确实在某种程度上满足了我们的大部分需求,它是一个很好的工作帮手,是一个善解人意的无聊玩伴,甚至 ChatGPT 未来可能发展成电影《她》 里,由斯嘉丽・约翰逊所扮演的 AI 伴侣,同时陪伴全球无数位单身男女,满足当代都市人际关系里最细微、最难以填补的孤独时刻。拥抱变化,或许是人类本来就应有的宿命。

恐慌情绪到引领世界的不同声音变革#

动荡 PART THREE TURMOIL#

伊恩・古德费洛曾于 2013 年秋天在 Facebook 接受面试,他和马克・扎克伯格漫步穿过公司园区的庭院,听着扎克伯格对 DeepMind 的哲学思考。然后他拒绝了扎克伯格,他更喜欢 “谷歌大脑” 的一份工作。但此刻,他的职业生涯被搁置了。他决定暂时留在蒙特利尔。他还在等待他的博士论文评议小组的召集,但他犯了一个错误,就是在 Facebook 公布其新的人工智能实验室之前,邀请杨立昆加入了这个评议小组。另外,他想看看,跟一位刚刚开始约会的女人之间的关系会如何发展。他还在写一本关于深度学习的教科书,但进展不太顺利。他在大部分时间里都坐在那里画小象,然后把这些画发到网上。
当他的一名大学实验室同事在 DeepMind 找到工作时,这种漂泊感就结束了,实验室的研究人员在蒙特罗亚尔大道尽头的一家酒吧安排了一场告别派对。这家酒吧名为 “三位酿酒师”。在这个地方,20 个人可以不请自来,把几张桌子推到一起,坐下来喝一大堆的精酿啤酒。当这些研究人员开始争论打造一台机器的最佳方法时,古德费洛已经微醺了,他们讨论的这台机器可以自行创建出照片般逼真的图像 —— 小狗或青蛙的照片,或者看起来完全真实但实际上并不存在的脸部照片。几位实验室同事正试图打造一台这样的机器,他们知道可以训练一个神经网络来识别图像,如果将过程反转过来,它也可以生成图像。这就是 DeepMind 研究员亚历克斯・格雷夫斯在打造一个可以手写的系统时所做的事情。但是,这个方法只能在细节清晰的照片级图像上生效。这种结果无法令人信服。
但是,古德费洛实验室的同事们有一个计划。他们统计分析了神经网络中生成的每幅图像,识别了某些像素的频率和亮度,以及它们与其他像素的关联方式。然后,他们将这些统计数据与真实照片中的数据进行比较,就能够显示出他们的神经网络哪里出错了。问题是,他们不知道如何将这些想法编码到系统之中 —— 这可能需要数十亿份统计数据。古德费洛告诉他们,这个问题是无法解决的。“有太多不同的统计数据需要追踪,” 他说,“这不是编程问题,而是一个算法设计问题。”
他提出了一个完全不同的解决方案。他解释说,他们应该做的是打造一个能够从另一个神经网络中进行学习的神经网络。第一个神经网络将创建一幅图像,并试图欺骗第二个神经网络,让它以为这幅图像是真实照片。第二个会指出第一个错误的地方,第一个会再试一次。他说,如果两个神经网络对决足够长的时间,它们就可以创建一幅看起来像真实事物的图像。古德费洛的同事们不为所动。他们说,他的想法比他们的更糟糕。如果古德费洛没有喝醉,他可能也会得出同样的结论。“训练一个神经网络已经够难的了,” 清醒的古德费洛会说,“你不能在一个神经网络的学习算法中训练另一个神经网络。” 但在那一刻,他相信这是可行的。
那天深夜,当他回到自己的单间公寓时,他的女朋友已经睡下了,她醒来打了个招呼,然后继续睡觉。他坐在床边的一张桌子旁,在黑暗中,他仍然有点儿醉意,笔记本电脑屏幕的光照在他的脸上。1“我的朋友们错了!” 他不停地告诉自己。2 他用其他项目的旧代码拼凑了一个对决网络,并在数百张照片上训练这个奇特的新设计,而他的女朋友就睡在他身边。几个小时后,这个网络就像他预测的那样生效了。图像很小,跟缩略图差不多大,还有点儿模糊,但它们看起来像真实的照片。他后来说,这是一种运气。“如果没有成功,我可能就会放弃这个想法。”3 在基于这一想法所发表的论文中,他称之为 “生成对抗网络”,即 GAN。在全球的人工智能研究人员的圈子内,他成了 “GAN 之父”。
2014 年夏天加入谷歌时,他正在推广 GAN,并将它作为加速人工智能进步的一种方式。在描述这个想法时,他经常提到理查德・费曼。费曼的教室黑板上曾经写着:“我不能理解的东西,我无法创造。” 这也是古德费洛在蒙特利尔大学的顾问约书亚・本吉奥在学校附近的一家咖啡馆里,受到来自微软的游说团追逐时所说的话。跟辛顿一样,本吉奥和古德费洛相信,费曼的格言不仅适用于人类,也适用于机器:人工智能不能理解的东西,它也无法创造。他们都认为,创造将有助于机器理解它们周围的世界。古德费洛说:“如果人工智能能够以逼真的细节想象世界 —— 学会如何想象出逼真的图像和逼真的声音 —— 这将促进人工智能理解真实世界的结构。”“它可以帮助人工智能理解它看到的图像或听到的声音。” 与语音识别、图像识别和翻译一样,GAN 是深度学习的又一次飞跃。至少,深度学习的研究人员相信这一点。
2016 年 11 月,在卡内基 —— 梅隆大学的一次演讲中,杨立昆称 GAN 是 “过去 20 年深度学习领域最酷的想法” 4。当杰夫・辛顿听到这种说法时,他假装倒着计算了一下年份,似乎是为了确保 GAN 并不比 “反向传播” 更酷,然后才承认杨立昆的说法接近真相。古德费洛的工作引发了一长串的项目,这些项目完善、扩展并挑战了他的大想法:怀俄明大学的研究人员打造了一个系统,它生成了一些微小但完美的图像,包括昆虫、教堂、火山、餐馆、峡谷、宴会厅等;5 英伟达公司的一个团队也打造了一个神经网络,它可以将炎炎夏日的照片转化为隆冬的模样;6 加州大学伯克利分校的一个小组设计了一个系统,它可以将马转化为斑马,将莫奈的作品转化为凡・高的作品。7 这些都是产业界和学术界最引人注目和最有趣的项目。然后,世界变了。

 
2016 年 11 月,就在杨立昆发表演讲称 GAN 是过去 20 年深度学习领域最酷想法的那个月,唐纳德・特朗普在美国总统选举中击败了希拉里・克林顿。随后美国人民的生活和国际政治经历了翻天覆地的变化,人工智能也是如此。紧接着,美国政府对移民的压制引发了对人才流动的担忧。由于在美国学习的国际学生数量原本已经在下降,现在则是急剧下降,严重依赖外国人才的美国科学和数学圈子开始受到影响。8“我们正在搬起石头砸自己的脑袋,” 西雅图一间有影响力的实验室艾伦人工智能研究所的首席执行官奥伦・埃齐奥尼(Oren Etzioni)说,“不是脚,是脑袋。”
大公司已经在拓展海外业务了。Facebook 在蒙特利尔和杨立昆的家乡法国巴黎都设立了人工智能实验室。微软最终收购了 Maluuba,这家公司成为微软在蒙特利尔的实验室(约书亚・本吉奥担任高级顾问)。9 杰夫・辛顿没有把时间花在硅谷的山景城上,而是在加拿大多伦多设立了一间谷歌实验室。他这样做的部分原因是为了照顾与癌症抗争的妻子。她经常去北加州旅行,他们会在大苏尔度过周末,这是她最喜欢的地方之一。但是随着健康状况的恶化,她需要待在家里。她坚持让辛顿继续他的工作,而随着他的努力,一个更大的生态系统在他周围蓬勃发展起来。
特朗普政府移民政策的风险在 2017 年 4 月成为人们关注的焦点,当时他上任仅三个月,辛顿帮助设立了一家多伦多研究孵化器 —— 向量人工智能研究所。10 该研究所获得了 1.3 亿美元的资金支持,资助方包括谷歌和英伟达等美国巨头,其目的是促进加拿大新的初创公司的诞生。11 加拿大总理贾斯廷・特鲁多承诺提供 9 300 万美元支持多伦多、蒙特利尔以及埃德蒙顿的人工智能研究中心。12 辛顿的一位主要合作者,一位名叫萨拉・萨布尔(Sara Sabour)的年轻研究员的职业道路,体现了人工智能的国际性以及它对政治干预的敏感性。2013 年,在伊朗沙里夫理工大学得到计算机科学学位后,萨布尔向华盛顿大学提出申请,希望学习计算机视觉和其他形式的人工智能,她被录取了。但后来美国政府拒绝给她签证,显然是因为她在伊朗长大并在伊朗学习,而且打算专攻一个可能会对军事和安全产生影响的技术领域,即计算机视觉。第二年,她进入了多伦多大学,然后找到了通往辛顿和谷歌的道路。
与此同时,特朗普政府继续专注于将人们挡在国门之外。外交关系委员会的新兴技术和国家安全专家亚当・西格尔(Adam Segal)表示:“当下,美国公司得到了好处。但从长远来看,科技和就业机会不会在美国出现。” 美国人工智能研究的中心之一卡内基 —— 梅隆大学的计算机科学系主任安德鲁・摩尔(Andrew Moore)说,这种情况几乎让他夜不能寐。加斯・吉布森(Garth Gibson)原来是该系的教授之一,后来离开卡内基 —— 梅隆大学去接管了多伦多的向量人工智能研究所。另外,还有 7 名教授前往瑞士担任学术职务,瑞士政府和大学为这类研究提供的经费远远超过美国。
但人才的流失并不是特朗普入主白宫椭圆形办公室所带来的最大变化。从选举结束的那一刻起,全美的媒体就开始质疑网络错误信息在选举中起到的作用,这让人们开始深度关注 “假新闻” 的威力。大选后的几天,马克・扎克伯格在硅谷的一次公开露面中,起初对这些担忧不屑一顾,他无忧无虑地说,选民被假新闻左右是一个 “相当疯狂的想法”。13 但是,记者、国会议员、专家和普通公民对此齐声反对。事实上,这个问题在选举期间一直很猖獗,尤其是在 Facebook 的社交网络上,数十万人甚至数百万人分享了一些骗人的新闻,比如 “涉嫌希拉里电子邮件泄露的联邦调查局特工被发现死于明显的谋杀性自杀” 和 “教皇弗朗西斯震惊世界,支持唐纳德・特朗普当选总统”。
14. Facebook 透露,一家与克里姆林宫有联系的俄罗斯公司通过 470 个虚假账号和页面购买了超过 10 万美元的网站广告,传播了与种族、枪支管制、同性恋权利和移民有关的分裂信息。此后,这些担忧继续加剧。15 正如他们所做的那样,他们以新的视角看待 GAN 和相关技术,这些技术似乎是制造假新闻的一种手段。
研究人员在其中发挥了作用。华盛顿大学的一个团队,包括一名很快加入了 Facebook 的研究人员,使用神经网络制作了一段视频,在巴拉克・奥巴马口中加入了一些新单词。16 中国的一家初创公司的工程师们使用了类似的技术,将唐纳德・特朗普变成了一个会说中文的人。17 假图像并不是什么新鲜事,自照片出现以来,人们就一直在使用技术处理照片。在计算机时代,像 Photoshop(图像处理软件)这样的工具几乎赋予了任何人编辑照片和视频的能力。但是,由于新的深度学习方法可以自己学习任务,或者至少学习任务的一部分,它们使编辑变得容易得多,这是一种潜在风险。政治运动、民族国家、活动家和叛乱分子不必付钱给大量人工去创建和分发假图像和假视频,他们可能会打造一些系统,由系统自动完成这项工作。
到了选举时,人工智能要想发挥图像操纵的全部潜力还需要几个月的时间。按当时的情况来看,GAN 只能生成缩略图,而要让一些话从政客的嘴里 “说出”,这样的系统仍然需要罕见的专业知识,更不用说额外的费力工作了。但是,在特朗普获胜一周年之际,芬兰英伟达实验室的一组研究人员推出了一种新的 GAN。18 这些被称为 “先进 GAN”(Progressive GAN)的对决神经网络可以生成植物、马、公共汽车和自行车的全尺寸图像,这些图像看起来就像是真实存在的东西。但吸引注意力的是一些人的面孔。在分析了成千上万张名人照片后,英伟达的系统可以生成一张看起来像名人的脸,但它实际不是 —— 一张让你想起著名女演员詹妮弗・安妮斯顿(Jennifer Aniston)或赛琳娜・戈麦斯(Selena Gomez)的脸。这些虚构的脸看起来像是真的,有皱纹、毛孔、阴影和她们各自的特征。帮助开发这项技术的麻省理工学院教授菲利普・伊索拉(Phillip Isola)说:“它的进步实在太快了,之前大家认为这是一个非常有趣的学术问题,但不可能用来制造假新闻,它只会产生一些模糊的图像。而现在,它可以生成照片般逼真的人脸。”
在英伟达发布这项技术几天之后,伊恩・古德费洛在波士顿的一个小型会议上发表演讲的前几分钟,一名记者问他这一切意味着什么。19 他承认,任何人都可以用 Photoshop 制作虚假图像,这种事情变得越来越容易。20 他说:“我们正在加快推进那些已经成为可能的事情。”21 他穿着黑色衬衫和蓝色牛仔裤,下巴上留着山羊胡子,头发向前梳到前额,样子和说话的神态看起来都像是会议室里最书呆子气和最酷的人。他解释说,随着这些方法的改进,用图像来证明发生了什么事情的时代终结了。22 他说:“从历史上看,我们能够依靠视频证据来证明一些事情确实发生了,这有点儿偶然。实际上,我们过去必须通过一种叙述方式来思考,谁说了什么,谁有动力说什么,谁在哪个问题上有信誉。似乎我们又回到了那种时代。”23 但这是一个艰难的转变。24“不幸的是,现在的人不太擅长批判性思维。人们往往以非常部落主义的想法看待谁可信、谁不可信。”25 至少会有一段调整期。26 他说:“在很多其他领域,人工智能打开了我们以前从未打开过的大门。我们真的不知道门的另一边是什么。在这种情况下,事情更像是人工智能正在关闭我们这一代人已经习惯打开的一些大门。”27
这一调整期几乎是立即开始的,因为有一群自称 “深度造假”(Deepfakes)的人开始将名人的脸拼接成色情视频,并发布到互联网上。28 在这些匿名恶作剧者发布了一款能实现此功能的应用软件后,这类视频在论坛、社交网络和视频网站(如 YouTube)上大量出现。有一段视频使用了米歇尔・奥巴马(Michelle Obama)的脸,还有几段视频用尼古拉斯・凯奇(Nicolas Cage)的脸来玩这个把戏。在这种想法蔓延到主流媒体之后,像 Reddit 和 Twitter 这样的网站很快就禁止了这种做法。29 “深度造假” 一词进入了词典,指的是任何经过人工智能篡改并在网上传播的视频。
在推进人工智能发展的同时,伊恩・古德费洛也开始分享自己对人工智能快速崛起的担忧,这种担忧比埃隆・马斯克提出的关于超级智能的警告更为紧迫,GAN 只是其中的一部分。当古德费洛刚刚来到谷歌时,他就开始探索一种叫 “对抗性攻击”(adversarial attacks)的独立技术,这种技术表明神经网络可以被愚弄,你可以让它看到或听到实际上不存在的东西。30 仅仅通过改变一张大象照片中的几个像素 —— 这是人眼无法察觉的改变 —— 你就可以欺骗神经网络,让它认为这头大象是一辆汽车。神经网络从非常广泛的例子中学习,以至于微小和意想不到的缺陷可能会悄悄潜入它的训练,但没有人知道。当你考虑到这些算法正在进入自动驾驶汽车,帮助它们识别行人、车辆、街道标志和道路上的其他物体时,这种现象尤其令人担忧。很快,一组研究人员展示出,通过在停车标志上贴几张便利贴,他们可以骗过一辆自动驾驶汽车,让它以为这个标志不存在。31 古德费洛警告说,同样的现象可能会破坏大量的其他应用。32 他说,一家金融机构可以将这个想法应用到交易系统中,执行一些诱导性的交易,让竞争对手抛售股票,这样该机构就能够以更低的价格买入。

2016 年春,在谷歌工作不足两年之后,古德费洛离开了公司并加入 OpenAI 实验室,他同时也将这项研究带了过来。他被 OpenAI 的使命吸引,即致力于打造符合道德标准的人工智能,并与全世界分享。他的工作,包括 GAN 和 “对抗性攻击”,与 OpenAI 是自然的契合。他要做的是展示这些现象的影响,以及告诉世界应该如何面对。此外,正如 “谷歌大脑” 的税务文件后来显示的那样,他在该实验室的 9 个月内获得了 80 万美元的报酬(包括 60 万美元的签约奖金)。33 但他在 OpenAI 工作的时间并不比那 9 个月长多少。第二年,他重回谷歌,因为杰夫・迪恩在 “谷歌大脑” 内部设立了一个致力于人工智能安全的新小组。鉴于古德费洛在研究界和更广泛的科技领域的高知名度,此举对 OpenAI 来说是一个打击。这还表明,业界对人工智能崛起的担忧远远超过了对一间实验室的担忧。

ChatGPT 的出现,波及了无数普通人的生活,也在硅谷以及全世界的科技圈引发了巨大的震动。ChatGPT 出现的时机非常特殊,因为多年没有推出突破性产品,全球科技巨头们的大量产品和技术的研发陷入停滞状态,在疫情与全球经济放缓的双重影响下,它们不得不开启多轮裁员计划,包括 Facebook 在内的大公司也辞退了成千上万名员工,试图 “降本增效”,度过寒冬。就在此时,ChatGPT 以黑马的姿态杀出,告诉所有人:技术突破来了,只是你们都没有发现。

随着人工智能 AI 聊天机器人 ChatGPT 以惊人的速度走红,它的开发者、人工智能研究机构 OpenAI 也闯入了大众视野。从 2022 年 11 月 30 日 OpenAI 悄悄发布 GPT-3.5,ChatGPT 首次向公众推出以来,OpenAI 动作不断,ChatGPT 在几个月的时间内已经快速进化。

神经网络的偏见
 
谷歌照片,你们搞砸了。我的朋友不是大猩猩。
2015 年 6 月的一个星期天,雅基・阿尔西内(Jacky Alciné)坐在他和弟弟两人同住的房间里,在网上浏览一长串关于黑人娱乐电视奖的 Twitter 消息。他们的公寓位于美国布鲁克林皇冠高地,因为没有接通有线电视,他看不了电视里的颁奖典礼,但至少可以在笔记本电脑上阅读不断涌入的 Twitter 评论。在他吃了一碗米饭后,一位朋友给他发了一个网络链接,上面有他发布到新的 “谷歌照片” 上的一些快照。22 岁的阿尔西内是一名软件工程师,他过去曾使用过这项服务,但自从谷歌几天前发布新的版本后,他还没有使用过。新的 “谷歌照片” 可以分析你的快照,并根据每张照片中的内容自动将它们归类到不同的文件夹中。一个文件夹可能是 “狗”,一个是 “生日聚会”,还有一个是 “海滩旅行”。这也是一种浏览图片并快速搜索的方式。如果你输入 “墓碑”,那么谷歌可以自动找到所有包含墓碑的照片。当阿尔西内点击链接并进入 “谷歌照片” 时,他惊讶地发现照片已经被重新分类了 —— 出现了一个 “大猩猩” 的文件夹。他不知道这是什么意思,于是打开了文件夹,发现里面有 80 多张照片,这些照片是他大约一年前在附近的前景公园的一场音乐会上为一位朋友拍摄的。这位朋友是一名非裔美国人,谷歌给她贴上了 “大猩猩” 的标签。
如果谷歌只是错误地标记了一张照片,他可能就算了,但这是 80 多张照片。他截了一张图,并发布到 Twitter 上,他认为 Twitter 是 “世界上最大的自助餐厅”,是一个任何人都可以出现,并凭任何事情去引起任何人注意的地方。他写道:“谷歌照片,你们搞砸了。我的朋友不是大猩猩。”1 一名谷歌员工几乎立即给他发了一封私信,请求登录他的账号,这样公司就能明白哪里出了问题。在媒体上,谷歌花了几天时间道歉,称其在采取迅速行动,以确保这种情况永远不会再次发生。“谷歌照片” 服务中的 “大猩猩” 标签被完全删除了,这是该公司多年来的惯例。5 年后,“谷歌照片” 仍然禁止任何人搜索 “大猩猩” 这个词。
问题是,谷歌训练了一个神经网络来识别大猩猩,给它输入了成千上万张大猩猩的照片,却没有意识到其副作用。神经网络可以自行学习工程师永远无法编入机器的任务,但在训练这些系统时,工程师有责任选择正确的数据。更重要的是,在训练完成后,即使这些工程师对他们的选择很谨慎,他们也可能无法理解机器所学到的一切,因为训练规模如此之大,涉及如此多的数据和如此多的计算。作为一名软件工程师,雅基・阿尔西内明白问题所在。他把训练系统比作制作千层面,“如果你很早就把材料弄乱了,整件事就毁了,” 他说,“人工智能也是如此,你必须非常有意识地对待输入的东西。否则,过程很难撤销。”

 
2012 年夏,在 “小猫论文” 发表后不久,杰夫・辛顿正式成为 “谷歌大脑” 实验室的实习生(64 岁),在一张团队的照片中,他和杰夫・迪恩举着一张巨大的小猫数字图像。2 大约有十几名研究人员围在他们周围,其中有马特・泽勒,他是一个穿着黑色短袖 Polo 衫和褪色的蓝色牛仔裤的年轻人,笑容满面,头发蓬乱,下巴上有几天未刮的胡茬儿。泽勒在同年夏天到 “谷歌大脑” 实习之前,曾在纽约大学的深度学习实验室学习。一年后,他跟随辛顿、克里哲夫斯基和萨特斯基弗的脚步,赢得了 ImageNet 竞赛。很多人称赞他是这个行业最热门领域的 “摇滚明星”。阿兰・尤斯塔斯打电话给他,向他提供了一份谷歌的高薪工作,但正如泽勒经常告诉记者的那样,他拒绝了尤斯塔斯,转而创办了自己的公司。
这家公司就是 Clarifai,设立在离纽约大学深度学习实验室不远的一间小办公室里。公司开发的技术可以自动识别数字化图像中的物体,可以在电商网站上搜索鞋子、连衣裙和手袋的照片,或者在监控摄像头传来的视频片段中识别人脸。这个想法复制了谷歌和微软等公司过去几年在各自的人工智能实验室中打造的图像识别系统,然后将其出售给警察部门、政府行政部门和其他企业。
2017 年,在公司成立 4 年后,德博拉・拉吉(Deborah Raji)坐在纽约曼哈顿下城区办公室的一张办公桌前。一盏无情的荧光灯笼罩着她、办公桌、角落里的啤酒冰箱,以及所有其他 20 多位戴着耳机、盯着超大电脑屏幕的人。拉吉盯着一个满是人脸的屏幕,那是公司训练人脸识别软件用的一些图像。当她一页又一页地滚动这些人脸图片时,她看到了问题所在。拉吉是一名来自加拿大渥太华的 21 岁黑人女性。大多数图像 —— 超过 80%—— 是白人的。几乎同样引人注目的是,这些白人中超过 70% 是男性。拉吉认为,当该公司根据这些数据训练其系统时,它可能会在识别白人方面做得很好,但在识别有色人种方面会惨败,可能在识别女性时也会如此。
这个问题是普遍的。马特・泽勒和 Clarifai 还在打造一款被称为 “内容审核系统” 的工具,该工具可以自动识别并删除人们发布到社交网络上的大量图片中的色情内容。该公司在两组数据上训练了这个系统:从色情网站上提取的数千张淫秽照片,以及从照片服务商那里购买的数千张大众级图片。他们的想法是,该系统能够学会区分色情图片和普通图片。问题是,大众级图片是白人为主,色情图片却不是。正如拉吉很快意识到的那样,该系统正在学习将黑人识别为色情。“我们用来训练这些系统的数据很重要,” 她说,“我们不能只是盲目地选择来源。”
这个问题的根源可以追溯到几年前,至少是从照片服务商那里选择图片的时候,Clarifai 将这些图片输入其神经网络。同样的问题也困扰着所有的流行媒体:这是同质的。现在的风险是,人工智能研究人员在训练自动化系统时使用这样的数据会放大这个问题。对拉吉来说,这显而易见,但对公司的其他人来说,情况并非如此。选择训练数据的人 —— 马特・泽勒和他为 Clarifai 招聘的工程师 —— 大多是白人。因为他们自己大多是白人,所以他们没有意识到其数据是有偏见的。谷歌的大猩猩标签本应该给这个行业敲响警钟,事实上却没有。
其他有色人种的女性把这个根本问题公之于众。蒂姆尼特・格布鲁(Timnit Gebru)在斯坦福大学学习人工智能,师从李飞飞,她出生在埃塞俄比亚,是一对移民到美国的厄立特里亚夫妇的女儿。在 NIPS 大会上,当她进入主会场观看第一场演讲时,看着坐在观众席上的数百人一排又一排的面孔,她惊讶地发现,他们虽然有些是东亚人,有些是印度人,还有一些是女性,但绝大多数是白人男性。那年有超过 5 500 人参加了会议,她只看到了 6 名黑人,他们都是她认识的男性。这不是一场美国或加拿大的会议,而是在巴塞罗那召开的一次国际大会。德博拉・拉吉在 Clarifai 发现的问题遍及产业界和学术界。
当格布鲁回到帕洛阿尔托时,她告诉丈夫自己所看到的一切,她决定不能忽视这些。在回来的第一个晚上,她盘腿坐在沙发上,拿着笔记本电脑,她把这个难题写在了 Facebook 帖子上:
我不担心机器接管世界。我担心人工智能圈子里的群体思维、狭隘和傲慢,尤其是在当前对该领域人员的大肆炒作和需求的情况下。这些事情已经引发了一些我们现在就应该担忧的问题。
机器学习被用来计算谁应该承担更高的利率,谁更可能犯罪并因此获得更严厉的判决,谁应该被视为恐怖分子等。一些我们认为理所当然的计算机视觉算法仅适用于具有特定外在特征的人。我们不需要推测未来会发生的大规模破坏。人工智能只服务于世界人口的一小部分,创造它的人也来自世界人口的极小部分。某些人口会受到它的主动伤害,不仅因为算法对他们不利,还因为算法的工作是自动化的。这些人被主动排除在高薪领域之外,这使他们从劳动力市场中消失。我听过很多人谈论多样性,好像这是某种慈善事业。我看到一些公司甚至个人都把其用作公关噱头,但仅仅是口头说说而已。因为这是日常用语,所以你应该说 “我们重视多样性”。人工智能需要被视为一个系统,创造这项技术的人是这个系统的重要组成部分。如果很多人被主动排除在外,那么这项技术只会让少数人受益,同时损害很多人。
这份迷你宣言传遍了整个圈子。在接下来的几个月里,格布鲁创建了一个名为 “人工智能中的黑人”(Black in AI)的新组织。博士毕业后,她被谷歌聘用。第二年,以及此后的每一年,“人工智能中的黑人” 都在 NIPS 大会设立了自己的研讨会。那时,NIPS 已经不叫 NIPS 了。在很多研究人员抗议这个名字助长了对女性的敌视之后,会议组织者将名字改成了 NEURips。
有一位名叫乔伊・布拉姆维尼(Joy Buolamwini)的年轻计算机科学家是格布鲁的学术合作者,她是剑桥麻省理工学院的一名研究生,最近在英国获得了罗兹奖学金。布拉姆维尼来自一个学者家庭,她的祖父和父亲都专攻药物化学。她出生在加拿大艾伯塔省的埃德蒙顿,这是她的父亲完成博士学位的地方。在她的成长过程中,她一直跟随父亲去研究所需的地方,包括非洲和美国南部的实验室。20 世纪 90 年代中期,当她还在上小学的时候,她参观了父亲的实验室,父亲提到自己正在尝试用神经网络来进行新药研发,她不知道这意味着什么。在大学主修了机器人和计算机视觉之后,她被人脸识别吸引,神经网络以一种完全不同的方式重新出现在她的人生中。文献上说,由于深度学习技术,人脸识别正在走向成熟,然而,当她在使用的时候,她发现实际上并没有。这变成了她论文的内容。“这不仅仅涉及人脸分析技术,还包括对人脸分析技术的评估,” 她说,“我们如何确定进步?谁来决定进步意味着什么?我看到的主要问题是,我们用来决定进步情况的标准和衡量方式可能具有误导性,而且其误导性是因为抽样不足,大多数人严重缺乏代表性。”
那年 10 月,一位朋友邀请她和其他几位女士去波士顿过夜,这位朋友说:“我们要做面膜。” 她的朋友指的是去当地一家水疗中心做护肤面膜,但布拉姆维尼以为是万圣节面具(mask)。所以那天早上,她带着一个白色的塑料万圣节面具去了办公室。她忙着完成某门功课的一个项目,几天之后面具仍然在她的桌子上放着。她在尝试让人脸检测系统跟踪她的脸,但无论做什么,她都无法让系统正常工作。在沮丧中,她从桌子上拿起白色面具并戴在头上。系统立刻识别出了她的脸 —— 至少是识别出了面具。“黑皮肤,白面具,” 她说,这与 1952 年精神病学家弗朗茨・法农(Frantz Fanon)对历史种族主义的批判类似,“这个比喻变成了事实。你必须符合一个标准,而这个标准不是你。”
很快,布拉姆维尼开始研究一些分析人脸、识别年龄和性别等特征的商业化服务,包括微软和 IBM 的工具。随着谷歌和 Facebook 将人脸识别技术引入智能手机应用程序,微软和 IBM 加入了 Clarifai 的队伍,为企业和政府机构提供类似的服务。布拉姆维尼发现,当这些服务读取肤色较浅的男性照片时,性别识别错误率只有 1%。4 但是,照片中的人皮肤越黑,识别的出错率就越高,5 对于黑皮肤的女性图片,出错率特别高。微软的出错率约为 21%6,IBM 是 35%7。
她的研究成果发表于 2018 年冬天,并很快引发了大家对人脸识别技术,尤其是在执法中使用该技术的更大反弹。其中的风险在于,该技术会错误地将某些群体识别为潜在的罪犯。一些研究人员认为,如果没有政府的监管,这项技术就无法得到适当的控制。很快,大公司别无选择,只能承认这种舆论风潮。在麻省理工学院的研究发表之后,微软首席法务官表示,由于担心可能会不合理地侵犯人们的权利,该公司不再向执法机构出售该技术,他还公开呼吁政府进行监管。那年 2 月,微软在华盛顿州支持了一项法案,该法案要求,使用人脸识别技术的公共场所需要张贴通告,并要求政府机构在寻找特定人员时获得法院命令。显而易见的是,微软并没有支持提供更强有力保护的其他立法,但态度至少开始转变。
德博拉・拉吉还在 Clarifai 的时候,就注意到布拉姆维尼在种族和性别偏见方面的工作,于是她联系了布拉姆维尼,她们开始合作,拉吉最终进入了麻省理工学院。她们合作的项目甚至包括测试美国第三大科技巨头亚马逊的人脸识别技术。亚马逊已经超越了其网络零售商的根基,成为云计算领域的主导者和深度学习领域的主要参与者。2019 年,该公司开始以 “亚马逊识别”(Amazon Rekognition)的名义向警察局和政府机构推销其人脸识别技术,其早期客户包括佛罗里达州的奥兰多警察局和俄勒冈州的华盛顿县警长办公室。8 然后,布拉姆维尼和拉吉发表了一项新的研究成果,表明亚马逊的人脸识别服务也很难识别女性和深色皮肤人脸的性别。9 根据这项研究,亚马逊人脸识别技术将女性误认为男性的概率为 19%,将深色皮肤的女性误认为男性的概率是 31%。10 对浅肤色的男性来说,错误率为零。
但亚马逊的回应与微软和 IBM 不同。亚马逊也呼吁政府对人脸识别进行监管,但它没有接洽拉吉和布拉姆维尼,而是通过私人电子邮件和公共博客帖子攻击她们。亚马逊高管马特・伍德(Matt Wood)在一篇博客中写道:“面对新技术的焦虑,答案不是去运行一种与服务所设计的使用方式不一致的‘测试’,并通过新闻媒体放大测试的错误和误导性结论。”11 他对该研究以及《纽约时报》描述该研究的文章提出了质疑。这种做法源于驱动亚马逊发展的根深蒂固的企业文化。这家公司坚持认为,外界的声音不会扰乱它自己的信仰和态度。但在驳斥这项研究的同时,亚马逊也驳斥了一个非常现实的问题。“我学到的是,如果你是一家市值万亿美元的公司,你不必知道真相,” 布拉姆维尼说,“如果你是街头的恶霸,你说的就是事实。”

 
那个时候,梅格・米切尔已经在谷歌内部打造了一支致力于 “道德人工智能” 的团队。米切尔是微软研究院早期在深度学习领域探索时的一分子,当她接受《彭博新闻》的采访并说人工智能遇到了 “人海” 问题时,她引起了这个圈子的注意,她估计自己在过去 5 年里与数百名男性和大约 10 名女性合作过。12“我绝对相信,性别对我们提出的问题类型有影响,” 她说,“你把自己置于近视的境地。”13 蒂姆尼特・格布鲁加入了谷歌跟她一起工作,着眼于偏见、监控和自动化武器的兴起,她们要为人工智能技术打造坚实的伦理框架。另一位谷歌人梅雷迪思・惠特克(Meredith Whittaker)是该公司云计算部门的产品经理,在他的帮助下,包括谷歌、Facebook、微软等在内的公司联盟在纽约大学设立了一个名为 “人工智能伙伴关系” 的组织。像生命未来研究所(由迈克斯・泰格马克在麻省理工学院创立)和人类未来研究所(由尼克・波斯特洛姆在牛津大学创立)这样的组织也关注人工智能的伦理问题,但他们关注的是遥远未来的生存威胁,而新一波的伦理学家关注的是更为紧迫的问题。
对米切尔和格布鲁来说,偏见问题是整个科技行业更大问题的一部分。女性努力在所有科技领域发挥自己的影响力,但在工作场所面临着极端偏见,有时还会受到骚扰。在人工智能领域,这个问题更为突出,也可能更为危险。这就是为什么她们给亚马逊写了一封公开信。
在信中,她们驳斥了马特・伍德和亚马逊对布拉姆维尼和拉吉的抨击。14 她们坚持要求公司重新考虑其方法,15 并指出所谓的政府监管只是虚张声势。16 她们写道:“没有法律规定或要求的标准来确保‘亚马逊识别’的使用方式不会侵犯公民自由。我们呼吁亚马逊停止向执法部门出售‘亚马逊识别’。”17 她们的公开信获得了谷歌、DeepMind、微软和学术界的 25 名人工智能研究人员的签名。18 其中一位是约书亚・本吉奥。“当只有我们自己反对这家大公司的时候,这很可怕,” 拉吉说,“当我们的工作获得了这个圈子的支持时,这令人感动。我觉得这不再只是我和布拉姆维尼与亚马逊的对抗。这是研究 —— 艰苦的科学研究 —— 与亚马逊的对抗。

一场马库斯与杨立昆的辩论#

 
无论快速

让我们一起看看这些充满着新机遇的迭代过程:
无论快速发展能持续多久,盖瑞都认为它即将结束。
谷歌每年会举办一场名为 “谷歌 I/O” 的重要会议,这场会议的名称源于代表 “输入 / 输出” 的计算机名词缩写。每年 5 月,成千上万人会前往山景城参加这一企业盛会,这些来自硅谷及其他地方的科技行业从业人员,可以在为期三天的会议中了解谷歌的最新产品和服务。谷歌年度会议的主题演讲在海岸线露天剧场举行,这是一个拥有 22 000 个座位的音乐会场地,马戏团帐篷般的尖顶耸立在公司总部对面绿草如茵的山丘上。几十年来,从 “感恩而死” 到 “U2”,再到 “后街男孩”,这些知名的乐队都来露天剧场表演过。现在,桑达尔・皮查伊上台向成千上万的软件开发人员介绍这家日益多元化的公司的无数技术。2018 年春,在大会开幕的当天,皮查伊外面穿着一件森林绿色的羊毛拉链衫,里面穿着一件亮白色 T 恤,他告诉所有与会者,该公司开发的会说话的数字助理可以自己打电话。1
得益于杰夫・辛顿和他的学生在多伦多大学首创的方法,“谷歌助手” 几乎可以像人类一样识别口语单词。也得益于 DeepMind 开发的语音生成技术 WaveNet,它的声音听起来也更为人性化了。然后,站在海岸线露天剧场的舞台上,皮查伊展示了一项新的改进。他告诉与会的听众,谷歌助手现在可以打电话给一家餐厅并进行预订,后台的谷歌计算机网络能够帮它做到这一点。在你做一些完全无关的事情的时候,比如倒垃圾或给草坪浇水时,你可以让助手为你预订晚餐的座位,这位助手会从谷歌数据中心的某个地方自动给餐厅打电话。皮查伊播放了其中一段电话录音,这是谷歌助手跟一家不知名餐厅接电话的女人之间的对话。
“嗨,需要帮忙吗?” 这位女人问道,她带着浓重的中国口音。
“嗨,我想预订一张 7 号星期三的桌子。” 谷歌助手说。
“7 个人?” 女人问道。(笑声在露天剧场里荡漾。)
“嗯,4 个人的桌子。” 谷歌助手说。
“4 个人。什么时候?今天?今晚?” 餐厅的女人说。(笑声越来越大。)
“嗯,下周三下午 6 点。”
“实际上,我们预约要 5 个人以上。4 个人的话,你们可以直接来。”
“通常要等多久才能入座?”
“什么时候?明天?还是周末?”
“下周三,呃,7 号。”
“哦,那时候不是太繁忙。你们可以 4 个人来,好吧?”
“哦,我明白了。谢谢你。”
“好的。再见。” 这位女士说。(皮查伊的观众们爆发出了欢呼声和惊叹声。)
正如皮查伊解释的那样,这项新技术被命名为 Duplex,它是多项人工智能技术多年发展的结果,包括语音识别、语音生成以及自然语言理解。它不仅能够识别和生成口语单词,而且能够真正理解语言的使用方式。对观众来说,皮查伊的演示非常强大。然后,他又给观众播放了第二段演示,让系统在当地一家发廊预约理发。当接电话的女士说 “稍等”、Duplex 回应 “嗯嗯” 时,现场掌声响起。Duplex 不仅可以用正确的词语来回应,还可以用正确的声音 —— 正确的语言暗示来回应。此后,很多权威人士抱怨,谷歌的 Duplex 如此强大,这是不道德的。它在主动欺骗大家,让别人以为它是人类。谷歌同意对系统进行调整,2 使其始终透露自己是一个机器人,谷歌很快在美国各地发布了这款工具。3
但是对盖瑞・马库斯来说,这项技术并不像看上去的那样完美。
皮查伊在海岸线露天剧场演示几天后,纽约大学心理学教授马库斯在《纽约时报》上发表了一篇社论,对谷歌的 Duplex 泼了点儿冷水。4“假设演示是真实的,这是一个令人印象深刻(有点儿令人毛骨悚然)的成就,但是谷歌 Duplex 并不是很多人认为的、有意义的人工智能的进步。” 他说。5 奥妙在于这个系统演示的是一个非常细分的场景:餐厅预订和发廊预约。通过缩小范围 —— 限制对话双方可能回应的内容 —— 谷歌可以欺骗人们,让他们相信机器是人。这与一个可以超越这些界限的系统截然不同。“安排发廊预约?人工智能的梦想应该比这个更加宏伟,比如辅助医疗革命或者为家庭制造值得信赖的机器人助手,” 他写道,“谷歌 Duplex 之所以范围如此狭窄,并不是因为它代表了朝着这些目标迈出的微小而重要的第一步,而是因为人工智能领域还不知道如何做得更好。”6

 
盖瑞・马库斯是众多这样的思想家之一,他们相信先天遗传的重要性,而不仅仅是后天培养的重要性。他们被称为先天论者,他们认为,所有人类知识的很大一部分,是传输进大脑的,而不是从经验中学到的。这是一场跨越了几个世纪的哲学和心理学争论,从柏拉图到康德,再到诺姆・乔姆斯基,再到史蒂芬・平克(Steven Pinker)。先天论者反对经验主义者,后者认为人类的知识主要来自学习。盖瑞・马库斯曾在心理学家、语言学家和科普作家平克的指导下学习,之后围绕同样的基本态度创立了自己的事业。现在,他在人工智能领域施展他的先天论主义。他是全球针对神经网络的主要批评者,是 “深度学习时代的马文・明斯基”。
正如他相信知识会传输进人脑一样,他也相信研究人员和工程师别无选择,只能将知识传输进人工智能。他确信,机器无法学会一切。早在 20 世纪 90 年代初,他和平克就发表了一篇论文,表明神经网络甚至无法学会非常年幼的孩子已经掌握的语言技能,比如识别常用动词的过去式。过了 20 年,在 AlexNet 之后,当《纽约时报》在头版刊登了一篇关于深度学习兴起的报道时,他给《纽约客》写了一篇专栏文章作为回应,他认为这种变化并没有看起来那么大。7 他说,杰夫・辛顿支持的技术并不够强大,不足以理解自然语言的基础,更不用说复制人类思维了。他写道:“套用一个古老的寓言,辛顿制作了一个更好的梯子,但更好的梯子无法让你登上月球。”8
具有讽刺意味的是,不久之后,马库斯就在深度学习的热潮中大赚了一笔。在 2014 年初,听说 DeepMind 以 6.5 亿美元的价格出售给了谷歌,他想,“我也能做到”。于是他给一位名叫祖宾・盖拉马尼(Zoubin Ghahramani)的老朋友打了电话。他们相识于 20 多年前,当时他们都是麻省理工学院的研究生。马库斯在那里学习认知科学,而盖拉马尼在参与弥合计算机科学和神经科学之间差距的一个项目。他们之所以成为朋友,是因为他们曾在剑桥杂志街马库斯的公寓里庆祝他们共同的 21 岁生日。在获得博士学位后,盖拉马尼跟现在很多人工智能研究人员一样,走上了一条为谷歌、Facebook 和 DeepMind 工作的道路。他在多伦多大学杰夫・辛顿手下做过博士后研究,然后跟随辛顿去了伦敦大学学院的盖茨比中心。但盖拉马尼最终远离了神经网络研究,他接受了他认为更优雅、更强大、更有用的想法。所以,在 DeepMind 出售给谷歌之后,马库斯说服盖拉马尼相信,他们应该围绕一个理念创建自己的初创公司,这个理念就是,世界需要的不仅仅是深度学习。他们称之为 “几何智能”。
他们从美国各地的大学招募了十几位人工智能研究人员,其中一些人专门从事深度学习,包括盖拉马尼在内的其他人则从事其他技术。马库斯并非不知道这项技术的力量,但他当然了解围绕它的炒作。在 2015 年夏天创立他们的初创公司后,他和盖拉马尼将他们的学术团队安置在曼哈顿市中心的一间小办公室里,那里是纽约大学孵化初创公司的地方。马库斯跟他们在一起,而盖拉马尼留在英国。仅仅过了一年,在跟苹果、亚马逊等很多最大的科技公司交流后,他们将自己的初创公司出售给了 Uber,这家迅速发展的叫车公司立志打造自动驾驶汽车。9 这家初创公司的十几名研究人员迅速搬到了旧金山,成立了 Uber 人工智能实验室。马库斯搬去了实验室,而盖拉马尼仍留在了英国。然后,在没有太多解释的情况下,马库斯 4 个月之后离开了公司,回到了纽约,恢复了他作为全球深度学习主要批评家的角色。他不是人工智能研究员,他是一个醉心于自己思想的人,一位同事称他为 “可爱的自恋者”。回到纽约之后,他开始写一本书,再次主张机器靠自己只能学习这么多,他开始基于同样的前提创立第二家公司。他还向辛顿这样的人提出挑战,要求对方就人工智能的未来展开公开辩论。辛顿没有接受。
但在 2017 年秋天,马库斯在纽约大学与杨立昆进行了一场辩论。10 这场辩论由纽约大学的精神、大脑和意识中心组织,该中心是一个结合了心理学、语言学、神经科学、计算机科学等多种学科的项目。这场辩论的主题是自然对抗后天、先天论对抗经验主义、“先天机器” 对抗 “机器学习”。马库斯是第一个发言的人,他认为深度学习的能力并不比简单的感知强多少,比如识别图像中的物体或识别口语单词。“如果说神经网络教会了我们什么,那就是纯粹的经验主义有其局限性。” 他说。11 他解释说,在通往人工智能的漫长道路上,深度学习只迈出了很小的几步。除了感知(像图像识别和语音识别)和媒体生成(像 GAN)之外,它最大的成就是解决了围棋问题,围棋只是一个游戏,是规则被严格定义的一个封闭的 “宇宙”。现实世界几乎无限复杂。马库斯常常说,一个经过训练、可以下围棋的系统在任何其他情况下都毫无用处。它不够智能,因为它不能适应全新的情况,它当然也无法处理人类智能的关键产品之一:语言。“纯粹的自下而上的统计数据并没有让我们在一系列重要的问题上走得太远 —— 语言、推理、规划和常识 —— 虽然经过了 60 年的神经网络研究,虽然我们有了更好的计算、更多的记忆和更好的数据,但情况依然如此。” 他告诉观众。12
他解释说,问题在于神经网络并不像人脑那样学习。即使在掌握神经网络无法掌握的任务时,大脑也不需要深度学习所需要的大量数据。儿童,包括新生婴儿,可以从少量的信息中进行学习,有时信息只是一两个好的例子。在家庭中长大的孩子,即使父母对他们的发展和教育不感兴趣,他们自己也可以通过倾听周围的声音来学习口语的细微差别。他认为,神经网络不仅需要成千上万个例子,还需要有人仔细对所有的例子进行标记。这表明,如果没有更多先天论者所谓的 “先天机器”,人工智能就不会发生,他们认为大量的知识已经融入人脑。马库斯说:“学习之所以成为可能,只是因为我们的祖先进化出了代表空间、时间和持久物体等事物的‘机器’。我的预测 —— 这只是一个预测,我无法证明 —— 当我们学会将类似的信息整合到人工智能中时,人工智能的效果会更好。”13 换句话说,他相信,有很多东西是人工智能无法独立学习的,必须由工程师手工编码。
作为一个坚定的先天论者,马库斯有一个意识形态的议程。围绕 “先天机器” 的理念,在打造一家新的人工智能初创公司时,他也有一个经济方面的议程。在纽约大学与杨立昆的辩论是一场协同运动的开始,旨在向全球人工智能研究人员的圈子、科技行业和普通公众展示,深度学习的局限性远比看起来的要大。在 2018 年刚开始的几个月,他发表了他所谓的 “论文三部曲” 来批评深度学习,尤其针对 AlphaGo 的壮举。14 然后,他在大众媒体上发表评论,其中一篇报道出现在《连线》杂志的封面上。所有这些最终促成了一本他命名为《重启人工智能》的书 15,以及一家新的初创公司,这家公司旨在利用他所认为的全球人工智能探索中的一个漏洞。
杨立昆被这一切弄得不知所措。正如他在纽约大学告诉观众的那样,他认同单靠深度学习无法获得真正的智能,他也从未做过肯定的表述。16 他认同人工智能需要 “先天机器”。毕竟,神经网络就是 “先天机器”。但有些东西必须学习。他在辩论中很有分寸,甚至很有礼貌,但他的语气在网上变味了。当马库斯发表他的第一篇质疑深度学习未来的论文时,杨立昆在 Twitter 上回应道:“准确来说,盖瑞・马库斯提出过的有价值的建议的数量是零。”
马库斯并不孤单。很多人正在抵制来自行业和媒体围绕着 “人工智能” 这几个词无休止的炒作浪潮。Facebook 站在深度学习革命的前沿,把这项技术作为解决最紧迫问题的答案。但是,越来越明显的是,这充其量只是部分解决方案。多年来,像谷歌和 Uber 这样的公司承诺自动驾驶汽车将很快上路,并每天穿梭于美国和国外的城市。但即使大众媒体也开始意识到,这些说法被严重夸大了。尽管深度学习显著提高了它们识别道路上的行人、物体和标志的能力,并加速了它们预测事件和规划路线的能力,但与人类敏捷地应对日常通勤中的混乱状况相比,自动驾驶汽车还有很长的路要走。谷歌承诺在 2018 年底之前在亚利桑那州凤凰城提供叫车服务,但这件事并没有实现。至于将深度学习用于新药研发,在乔治・达尔和他的多伦多合作者赢得默克公司主办的竞赛之后,这个领域似乎充满了希望,但事实证明,这是一个比看起来要复杂得多的命题。来到谷歌之后没多久,达尔就放弃了这个想法。他说:“问题是,在新药研发的通道中,我们最能提供帮助的部分并不是最重要的部分,并不是这部分的工作导致将一种分子推向市场需要 20 亿美元的成本。” 主管艾伦人工智能研究所的华盛顿大学前研究员奥伦・埃齐奥尼经常说,尽管围绕深度学习进行了各种炒作,但人工智能甚至无法通过八年级的科学测试。
2015 年 6 月,杨立昆公开了 Facebook 在巴黎的新实验室,他说:“深度学习的下一个重大步骤是自然语言理解,其目的是让机器不仅能够理解单个单词,还能理解整个句子和段落。” 这是更广泛的研究人员圈子的目标 —— 在图像和语音识别之外的下一大步。自 20 世纪 50 年代以来,打造一台能够理解人类以自然方式书写和说话(甚至进行对话)的机器,一直是人工智能研究的最终目标。但到了 2018 年底,很多人开始觉得这种信心是错误的。
辩论接近尾声的时候,马库斯和杨立昆接受观众提问,一位穿着黄色上衣的女士站了起来,她问杨立昆为什么自然语言的进步停滞不前。
“没有什么比物体识别更具革命性的东西出现了。” 她说。17
“我不完全同意你的前提,” 杨立昆说,“还有 ——”
然后,她打断了他,说:“你的例子是什么?”
“翻译。” 他说。
“机器翻译不一定代表着语言理解。” 她说。

 
就在进行这场辩论的同时,艾伦人工智能研究所的研究人员公布了针对计算机系统的一种新的英语测试,18 它要测试机器能否完成下面这样的句子:
舞台上,一位女士坐在钢琴前。她 ——
a.坐在长椅上,她姐姐在玩洋娃娃。
b.随着音乐响起,跟某人一起微笑。
c.在人群中,看着舞者。
d.紧张地将手指放在琴键上。
机器做得不太好。而人类回答测试问题的正确率超过了 88%,艾伦人工智能研究所打造的系统的正确率达到了 60% 左右,其他机器的表现要差得多。然后,过了大约两个月,由一位名叫雅各布・德夫林(Jacob Devlin)的人领导的谷歌研究团队公布了一个他们称之为 BERT 的系统。19BERT 参加测试时,可以正确回答的问题和人类一样多,并且它也不是为了参加测试而设计的。
BERT 被研究人员称为 “通用语言模型”。其他几个实验室,包括艾伦人工智能研究所和 OpenAI,也在研究类似的系统。通用语言模型是巨大的神经网络,通过分析人类书写的数百万个句子,来学习变幻莫测的语言。OpenAI 构建的系统分析了成千上万本自助出版的书籍,包括爱情小说、科幻小说和推理小说。BERT 分析了同样庞大的图书馆以及维基百科上的每一篇文章,在数百个 GPU 芯片的帮助下,花了几天时间仔细阅读了所有的文本。
每个系统都通过分析所有这些文本学会了一项非常具体的技能。OpenAI 的系统学会了猜测句子的下一个单词,BERT 学会了猜测句子中任何地方缺失的单词(比如,“这个人____这辆车,因为它很便宜”)。但是,在掌握这些具体任务的过程中,每个系统也了解了语言拼凑的一般方式,以及数千个英语单词之间的基本关系。然后,研究人员可以很容易地将这些知识应用到其他广泛的任务之中。如果他们把成千上万个问题和答案输入 BERT,它就能自行学会回答其他问题;如果他们把大量的对话输入 OpenAI 的系统,它就能学会对话;如果他们给它提供成千上万个负面标题,它就能学会识别负面标题。
BERT 证明了这个伟大的想法是可行的。它可以应对艾伦人工智能研究所的 “常识” 测试,还可以处理阅读理解测试,在其中回答有关百科全书文章的问题。什么是碳?吉米・霍法是谁?在另一项测试中,它可以判断电影评论的情绪是积极的还是消极的。在这些情况下,它其实并不完美,但它立即改变了自然语言研究的进程,以一种前所未有的方式加速了该领域的进展。杰夫・迪恩和谷歌开源了 BERT 的代码,并很快用 100 多种语言对其进行了培训。有些人建立了更大的模型,用更大的数据量训练模型。作为研究人员之间的一种内部玩笑,这些系统通常以《芝麻街》中的角色命名:ELMO、ERNIE、BERT。但这掩盖了它们的重要性。几个月后,利用 BERT,奥伦・埃齐奥尼和艾伦人工智能研究所开发了一个人工智能系统,它可以通过八年级的科学测试,也可以通过十二年级的测试。
在 BERT 公开之后,《纽约时报》发表了一篇关于通用语言模型兴起的报道,解释了这些系统如何改进广泛的产品和服务,包括从 Alexa 和谷歌助手这样的数字助理,到自动分析律师事务所、医院、银行和其他企业内部文档的软件。这解释了为什么人们担心这些语言模型会导致更强大版本的谷歌 Duplex 出现,这是一种旨在让世界相信它们是人类的机器人。这篇报道还援引了盖瑞・马库斯的话,说公众应该怀疑这些技术是否会继续如此迅速地改进,因为研究人员往往专注于他们可以取得进展的工作,而回避那些他们无法取得进展的工作。“这些系统离真正理解散文还有很长的路要走。” 马库斯说。
20 杰夫・辛顿读到这里时,他很开心。他说,盖瑞・马库斯的这句话将被证明是有用的,因为它可以在未来几年里用于任何关于人工智能和自然语言的报道之中。“它没有技术含量,所以永远不会过时,” 辛顿说,“无论快速发展能持续多久,马库斯都会认为它即将结束。”

OpenAI 的拣货机器人
 
如果房间看起来让人焦头烂额,那我们就走在正确的轨道上了。
2019 年秋天的一个下午,在旧金山教会区 OpenAI 三层大楼的顶层,有一只手举在窗户旁,掌心向上,手指伸出。它看起来很像是人的手,但它是由金属和硬塑料制成的,并通上了电。旁边站着一个女人,她拿起一个魔方,放在这只机器手的手掌里。然后这只手开始动,拇指和 4 根手指轻轻转动色块。每转一圈儿,魔方就在指尖摇摇晃晃,几乎要掉到地板上,但它并没有掉下来。随着时间的流逝,各种颜色开始排列成行,红色挨着红色,黄色挨着黄色,蓝色挨着蓝色。大约 4 分钟后,那只手最后一次转动魔方,复原了所有的色块。旁观的一小群研究人员发出了一阵欢呼声。
在 OpenAI 成立时,其在谷歌和 Facebook 的眼皮底下抢来了波兰籍研究人员沃伊切赫・扎伦巴。在他的领导下,OpenAI 花了两年多的时间完成了这一引人注目的壮举。在过去,很多人已经打造出了可以复原魔方的机器人,有些设备可以在不到一秒钟的时间内完成。但这是一个新的技能,这是一只可以跟人手一样移动的机器手,而不是专门为解决魔方问题而制造的专用硬件。在通常情况下,工程师需要对机器人进行精确的行为编程,花费数月时间为每一个微小的动作定义精细的规则。但这需要几十年,甚至几个世纪的时间,才能为机器手的 5 根手指单独定义解决魔方问题所需的每一个动作。扎伦巴和他的团队已经开发了一个系统,该系统可以自行学习这种动作。他们属于一个新的研究人员的圈子,这个圈子里的研究人员认为,机器人在现实世界中得到应用之前,可以在虚拟现实中学习几乎任何技能。
通过对机器手和魔方进行数字仿真模拟,他们启动了这个项目。在这个仿真模拟中,机器手通过不断的试错来学习,花了相当于一万年的时间来转魔方,找出哪些微小的动作有效、哪些无效。在那一万年的虚拟时间里,仿真模拟一直在变化。扎伦巴和他的团队反复改变手指的大小和魔方上的颜色,以及色块之间的摩擦力,甚至魔方后面空间的颜色。这意味着,当他们将所有这些虚拟体验转移到现实世界真实的机器手中时,它可以处理我们意想不到的事情。它可以处理人类在物理世界中能很容易适应的不确定性,但普通机器往往不能。到 2019 年秋天,OpenAI 的机器手可以在两根手指绑在一起,或者戴着橡胶手套,或者有人用长颈鹿毛绒玩具的鼻子将魔方推到不合适位置的情况下复原魔方。

 
2015—2017 年,亚马逊举办了一年一度的机器人专家竞赛。在最后一年,75 间学术实验室参加了这场国际竞赛,每间实验室都致力于打造一个机器人系统,去解决亚马逊在其全球仓库网络中最需要解决的问题:拣货。当装满成堆的零售商品的箱子穿过亚马逊巨大的仓库时,工人们会在成堆的商品中挑选,并在运往全国之前将它们分拣到合适的纸箱中。亚马逊希望机器人来完成这项工作。最终,如果这项任务可以自动化,成本就会更低。但是,机器人并不能真正胜任。因此,亚马逊举办了一场竞赛,向最有可能解决这个问题的机构提供 8 万美元的奖金。
2017 年 7 月,来自 10 个国家的 16 支决赛队伍前往日本名古屋参加最后一轮比赛。每个团队都花了一年时间为比赛做准备,并各自收到了一个装满 32 种不同商品的箱子,其中 16 种是提前知道的,16 种是不知道的,这些商品包括清洁剂、制冰盒、网球筒、魔术标记盒、电工胶带卷等。比赛方式是在 15 分钟内挑选出至少 10 件商品。获胜的机械臂属于澳大利亚的一间实验室 —— 澳大利亚机器人视觉中心。但以人类的标准来看,它的表现并不出色,大约有 10% 的选择是错误的,它一个小时只能处理大约 120 件商品,仅比人工做的多 25%。
如果说这场比赛揭示了什么,那就是这项任务的难度极高,即使最敏捷的机器人也不过如此。但这也展示出行业的需求:亚马逊以及像亚马逊这样的公司迫切需要真正有效的分拣机器人。事实上,这个解决方案已经在谷歌和 OpenAI 内部酝酿了。
在 “谷歌大脑” 内部建立了一个医疗团队后,杰夫・迪恩也建立了一个机器人团队。他的第一批团队成员中有一位来自加州大学伯克利分校的年轻研究员,这位年轻研究员名叫谢尔盖・莱文。莱文在莫斯科长大,他的父母都是苏联航天飞机暴风雪项目的工程师。全家搬到美国的时候,他还在上小学。在开始攻读博士学位的时候,他还没有从事人工智能方面的研究。他专攻计算机图形学,探索实现更逼真的动画的方法,创造行为更像真人的虚拟人。然后,深度学习成熟了,他的研究也开始加速。莱文采用的技术与 DeepMind 研究人员在打造学会玩旧版雅达利游戏的系统时使用的技术相同,动画人物可以学着像真人一样移动。然后,他的脑中出现了新的启示。看着这些动画人形机器人学着像他一样移动,莱文意识到物理人形机器人可以用几乎相同的方式学习相同的动作。如果他把这些机器学习技术应用到机器人身上,它们就可以自己掌握全新的技能。
在 2015 年加入谷歌时,莱文已经认识了另一位俄罗斯移民伊利亚・萨特斯基弗,后者将他介绍给亚历克斯・克里哲夫斯基,克里哲夫斯基开始与这个新的机器人小组合作。如果遇到问题,莱文会向克里哲夫斯基寻求帮助,而克里哲夫斯基的建议始终如一:搜集更多的数据。“如果你有数据,而且是正确的数据,” 克里哲夫斯基说,“那你就去获取更多数据。” 所以,莱文和他的团队打造了他们所谓的 “机械臂农场”。
“谷歌大脑” 实验室街对面的一栋大楼里有一个大开间,他们在里面安装了 12 只机械臂,6 只装在一面墙上,6 只装在另一面墙上。这些机械臂比后来在 OpenAI 复原魔方的机械臂更简单。机械臂上的手不完全是手,而是 “抓手”,它们可以用两个类似于虎头钳的手指抓住和举起物体。那年秋天,莱文和他的团队将每只手臂安置在一箱随机的物品上方 —— 玩具积木、黑板擦、口红管 —— 并训练它们捡起那里的任何东西。这些机械臂通过反复试错学习,不断尝试和失败,直到它们发现怎样有效、怎样无效。这种方式很像 DeepMind 的系统学习玩《太空入侵者》和《越狱》游戏,只是它发生在现实世界中,有实体物体。
起初,这造成了混乱。莱文说:“真是一团糟,非常糟糕。” 根据克里哲夫斯基的建议,他们让机械臂昼夜不停地运行,虽然他们已经安装了摄像头,可以在晚上和周末窥视房间,但有时混乱会占据上风。他们周一早上走进实验室时,会发现地板上堆满了东西,实验室就像一间儿童游戏室。一天早上,他们走进来,发现一个箱子上满是看起来像是溅了血的东西 —— 一支口红的盖子掉了,机械臂花了一整夜的时间试图捡起来,但是没有成功。但这正是莱文想要看到的。“太棒了,” 他说,“如果房间看起来让人焦头烂额,那我们就走在正确的轨道上了。” 几个星期过去了,这些机械臂学会了用一种轻柔的方式拿起放在它们面前的任何东西。
这标志着将深度学习应用于机器人的尝试开始在更大的范围内出现,遍及很多顶尖大学以及谷歌和 OpenAI 的实验室。第二年,利用类似的强化学习技术,莱文和他的团队训练其他机械臂自己开门(前提是门把手可以用两根手指抓住)。2019 年初,该实验室发布了一款机械臂,它学会了捡起随机物品,然后轻轻地把物品放进几英尺外的小箱子里。1 训练只花了 14 个小时,机械臂学会了将物品放进正确的箱子,准确率大约为 85%。当研究人员自己尝试去做同样的任务时,他们的准确率只有 80%。但是随着这项工作的推进,OpenAI 采取了不同的策略。

 
埃隆・马斯克和 OpenAI 的其他创始人将他们的实验室视为对 DeepMind 的回应。从一开始,他们就设立了非常崇高的目标,这些目标很容易衡量,很容易理解,并保证能吸引注意力,即使他们实际上没有做任何实质的事情。在旧金山教会区的一家小巧克力工厂的楼上,在将实验室设立好之后,扎伦巴等研究人员花了几周时间在这个古老的、迅速中产阶级化的西班牙人社区转悠,争论他们应该追求什么样的崇高目标。他们最终确定了两个:一是打造可以在三维网络游戏《魔兽争霸》中击败世界上顶尖玩家的机器,二是打造可以还原魔方的五指机器手。在他们的机器手中,沃伊切赫・扎伦巴和他的团队使用了与谷歌同行们相同的算法技术。但是,他们将训练转移到虚拟现实环境中,打造了一个系统,机器手通过在数字世界里花费相当于几个世纪的时间进行反复尝试,学会了还原魔方。他们认为,随着任务变得越来越复杂,物理世界中的训练系统将会非常昂贵和耗时。
就像实验室掌握《魔兽争霸》需要付出努力一样,魔方项目也需要巨大的技术飞跃。这两个项目都是引人注目的噱头,这是 OpenAI 宣传自己的一种方式,它需要吸引推动研究所需的资金和人才。像 OpenAI 这样的实验室正在开发的技术很昂贵 —— 设备和人员都很昂贵,这意味着引人注目的演示是他们的命根子。
这是马斯克的惯用手段:吸引人们关注他自己以及他所做的事情。有一段时间,这种做法在 OpenAI 上也奏效了,实验室招募了该领域的一些知名人士,其中包括谢尔盖・莱文在加州大学伯克利分校读书时的导师,一位名叫彼得・阿比尔(Pieter Abbeel)的身高约一米九、发型平整光溜的比利时机器人学家。阿比尔与 OpenAI 的签约奖金是 10 万美元,仅 2016 年最后 6 个月的工资就有 33 万美元。2 阿比尔以前的三名学生也加入了 OpenAI,因为实验室要加速去挑战 “谷歌大脑” 和 Facebook,尤其是 DeepMind。然后,现实赶上了马斯克和他的新实验室。
“GAN 之父” 伊恩・古德费洛离开了 OpenAI,回到了谷歌。马斯克自己从实验室挖走了一名顶级研究员,将一位名叫安德烈・卡普西(Andrej Karpathy)的计算机视觉专家调出 OpenAI,并任命他为特斯拉人工智能的主管,这样他就可以领导自己的公司推进自动驾驶汽车项目。然后,阿比尔和他的两名学生也离开了,创立了自己的机器人初创公司。2018 年 2 月,马斯克也离开了。3 他说自己的离开是为了避免利益冲突,这意味着他的其他业务现在正在与 OpenAI 争夺相同的人才,但特斯拉也面临着危机,因为其工厂严重的发展减速威胁到公司的业务。具有讽刺意味的是,正如马斯克当年晚些时候抱怨的那样,在他的特斯拉工厂里辅助制造电动汽车的机器人并不像看起来那么灵活。“特斯拉的过度自动化是一个错误,” 他说,“人类被低估了。”4
随着萨姆・阿尔特曼开始接管 OpenAI,实验室需要吸引新的人才,而且需要资金。尽管该非营利组织成立时投资者承诺投入 10 亿美元,但只有一小部分资金实际到位。实验室现在需要更多的资金,不仅是为了吸引人才,也是为了支付训练系统所需的大量算力。因此,阿尔特曼将实验室重组为一家营利公司,并寻找新的投资者。5 他和马斯克在 2015 年公开宣扬实验室不受公司压力影响的理想主义愿景甚至没能持续 4 年,这就是魔方项目对实验室的未来如此重要的原因,它是 OpenAI 宣传自己的一种方式。问题是,这种项目的难度令人难以置信,而且最终不切实际,并不是阿比尔和其他人想做的。阿比尔对炒作不感兴趣,只想打造有用的技术。这就是为什么他和他的两名加州大学伯克利分校的学生 —— 陈曦(Peter Chen)和段岩(Rocky Duan)离开实验室,成立了一家名为 Covariant 的初创公司。他们的新公司致力于研究 OpenAI 正在探索的相同技术,不过目标是将该技术应用于现实世界。
到了 2019 年,研究人员和创业者认识到亚马逊和世界其他零售商的仓库里需要什么,于是市场上充斥着大量从事机器人分拣业务的初创公司,其中一些公司采用了 “谷歌大脑” 和 OpenAI 正在开发的深度学习方法。彼得・阿比尔的公司 Covariant 不一定算其中之一,因为该公司正在为更广泛的应用设计一个系统。但在 “亚马逊机器人挑战赛” 两年后,一家名为 ABB 的国际机器人制造商组织了自己的竞赛,这次比赛是闭门形式。6Covariant 决定参加。
大约有 20 家公司参加了这场新的竞赛,任务是分拣大约 25 种不同的物品,其中有一些物品已提前告知参赛者,有一些没有告知。混杂在一起的物品包括袋装小熊软糖、装满肥皂液或凝胶的透明瓶子,这些东西对机器人来说特别难拿起,因为光线的反射方式往往让人意想不到。大多数参赛公司都没有通过测试,少数处理了大部分的任务,但在面对更困难的任务时失败了,比如拿起旧的光盘,这些光盘的正面会反射光线,有的光盘还会贴在箱子的侧面。
对于是否应该参与这场竞赛,阿比尔和他的同事们最初有些顾虑,因为他们还没有真正打造好分拣系统。但是,他们的新系统可以学习。经过几天的时间,他们用大量的新数据对系统进行了训练,当 ABB 参观他们在伯克利的实验室时,他们的机械臂在处理每一项任务时都跟人类一样好,甚至完成得比人类更好。有一次失误是机械臂不小心掉了一袋小熊软糖。“我们在尽力寻找不足之处,”ABB 服务机器人部门的董事总经理马克・塞古拉(Marc Segura)说,“在这些测试中,系统很容易达到一定的水平,但不暴露出任何不足是超级困难的。”7
随着在这项技术上的开发不断深入,公司需要更多的资金支持,所以阿比尔决定去找人工智能领域中一些最知名的人物。杨立昆参观了他们在伯克利的实验室,在把几十个空塑料瓶倒进箱子,看着机械臂顺利地把它们捡起来后,他同意投资。约书亚・本吉奥拒绝投资。虽然他只在一些大型科技公司做过兼职,但他说自己的钱多到花不完,他更喜欢专注于自己的研究。杰夫・辛顿投资了,他相信阿比尔。“他很棒,” 辛顿说,“这很令人惊讶,毕竟他是比利时人。”
那年秋天,一家德国电子产品零售商将阿比尔的技术应用到柏林郊区的一间仓库中,在那里,当蓝色分隔箱沿着传送带移动时,机械臂对这些分隔箱中的开关、插座和其他电气零件进行分拣。8Covariant 公司的机器人能够以超过 99% 的准确率对 10 000 多种不同的物品进行分拣。“我在物流行业工作了 16 年以上,我从未见过这样的东西。” 奥地利 Knapp 公司的副总裁彼得・普切温(Peter Puchwein)说。9 该公司长期为仓库提供自动化技术,并为 Covariant 的技术在柏林落地提供开发和安装服务。这表明,机器人自动化将在未来几年继续在零售和物流行业拓展,或许还会拓展到制造工厂。这也引发了人们对仓库工人的新担忧,他们的工作被自动化系统抢走了。在德国仓库里,一台机器人可以完成三个工人的工作。
不过,经济学家并不认为这种技术会在短期内减少物流岗位的数量。网络零售业务增长太快,大多数公司需要几年甚至几十年的时间来安装新的自动化设施。但阿比尔承认,在遥远的未来,情况会发生逆转。他也对人类的最终结果感到乐观。“如果这种情况在 50 年后发生,” 他说,“教育系统就有足够的时间迎头赶上。”

  • 2022 年 12 月 8 日,在 ChatGPT 发布一周后,两位开发人员制作了一个名为 ShareGPT 的 Chrome 扩展程序,让人们可以更便捷轻松地捕捉 AI 的答案并与世界分享。

  • 2023 年 2 月 1 日,OpenAI 推出了更强大的付费服务版本 AI——ChatGPT Plus。

  • 2023 年 2 月 7 日,微软宣布将 OpenAI 的 GPT-4 模型集成到自己的搜索引擎 Bing 中,在搜索引擎中提供包含 ChatGPT 服务的体验。

  • 2023 年 3 月 14 日,OpenAI 推出 GPT-4,GPT-4 拥有更加强大的图像和文本理解能力。

  • 2023 年 3 月 23 日,OpenAI 将 ChatGPT 连接到互联网,通过授予其访问包括网络在内的第三方知识源和数据库的权限,扩展 AI 的机器人功能,这一举动也引发了全球众多大佬们的担忧,害怕 ChatGPT 无限进化为天网系统,最终发展到人类完全不可控的程度。

  • ChatGPT 的出现,让人工智能成为 Web3 之后的又一个热点,也让硅谷的科技公司巨头们感到了前所未有的压力。

  • 在 ChatGPT 发布后,谷歌立马推出智能聊天机器人 Bard,但 Bard 频繁出现各种问题,导致谷歌母公司 Alphabet 的市值一夜蒸发约 7172 亿元;苹果举行 “内部 AI 峰会”,专门讨论 ChatGPT;国内包括百度、阿里、京东在内的互联网大厂也开始布局自己的 AI 项目。

国际的大佬们在试用 ChatGPT 后,纷纷发表自己的观点。

  • 曾经坚定宣扬 “AI 威胁论” 的埃隆・马斯克和比尔・盖茨,在刚刚试用时纷纷为 ChatGPT 以及 AI 领域的进展感到激动。

比尔・盖茨直呼 AI 将是 “2023 年最热门的风口”,认为 ChatGPT 将改变世界,其重要性不亚于互联网和个人电脑的问世。他甚至认为其超越了这两年曾被认为代表了未来发展的技术,在美国社交新闻站点 Reddit 的一个问题下面回复网友时表示:“AI 最具革命性,远超 Web3 和元宇宙。”

搜狐创始人张朝阳认为 ChatGPT 的出现是 “量变到质变”,是算法、算力、数据积累了很多年的结果。奇虎 360 的创始人周鸿祎高度评价 ChatGPT 带来的无限可能,他说:“我觉得 ChatGPT 人工智能有可能是个潘多拉盒子,这肯定是未来的趋势。我觉得比尔・盖茨都低估了 ChatGPT 的影响,未来各行各业如果不能搭上这班车,就有可能被淘汰。” 中国工程院院士、阿里云创始人王坚说:“ChatGPT 带来的方法论天翻地覆,算力不再是开发瓶颈,人工智能将迎来最好的时代。”

有分析师认为,到 2030 年,生成式人工智能的市场估计将达到 1090 亿美元以上,关于这项技术的讨论迅速转向更广泛的商业应用领域。与此同时,很多一开始认为 ChatGPT 是伟大发明的人,也开始改口,公开宣称他们对人工智能失控发展的担忧,这些不同声音的代表人物就包括这几年异常活跃的、拥有数不清的头衔的 SpaceX 公司创始人兼 CEO,特斯拉投资人兼 CEO,Twitter 的 CEO、董事会唯一成员,OpenAI 曾经的联合创始人,2022 年以 2190 亿美元财富成为世界首富的埃隆・马斯克。

位于美国波士顿地区的一家研究与推广机构,其致力于降低人类所面临的风险,尤其是人工智能技术开发过程中的可能风险。

埃隆・马斯克在最初表达了自己对 ChatGPT 的激动之后,很快在各个公开场合提出了自己的担忧,认为 ChatGPT 离强大到危险的 AI 不远了,尤其当这个技术被少部分人或者公司掌握时,将比核弹更加危险。之后,他更是联合 1100 多位专家和企业家,通过著名安全机构 “生命未来研究所” 发布了一封公开信,呼吁全球所有机构在 6 个月内暂停训练比 GPT-4 更强大的 AI,并利用这 6 个月时间制定 AI 安全协议。

这份公开信的言辞十分激烈,其中写道:

AI 系统在完成一般任务上已经具备了与人类竞争的能力,我们必须自问,是否该让我们的信息渠道充斥着机器写出的谎言?是否应该把所有工作都自动化,包括那些有成就感的工作?是否该继续开发机器大脑,让它们比人脑还多,比人脑还聪明,最终淘汰我们、取代我们?是否应该冒着让人类文明失控的风险?这样的决定绝不能委托给未经选举的技术领袖来做。只有当我们确信强大的 AI 系统是积极的,风险是可控的,才应该继续这种开发。而且 AI 的潜在影响越大,我们就越需要充分的理由来证明其可靠性。

此外,很多业内人士认为 ChatGPT 仍存在数据训练集不够新、不够全等问题,但无论是称赞还是担忧,在人类制造人工智能的方向上,因为机器不受限的计算与学习能力,我们永远看不到终点。就像比尔・盖茨说的那样:“你可以想象出来它 5 年之后的样子,但是,你绝对想象不出来它 10 年后的样子。”

ChatGPT 刚发布时,在一众吹捧声中,有一个声音显得十分突兀。“ChatGPT 是一个糟糕的产品,它真的不是为使用而设计的”,“现在确实是一个激动人心的时刻,但我认为距离拐点还为时尚早”,这个声音与众不同,却没有人可以反驳,因为说出这些话的人正是 ChatGPT 的缔造者本人。

ChatGPT 的出现让 AI 成为强大的风口。而这个奇迹的创造者,也在一夜之间成为全球最火爆的 “顶流”,他有着一个我们再熟悉不过的名字 —— 奥特曼,他的全名叫山姆・奥特曼,中国某些媒体也把他的名字翻译为山姆・阿尔特曼,但在本书中,我们将选用这个更特别一点的翻译版本 —— 奥特曼。

奥特曼是谁?

在日本特摄电视剧里,奥特曼是来自 M78 星云的光之巨人,为了追捕逃亡的宇宙怪兽来到地球,为保卫地球,与众多来自地球外的残暴怪兽和邪恶外星人展开激烈战斗。

美国 DC 漫画中的虚拟星球。

  • 出生于 1985 年的山姆・奥特曼,既不来自 M78 星云,也不来自超人的故乡氪星 ,而是一个土生土长的地球天才。他降生在一个普通的犹太家庭,在美国密苏里州的圣路易斯长大。

  • 8 岁时,山姆・奥特曼拥有了他的第一台计算机,学会了编程和拆解苹果电脑,之后他的人生轨迹与扎克伯格、拉里・佩奇等众多美国科技界大佬一样,遵循了一种 “另类的传统”。在考进斯坦福大学计算机系后的第二年,山姆・奥特曼选择了辍学,他与两名同学一起开始了首次创业,并开发了一款社交网络移动应用 Loopt,这个与朋友分享位置的程序,帮助山姆・奥特曼打开了硅谷的大门。

在 ChatGPT 爆红后,全球媒体开始报道与之相关的新闻,同时也将视线聚焦在 ChatGPT 背后的公司 OpenAI 及其掌舵人山姆・奥特曼,这位当时刚刚年满 37 岁的天才身上。短短几个月,他替代了活跃在互联网上的埃隆・马斯克,成为各个社交平台的新晋话题宠儿。由此,山姆・奥特曼身上的诸多标签逐渐被人挖出,为媒体提供了绝佳的背景故事与标题:同性恋,斯坦福辍学,疑似 “自闭症” 患者,硅谷最年轻总裁,美国投资狂魔,末日生存狂,下一个马斯克……

在各种媒体报道的描述中,山姆・奥特曼最令人印象深刻的一个特征是他对通用人工智能(Artificial General Intelligence,AGI)的执着追求。

通用人工智能的标准解释是 “具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能”。奥特曼曾说:“通用人工智能是驱动我所有行动的推力。”

  • 早在 2015 年,奥特曼与时任特斯拉和 SpaceX 首席执行官的埃隆・马斯克等人宣布出资 10 亿美元创立了 OpenAI,并且很快明确了这家非营利研究机构的愿景:迈向通用人工智能,确保其造福人类。

  • 2016 年秋天,距离《西部世界》首映还有三天。这是一部由 HBO 电视网发行的电视连续剧,其中的游乐园机器人在慢慢跨过人工感知的门槛后,开始袭击它们的创造者。所有演员和工作人员都参加了硅谷的一场私人放映。放映会没有安排在当地的电影院举行,而是在尤里・米尔纳(Yuri Milner)的家中举行。这位 54 岁的俄罗斯籍犹太人企业家和风险投资家是 Facebook、Twitter、Spotify 和 Airbnb 的投资人,也是 “Edge 基金会” 组织的年度 “亿万富翁晚宴” 的常客。他的家是一座占地 25 500 平方英尺的石灰石豪宅,被称为卢瓦尔堡,坐落在洛斯阿尔托斯山上,俯瞰旧金山湾。它在 5 年前以超过 1 亿美元的价格成交,是美国最昂贵的独栋住宅之一,有室内和室外游泳池、舞厅、网球场、酒窖、图书馆、游戏室、水疗中心、健身房和私人电影院。
    当客人来看电影时,大门口有手持 iPad(苹果平板电脑)的服务员迎接。服务员检查请柬,在 iPad 上标记他们的名字,帮他们停好车,用高尔夫球车送他们上山,然后在私人电影院门前将他们放下。电影院是一栋位于这座人造城堡脚下的独立建筑,门口铺着红地毯。谢尔盖・布林是走上红毯的人之一,他的肩上搭着一条美洲原住民风格的毯子,就像披肩一样。有很多嘉宾是最近从萨姆・阿尔特曼管理的创业加速器 YC 中脱颖而出的百万富翁创始人。有些创始人在 5 年前收到一份神秘的邀请,进入 YC 旧金山办公室的一间会议室,惊讶地看着一个机器人滚动进入房间,其头部的位置上是一台 iPad,上面出现了尤里・米尔纳的特写镜头,米尔纳突然宣布,他将给他们每一家新公司投资 15 万美元。
    尤里・米尔纳和萨姆・阿尔特曼一起主持了《西部世界》的放映。邀请函上写着:“萨姆・阿尔特曼与尤里・米尔纳邀请你参加《西部世界》首播集上映前的观影会,这是一部探索人工意识和人工智能前景的 HBO 新连续剧。观影结束后,包括编剧和导演乔纳森・诺兰(Jonathan Nolan)、主演埃文・蕾切尔・伍德(Evan Rachel Wood)和坦迪・牛顿(Thandie Newton)在内的演员和工作人员走上舞台,坐在屏幕前的一排高脚凳上。” 他们在接下来的一个小时里讨论这一集的内容:几个 “西部世界” 主题公园中的机器人在软件更新后出现了功能故障和行为失控,并且能够访问过去的记忆。随后,阿尔特曼与普林斯顿大学教授埃德・博伊顿(Ed Boyton)一同登台,后者专门研究在机器和人脑之间传递信息的新兴技术。博伊顿最近还获得了 “突破奖”,这是一项由尤里・米尔纳、谢尔盖・布林、马克・扎克伯格和其他硅谷名人创立的奖项,提供 300 万美元的研究资助。1 与阿尔特曼一起,他告诉这些私密观众,科学家们正在接近一项成就,就是创建一个完整的大脑地图,然后用机器模拟它。问题是,除了表现得像人类之外,机器能否真的感受到人类的感觉。他们说,这也是《西部世界》在试图探索的问题。

 
马文・明斯基、约翰・麦卡锡和人工智能运动的其他创始元勋于 1956 年夏天聚集在达特茅斯,之后有些人说,10 年内将会出现一台足够智能的机器,足以击败国际象棋世界冠军或证明自己的数学定理。210 年后,这一切都没有发生。创始元勋之一,卡内基 —— 梅隆大学的教授赫伯特・西蒙当时说,该领域在未来 20 年内将会出现一种机器,它们可以 “做人类能做的任何工作”。3 但很快,第一次人工智能的寒冬开始了。当 20 世纪 80 年代人工智能的冰雪开始融化时,其他一些人,包括道格・莱纳特(Doug Lenat),发誓要重新创造人类智能,他开始通过所谓的 Cyc 项目重建常识。但是到了 20 世纪 90 年代,当 Cyc 项目几乎没有显示出真正进步的迹象时,重建人类智能的想法就不是主流研究人员谈论的话题了,至少在公共场合不是,在接下来的 20 年里依然如此。2008 年,沙恩・莱格在他的博士论文中也说过同样的话。“在研究人员中,这个话题几乎是禁忌:它属于科幻小说。他们向公众保证,世界上最智能的计算机也许像蚂蚁一样聪明,而且是在情况不错的情况下。真正的机器智能如果能被开发出来,也存在于遥远的未来,” 他写道,“也许在接下来的几年里,这些想法将变得更为主流,但是目前它们处于边缘地位。对大多数研究人员来说,他们仍然非常怀疑能在有生之年看到真正的智能机器。”4
在接下来的几年里,这样的想法确实变得更为主流,这在很大程度上要归功于沙恩・莱格,他和戴密斯・哈萨比斯一起创立了 DeepMind,并与哈萨比斯一起说服了三位重要人物(彼得・蒂尔、埃隆・马斯克和拉里・佩奇),让他们相信这项研究值得投资。在谷歌收购 DeepMind 后,莱格在私下里仍然继续宣传超级智能就在眼前,但他很少在公开场合谈论,部分原因是像马斯克这样的人一心想要激起人们对智能机器可能毁灭世界的担忧。不过,尽管保持沉默,但他的想法在继续传播。
当伊利亚・萨特斯基弗还在多伦多大学读研究生时,他采访了哈萨比斯和莱格,这两位 DeepMind 创始人说他们正在打造通用人工智能,萨特斯基弗认为他们已经与现实脱节了。但是,当他自己在谷歌取得图像识别和机器翻译方面的成功,并且在 DeepMind 待了几个星期之后,他开始接受莱格的论文,并称他为 “疯狂且有远见的人”。其他很多人也是如此。在 OpenAI 的前 9 名研究人员中,有 5 人曾在 DeepMind 的伦敦实验室里待过一段时间,在那里,通用人工智能的可能性受到了热烈的追捧,这两间实验室拥有两位相同的投资人:蒂尔和马斯克。2015 年秋天,当萨特斯基弗讨论将创立 OpenAI 实验室时,他觉得自己找到了一群跟他想法一样的人,他们拥有相同的信念和抱负,但他担心他们的谈话会再次困扰自己。如果其他人听到他在讨论通用人工智能的崛起,那么他在更广泛的研究圈子里会被打上低人一等的烙印。当 OpenAI 宣布成立时,官方公告并没有提到通用人工智能,只是暗示这个想法是一种遥远的可能性。公告中写道:“如今的人工智能系统拥有的能力令人印象深刻,但范围有限。看来我们需要继续减少其限制,在极端情况下,它们在几乎每项智力任务上都可以达到人类的水准。”5 但是,随着实验室的发展,萨特斯基弗摆脱了恐惧。2016 年,OpenAI 在成立一年后招募了伊恩・古德费洛,实验室的同事们在旧金山的一家酒吧里用饮料欢迎他的加入,萨特斯基弗举杯祝酒。“为了三年后的通用人工智能,干杯!” 他说。此时,古德费洛有点儿疑惑,如果他现在就告诉实验室他根本不想要这份工作,那么是否为时已晚。
对通用人工智能的信仰需要一次在信念上的飞跃,但它以一种非常真实的方式推动了一些研究人员前进。这有点儿像宗教。“作为科学家,我们经常觉得,有必要用非常务实的术语来证明我们的工作。我们想向人们解释,为什么我们今天所做的工作是有价值的。但通常,是一些更大的事情真正驱动科学家去做他们的工作,” 机器人专家谢尔盖・莱文说,“驱动他们的,更多的是情感,更多的是本能,而不是基础。这就是人们认同通用人工智能的原因,他们是一个比看起来更大的群体。” 正如亚历克斯・克里哲夫斯基所说:“我们相信自己在情感上愿意相信的东西。”
对通用人工智能的信仰,有一种在人与人之间传播的方式。有些人不敢相信,直到周围有足够多的人相信。但是,没有人的信任方式与他人完全相同。每个人都从自己的角度看待这项技术及其未来。然后,这种信念进入了硅谷,并被放大。硅谷给这种想法注入了更多的资金、更多的表演技巧和更多的信仰。尽管像萨特斯基弗这样的研究人员最初对表达自己的观点保持沉默,但埃隆・马斯克并没有退缩,实验室的另一位主席萨姆・阿尔特曼也没有。
在 2017 年的头几天,生命未来研究所主办了一次峰会,峰会地点在加州中部海岸一个名为 “太平洋丛林” 的小镇。6 太平洋丛林镇是阿西洛马会议的召开地,在常青树丛中的大型乡村酒店。1975 年冬天,世界上最著名的遗传学家们聚集在这里,讨论他们在基因编辑方面的工作是否会最终毁灭世界。现在,人工智能研究人员聚集在同一片海边丛林,讨论人工智能是否会带来同样的生存风险。阿尔特曼来了,马斯克来了,还有 OpenAI 和 DeepMind 的大多数其他大玩家也来了。在会议的第二天,马斯克作为九人圆桌讨论的嘉宾之一,上台探讨超级智能的理念。7 每位圆桌嘉宾都被问及超级智能是否可能出现,当他们把麦克风往下传递时,所有人都说 “是”,直到麦克风传到马斯克那里。“不。” 他说,笑声在小礼堂里久久回荡。8 观众都知道他相信什么。“我们要么走向超级智能,要么走向文明的终结。” 笑声平息后,他说道。9 随着圆桌讨论的继续,迈克斯・泰格马克问:“一旦超级智能到来,人类如何与它共存?” 马斯克说这需要大脑和机器之间的直接联系。“我们所有人都已经是半机械人了,” 他说,“你的手机、电脑和所有的应用程序都是你自己的延伸,你已经是超人类了。”10 他解释说,人类的受限在于无法足够快地使用自己的应用程序,大脑和机器之间没有足够的 “带宽”。人们仍然用 “肉棒”—— 手指 —— 在手机上打字。“我们必须通过与神经皮质的高速带宽连接来突破这个限制。”11
艾伦人工智能研究所的负责人奥伦・埃齐奥尼试图缓和这种言论。12 他说:“我听到很多人在缺少扎实数据基础的情况下说了很多事情。我鼓励人们问:‘这是基于数据,还是基于硬核猜测?’”13 但会场里的其他人站在马斯克那边。这种论点在这个圈子的活动中越来越常见,没有任何人能获胜。大家争论的是未来会发生什么,这意味着任何人都可以声称任何事情,而没有人可以证明其中的错误。但最重要的是,马斯克知道如何利用这一点。几个月之后,他公开了一家名为 Neuralink 的新的初创公司,该公司获得了 1 亿美元的投资,旨在打造一个 “神经织网”,即计算机与人脑之间的接口,该公司搬进了 OpenAI 的办公室。14
虽然马斯克很快就离开了 OpenAI,但该实验室的野心在阿尔特曼的带领下继续成长。萨姆・阿尔特曼是硅谷的一个样板:2005 年,这名 20 岁的大二学生创办了一家社交网络公司 Loopt,这家公司最终获得了 3 000 万美元的风险投资,投资人包括 YC 及其创始人保罗・格雷厄姆(Paul Graham)。157 年之后,Loopt 的社交网络服务在亏本出售后被关闭。但对阿尔特曼来说,这是一次成功的退出。他身材匀称、紧凑,有着锐利的绿眼睛,他是一位在融资上具备特别天赋的人。格雷厄姆很快宣布辞去 YC 总裁一职,并任命阿尔特曼接替他的职位,这一任命让 YC 家族中的很多人感到惊讶。此后,阿尔特曼成为源源不断的创业公司的顾问。作为提供建议和资本的交换,YC 获得每家公司的股份。阿尔特曼个人也投资了一些公司,他很快就变得非常富有。他觉得一只猴子都可以运营好 YC,但他也觉得在运营的过程中,自己培养了一种评估创始人的敏锐天赋,更不用说开发出了完成大额融资所需的技能和机会了。在快速成长的过程中,他的动力首先是金钱,其次是对他职责范围内的人和公司所拥有的权力,然后是打造一些能对更大范围的世界产生真正影响的公司所获得的满足感。借助 OpenAI,他的目标是产生更大的影响力。对通用人工智能的探索比他所能追逐的任何东西都更重要,也更有趣。他认为,离开 YC 并进入 OpenAI 是不可避免的道路。
跟马斯克一样,他是一名创业者,而不是科学家,尽管他有时会说自己在大二辍学之前在斯坦福大学学习过人工智能。跟马斯克不同的是,他没有在新闻和社交媒体上不断寻求关注和争议,但他也是一个活得好像未来已经到来的人。这是硅谷精英的常态,他们自觉或不自觉地知道,这是吸引注意力、资金和人才的最佳方式,无论他们是在一家大公司的内部,还是创办一家小型初创公司。创意可能会失败,预言可能不会实现,但是对于下一个创意,除非他们及周围的每个人都相信会成功,否则就不会成功。“自信的力量非常强大。我认识的最成功的人对自己的信任几乎到了妄想的地步,” 他曾写道,“如果不相信自己,你就很难对未来有逆向的想法,而这正是创造大部分价值的地方。”16 然后,他回忆起马斯克带他参观 SpaceX 工厂的那一次经历,当时他对设计用于火星旅行的火箭不是很感兴趣,但是对马斯克脸上确定的表情感到震惊。“嗯,” 阿尔特曼心想,“这就是信念的基准。” 阿尔特曼知道,他所相信的不会总能成真。但他也知道,大多数人低估了时间和快速扩张会给那些看似微小的想法带来什么。在硅谷,这被称为 “规模化”。当阿尔特曼认为一个想法可以规模化时,他并不害怕对其发展押下重注。他可能一次又一次地做了错误判断,但是当他正确的时候,他想要的是惊人的正确。对他来说,这种态度可以用意大利哲学家马基雅维利的一句经常被引用的话概括:“要犯野心的错误,而不是懒惰的错误。” 他感到遗憾的是,在 2016 年美国大选之后,公众并没有像他们在 20 世纪 60 年代支持阿波罗计划那样支持硅谷的目标,他们认为硅谷的野心并不鼓舞人心或者不是很酷,而是自我放纵甚至有害。
在 OpenAI 对外宣布后,阿尔特曼对于重建智能的想法并不像萨特斯基弗那样害羞。他说:“随着时间的推移,我们越来越接近某些超越人类智能的东西,有人质疑谷歌会分享多少。”17 当他被问及 OpenAI 是否会打造同样的技术时,他说他预计会,但他也说 OpenAI 会分享其打造的技术。“技术将是开源的,所有人都可以使用,而不是只能供谷歌使用。”18 人工智能比任何阿尔特曼认可的其他想法都更加宏大,但他像对待其他想法一样看待它。
2018 年 4 月,他和他的研究人员发布了一份新的实验室章程,制定了与实验室创立时截然不同的使命。19 阿尔特曼最初表示,OpenAI 将公开分享其所有研究成果,这就是将其命名为 OpenAI 的原因。但在看到生成模型和人脸识别的兴起以及自主武器的威胁所造成的混乱后,他现在表示,随着时间的推移,它会阻止一些技术,因为它评估了这些技术对整个世界的影响。很多组织现在也意识到了这样的现实。穆斯塔法・苏莱曼说:“如果从一开始,你就决定这是一个开放平台,任何人都可以随心所欲地使用它,那么这会产生重大的后果。在技术被创造出来之前,人们必须更加敏感地思考技术会如何被滥用,以及如何打造一个能产生一些监督作用的流程。” 具有讽刺意味的是,OpenAI 将这种态度推向了极致。在接下来的几个月里,这成为该实验室自我营销的新方式。在按照谷歌 BERT 的思路打造了一个新的语言模型后,OpenAI 通过媒体强调这项技术太危险了,不能发布,因为它会让机器自动生成假新闻和其他误导性信息。在实验室之外,很多研究人员对这一说法嗤之以鼻,称这项技术根本没有危险。最终,该技术还是发布了。
与此同时,新的 OpenAI 章程明确地表明,该实验室正在打造通用人工智能。阿尔特曼和萨特斯基弗已经看到了当前技术的局限性和危险性,但他们的目标是打造一台能够做人脑能做的任何事情的机器。“OpenAI 的使命是确保通用人工智能 —— 我们指的是在最具经济价值的工作中超越人类的高度自治系统 —— 造福全人类。我们将尝试直接打造安全和有益的通用人工智能,但如果我们的工作帮助其他人取得了这一成就,我们也将认为自己的使命已经达成。”20 阿尔特曼和萨特斯基弗现在都表示,他们打造通用人工智能的方式,大致与 DeepMind 打造掌握围棋和其他游戏系统的方式相同。他们表示,这只是一个搜集足够的数据、建立足够的计算能力以及改进数据分析算法的问题。他们知道其他人持怀疑态度,也相信这项技术可能是危险的,但这些都没有困扰他们。阿尔特曼说:“我的目标是成功地打造出广泛有益的通用人工智能。我也明白这听起来很荒谬。”
那年下半年,DeepMind 训练了一台机器来玩 “夺旗赛”(Capture The Flag,简称 CTF)。21 这是一项团队运动,很多孩子会在夏令营、树林里或空旷的场地上玩儿,也有专业的电子游戏玩家在《守望先锋》和《雷神之锤 3》这样的三维游戏中玩。DeepMind 的研究人员在《雷神之锤 3》中训练了他们的机器,在游戏中,一段高墙迷宫的两端竖着一红一蓝两面旗子,两支队伍都守护着自己的旗子,同时也试图夺取对方的,并将它带回自己的大本营。这是一个需要团队协作的游戏 —— 防御和攻击之间的小心协调。DeepMind 的研究人员表明,机器可以学习这种协作行为或者至少学会模仿。他们系统的学习方式是玩大约 45 万局的《雷神之锤 3》夺旗赛 ——4 年多的游戏时间被包含在几周的训练中。最终,它可以与其他自主系统或人类玩家一起玩游戏,并根据每位队友的情况决定自己的行为。在某些情况下,它展示了与其他任何经验丰富的玩家相同的协作技能。当队友快要抢到旗子时,它会跑到对方大本营。人类玩家都知道,一旦一面旗子被夺取,对方的大本营就会出现另一面旗子,新旗子一旦出现就可以被立刻夺下。“你如何定义团队合作不是我想解决的问题,” 参与该项目的 DeepMind 研究人员之一马克斯・贾德尔伯格(Max Jaderberg)说,“但有一个智能体待在对手的大本营,等待旗帜出现,而这只有在依靠队友的情况下才有可能。”
这就是 DeepMind 和 OpenAI 都希望模仿人类智能的方式,自主系统在日益复杂的环境中学习。首先是雅达利游戏,然后是围棋,然后是像《雷神之锤 3》这样的三维多人游戏,其中不仅涉及个人技能,还涉及团队合作。诸如此类。7 个月后,DeepMind 公布了一个在《星际争霸》(一款以太空为背景的三维游戏)中击败世界顶尖职业选手的系统。22 随后,OpenAI 打造了一个掌握《魔兽争霸 2》的系统,23 这款游戏的玩法就像更为复杂版本的 “夺旗赛”,它需要整个团队的自主智能体进行协作。那年春天,一支由 5 个自主智能体组成的团队击败了一支由世界上最优秀的人类玩家组成的团队。人们相信,在虚拟领域获得的成功,最终会带来能够掌控现实世界的自动化系统。这就是 OpenAI 用它的机器手所做的事情,训练一只虚拟的机器手来复原一个虚拟的魔方,然后将这个专业知识应用到现实世界之中。这些实验室相信,如果能够打造一个足够大的系统,能够模拟人类在日常生活中遇到的情况,他们就能打造通用人工智能。
其他人对这项工作有不同的看法。虽然在《雷神之锤》《星际争霸》《魔兽争霸》中的这些壮举令人印象深刻,但很多人质疑它们在现实世界中的表现。在 DeepMind 发表一篇论文描述其夺旗游戏中的智能体时,佐治亚理工学院教授马克・里德尔(Mark Riedl)说:“三维环境的设计让导航变得容易,《雷神之锤》中的策略和协调很简单。” 他说,这些智能体虽然似乎在合作,但实际并没有。它们只是对游戏中发生的事情做出反应,而不是像人类玩家那样相互交流。每个智能体都有超人的游戏知识,但它们一点儿也不智能。这意味着它们在现实世界中会出现挣扎。
强化学习非常适合游戏。电子游戏会统计得分,但在现实世界中,没有人记分。研究人员必须用其他方式来定义成功,这绝不是一件小事。魔方非常真实,但也是一种游戏,其目标很容易确定。尽管如此,这个问题并没有完全解决。在现实世界中,OpenAI 的机器手上配备了微型发光二极管,使得房间里其他位置的传感器可以精确跟踪每根手指在任何时刻的位置。如果没有这些发光二极管和传感器,它就无法复原魔方。即使有了这些,正如 OpenAI 研究论文的附录中所说明的那样,10 次有 8 次魔方会掉。为了实现 20% 的成功率,OpenAI 的机器手经历了相当于数万年的数字试错。真正的智能需要一定程度的数字体验,才能让这看起来微不足道。DeepMind 可以利用谷歌的数据中心网络,这是地球上最大的私有网络之一,但这还不够。
希望在于研究人员可以用新型计算机芯片来改变这一等式,这种芯片可以将这项研究推向超越英伟达的 GPU 和谷歌 TPU 的水平。为了训练神经网络,包括谷歌、英伟达和英特尔在内的数十家公司,以及一长串初创公司都在打造新的芯片,这样 DeepMind 和 OpenAI 等实验室打造的系统就可以在更短的时间内学到更多东西。“我看到了在新计算资源上发生了什么,并将其与当前结果的关联性绘制成图,这幅图显示,曲线不断上升。” 阿尔特曼说。
着眼于这种新型硬件,阿尔特曼与微软及其新任首席执行官萨提亚・纳德拉达成协议,后者仍在努力向世界展示他们还是人工智能领域的领导者。短短几年,纳德拉就扭转了公司的局面,拥抱开源软件,并在云计算市场上领先于谷歌。但很多人认为云计算市场的未来是人工智能,在一个这样的世界里,很少有人认为微软是该领域的顶级玩家。纳德拉和微软同意给 OpenAI 投资 10 亿美元,OpenAI 同意将这笔钱的大部分返还给微软,因为仅仅为了训练该实验室的系统,这家科技巨头打造了一套全新的硬件基础设施。纳德拉说:“无论是我们对量子计算的追求,还是对通用人工智能的追求,我认为都需要这些志向远大的北极星。” 对阿尔特曼来说,这与其说是手段,不如说是目的。他说:“我运营 OpenAI 的目标,是成功打造出广泛有益的通用人工智能。这种伙伴关系是迄今为止这条道路上最重要的里程碑。”
两间实验室现在说它们正在打造通用人工智能。世界上最大的两家公司表示,它们将提供研发过程中所需的资金和硬件,至少在一段时间内。阿尔特曼认为,他和 OpenAI 还需要 250 亿~500 亿美元才能实现目标。

 
一天下午,伊利亚・萨特斯基弗坐在离旧金山 OpenAI 办公室几个街区的一家咖啡店里。他一边啜饮着陶瓷杯里的咖啡,一边谈论着一些事情,其中之一就是通用人工智能。他把它描述为一项技术,即使不能解释具体的细节,他也知道这项技术即将到来。“我知道,它将会非常巨大,我确信这一点,” 他说,“我很难准确表达它将会是什么样子,但我认为,思考这些问题并尽可能地展望未来是很重要的。” 他说这将是一场 “计算海啸”,一场人工智能的雪崩。“这几乎像是一种自然现象,” 他解释道,“这是一股不可阻挡的力量。它太有用了。我们能做什么?我们可以操控它,以各种方式改变它。”
这不仅仅会改变数字世界,也会改变物理世界。他说:“我认为一个很好的例子是,真正的人类级别及更高水平的人工智能,将会以难以预测和想象的方式对社会产生巨大的变革性影响。我认为,它将解构几乎所有的人类系统。我认为,用不了太长时间,整个地球的表面就会被数据中心和发电站覆盖。一旦你有了一个数据中心,其中运行着很多比人类聪明得多的人工智能,它就会变得非常有用,并且能产生巨大的价值。你向它提出的第一个问题会是,你能去打造另一个吗?”
当被问及是否指的是字面的意思时,他指着窗外咖啡店对面明亮的橙色建筑说,是的。他说,你想象一下,大楼里堆满了计算机芯片,这些芯片运行的软件复制了谷歌等公司首席执行官、首席财务官及所有工程师的技能。他解释说,如果你让谷歌全部在这栋大楼里运行,它将非常有价值。它太有价值了,以至于它会想建造另一座跟它一样的大楼。再一座,又一座。他说,要继续建造更多的大楼,将会面临巨大的压力。
在大西洋彼岸的圣潘克拉斯车站附近的新谷歌大楼里,沙恩・莱格和戴密斯・哈萨比斯用更简单的语言描述了未来,但他们传达的信息并没有那么不同。正如莱格所解释的那样,DeepMind 走上的一条轨道,跟他和哈萨比斯 10 年前第一次将公司推销给彼得・蒂尔时所设想的一样。他说:“当我回顾我们在公司创立之初写下的公司使命时,那感觉与如今的 DeepMind 非常相似,其实一点儿都没变。” 就在最近,他们放弃了运营中似乎不符合这个使命的一部分。早在 2018 年春天,穆斯塔法・苏莱曼就告诉 DeepMind 的一些人,他很快会将实验室在医疗健康方面的研究迁移到谷歌。到那年秋天,DeepMind 宣布谷歌正式接管。24 过了一年,在一次最初并没有向公司以外的任何人透露的休假之后,苏莱曼也离开了 DeepMind,加入了谷歌。他的哲学似乎总是与杰夫・迪恩的哲学更为一致,而不是与戴密斯・哈萨比斯,现在他已经与哈萨比斯和莱格分道扬镳,带走了他的宠物项目,此项目是 DeepMind 最实用和最短期的研究方向。DeepMind 比以往任何时候都更加关注未来,尽管它有相当大的独立性,但它仍然可以利用谷歌的大量资源。自收购 DeepMind 以来,谷歌已经在研究方面投入了 12 亿美元。25 到 2020 年,除了伦敦实验室的数百名计算机科学家之外,哈萨比斯还聘请了一支由 50 多名神经科学家组成的团队来研究大脑的内部工作。
有些人质疑这种情况会持续多久。同年,DeepMind 最大的支持者拉里・佩奇和谢尔盖・布林宣布退休。26 有质疑的声音问道:“DeepMind 会继续为这种长期研究接受谷歌母公司 Alphabet 如此大量的资金吗?或者,它会被迫承担更短期的任务吗?” 对主导收购 DeepMind 并协助创立 “谷歌大脑” 的阿兰・尤斯塔斯来说,追逐短期技术和遥远梦想之间,总是存在紧张的关系。他说:“可能在谷歌内部,他们会接触更为有趣的项目,但这可能会减缓他们朝长期目标迈进的步伐。将他们纳入 Alphabet 会削弱他们的技术商业化能力,但更有可能产生积极的长期影响。这个难题的解决是机器学习史上的重要一步。” 但是当然,驱动 DeepMind 的哲学并没有改变。经历了多年的动荡,人工智能技术进步的速度如此惊人,其表现方式超越预期,并与超过任何人意识的更强大、更无情的企业力量交织在一起,而 DeepMind 和 OpenAI 一样,仍然致力于打造一台真正的智能机器。事实上,它的几位创始人认为这场动荡是一种证明。他们警告说,这些技术可能会出错。
一天下午,在伦敦办公室的一次视频通话中,哈萨比斯说他的观点介于马克・扎克伯格和埃隆・马斯克之间。他说,扎克伯格和马斯克的观点都很极端。他非常相信超级智能是可能的,也相信这项技术可能是危险的,但他也认为那还需要很多年才能实现。他说:“当事情平静下来时,我们需要利用停机时间,为未来几十年可能出现的严重的后果做好准备。我们现在拥有的时间是宝贵的,需要利用好。” 近年来,Facebook 和其他公司带来的问题是一个警告,即必须采取谨慎和深思熟虑的方式来打造这些技术。但是,这个警告不会阻止他实现目标。他说:“我们正在这样做,我们没有乱来。我们这么做,是因为我们真的相信这是可能的。这在时间尺度上可能有争议,但据我们所知,没有物理定律能阻止通用人工智能的实现。”

ChatGPT 全球爆红后,山姆・奥特曼接受过的采访被媒体频频引用,其经历组成了又一个天才式科技人物的传奇故事。在一次采访中,谈及 ChatGPT 时,奥特曼是这样表述的:“我们需要社会对此有所感受,看到它的好处,了解它的坏处。因此,我认为我们所做的最重要的事情是把这些东西展示出来,以便世界能够开始了解即将发生的事情。” 奥特曼认为,ChatGPT 不会取代搜索引擎,但有一天某个人工智能系统可以。“如果通用人工智能真正得以完全实现,我认为它可以打破资本主义的某些固有方式。”

在科技发展日新月异的当下,山姆・奥特曼和 ChatGPT,真的能给我们、给这个世界带来一个前所未有的未来吗?

天才不是一朝一夕诞生的,我们越深入了解山姆・奥特曼,探索这位天才身上发生的一切,就越想了解更多的幕后故事 —— 他是如何开始自己的事业的,如何一步步在科技领域实现大脑里的奇思妙想,又是如何获得投资人的信任,在默默无闻多年后,凭借 ChatGPT 一鸣惊人,让统治搜索引擎多年,并且早就开发出 AlphaGo 的谷歌感受到危机并出手应对的。在工作与他所构建的未来版图之外,山姆・奥特曼在生活里会是什么模样?有什么兴趣爱好?他对政治、环保、未来有什么构想与观点?

我们将试图探究奥特曼身上的人性闪光点,扫描他的人生,描摹出这位天才的传奇,包括他的天才之道、创业之路、未来之道以及信仰之跃。人类的未来将走向何方?兴许我们能从奥特曼身上窥见一些端倪。
8 岁学会编程的普通天才

经常接触新事物,这真的很重要。接触新鲜事物不仅可以减慢你对时间的感知,增加幸福感,让生活变得有趣,而且还可以防止思维方式的僵化。如果你在计划每年的目标,可以选择做一些新鲜、冒险的事情。

—— 山姆・奥特曼

山姆・奥特曼的全名是塞缪尔・H. 奥特曼。

1985 年 4 月 22 日,在美国密歇根湖畔、伊利诺伊州芝加哥市的一所公寓里,山姆・奥特曼出生了。奥特曼的出生,为这个生活条件优渥的犹太家庭注入了新的活力。在当时,山姆・奥特曼的母亲是当地一家医院的皮肤科医生,父亲则是一名律师,两人都从事着稳定的白领工作,能够为孩子提供良好的成长环境。

此时,这个世界还不知道一个天才已经悄悄诞生,37 年后,这个天才将引发一场新的科技革命,掀起时代前进的高潮。山姆・奥特曼出生的这一年并不平凡,在当时,全世界都正在发生着影响未来进程的大事件,其中许多都与我们每个人息息相关。

  • 这一年 —— 法国总统密特朗开始暗中策划让欧洲尖端技术全面赶超美国的 “尤里卡计划”。

  • 这一年 —— 日本航空 123 号班机空难,仅 4 人生还,其余 520 人悉数罹难,成为航空史上第二大严重空难。

  • 这一年 —— 美国总统罗纳德・里根发表连任演说。上一年,他获得了美国总统选举史上最多的 525 张选举人票。1981 年,里根以 69 岁 349 天的年纪,成为美国最高龄的总统,这一纪录一直保持到 2017 年,被特朗普和其继任者拜登陆续打破。

同样在这一年 —— 微软公司为了与苹果公司的操作系统竞争,发布了 Windows 1.0 系统,但在发布后,并未引起大众的关注,影响力远远不如 1 年前苹果公司发布的第一代 Macintosh。

Macintosh 是第一台不需要用户熟记命令行语法的电脑,它的首次亮相以 “1984” 为标志,这是一支价值 150 万美元的电视广告,由雷德利・斯科特执导,在第十八届超级碗上播出。这支电视广告后来被视作最伟大的电视广告之一,也帮助苹果 Mac 个人电脑打开了美国中产家庭的市场,成为部分孩子的玩伴。
许多当时尚在孩童阶段的科技大佬们,就此接触到了开启互联网时代的机器,山姆・奥特曼就是其中之一。

当时,奥特曼一家已经离开了 “犯罪之城” 芝加哥,搬到美国中西部密苏里州的圣路易斯。在那里,奥特曼不仅多了两个弟弟,而且作为家里老大进入当地小学读书。奥特曼父母稳定的工作,为山姆・奥特曼创造了优渥的家庭条件和相对自由的成长空间,奥特曼有机会接触到科技前沿的最新成果。

  • 8 岁生日那天,山姆・奥特曼收到了一份礼物:苹果公司最新发布的 Mac LC2 个人电脑。这是一款在 1992 年上市的电脑,发售价为 1699 美元,约相当于现在的 2.3 万元人民币。即便对于当时的美国中产家庭来说,这台电脑也相当于一件奢侈品。

与它高昂的价格相比,苹果 Mac LC2 个人电脑的性能并不算优秀,这台电脑的内存只有 4MB,硬盘只有 40MB,放到 20 多年后完全不值一提,但在当时,它已经足够满足一个 8 岁孩子的好奇心和探索欲,正是这台电脑影响了山姆・奥特曼的未来人生走向。

拥有个人电脑后,山姆・奥特曼将其视若珍宝,他把电脑藏在自己的卧室,避免被两个不懂事的弟弟玩坏。每天放学后,原本乐于参加学校活动的山姆・奥特曼,几乎完全放弃了玩耍时间,而是直接赶回家里,查看卧室里的电脑是否 “安全”,电脑也成为他最好的玩伴。

  • 2014 年,山姆・奥特曼在接受《纽约客》的采访时表示,他的人生可以分成两部分:拥有电脑之前和拥有电脑之后。尤其在接触了编程后,他展现出惊人的天赋。而在当时,这个世界的很多地方,大部分 8 岁的孩子根本还没有听说过电脑,更不用说编程或者代码这些词汇了。而山姆・奥特曼通过自学学会了使用代码编写简单的程序,并且能够拆解和重新组装自己的苹果电脑。

就这个时期而言,山姆・奥特曼展现了自己的部分天赋,却仍然只是一个普通天才。为什么这么说?

  • 因为在当时的美国科技界,编程天赋太常见了,这个技能历来都和无数创业天才相挂钩,那些我们耳熟能详的名字,从创建微软的比尔・盖茨,到创建苹果的史蒂夫・乔布斯,再到谷歌两位创始人拉里・佩奇和谢尔盖・布林,还有创办特斯拉与 SpaceX 的埃隆・马斯克,如果我们翻阅他们的人生履历,研究他们的成长经历,都会发现他们有一个共同特点:10 岁之前就开始学习编程。此时,山姆・奥特曼的未来无人知晓,只是一众普通天才里的一员。

如果说编程与个人电脑让山姆・奥特曼成了普通天才,那么他在青少年时期才真正展示出自己的个性,他的某些怪异行为背后有着天才的逻辑。

2001 年,15 岁的山姆・奥特曼前往圣路易斯的约翰・巴勒斯中学就读。在这所学校,山姆・奥特曼做出了一件惊人之举,这件事也使其逐渐进化成更成熟的自己,成为日后举世皆知的 OpenAI 创始人 —— 那位拥有自己名字的天才奥特曼。
16 岁的不羁少年

经常告诉你的父母,你爱他们,并且尽可能经常回家探望。

—— 山姆・奥特曼

与美国的其他地方相比,奥特曼一家所在的密苏里州教育条件较差,在教育系统发达的美国,这个州的高中毕业率不足 90%,名校录取率在美国基本是垫底水平。

但幸运的是,圣路易斯的约翰・巴勒斯中学不仅仅是当地最好的预科学校,也是整个密苏里州最好的学校之一,美国的《华尔街日报》曾将这所学校列入一个 TOP50 榜单,认为它是向常春藤大学输送学生最多的全美高中之一。

  • 令人惊讶的是,山姆・奥特曼并没有像电影里的男主角一样,在刚刚进入这所师资优良的高中时,就展现出超越其他同学的特别天赋,从而成为明星人物。尽管他的成绩在同年级里位列前茅,但这只是普通好学生的标配。在美国的高中校园,受到最多关注的校园明星,永远是擅长一项甚至几项体育运动的阳光帅气大男孩,而不是只会读书和做作业的优等生。
    • 因此,在大部分时候,奥特曼就是一个普通的高中生,像所有人一样上课下课、参加学校活动,唯一不同的是,这个高瘦苍白的高中生喜欢和朋友们讨论最新的科技趋势,并且能够熟悉使用自己的个人电脑,快速用代码编程,写出有趣的游戏或者用得上的社区系统,为枯燥无聊的高中生活增添一些趣味。
      

此时正值 21 世纪初,互联网浪潮席卷而来,山姆・奥特曼在课业之余,始终关注着两个人及两家公司:比尔・盖茨与史蒂夫・乔布斯,微软与苹果。此时他还不知道,自己在未来几年将陆续与这两位科技大佬接触,并且在其中一位大佬的帮助下,做出改变世界进程的产品。

即便在当时,山姆・奥特曼的生活也被这两家公司深深地影响。2000 年,比尔・盖茨移交了 CEO 职位,成为微软的首席软件架构师,2001 年,微软发布了 Windows XP,在 NT 代码库下统一了操作系统,并且在 2001 年发布了 Xbox,进军由索尼和任天堂主导的视频游戏机市场;而苹果在经历 1990 年至 1997 年的公司内斗后,主要产品接连失败,市场份额快速流失,被微软 Windows 系统击败。随后史蒂夫・乔布斯强势回归,重新执掌这家公司。很快,苹果推出了全新一体机 iMac 和笔记本电脑 iBook,并在 2001 年发布了全新操作系统 Mac OS X,开设线下零售店,推出了便携式数字音频播放器 iPod。

  • 15 岁的山姆・奥特曼很快成为这些产品的忠实粉丝,他对科技改变生活这一理念有着比同龄人更深刻的认知。电脑与互联网,不仅成为他与世界的重要连接,也在许多方面给了他更宽广的选择与想象的空间,比如性取向。

多年后,山姆・奥特曼在接受一次采访时承认了拥有一台电脑让他对性取向产生了新的认知,因为在 21 世纪头 10 年的美国中西部地区,作为一名同性恋,生活并不是一件容易的事情。

  • 当他只有十一二岁的时候,他只能选择保守秘密;但他在互联网上发现更多同类之后,这个性取向的秘密不再成为他的负担。

高二时,山姆・奥特曼向家人坦承了自己的同性恋身份。约翰・巴勒斯中学鼓励学生积极沟通,这也给了奥特曼有话直说的勇气。奥特曼母亲在得知儿子是同性恋后非常震惊,但很快,家人对他展示出了更多的接纳与包容。多年后,当奥特曼母亲回忆起奥特曼 “出柜” 那天,仍然止不住地惊叹:“我一直都觉得自己的儿子与众不同,但一直说不出具体哪儿不同,直到那时才知道,他身上有一种去除了性别元素后的迷人气质。”

约翰・巴勒斯,这所成立于 1923 年的私立高中,为奥特曼挡下了不少风浪,也真正遵循了它自己一直以来秉承的多样化价值观与开放友好的氛围。山姆・奥特曼的老师后来在回忆这件事时提到:“山姆的开诚布公给整个学校带来了新的改变,他给所有师生做了一个自我突破的示范,这种感觉就像有人打开了一个很棒的装着不同孩子的大盒子,然后让他们走入了这个世界。”

山姆・奥特曼向整个社区和学校发出了自己的声音,公开 “出柜” 这一行为,也让这位天才人物开始展现自己与众不同的个性。一年后,山姆・奥特曼考上了斯坦福大学,进入了他仰慕的众多科技大佬、创业公司前辈的大学圣地。

值得一提的是,奥特曼的两个弟弟并未在他的光环下黯然失色,一个考上了杜克大学,另一个考上了普林斯顿大学。奥特曼一家成为社区里每个家庭羡慕的对象,但此时仍然没有人知道,奥特曼在未来会获得超乎寻常的成功,他在斯坦福大学的另一个重要决定即将改变他的人生,将他引向另一条光明而曲折的道路。
进入斯坦福大学,追随前辈的脚步

青春真是一件了不起的事情,不要浪费它。世界上所有的金钱都无法挽回你逝去的时光。

—— 山姆・奥特曼

  • 2004 年,18 岁的山姆・奥特曼从约翰・巴勒斯中学毕业,如愿考进了美国斯坦福大学,并且就读于计算机系,学习和网络安全与机器学习相关的知识。

斯坦福大学在美国的地位,相当于国内的清华北大,因为其学术声誉和创业氛围,被誉为世界上最知名的高等学府之一。在每年更新的世界大学榜单排名中,斯坦福几乎都能进入前五,甚至前三。直到现在,斯坦福大学都是全世界最难进的学校,录取率低至 2%,而山姆・奥特曼考入的计算机系,则是斯坦福最重要的院系之一,创立于 1965 年,和麻省理工学院、加州大学伯克利分校、卡内基梅隆大学三所大学的计算机系并称为美国计算机专业的 “四大圣地”。

  • 对于 18 岁的山姆・奥特曼而言,考入斯坦福大学还有另外一层重要意义 —— 他距离众多科技界的前辈更近了。追随前辈们的脚步,奥特曼也来到了这儿。就在几年前的 1998 年,斯坦福大学两位计算机系的学生,谢尔盖・布林与拉里・佩奇,在学生宿舍里创建了谷歌,一举成为从斯坦福大学走出的最著名的科技人物。更有意思的是,布林和佩奇两位创始人经常聚会、研发出谷歌的地方,正是以微软创始人比尔・盖茨名字命名的计算机科学大楼。若干年后,谷歌发展成微软最强大的对手之一。

如果说哈佛大学与耶鲁大学代表着美国传统的人文精神,那么,斯坦福大学则是 21 世纪科学精神的象征。没有斯坦福,就不会有今天的硅谷。除了谢尔盖・布林与拉里・佩奇,斯坦福大学还走出了将近 5000 家公司的创始人,这些公司包括雅虎、惠普、思科、SUN、eBay、台积电、英伟达等。这是一所有着创业基因的学校,早在 1959 年,斯坦福大学就富有先见之明地将学校的 1000 英亩土地以非常低的价格长期租给私人企业和校友创办的公司,并且与这些公司合作,为学校科研和学生实习提供支持,多年后这片土地也成为硅谷的核心,全世界科技创新的聚焦点。

对于山姆・奥特曼而言,当他在 8 岁时第一次接触到苹果电脑,就注定了这辈子将与科技创新打交道。因此,斯坦福正是他的梦想之地,他在这里不仅能快速汲取世界前沿的学术与技术成果,而且能结识志同道合的伙伴,实现自己大胆的想法。

在众多青年才俊聚集的斯坦福,山姆・奥特曼开始展现自己的天赋。大一时,他帮助学校建立了一个自主直升机导航系统,并且顺利攻克了在斯坦福的第一个重要目标,进入了学校的人工智能实验室工作。

这是奥特曼认识 AI 的起点,他在这一时期接触、学习到了最前沿的人工智能的研究方法,不断通过合作项目,与正在研发 AI 应用领域的外部公司接触。奥特曼对 AI 以及 AGI 未来发展的无限可能产生极大兴趣,为日后和埃隆・马斯克创建 OpenAI 打下了基础。

然而,21 世纪初并不属于人工智能,AI 的发展在当时缓慢而枯燥,停留在实验室阶段;与之相对应的是,经历了 21 世纪初期的互联网泡沫后,随着家用电脑的普及和硬件设施的支持,互联网用户数量急速增加,互联网一跃进入了 Web2.0 时代,席卷了全美国甚至全世界的每个角落。

很快,互联网靠着便捷、即时与互动性,催生了一批应用产品,MySpace、Facebook、Youtube 等虚拟社区收获了庞大的用户群,发展出相应的网络文化;Google Map、Google Earth 等提供全球地图、城市街景的便捷服务应用,越来越多地参与到年轻人生活的方方面面;博客与社交媒体的兴起,更是代替了浏览器和门户网站,让年轻人成为内容的生产主体,吸引了无数天才拥进这个行业,发挥着自己的创造力。

互联网改变了时代,也改变了山姆・奥特曼的人生。面对校园里一波又一波的创业热潮,奥特曼无法忍受互联网时代已经到来,自己却置身事外,干坐在计算机系教学楼里埋头读书,等待四年后拿到毕业证书。摆在他面前的有两条路:是中规中矩,作为一位优秀毕业生,拿到大公司的邀约函,挑出其中一家成为普通的程序员,为别人打工做嫁衣;还是释放内心的猛兽,搞一些更酷的项目,实现心里千奇百怪的想法?与当下许多年轻人一样,在稳定的大厂工作和高风险的自由职业创业之间,刚刚进入大学的山姆・奥特曼有些难以选择。但奥特曼很快意识到,他的野心与强势的个性,根本不允许自己成为普通程序员。

  • 2005 年春天,正在斯坦福大学计算机专业就读大二的山姆・奥特曼终于发现了一个机会。一次聚会中,奥特曼发现他的许多朋友都开始使用带有 GPS 功能的智能手机。当时,苹果的 iPhone 系列还未问世,手机市场仍是三星、诺基亚、黑莓等的天下,这些智能手机搭载黑莓、塞班、Windows Mobile 系统,已经能通过 Wi-Fi 和移动宽带,实现随时随地的便捷互联网访问。移动互联网的时代正在悄然到来,改变着人与人之间的交际与生活方式。

山姆・奥特曼琢磨着这件事,始终觉得自己能在这个方向上做点什么。很快,在一次下课后,他在走出教室的瞬间顿悟,正如世界总是在某个机关处突然打开。奥特曼转头看向自己当时最好的朋友兼伴侣尼克・西沃,问了尼克一个问题:“如果我现在打开手机,可以立即知道我所有朋友的位置,那不就太方便了?”

看着尼克的表情从疑惑到兴奋,再到追问是否真的有这种功能的应用,奥特曼知道自己的机会来了。他立即着手考虑实现这一想法的可能性。在观察了一段时间后,山姆・奥特曼得到了更多的反馈支持,他愈发坚信移动定位功能可以帮助促成偶然事件的发生,从而完全改变人们在移动设备上的交流方式。山姆・奥特曼决定创建一个应用程序,让用户之间可以根据各自的位置相互连接,更高效地进行线下社交活动。而这也是山姆・奥特曼成为的起点。

Loopt 的诞生#

如果你认为你会后悔没有做某件事,那么你就应该去做。后悔才是最糟糕的,大多数人对他们没有做的事情感到后悔的次数远多于他们做过的事情。

—— 山姆・奥特曼

山姆・奥特曼决定创业,开发一个能改变时代的应用程序。然而,当时的他只是斯坦福大学的大二学生,年仅 19 岁,既没有任何创业经验,也没有足够的资金与人脉,唯一能够依靠的只有他的天才头脑,以及身边同样激情满满、想要干出一番大事业的朋友们。

山姆・奥特曼在盘算自己的优势和劣势后,很快有了动作。他决定先寻找合适的帮手,尤其是在产品和技术这两方面能够帮上忙的人。奥特曼第一个找到的人,就是此前提到的尼克・西沃。尼克・西沃是奥特曼的同班同学,典型的理工技术男,从长相就能看出他内核稳定,是个非常靠谱的朋友,两人在斯坦福大学新生入学仪式上相识后,很快熟络起来。他们不仅性格互补,而且有着一致的价值观与相近的想法,尽管彼此性格不同,两人还是很快坠入爱河,成了伴侣。当山姆・奥特曼向尼克提出自己的创业想法时,尼克毫不犹豫地站出来支持他。

尼克・西沃擅长技术,无论奥特曼准备做什么,他都是非常好的帮手,让奥特曼能够腾出手来,花费更多时间思考商业、运营与管理部分的事情,但他们此时还缺一个帮手 —— 一个拥有一些艺术细胞、紧跟潮流、能产生绝佳创意的产品经理。

山姆・奥特曼和尼克开始在各个社交场合中留意同样有创业想法并且审美一致的同学。很快,他们在一次创业思维领袖研讨会上,认识了同专业的阿洛克・德什潘德。阿洛克是个帅气的印度小伙子,他不仅聪明机敏,还是一个很好的倾听者,擅长在聊天过程中挖掘出别人的真实需求,而这也是产品经理工作素养中的第一要义。奥特曼和尼克单独找到阿洛克,并分享了他们关于移动定位产品的想法,阿洛克表示很感兴趣。三人开始频繁见面,探讨产品的方向,并在这一过程中逐渐摸索出分工,找到适合自己的角色:阿洛克负责产品开发和设计,尼克负责技术开发和实施,而山姆・奥特曼则担任类似于 CEO 的角色,主要负责战略规划和管理,在创业前期可以简单理解为两件事:募资与推广合作。

很快,Loopt 诞生了,山姆・奥特曼将 Loopt 描述为一个基于 GPS 位置分享的移动应用程序。它的主界面调用了实时更新的在线地图,用户打开程序后,不仅能够即时看到自己和朋友们当下所在的位置,并且能够实时更新、分享位置变化,轻松地了解到他们的朋友在哪里,以及他们正在做什么。

Loopt 的测试版本一经推出后便大受欢迎,不仅在斯坦福大学内部,还有学校周边的商户,甚至在硅谷内打工的很多程序员与工程师,全都下载并且使用了这款应用。这种能够实时分享用户位置信息的功能,在 2005 年时是一个巨大的创新。将近 10 年后,微信才上线了发送位置的功能。

  • “微信之父” 张小龙早年曾在国内第一家提供 140 字以内迷你博客服务的网站 “饭否” 发过一条内容,提起自己作为产品经理时,听到过一个热词 “SoLoMo”,分别由 Social、Local、Mobile 三个单词的开头字母组成,代表 “社交的”“本地的”“移动的” 三个单词,组合成的意思就是 “社交本地移动”。2005 年的 Loopt 做的就是这个方向,奥特曼用这个简单的功能精准击中了当时年轻人热衷于社交的属性与需求,大获成功。

许多年后,山姆・奥特曼在接受采访时,曾经回顾自己在斯坦福上学时创立 Loopt 的经历,他说:“你也不想犯这样的错误,就像硅谷 21、22 岁的大学肄业生都会说,我要在 3 个月内解决世界上所有的问题,如果在 3 个月内没有解决任何问题,你也不要感到失望,放弃它,转去做下一件事。” 幸运的是,奥特曼不需要在失败中不停尝试,他没有走太多弯路,就找到了自己想做的项目,加入星火燎原般的创业大军。奥特曼后来在接受媒体采访时说道:“在职业生涯早期,人们往往更愿意冒险,因为那时你没有什么可失去的,却可能得到很多。我们可以先下小的赌注,如果赌输了会输掉 1 倍,但如果成功了,则可以赚到 100 倍,之后我们再沿着这个方向下更大的赌注。”

之后一段时间,山姆・奥特曼与两位伙伴为 Loopt 添加了越来越多的功能:如果使用者与朋友的距离很近,可以直接通过应用发信息约他见面;如果使用者刚刚到达这个新区域生活,可以通过 Loopt 发现周围的新店铺或者其他值得一逛的地方;此外,位置周围的商户也可以通过 Loopt 向该区域的所有用户发布团购信息,或者是限时优惠活动,吸引用户上门。

此外,作为用户隐私安全的坚定拥护者,尼克还提前解决了 Loopt 发展之路上的一个隐患,他们提前洞察了用户在社交网络上对隐私和安全问题的担忧,在安全性上做了不少颇具创新性的产品设计。比如,用户可以控制是否展示自己的位置信息,并能自主选择与谁分享这些信息,这个简单的设计让用户能够享受位置共享的好处,却不用担心他们的位置信息被公开或滥用。

山姆・奥特曼和 Loopt 凭借创新和安全性,打开了潜在的用户市场,崭露头角,在硅谷打响了自己的名字,获得了不少投资人与投资机构的关注。但没有任何创业经验的他们,还是在推广 Loopt 与商业合作方面磕磕绊绊,他们急需一位有经验的导师,并且拿到一笔启动资金,让这款应用能够以完全体的形态真正地进入市场,与其他应用程序相厮杀,并且获得认可。这时,山姆・奥特曼人生里最重要的贵人出现了,那就是早期创业孵化机构 Y Combinator(即 YC 孵化器,文中有时简称为 YC)的创始人保罗・格雷厄姆。关于保罗的传奇故事,我们会在后文重点讲述。现在让我们把目光停留在 YC 和奥特曼的身上,看看这个孵化机构是怎样激发了山姆・奥特曼的硅谷野性。

  • 在 2005 年的夏天即将到来时,山姆・奥特曼趁着学校放假,开始与 YC 接触。此时,YC 孵化器同样是个成立不到 4 个月的新生儿,正在寻找第一批值得投资的初创项目或者初创团队。

美国小说家库尔特・冯古内特在《猫的摇篮》这本书里创造的可怕物质,这种物质可以毁灭所有的含水物体。

山姆・奥特曼参与 YC 的创业咨询,通过了后来在 YC 内部非常有名的年轻创始人测试,这个测试旨在确认一件事:眼前这个刚成年不久的小孩,是否有可能领导成年人?奥特曼的测试结果让所有人大吃一惊,因为他是一个天生的管理者,深谙糖果加大棒的管理方法:既能随时向他人示好,又保持着愤怒。保罗・格雷厄姆笑着形容山姆・奥特曼:如果你惹急了他,他会装作要把 ice-nine(九号冰加进你的食物。

多年以后,保罗・格雷厄姆再次回忆起这次测试的结果时,认为山姆・奥特曼这个语速极快、精力旺盛的年轻人天生极度擅于掌控权力,所以他在创业早期就能获得成功。

当奥特曼带着 Loopt 的产品原型与保罗・格雷厄姆相遇时,两人一拍即合。格雷厄姆点名 Loopt 成为 YC 孵化器成立后首批资助的八家初创公司之一,山姆・奥特曼作为 Loopt 的创始人,不仅获得了 6000 美元的启动资金,并且受到邀请,在那个暑假搬到了位于马萨诸塞州剑桥的 YC 孵化器办公室,成为入驻 YC 的第一批学员。

“人生贵人” 保罗・格雷厄姆#

我认为,对我来说一直有效的基本模式,是花时间探索很多事情,尝试很多事情,试着像初学者一样思考什么可行,什么不可行。你要相信自己的直觉,尽可能快速、低成本地追求或者接触更多的事物,然后非常诚实地告诉自己,什么是好的,什么是不好的。最后,最难的部分是砍掉所有对你没有价值的东西,把所有注意力一次又一次地集中在更有价值的地方和事物上。

—— 山姆・奥特曼

  • 2005 年的夏天,山姆・奥特曼在马萨诸塞州剑桥 YC 的办公室,尼克在德克萨斯州阿灵顿的家中,阿洛克回到了印度,但三人从未停止过沟通与工作,逐渐将 Loopt 产品打磨成形。

然而,相比 Loopt 项目的快速落地,山姆・奥特曼在这个阶段获得了更加宝贵的人生经历:他结识了一位精神与实操兼备的导师 —— 保罗・格雷厄姆。虽然 YC 孵化器与 Loopt 项目几乎在同一时间开始推进,但 YC 的创始人保罗・格雷厄姆,相比斯坦福在读学生奥特曼,早已是纵横美国科技界的大佬。

早在 1995 年,时年 31 岁的保罗・格雷厄姆就与罗伯特・莫里斯联合创立了 Viaweb,这是个基于 Web 的应用程序,允许用户使用 Web 浏览器,建立并且托管他们的在线商店。在这个过程中,用户几乎不需要掌握任何专业的技术知识,相当于人人都可以通过 Viaweb 的服务获得技术支持,开设个人网店。在那个年代,Viaweb 被认为是第一个应用程序服务提供商,1998 年夏天,当时雅虎公司的创始人兼 CEO、华裔企业家杨致远看中 Viaweb 的潜力,完成收购,格雷厄姆在挖到人生的第一桶金后,开始潜心钻研新的编程语言。

如果你以此判断保罗・格雷厄姆,认为他只是一个出色的程序员,那将会大错特错。如果进一步翻开保罗・格雷厄姆的履历,你会有更多有趣的发现,并且能从中找到他如此喜欢并且支持山姆・奥特曼的原因:

格雷厄姆祖籍在英国,他的父亲是一位设计核反应堆的物理学家,在父亲那儿,格雷厄姆开启了对科学和数学的兴趣,与山姆・奥特曼一样,格雷厄姆从小就对电脑十分着迷。在初中时,他参加学校的天才项目,第一次接触到 IBM 的大型机后,很快就学会了编程。

格雷厄姆被媒体记者称为 “黑客哲学家”,因为他不仅仅擅长计算机技术,还获得了哲学文学专业的本科学位,并且在就读哈佛大学后,格雷厄姆陆续获得计算机科学理学硕士和哲学博士学位。但因为不喜欢埋头写论文,格雷厄姆断定自己不适合学术界,骨子里的黑客精神,驱动他开始研究新的编程语言 LISP,似乎就此要走上高级黑客的道路。然而,在做毕业设计的过程中,格雷厄姆意外地发现自己被绘画这一艺术所吸引,他决定遵从自己内心的声音,于是进入罗德岛的设计学院学习,并在之后远赴意大利佛罗伦萨参加那里的绘画课程。当他结束自己的意大利艺术之旅,回到美国的时候,格雷厄姆发现自己破产了,为了继续尝试成为一个画家,他间歇性地通过编程咨询的兼职工作,负担自己的生活费用。

保罗・格雷厄姆的个人简历可以被视作远古时期 “斜杠青年” 的典范。后来,他的多篇博客内容集结成一本书,书名叫作《黑客与画家》。在书里,格雷厄姆将黑客形容成一位创造者,和画家、建筑师、作家这些职业一样,都是艺术家的一员,而且格雷厄姆认为,黑客是程序员的最高境界,因为他们的核心价值都在于创造,而不只是简单写代码。格雷厄姆提出,事实上对于很多成功攻破政府和银行等最高安全级别系统的黑客而言,他们成功的关键在于通过创造性思维找到漏洞的线索,而非纯粹在技术方面的突破。

保罗・格雷厄姆将黑客与医生相比,于是有了这样的描述:“黑客改造语言获得的乐趣,就好比外科医生摆弄病人的内部器官。真正的黑客语言总是带着独属于黑客自己放纵不羁、不服管教的个性。”

因此,在 2005 年,保罗・格雷厄姆在山姆・奥特曼这名年轻人身上,看到了与自己相似的、如杰出黑客般的潜质:他们都喜欢侵入和破坏,同时具备创新精神;他们喜欢做外人看起来不应该做的事,不喜欢别人告诉他该做什么;他们的聪明才智使他们有能力驾驭他们心里的想法,并且得以实现。格雷厄姆在奥特曼身上看到了更年轻时的自己,他将奥特曼身上的创造性思维归结于一种出众的特质:“杰出、优秀、正直、有底线的优秀人才,他们不服从管教,不愿意委身于社会大环境的潮水之中而无法辨别方向。然而,很自负的人必须培养出敏锐的感觉,及时发现周围形势的变化,知道如何脱身。”

而山姆・奥特曼也没有让自己的这位导师失望,在 YC 和格雷厄姆的帮助下,他几乎凭借着一己之力,为 Loopt 开拓市场,彻底激发了自己的社交属性。只要和移动运营商们开会,他都能找到突破口说服对方合作,从而让 Loopt 应用程序在投入市场初期就获得了足够的展示机会,也将 Loopt 的估值推升至了 1.75 亿美元,成为 YC 首批投资的 8 个机构里的佼佼者,仅次于 YC 孵化的最成功公司之一、如今估值超过 100 亿美元的 Reddit。奥特曼在那个夏天也付出了代价,因为多天疯狂工作超过 20 小时,他一度得了坏血病,被送进医院治疗。

那个夏天即将结束时,首轮 8 家公司的 15 位创始人依次走上讲台,进行 15 分钟的演讲,保罗・格雷厄姆毫不掩饰对山姆・奥特曼的欣赏。后来,他在《写给学生们的创业指南》中提到:“奥特曼是一个很特立独行的人,我还记得当我第一次见到他时,在短短的 3 分钟内,我的脑子里冒出了一个想法 —— 啊,19 岁的比尔・盖茨估计也就这样了吧。

史上最成功创业孵化器的诞生

想要开启创业之路,你并不需要拥有一个绝妙的点子。创业公司赚钱的方式是为人们提供比他们现在拥有的更好的技术。但是人们现在拥有的东西往往很糟糕,你甚至不需要聪明才智就可以做得更好。

—— 保罗・格雷厄姆

2005 年 6 月,山姆・奥特曼成为 YC 孵化器的第一批学员,遇到自己的人生贵人保罗・格雷厄姆,一段互相成就的故事正式开启。然而,在这之前,YC 孵化器的诞生背后也有一段同样传奇的故事,最终它能成为史上最成功的创业孵化器,离不开创始人保罗・格雷厄姆在 YC 诞生之初的天才想法。

2005 年 3 月,保罗・格雷厄姆回到自己的母校哈佛大学,发表了名为《如何创业》的演讲。格雷厄姆讲述了自己创办 Viaweb 的经历,台下的学生受到鼓舞,在提问环节询问格雷厄姆是否考虑创办一家咨询类的公司。当时,他正巧厌倦了写博客和研究编程的生活,决心出来走一走,哈佛的这场演讲让他重新反思自己的人生经历:尽管此前他一直打算进行天使投资,但距离他卖掉 Viaweb 变得足够有钱已经过去了 7 年,他仍然没有一个具体的计划。

几天后,格雷厄姆与当时的女友杰西卡・利文斯顿一起吃晚餐。饭桌上,杰西卡聊起自己在一家投资银行的工作。她并不喜欢它,正在面试波士顿一家风险投资公司的营销总监职位。格雷厄姆认为风险投资公司正在做的事情非常可笑:它们花费很长时间来做决定,以至于频繁错过机会。同时,格雷厄姆提出了自己思考多日的想法,关于风险投资这件事,他认为投资者应该进行更多、更小的投资,应该资助年轻的黑客创始人,而不是用大笔钱去供养那些西装革履的家伙。这即是 Y Combinator——YC 孵化器的设想雏形。

在回家的路上,保罗・格雷厄姆逐渐明确了自己的决心,他决定拿出 10 万美元开一家自己的投资公司。杰西卡也同意辞去工作,参与这家投资公司的运作。在接下来的几天里,格雷厄姆还找到了另外两位好友,也就是他早在 Viaweb 时期就合作过的罗伯特・莫里斯和特雷弗・布莱克威尔,两人很快答应加入,并且每人加投了 5 万美元。就此,一个在未来影响硅谷投资生态的种子基金成立,并且以 20 万美元的资本开始正式运作。

成立之初,保罗・格雷厄姆和伙伴们还没有想好投资公司的名字。起初内部讨论时,他们称之为 “剑桥种子公司”。但这个名字从未面世,因为几天后当格雷厄姆等人对外公开宣布它时,已经把名字改成了 Y Combinator,理由是他们正在做的事情很可能是全国性的,不应该被束缚在一个地名上,哪怕 “剑桥” 是高精尖的象征。

那么,Y Combinator 又是什么?这个名字来自一个计算机术语,意思是启动其他程序的程序。在格雷厄姆眼里,YC 不仅仅是一个创业孵化器,更是一位创业导师。

初创时期,YC 的筹备工作也十分仓促,他们将公司选址在剑桥,因为格雷厄姆的朋友恰好可以提供一个免费的住所。当时,一切都是未知,所有人都兴奋不已,虽然没人知道 YC 能否成功,未来的路是否好走。很快,格雷厄姆等人明确提出 YC 不要成为什么样的机构,比如当时硅谷和其他各地存在的那些 “孵化器”,都不是 YC 的榜样,而是反面教材。

为什么这样说?传统的孵化器会为创业者提供从头到尾的全套服务,这是从 20 世纪 90 年代继承下来的玩法,投资公司为创业者提供大笔资金,并且要求拿到超过 50%,甚至更高的控股权。初创公司在一夜之间改旗易帜,创始人沦为了投资者的打工仔。

在 YC 之前,创业者种子资金的来源非常随意。很多人会从自己亲戚家或者某位朋友的富有叔叔那里得到第一笔钱,可能是 1 万美元,来开启创业生涯。这时候,双方的交易条款往往是一场灾难。通常投资者、创始人或者律师都不知道这种投资的标准化条款文件应该是什么样子。所以格雷厄姆认为他们颠覆传统的第一步,就是需要去定义并且成为种子资金的标准来源。

保罗・格雷厄姆以早先创业 Viaweb 时所获得的种子资金为模板来模拟 YC 的投资模式。当时,他们从一位朋友朱利安那里得到了 1 万美元,创建了 Viaweb 并且开始运营工作。幸运的是,朱利安曾经是一家媒体公司的总裁,同时也是一名律师,她很快为格雷厄姆撰写了所有合同文件,并且教会了格雷厄姆等人一些商业知识,比如在危机中如何保持冷静并解决问题。作为回报,朱利安获得了 Viaweb 10%的股份。格雷厄姆曾经认为朱利安在这笔投资中大赚特赚,但一秒钟后他便意识到,如果没有朱利安,Viaweb 永远不会成功。因此,这对于两方来说都是一笔成功的交易。由此,格雷厄姆认为 YC 只要延续这个投资模式,一定会找到能够长久发展、合作共赢的空间。

3 月底,YC 创始人开始收到初创者们发来的项目申请邮件,之后便打印出所有电子邮件,开始手动给它们评分,就像老师在批改学生的考试卷。第一批申请比预期的要多,其中很多的项目申请者还是大学生。格雷厄姆知道学生们已经在为自己的暑假制订计划,所以 YC 创始人做了一件后来他们不断告诉每个初创公司的年轻人,他们最需要做的事情:快速启动。于是,他们决定在接下来的夏天,资助第一批创业公司。

这个时间节点对于大部分申请者来说,机会成本足够低,就算项目失败他们还可以回去上学或者找一份正式工作。同时,暑期项目的长度和结构非常适合格雷厄姆的设想,他们希望为早期初创公司提供 “一个学期” 的培训,以帮助他们驾驭公司身份,创业者必须搬到他们所在的地方 —— 马萨诸塞州剑桥。接下来的 3 个月时间,YC 将在创业的最早阶段与创业者合作。

  • 他们给的启动资金,刚好够初创业者在这段时间内全身心投入,实现他们对自己项目的所有想法。格雷厄姆认为,因为业务方面对年轻的创业者来说是陌生的挑战,他们能够减轻这些琐事带来的痛苦,引导他们完成他们需要做的一切,包括合并、发行股票、任命董事会成员等。他们还开发了一系列融资文件,创业者可以使用这些文件来节省他们的法律费用,并且弄清楚如何真正廉价地启动和运营初创公司。

  • 6 月,夏季创始人计划正式开始,YC 在所有收到的 400 份夏季项目的申请中,接受了其中的 8 个。于是,在这个夏天,保罗・格雷厄姆和山姆・奥特曼相遇了,他们将在未来开启 YC 的新时代。

颠覆硅谷的 YC “黑手党”#

夏季创始人计划保留了传统暑期工作的许多特点 —— 你必须在暑假搬到剑桥,我们会给你足够的钱,维持一个夏天的生活,你可以着手解决真正的问题 —— 这些都像一份传统暑期工作。但是,请注意,你在这里是为了自己工作,你可以在你喜欢的时间和地点开始工作,你不会获得薪酬,但会拿到一笔种子资金开始你的项目。到了夏末会发生什么?这取决于你。你可以选择解散你的初创团队,或者继续前进。如果你前途无量,我们会帮助你获得更多资金。

——YC 夏季创始人公告

在 YC 创立之初,没有人注意到这个有点新奇古怪的初创公司孵化器,甚至就连保罗・格雷厄姆自己也不知道 YC 最后能够大获成功。因此,在开启第一次夏季项目时,保罗・格雷厄姆和他的伙伴们甚至都没想过能从这些项目中赚到钱。他们开玩笑说,自己投资的钱是教育费用和慈善捐赠的结合。因此,当时 YC 的宣传口号是:与其在大公司无聊地实习,不如赢得 5000 美元,在保罗・格雷厄姆,还有他的朋友、麻省理工大学莫里斯教授的指导下,开展自己的创业项目 —— 这两个家伙开发出在线商店软件 Viaweb,在 1998 年将其以约 5000 万美元的价格卖给了雅虎。

令格雷厄姆意外的是,他们遇到的第一批项目竟然出奇地好。其中 4 个初创项目在 2005 年的夏天结束时,发展成了正规的公司,包括社交地图服务 Loopt、社交新闻站点 Reddit、移动支付服务 TextPayMe,以及在线日历 Kiko。

这些项目背后的年轻创业者第一次向全美国的科技圈展示了自己惊人的才华 —— 山姆・奥特曼创立的 Loopt 因为移动互联网时代的到来,在短时间内收获 400 万用户,未来可期;Reddit 在 2006 年被康泰纳仕收购,价格高达 2000 万美元,两位主要创始人之一的亚历克西斯・瓦尼安,在 23 岁的年纪成了千万富翁,后来他又陆续创立了几家初创公司和风险投资公司,并和美国网球巨星塞雷娜・威廉姆斯结婚;移动支付服务 TextPayMe,在 2006 年被巨头亚马逊收购,他们在参加 YC 前,原本想做一个名为 FireCrawl 的在线安全服务公司。

而在线日历公司 Kiko 不仅证明了有天赋的人不会被埋没,而且很好地体现了格雷厄姆与创业者的关系,并不仅限于项目本身。虽然 Kiko 在推出后不久,就因为谷歌日历的出现黯然失色,退出了市场,在 2006 年以 25.8 万美元的价格在 eBay 上贱卖,但是当 Kiko 的两位创始人重新回到剑桥的 YC 办公室,格雷厄姆和杰西卡又为他们制订了新的计划,帮助他们创立了直播网站 Justin.tv,获得了 720 万美元的风险投资,这个网站后来成了拥有 4000 多万注册用户的直播社区,发展成为价值超过 150 亿美元的企业。

格雷厄姆回忆起 YC 在 2005 年的尝试时,提到当时其他人很难意识到 YC 的作用,但他不怪那些不认真对待 YC 的人,因为他们自己一开始都没有认真对待第一个暑期课程。但随着那个夏天的进行,YC 创始人对初创公司的表现越来越感到惊喜。杰西卡和格雷厄姆甚至发明了一个术语 “YC 效应”,来描述当某人意识到 YC 可能是一个重要机会的那一刻 —— 当人们来到 YC,在第一个夏天的晚宴上发言时,他们可能带着来向一群童子军发表演讲的态度;但当他们离开大楼时,他们都在说 “哇,这些公司可能真的会成功”。

这并非夸大,因为 YC 的出现也彻底颠覆了硅谷的创投模式。

保罗・格雷厄姆本身就是从创业者的角度来进行思考的,通常来说,YC 投资金额和占股比例为 2% 到 10% 之间,取决于创业公司具体情况,大部分时候占股比例为 6% 至 7%,这远远低于传统孵化器的占股比例。此外,YC 只为创业者提供第一年的资金,此后他们更愿意让创始人走出去,直接面对市场和行业,获取外界的资金和支持。

自那时以来,YC 在硅谷的影响力不断增长。有些人把它日益扩大的毕业生网络称为 YC “黑手党”。他们保护自己,合作无间,并且个个都把格雷厄姆视为自己的导师,而其中一些人在成功之后,也进入了投资人和导师的队伍,帮助更多人。

所以在 2005 年的 9 月,当格雷厄姆看到他们资助的第一批项目获得很好的效果时,他们决定继续做这件事,并扩大为每年资助两批创业公司。他们将第二批计划放在了冬日的硅谷,因为湾区的创业者密度远远大于波士顿或者剑桥,同时湾区的天气也更好,谁不喜欢阳光晒在身上的感觉呢?格雷厄姆不希望其他人复制 YC 的模式,而是希望 YC 成为专属于硅谷的 YC。但是,由于没有足够的时间去做准备,YC 冬季项目没能在伯克利进行,他们最终选择了旧金山湾区西南部的山景城,硅谷的重要组成部分。

一切都还是初创的样子,有一个经典的画面:在加利福尼亚州的第一次冬季创始人晚宴上,格雷厄姆和杰西卡在觥筹交错之外,不得不轮番警告在场的年轻创业者不要用手碰墙或者依靠墙壁聊天,因为墙壁上的油漆还没干透。

事实证明山景城是一个理想地点,格雷厄姆将 YC 搬到硅谷的决定也非常明智。2006 年之后,类似 YC 的孵化器如雨后春笋般出现,帮助不同的创业公司从一行代码发展成一家真正的公司。

bootstrap 在英语中指 “鞋带”,因为英语中有一句谚语 “pull oneself up by one's bootstraps”,即 “拎着鞋带把自己提起来”,所以 bootstrap 被用来代表自力更生的精神。

此时,保罗・格雷厄姆已经先行一步成了教父般的人物,他在 2005 年哈佛大学的那篇演讲《如何创业》,被人不断翻出重新阅读。商业评论家说,这篇演讲和史蒂夫・布兰克的《顿悟的四个步骤》,还有埃里克・莱斯的《精益创业》,塑造了现代企业家的精神:bootstrap 。很快,格雷厄姆等人的话语成为年轻创业者们口口相传的创业圣经,比如,从一个最小可行性产品开始,快速迭代,宁愿要十个狂热粉丝,也不要一万个觉得你还可以的客户……

后来格雷厄姆还在《黑客与画家》一书里提到:在一家创业公司,相同的时间内,聪明的黑客可以完成超过普通职员 36 倍的工作 —— 这不仅颠覆了我们所知的传统的职场分工模式,也催生了创业这件事。因为黑客是不遵守规则的,这正是黑客攻击的本质。

此外,YC 的成功还得益于保罗・格雷厄姆的妻子杰西卡・利文斯顿。两人配合无间,格雷厄姆判断申请者的技术能力,杰西卡擅于识人。他们非常看重 20 多岁的人,因为这个年纪的人有无数优势:超强的耐力、贫穷所激发出的斗志,以及无牵无挂、无知无畏的生活状态。这句话在某种意义上说的也是保罗・格雷厄姆自己,以及他的学生山姆・奥特曼。

2005 年成为格雷厄姆与奥特曼友谊的起点,当山姆・奥特曼离开 YC 孵化器位于马萨诸塞州剑桥的办公室时,得到的不仅仅是每个创业者人均 6000 美元的资金、保罗・格雷厄姆的宝贵建议,以及一个相对成熟版本的 Loopt 应用,他还将在未来得到一件宝贵的礼物,一个他当时从未想到的、与 YC 有关的职位。

令人惊讶的是,这个决定做得很快,且并没有像想象中一样受到父母阻拦。当奥特曼获得父母的支持后,他离开 YC 剑桥办公室,第一时间回到斯坦福大学,找到了两位正准备新学期计划的联合创始人,奥特曼毫无保留地将自己在 YC 的见闻分享给了尼克和阿洛克,并且说出了自己计划辍学全职开发 Loopt 的决定。他坚定地告诉两位伙伴:“生活不是彩排,时间非常有限,而且过得很快。我想做让我自己觉得快乐和满足的事 —— 毕竟很少有人在死后数百年仍然被人们记住。现在,Loopt 就是我想做的事。” 这段发言仿佛一份闪着金光的召集令。

令奥特曼没有想到的是,几天后,尼克和阿洛克陆续找到他,决定加入他辍学创业的旅程。就此,包括山姆・奥特曼在内的 Loopt 三人创始团队,全都决定提前结束他们在斯坦福大学的学生生涯,全力以赴追逐梦想。很多年后,当山姆・奥特曼回到斯坦福大学教授一门创业课程时,他提到了自己曾经的辍学经历。当有人提问什么样的人会选择辍学时,奥特曼说:“首先,你必须要有足够的胆识和勇气,此外,你得特别爱自己所要做的事情,你得爱自己的创业项目,愿意为此放弃一个本该更加顺遂的人生。”

这份胆识和热爱,令奥特曼获得了回馈。

好的想法成就了无数天才。不仅在斯坦福,在硅谷,也在全美各地,甚至在遥远的中国,这个道理都是通用的。有时一个小点子就是一粒火种,造就出一个盖世英雄。互联网催生了无数的天才想法,涌现了诸多英雄人物,在各自的领域改革创新,如星火般燎原,成就非凡的神话。山姆・奥特曼很快成为其中一个。但有趣的是,奥特曼与许多美国大佬们的选择都更加激进。

  • 与之相比,中国互联网界叱咤风云的人物则是清一色的学霸:清华大学与麻省理工毕业的搜狐创始人张朝阳,中国人民大学毕业的京东创始人刘强东,在北京大学读完本科后到美国布法罗纽约州立大学读硕士的百度创始人李彦宏,在西安交通大学读完四年本科被保送本校研究生的奇虎 360 创始人周鸿祎,武汉大学毕业的小米科技创始人雷军…… 这些熟悉的名字撑起了中国互联网的大半边天。不同的文化背景引发不同的选择,但最终中美顶流创业者们还是走上了殊途同归的道路。

Loopt 的三位创始人辍学后,很快搭建起技术和产品团队,奥特曼邀请了童年时期的好友、也就是后来进入麻省理工学院的里克・佩尼科夫与他的兄弟汤姆・佩尼科夫加入团队。到了 2005 年 10 月,这支团队已经足够支撑大规模的运作。
此时,山姆・奥特曼判断 Loopt 的产品服务与功能已经足够完整,他开始考虑筹集更多的资金来建立业务,保罗・格雷厄姆也支持他这么做,因为只有在自由市场获得融资,奥特曼的项目才算真正从 YC 毕业,才可以走得更远。此时,山姆・奥特曼在斯坦福大学的就学经历起到了关键作用,即便他中途辍学,也并不影响奥特曼能够利用斯坦福出色的校友网络,比如斯坦福创业平台就帮助他接触到了硅谷的许多顶级风险投资公司

在考虑了多个不同的融资方案之后,山姆・奥特曼最终做出了最正确的决定:他接受了当时世界上最大的两家风险投资公司红杉资本和恩颐投资共 500 万美元的 A 轮融资。奥特曼相信,这两家投资过谷歌、雅虎、PayPal、Tivo 以及其他众多知名科技公司的投资方,能够帮助 Loopt 走得更远。之后,山姆・奥特曼和他的团队搬进了红杉资本提供的孵化空间,在那里,他们短暂地与 YouTube 的创业团队共享一个空间,直到正式搬进属于 Loopt 自己的第一个真正的办公室。

到了 2006 年,Loopt 不断扩张,迅速发展成拥有 50 多名员工的创业公司,并在澳大利亚、美国等国家的多家无线运营商和电信公司上推出了自己的服务,同时也支持大部分带有 GPS 功能的手机共享定位,包括当时最火的黑莓手机。此时,Loopt 的功能也愈发完善,用户不仅能通过详细的交互式地图即时获取朋友的位置和活动信息,联系并开启当天的社交生活,他们还可以在社交网络、社区和博客上实时分享位置更新,标记照片或者互动评论。

山姆・奥特曼成功实现了自己最初的想法 —— 他创造了一种革命性的社交地图服务,靠一己之力改变了互联网。

  • 在移动互联网时代到来前,奥特曼摸到了先机,预测了人们在移动环境中联系、分享和探索的方式。

  • 2007 年 7 月,山姆・奥特曼再次帮助 Loopt 获得了 825 万美元的 B 轮融资。回看同一时期的中国,互联网网民总人数也达到了 1.62 亿,以仅次于美国 2.11 亿的网民规模,位居世界第二。完美时空、金山、巨人网络、阿里巴巴等中国互联网公司陆续挂牌上市,股价总市值膨胀到近 700 亿美元。但是,中国并没有出现类似于 Loopt 的移动应用公司,主要互联网企业集中在网络游戏、B2B 电子商务、门户传媒和软件应用四个领域,距离微信出现还有 3 年半的时间。

奥特曼和 Loopt 的成功与美国提前进入移动互联时代有关,但这不意味着一切都一帆风顺。历史经验表明往往一家公司最辉煌的时候,危机也同时在逼近。Loopt 的成功背后也存在着不少隐患,对于年少成名的山姆・奥特曼而言,如何面对这些挫折才是真正的挑战。

2007 年下半年,Loopt 开始面临用户增长停滞的挑战,山姆・奥特曼不得不解雇多名员工,降低公司运营成本。奥特曼将这种经历描述为 “心力交瘁的时刻”,他开始努力从所有失败的决策中学到一些经验,同时在性格上变得更加谦虚而坚定,并将这些经历作为成长和改进的垫脚石。后来在接受采访时,山姆・奥特曼说:“我认为失败是创业过程的一部分。你必须愿意冒险,并尝试新事物,做出新的决定,即使这增加了失败的风险。” 就这样,山姆・奥特曼和 Loopt 在曲折的道路上继续前进,并仍然试图找到新方法打破瓶颈。
奥特曼与乔布斯

我的大脑好像缺了一条在乎别人看法的回路。

—— 山姆・奥特曼

2008 年,山姆・奥特曼和 Loopt 还在持续前进,奥特曼搬到了硅谷附近的山景城,做他一生最擅长的事情:破解、构建和创造。

2 月,Loopt 和美国电视网络传统三巨头之一的 CBS 达成了一项合作,双方合作开发基于 GPS 位置信息的广告,这一合作帮助 Loopt 短暂解决了用户增长问题 ——CBS 庞大的用户群,为 Loopt 的移动网站页面带来每月超过 7500 万次的浏览量。

对此,山姆・奥特曼和投资人都很乐观,假设 Loopt 可以持续获得新的用户增长,并且在移动互联网端口保持领先,他们就能拥有一个有利可图的商业模式,很多广告商都愿意为给用户定点推送广告而支付额外费用,而 Loopt 的商业模式具有非常大的优势,因为他们不仅拥有基于用户档案的人口统计信息,而且还知道用户在某个时间的精确位置及行动轨迹。

Loopt 的成功也被媒体大肆宣扬,山姆・奥特曼被《商业周刊》杂志评为年度 “技术领域最佳年轻企业家”。然而,与媒体的赞誉相比,2008 年发生的另外一件事让山姆・奥特曼本人真正地感到兴奋。在后来每次接受采访时,山姆・奥特曼都会不断回忆:“作为科技企业家最美好的时刻之一,是我遇到史蒂夫・乔布斯的那一天。”

那是在 2008 年 6 月,22 岁的山姆・奥特曼在苹果的全球开发者大会上,展示了适用于 iPhone 的 Loopt 应用程序,这引起了他的偶像史蒂夫・乔布斯的注意。奥特曼永远都记得乔布斯对 Loopt 的评价,他不无骄傲地说:“乔布斯说我的应用程序很酷。在那个黑暗的房间里,我的眼里只有乔布斯戴着的闪闪发光的眼镜,那两个圆圈永远留在我的脑海里。”

很快,Loopt 入选为苹果应用商店里第一批应用程序,而山姆・奥特曼本人也受邀在 2008 年 7 月 11 日,在具有划时代意义的 iPhone 3G 正式发售时上台展示 Loopt。山姆・奥特曼抓住这个机会,冲进了由乔布斯搭建的新世界的大门,分享了苹果销售奇迹带来的巨大市场蛋糕。

  • 2007 年 1 月 9 日,乔布斯揭开了第一代 iPhone 的神秘面纱,重新定义了手机。2008 年对于乔布斯和苹果而言也意义非凡,新闻媒体后来将 2008 年描述为 “也许是苹果全球开发者大会产品介绍的高峰年”,开发人员分成三个模块,分别介绍了 iPhone、Mac 和 IT,各场主题演讲介绍了适用于 iPhone 和 iPod Touch 的 App Store、稳定版 iPhone SDK、面向全球市场的补贴 3G 版 iPhone 等等。

  • 更重要的是,苹果在这一年进入中国市场,北京、上海的苹果直营店先后开张,一年后的 2009 年 8 月 28 日,中国联通宣布正式引入 iPhone,并定于第四季度发售,售卖款正是 iPhone 3GS 和 iPhone 3G,这标志着苹果手机正式进入中国内地市场。销售首日,年轻人连夜排队购买新 iPhone 的场景,开始在中国不同城市上演。

  • 2008 年 7 月 11 日,苹果正式发布了 iPhone 3G,在 22 个国家和地区同步上市。山姆・奥特曼和 Loopt 由逆境直转,搭上了乔布斯的顺风车,然而当时乔布斯由于癌症复发,健康问题恶化,不得不花费很多时间处理私人健康引发的危机。

  • 尤其在 2008 年 8 月 28 日,著名新闻媒体彭博社在乔布斯活着时发布了一份 2500 字的讣告,年龄和死因的位置空白。新闻媒体通常会储存最新的讣告,以便在知名人物去世时提供新闻。虽然这个错误被及时纠正,但许多新闻媒体和博客快速对此进行了转载报道,加剧了有关乔布斯健康状况谣言的传播。乔布斯不得不在 9 月苹果一场名为 “Let's Rock” 的活动中,穿上他标志性的黑色高领毛衣和牛仔裤出现在舞台上,效仿著名的美国作家马克・吐温当众宣布:“关于我去世的报道被严重夸大了。”

但是到了 2009 年 1 月 5 日,乔布斯在苹果官网上发表的一份声明中承认了自己几个月来一直 “激素失调”,2008 年他的体重一直在原因不明地减轻。几周前他通过精密的血液测试,发现是激素失衡的问题,这种失衡一直在 “掠夺” 他身体所需的蛋白质。一周多之后,乔布斯在苹果公司内部的备忘录中写道:“上周我了解到,我的健康相关问题比我原先想象的要更复杂。” 这句话发表之后,他便宣布休假 6 个月,以便更好地关注自己的健康。

曾在乔布斯 2004 年缺席期间担任首席执行官的蒂姆・库克再次成为苹果公司的代理首席执行官,并公开表示乔布斯仍参与 “重大战略决策”。后来,蒂姆・库克提出将自己的一部分肝脏献给乔布斯,因为他们拥有同一种罕见的血型,而捐献后的肝脏在手术后可以再生组织。对此,乔布斯大喊:“我永远不会让你那样做。我永远不会那样做。” 但在几个月后,他接受了肝脏移植手术。

史蒂夫・乔布斯当时的健康问题,可能最终成了他与山姆・奥特曼之间没能展开进一步接触与合作的原因之一。这可能也是山姆・奥特曼心中的遗憾之一,毕竟两人在很多方面都极其相似。比如,奥特曼和乔布斯一样,读大学的时候就辍学创业;比如,两人都是素食主义者;再比如,两人在作为老板这个身份角色时,都不太好相处。

乔布斯是众所周知的很难对付的老板,爱好争辩,假如不是每件事情都完美无缺,他就会大发雷霆,事实上他会把所有注意力集中在他想要的东西上,比如,设计出疯狂的伟大产品 —— 直至生命最后一刻,他都在顽固地追求这一点。而山姆・奥特曼也不遑多让,在 Loopt 内部,奥特曼以特立独行著称,他从来都只做自己认为正确的表达和选择,他甚至这样形容自己:“我的大脑好像缺了一条在乎别人看法的回路。”

奥特曼无论是对自己还是对他人,都极度严苛,要求很高。根据和他共事过的人回忆,他的性格偏执,对工作效率低的人极其缺乏耐心,情绪也似乎并不稳定。在日常生活中,他冷酷坚硬,酷爱加班,经常开启不要命的工作狂模式。美国临床心理学家和科普作家凯・贾米森曾在自己的《疯狂天才》中写道:许多杰出的小说家、诗人、画家和作曲家,都患有某种 “良性的疯癫”。

天才在左,疯子在右,乔布斯和奥特曼就是这样的天才,如果说较高的智力和勤奋的工作只能让人到达某种程度的成功,那么要做到像乔布斯和奥特曼这样,似乎就需要某种未知因素起作用,这可能来自一点点疯狂。

Loopt 的机遇与挑战#

在现在这个热衷于追求热点的世界里,好的创意被严重低估了。一个好想法值得我们花更多时间思考。

—— 山姆・奥特曼

2009 年,山姆・奥特曼和他的 Loopt 开始面对竞争更加激烈的市场环境。在 2006 年发布时,Loopt 凭借对 GPS 位置功能的完美应用,领先于时代潮流。然而,3 年后,随着像 Twitter 这样的社交网络服务平台推出了基于位置服务的功能,奥特曼和他的团队不得不重新审视他们的商业模式,并做出一些重大的战略决策调整,来试图继续保持领先地位。

2010 年,山姆・奥特曼宣布 Loopt 推出了名为 “Pulse”,也可以被翻译为 “脉搏” 的新功能。在此之前,Loopt 所提供的服务都非常被动 —— 如果你在某些设备上启动 Loopt,它就会跟踪你的位置;如果其他用户也打开了 Loopt 的应用程序,你也可以看到他们所在的位置。但通常而言,这些功能并不能直接透露最关键的信息,如果你的朋友在街尾广场停留,你并不知道他在干什么,但 Pulse 功能提供了这个问题的答案:这个功能将显示位置周围的热门场所与活动,这样你就能够根据这些信息推测出他们可能在广场上参加试吃活动,或者正在参与一场露天聚会。

之后,山姆・奥特曼又和产品团队一起,逐渐将 Loopt 定位为一款 “本地搜索引擎” 应用程序,主要为用户提供三大功能:第一部分功能有点像一个团购网站,用户可以根据自己在 Loopt 上的位置,抢到附近餐厅的虚拟优惠券,到线下进行消费,这项业务能够帮 Loopt 同时获取流量并且将流量变现;另一部分付费功能则更像国内 2011 年 8 月上线的一款基于地理位置服务的社交应用程序 “陌陌”,用来帮助用户找到附近潜在的约会对象;最后一部分功能类似于一个基于定位、功能简单版本的 “大众点评”。

  • 奥特曼推出了在当时看来非常新颖独到的功能,用户可以查看朋友们在实际地图上签到的位置,并且通过笑脸或者皱眉等表情,知道他们对某个餐馆或者娱乐场所的评价。
    同时,签到功能也帮助 Loopt 稳固了与苹果合作的成果,且避开了一个重要问题:iPhone 暂不支持第三方应用程序在后台运行,只有在用户打开应用时,才会实时跟踪位置,而 Loopt 在推出后很长一段时间内,吸引用户的核心就是持续的位置更新。2010 年,Loopt 凭借着适用于 100 多种移动设备的优势,以及苹果公司的宠爱,在广告和 App Store 持续不断的推荐下,挡下了外部市场竞争带来的第一波冲击。随着 iOS 4 的推出,iPhone 也终于开通第三方应用在后台运行的功能,Loopt 再次从中受益。在接受采访时,奥特曼兴奋地告诉媒体:“我们每日的使用量比 iOS 4 发布前增长了 60%,每天活跃用户数已达数十万。”

此外,奥特曼还将 Loopt 的活跃用户激增归功于与 MetroPCS 的合作,MetroPCS 类似于国内的移动和联通,是当时美国的第五大移动电信网络。通过谈判,Loopt 被预装在几乎所有 MetroPCS 的手机上,这使得 Loopt 在安卓手机市场也被快速推广。

在这一基础上,奥特曼也没有放弃之前的签到功能,Loopt 的最新版本将这两个想法结合在了一起,允许用户在某个地点签到,并将实时位置信息留存 24 小时,方便他的朋友在 Loopt 地图上看到完整的移动轨迹。对于一些担心隐私安全的人而言,这个功能令人毛骨悚然;然而对于当时的大多数人,“使用应用时始终保持用户位置信息” 是大部分本地生活类应用未来的基础功能之一。

2010 年 7 月,Loopt 的总用户数达到了 400 万。

然而,很快奥特曼发现了 Loopt 面临的真正威胁 —— 它虽然在运营商那里得到了许多支持,但其实一直未能获得消费者的青睐。奥特曼后来回忆:“我们当时很乐观地觉得,地理位置信息会变成非常重要的属性,然而真实情况是,人们只会躺在沙发上消费内容和消磨时间。我在运作 Loopt 时明白了一件事,你永远不能让人们去做他们不想做的事。” 奥特曼发现,随着移动互联网时代的到来,人们对手机等电子产品的依赖逐渐加深,很多年轻人成了宅男宅女,他们热衷于在网上冲浪,和网友聊天游戏,不愿意走出家门一步,拥抱真实的世界。

在估值一度达到 1.75 亿美元的最高点之后,Loopt 很快陷入了用户迅速流失的困境。山姆・奥特曼也陷入了焦虑。此时,YC 孵化器再次成为山姆・奥特曼得以休息,并且重新审视周围一切,思考自己目前到底热爱什么、想要什么的最佳港湾。

实际上,在山姆・奥特曼忙于发展壮大 Loopt 公司时,他与保罗・格雷厄姆一直保持着紧密的联系。早在 2008 年,保罗・格雷厄姆和杰西卡・利文斯顿结婚时,就邀请了山姆・奥特曼在自己的婚礼上做伴郎。

在多次陷入困顿时,YC 的开放氛围和格雷厄姆的无私帮助,一次次更新了山姆・奥特曼看待这个世界的视角,启发着他的想法,也提升了他的投资眼光。因此,在担任 Loopt 的首席执行官期间,山姆・奥特曼也主动扮演了 YC 首席创业讲师的角色,并且不拿工资,同时也以融资顾问身份,参与 YC 的更多创投项目。在 YC 办公室,奥特曼放下经营公司的琐事,收起焦虑,回归了真实的自己,释放他过人的投资潜能,这也为之后他正式加入 YC,以及扩展个人投资版图打下了绝佳基础。

重返 YC,帮助 Airbnb#

快速行动。和大公司相比,速度是所有创业者的主要优势之一。

—— 山姆・奥特曼

2005 年,当山姆・奥特曼作为 YC 孵化器成立后的第一期毕业生,带着 Loopt 项目辍学创业,来到硅谷开启自己的新旅程时,保罗・格雷厄姆带领的 YC 也没有停下自己发展的脚步。

从 2005 年到 2008 年,YC 孵化器每年运行两个时长为三个月的创始人项目,分别为每年 1 月到 3 月在加利福尼亚州山景城的冬季项目,以及每年 6 月到 8 月在马萨诸塞州剑桥的夏季项目。然而,伴随着 YC 的不断扩张,每年的投资项目超过了 40 个,总投资项目不断累积,同时在山景城和剑桥两个地方运作变得极为消耗资源。

在最初创立 YC 时,保罗・格雷厄姆曾有明确的个人计划:他并不打算让 YC 孵化器占用他全部的时间,而是打算同时做三件事:编程、写作、参与 YC 的运作。而行至后期,YC 逐渐开始占据格雷厄姆远超过三分之一的注意力。格雷厄姆渐渐发现,YC 与他此前所做过的任何工作都完全不同,最典型的一点就是,他无法决定自己的工作计划,因为很多时候都是问题找上门来。这和 YC 运行模式有关,每 6 个月就会有一批新的初创企业和创业者,这些创业者所面临的问题最终都会成为格雷厄姆的问题。

对于格雷厄姆来说,解决这些问题让他兴奋,因为他几乎不会遇到相同的问题,而且与优秀的创始人共事也非常有趣。格雷厄姆曾在博客上写道:“如果有人想在最短的时间内尽可能多地了解初创企业,那么加入 YC 就是最好的方式。” 这或许也是山姆・奥特曼毫不犹豫就回到 YC,成为创业讲师和融资顾问的原因,因为在 YC 可以随时接触到全世界最新鲜的想法和创意,以及最先落地的技术应用。

当然,并不是所有的工作都那么让人开心。创业者之间的争端,以及判断某个人何时在为了争夺资源而说谎…… 这些琐事也会给格雷厄姆带来烦恼,不过,它们并不会成为格雷厄姆努力推动 YC 前进的障碍。格雷厄姆说:“我希望 YC 能够越来越好,因此,如果我工作的努力程度,决定了其他人工作成效的上限,我会成为办公室里最努力的那个人。”

但到了 2009 年,保罗・格雷厄姆的想法有所转变。1 月时,YC 在自己的官网上宣布,他们将关闭剑桥项目,未来 1 月和 6 月两个周期的项目都将在山景城进行。原因非常私人:格雷厄姆与他的新婚妻子即将迎来他们的第一个孩子。夫妇俩必须在事业与家庭之间做出选择,而加利福尼亚州的湾区绝对比剑桥更适合养育孩子,因此他们选择将 YC 彻底搬到加州的硅谷。

对于 YC 资助的所有初创企业来说,硅谷确实也是更好的地方,这里拥有更适合初创企业的文化氛围、更优秀的科技人才,以及更完善的产业体系。对于山姆・奥特曼来说,YC 搬家意味着他和保罗・格雷厄姆,或者说与 YC 之间的关系可以更加紧密,他甚至可以成天待在 YC 办公室,Loopt 办公室离那里只有一小时以内的车程。

重返 YC,山姆・奥特曼仿佛又回到了 2005 年的那个夏天。与当时不同的是,此时的 Loopt 已经非常成功,奥特曼也在经营 Loopt 的过程中变得更加成熟稳健,他开始对投资相关的事情感兴趣,并向保罗・格雷厄姆学习如何投资一家初创公司。

也是在这个时候,山姆・奥特曼发现,预估一家创业公司的成功概率其实可以套用一个公式,那就是把想法、产品、执行、团队、运气五项要素相乘,其中运气是一个位于 0 到 10000 之间的随机数字。#

对于初创公司来说,运气到底有多重要?现在价值超过 700 亿美元的 Airbnb 的兴起,给出了一个完美的答案。没错,这家现在举世闻名的公司也与山姆・奥特曼有关。

2009 年 1 月,山姆・奥特曼和保罗・格雷厄姆一起遇到了当时初创的 Airbnb。那时,Airbnb 与它的三位创始人一样默默无闻,他们做的最大一笔生意,竟然是在 2008 年美国大选时,通过销售两位总统候选人奥巴马和麦凯恩的主题麦片赚到的 3 万美元,这个数字远远超过了主营业务 —— 提供沙发床垫和早餐的短期住宿服务。

格雷厄姆邀请 Airbnb 的三位创始人加入 YC 在 2009 年 1 月的冬季项目计划,为他们提供培训和 2 万美元的资金,并换取了 6% 的股权。然而,在 YC 办公室里,格雷厄姆认为 Airbnb 最开始的项目想法完全没戏,仅仅为短途旅行的用户提供一张沙发或者客厅床垫,无法带来巨大的增值,不是一门好生意,格雷厄姆甚至想说服三位年轻创始人转做支付相关的生意。后来 Airbnb 的 CEO 布莱恩・切斯基将 Airbnb 成功的部分原因归功于 YC,他说:“当我们进入 YC 时,我们并不清楚自己的项目能否继续运营。但等到了结束的时候,我们的想法变成了这样:我们能否成为下一个像 eBay 这样的大型公司?”

M 指的是 million(百万),B 指的是 billion(十亿),奥特曼的意思是 Airbnb 的收入会达到 300 亿美元。

Airbnb 创始人急速膨胀的野心和山姆・奥特曼有关。一次模拟路演,布莱恩・切斯基向 YC 的投资顾问展示了一组 PPT,他希望通过 PPT 里演示的内容,拿到至少 50 万美元的种子资金。于是,布莱恩在预估项目的年营业上限时介绍道:“我们认为这个项目的收入会在 3000 万美元的位置。” 布莱恩刚刚说完这句话,山姆・奥特曼就打断了他,并且说:“把那些 M 去掉,换成 B 吧。”

山姆・奥特曼对布莱恩等人说:“我看了 PPT,认为应该是这个数字。如果不是,要么你对你所说的没有信心,要么就是我的高中数学不及格。” 这次 PPT 演示后,保罗・格雷厄姆和山姆・奥特曼在 3 个月内,就帮助 Airbnb 的三位创始人找到了一个可持续盈利的商业模式。当三位创始人回到自己的办公室,原本 AirBed and Breakfast 的名称被缩短,Airbnb 出现了,Airbnb 开始融合各种本地住宿的新鲜选择,多样化短期住宿的可能性。2009 年 4 月,Airbnb 从红杉资本那里获得了 60 万美元的种子资金,开始向全球化巨头迈进。

卖掉 Loopt 并结束 9 年恋情#

虽然成长很关键,你应该专注于它,但偶尔也要考虑一下你要去哪里 —— 你既需要成长,也需要朝着有价值的方向成长。

—— 山姆・奥特曼

Airbnb 的成功案例让山姆・奥特曼在 YC 名声大噪,但对于奥特曼而言,最重要的是他向自己证明了他拥有越来越敏锐的投资嗅觉。2010 年,奥特曼的银行卡上一共只有 17000 美元,但他大胆拿出 15000 美元投资了来到 YC 的金融支付类初创公司 Stripe,截至 2021 年,Stripe 的市值高达 950 亿美元。

2011 年,保罗・格雷厄姆渐渐因为繁重的工作内容感到力不从心,为了进一步解放自己的时间,他开始从 YC 过往的优秀学员中找人来做他的助手,并渐渐发展出 “兼职合伙人” 制度。奥特曼成为格雷厄姆的首选,他答应了邀请,成为 YC 的兼职合伙人。

然而,运气无法全方位地站在山姆・奥特曼这里,他在 YC 一帆风顺,回到自己的公司 Loopt 却不得不面对日益艰难的问题:Loopt 正在无可挽回地走下坡路。奥特曼愈发意识到 Loopt 本身的发展限制:它基于点对点的平面功能注定了它无法长期吸引用户和投资者的兴趣,并且还要面对大量来自不同领域快速兴起的竞争对手。

而且更糟糕的是,他本人对于继续发展 Loopt 的兴趣也正在变少。

多年以后,当奥特曼回忆起 Loopt 时,说它是一个失败的项目。他表示:“虽然这个项目让我赚了很多钱,但是距离我要实现的理想还差得很远。” 奥特曼还说,“Loopt 的受众和市场比我们想象的还要小得多”。所以,在 Loopt 彻底被用户抛弃之前,山姆・奥特曼决定发挥它的剩余价值,他做出了人生中第二个重要决定:卖掉 Loopt,重新出发。

  • 2012 年 3 月,在筹集了超过 3000 万美元的风险投资后,Loopt 宣布被世界上最大的预付借记卡公司 Green Dot 收购,成交价 4340 万美元,其中 980 万美元作为用于留住 Loopt 的关键员工的保留金。这个价格让不少投资 Loopt 的风投机构亏了钱,但却使奥特曼和联合创始人财务自由了。奥特曼认为这笔交易将重新激活 Loopt,让 Loopt 重新焕发活力。他在谈起这件事时说:“我们之前一直在关注用户与商户的互动,提高用户黏性,做了很多有趣的尝试,但很可惜,我们始终没有办法让 Loopt 和支付联系起来。现在 Loopt 有机会和更多的银行机构合作,完成最关键的部分,将商业和支付关联起来。”

山姆・奥特曼放手 Loopt 的决定在当时引起了大量媒体的关注和报道,在不同的采访里,奥特曼都表示自己将会把一部分精力放在 YC,继续做兼职合伙人的工作,同时他也表达了与 Green Dot 这类金融机构长期合作的想法。然而,大多数人都不知道,就在同一时间,与奥特曼人生重大关卡有关的另一件事也正在悄悄发生。

在 Loopt 被收购后,山姆・奥特曼和他的同伴、Loopt 联合创始人尼克・西沃分手了,结束了这段长达 9 年的恋情。直到很多年以后,奥特曼才在公开场合聊起这件事,他说:“我以为我会和他结婚 —— 我非常爱他。” 这也成为奥特曼在公开场合少见的个人感性表达。

公司卖掉之后,山姆・奥特曼决定暂时休息一下,搞清楚接下来自己真正想做的事情是什么。于是他去玩赛车,去环球旅行,去徒步,去做许多间隔年该做的事情。但他的伙伴们都知道,奥特曼是不可能 “躺平” 的。虽然他也喜爱寻求刺激,但相比这些,他更希望实现自己的梦想,财富只是他实现梦想的垫脚石,而非安乐窝。

很快,山姆・奥特曼和弟弟杰克・奥特曼一起成立了早期风险投资公司 Hydrazine Capital。山姆・奥特曼利用在 YC 的人脉,很快募集到 2100 万美元,其中包括他卖掉 Loopt 赚到的 500 万美元,以及来自 PayPal 创始人彼得・蒂尔的一大笔投资。奥特曼将其中 75% 的资金都投向了在 YC 毕业的初创公司。一方面,奥特曼的兼职合伙人身份能够让他有效获取这些初创公司的信息,在混乱中发现机会;另一方面,他非常愿意在生命科学、大数据、医疗保健等领域投资,而投资这些领域的 YC 初创公司还可以加强他与格雷厄姆的联系,他相信格雷厄姆,也相信自己的投资嗅觉。

2012 年的一项研究显示,几乎一半的美国孵化器公司都不能孵化出哪怕一家获得风投资金的创业公司来,同时只有少数几家孵化器,能够凭单一力量帮助建立起几家价值数亿美元的公司。特例只有 YC,它以惊人的速度,在短短 7 年的时间内,孵化出了 10 亿美元级的公司 —— 而且多达 11 家。曾经投资数百家 YC 毕业公司的天使投资人罗恩・康威将 YC 称为科技行业的明日世界,他说:“当我的团队在 YC 遇到 Airbnb 时,那是我们第一次思考共享经济背后的价值。而当我们遇到 DoorDash 和 Instacart 时,我们说:哦,上帝啊,原来世界上还有一种叫作按需经济的东西!”

仅仅 4 年,奥特曼让自己的投资公司 Hydrazine 的价值翻了 10 倍,其中最赚钱的一笔生意是领投了 Reddit 的 B 轮融资,当时 Reddit 处于管理混乱之中,但奥特曼在这一方面,有着与塔勒布接近的理论,他认为:“你就应该去投资混乱的、有点问题的公司。然后你把表面的这些问题解决掉,也正因为这些问题,他们的价值才被低估。”2019 年,腾讯宣布以 3 亿美元领投,让 Reddit 的估值达到 30 亿美元;截至 2023 年 2 月,Reddit 已成为全球访问量第十、美国访问量第六的网站。

从今天来看,奥特曼完全可以在擅长的这条投资路上坚持走下去,成为食物链上的资本顶端。但他再一次出人意料 —— 他最后还是选择退出了风险投资的生意。对此奥特曼认为:“你要努力找到一家有你没你都能成功的公司,然后说服该公司接受你的投资,而不是其他人的投资,价格还要尽量低。我不喜欢这种感觉,我不想站在我认可的企业家的对立面。” 与此同时,奥特曼对于自己在硅谷的生活也产生了一丝警觉:这里有钱人太多了,拥有上亿美元的人不在少数,这样的生活难免令人执迷于金钱本身。他决定让自己的生活更加简单舒适,仅仅留下了旧金山的一套四居室、他的汽车、位于加利福尼亚山区的一处地产,以及 1000 万美元的储蓄 —— 这部分储蓄每年产生的年利息已经足够支付他的所有生活成本。他的原话是,他决定将剩下的所有财富用来改善人类的问题。

就在山姆・奥特曼退出风险投资的生意并且改变自己的生活方式时,已经有了两个小孩的保罗・格雷厄姆则再次陷入了时间管理的窘境,他无法在家庭生活之外兼顾 YC 的众多项目,被折磨得筋疲力尽的他开始寻找 YC 的继任者,也就是新的 CEO。此时恰好属于 “无所事事的失业人员” 的山姆・奥特曼成为格雷厄姆的最佳人选。

此时,山姆・奥特曼正忙着处理自己的各种资产,准备开始过极简的生活,他还不知道导师兼好友格雷厄姆正在谋划将 YC 全盘托付给他,并在数天后正式向他提出这个想法。

在我们正式进入 YC 时期的山姆・奥特曼的故事之前,我们可以通过山姆・奥特曼在个人博客里发布的一篇内容,总结回顾山姆・奥特曼在人生早期和第一个创业公司 Loopt 时期的经历,出于什么原因,他在 19 岁时最终选择了辍学创业,以及山姆・奥特曼给 19 岁的年轻人的建议。

山姆・奥特曼给 19 岁年轻人的建议#

保持专注,不要试图一次做太多事情。关注你的执行效果。

—— 山姆・奥特曼

19 岁时,山姆・奥特曼做出了自己人生中最重要的一个决定:他从一名斯坦福计算机系在读的天之骄子,变成了一名前途未知的辍学创业者。在滚滚向前的时代浪潮中,奥特曼切断了自己的退路,决意拥抱潮水、抓住机遇:就算浪费几年青春时光,也要全力投入创业的道路。

多年后,未满 30 岁的山姆・奥特曼不仅创业成功,成为估值 1.75 亿美元的 Loopt 的创始人,并且还获得了保罗・格雷厄姆的信任,在 YC 孵化器担任兼职合伙人,奥特曼成为又一个少年功成的榜样,一个年轻人眼中的传奇。在各种场合里,山姆・奥特曼不断被不同性格的年轻人询问同一个问题:“我今年 19 岁,想做出一番事业,我应该怎么做?”

为了回答这个问题,山姆・奥特曼在自己的个人博客上回顾了自己 19 岁时的想法,他总结了自己的经验,并且分享了在 YC 孵化器里那些年轻创始人的情况。以下是山姆・奥特曼给所有处于 19 岁的野心勃勃的年轻人的建议:

通常,人们在大学的最后两年,会在学校学习之外做一些副业或者实习工作,之后,大部分人会在加入公司、留在学校和创办自己的公司之间做出选择。

我认为,这些选择都可能诞生正确的答案,每个人都应该根据自己的具体情况做出决定,关键是你要想清楚,你到底想做什么,以及做什么最有可能让你通往不后悔的未来。

但无论你的选择是什么,你都要积累自身的经验,并且认识志同道合的人。“经验” 可以来自各种不同的工作机会,比如课堂外的开源项目,某个创业团队,你正在兼职打工的公司…… 所有最优秀的人,最终都会相互吸引聚集在一起,并且想办法去创造新的项目。因此,如果你必须在几个机会之间做出选择,尽可能和那些比你更优秀的人一起工作。

你可能会面临很多的选择和机会,其中有很多机会都很有趣,但并不是你真正想做的事情,不要被这些事分散注意力。要记住,坚持做好一件事,会让你的未来更加通畅。

在最后决定要做什么之前,你要先考虑清楚自己能承担的风险,尽量去承担正确的风险。大多数人都没有正确对待他们每个选择背后所面临的风险,比如,很多人会认为留在大学校园里学习生活,似乎是一条没有任何风险的道路,然而事实是,在你最应该富有成效的四年里,如果你什么都没干,这件事本身就很危险。再比如,和朋友一起创业,做你热爱的项目是正确的风险;入职一家处于下滑趋势的公司,成为他们的第 50 名员工是错误的风险。

在了解风险之后,如果你选择在 4 年时间里留在大学校园,你要确保自己能学到有价值的东西,并且参加有趣的活动,因为大学可能是结识合作伙伴的最佳场所 —— 如果你真的担心自己会因为辍学而错过一些重要的社交经历,你可以考虑留下来。

  • 如果你选择加入一家公司,我的建议是加入一家行业前景明朗的创业公司,尤其是那些正在突破或者即将突破的领域。随时了解校园外的新闻动态,你就能及时地辨别出外边正在流行什么。
  • 跟着趋势走,你能权衡自己面临的风险和可能获得的回报,因为处于上升期行业的创业公司很有可能会成功,而且这些公司往往也喜欢野心勃勃的年轻人。
  • 更重要的是,加入一家创业公司,你很可能会得到一部分股权,但风险却很低,同时你将与非常优秀的人一起工作,了解成功是什么样子,不断积累经验直到独当一面。和加入一家创业公司相比,另外两个选择就不太好了,加入一个注定失败的公司,你会浪费很多时间,并且陷入没有成就感的恶性循环;加入一个已经非常成功的公司,则意味着你很难学到什么东西,只能作为一颗螺丝钉,和其他螺丝钉一起完成基础工作。

对了,不要让薪水成为影响你选择的关键因素。我曾经遇到过一个年轻人,他拒绝加入一个有潜力的创业公司,因为微软提供了更高的薪水报酬 —— 这是一个糟糕的决定。因为他在微软很难接触到让人兴奋的项目,团队里的人可能已经在 “摸鱼” 养老了,几年后,当他忍受不了大公司的环境,想要寻找新的机会时,他能够获得的优质选择将比他本来可以获得的选择要少很多。

如果你选择自己创业,确保在你有一个非常兴奋以至于必须实现的想法的情况下,再去做这件事。如果只是在和朋友闲逛时临时出现的一个想法,我认为你不应该创办这家公司。

  • 当然,创业失败,比作为打工人加入一个失败的公司要好,因为前者肯定能让你学到更多东西。如果你在一个自己真正热爱并且感到兴奋的想法上创业失败了,你不太可能会后悔,别人对你的评价也一定不会差。在未来,你会遇到很多其他的创业机会,时机非常重要,有时候需要学会等待。

另外,创业最大的一个优点是,它通常能让你在最短的时间内积累最多的经验;最大的缺点则是,你很容易因为错误的原因开始一次创业,比如错误的项目或者对自己认识不足,或者更糟糕 —— 很多人只是因为创业这件事很酷,可以吸引异性或者向朋友炫耀,所以开始创业 —— 记住,不要让这些想法混淆自己的判断。

无论你选择什么,都要保持良好的个人状态,提升效率,同时减少对未来的幻想。我已经见过很多优秀的人,他们因为无法承受收入降低或者不想换城市,最终错过了很好的机会。

以正确的方式思考风险。云储存服务公司 Dropbox 的联合创始人德鲁・休斯顿曾经发表过一次精彩的毕业演讲,他说:“你只需要做对一次。” 他说得没错,你在 19 岁时要面对的最大风险,在于你没有在关键时刻做出正确的选择。

保罗・格雷厄姆的选择#

我喜欢预测哪些领域即将发生重要的突破。在接手 YC 之前,我是一名投资者,我很擅长发现那些不明显的、其他投资者没有看到的信号。

—— 山姆・奥特曼

2014 年 2 月,保罗・格雷厄姆辞去了他在 YC 孵化器的日常事务,28 岁的山姆・奥特曼接替格雷厄姆,成为 YC 的新任总裁。

格雷厄姆离开 YC 的想法最初始于 2010 年。当时,YC 的联合创始人之一罗伯特・莫里斯到加利福尼亚接受采访时,做了一件令人惊讶的事 —— 他主动向格雷厄姆提供了一个建议,但说得很委婉:“你知道,你应该确保 Y Combinator 不是你做的最后一件很酷的事情。” 在此之前,格雷厄姆这位沉默寡言的老朋友只在 Viaweb 时期给过另一个建议,当时格雷厄姆受到肾结石的折磨,繁忙的工作中,罗伯特主动提出带格雷厄姆去医院。

因此,格雷厄姆很快明白,罗伯特这位贴心好友给这个建议的深层意思是:格雷厄姆应该从 YC 辞职了。这是个奇怪的建议,因为 YC 越做越好,已经成为美国最成功的创业孵化器。但格雷厄姆了解自己的创业伙伴,除非罗伯特犯糊涂了,不然他不会随便提出建议。可罗伯特不会犯糊涂,所以保罗・格雷厄姆开始思考自己与 YC 的关系。在格雷厄姆目前的人生轨迹上,YC 看似将是他做的最后一件事,因为 YC 越成功,就会占用他越多的注意力,格雷厄姆知道他在此刻只有两个选择:要么把这辈子都交给 YC,要么在某一天被迫放手离开。

2012 年夏天,另一件事的发生将格雷厄姆离开 YC 这件事加速提上了日程。格雷厄姆的母亲由于结肠癌引起的血栓,突发中风,失去了平衡感,生活无法自理。在这种情况下她被送进疗养院接受照顾,但是格雷厄姆的母亲极其希望摆脱困境,回到家里生活,格雷厄姆也决心帮助她做到这一点。他在工作间隙,不止一次去疗养院探望母亲,正是在这些往返航班上,格雷厄姆意识到,他已经准备好将 YC 交给其他人了。

回家后,格雷厄姆第一时间询问了 YC 另一位联合创始人,也就是他的妻子杰西卡・利文斯顿。杰西卡同样不想接任 YC 总裁,两人商量之后,有了一个合适的人选,他们决定尝试招募山姆・奥特曼。多年后,杰西卡在谈到这件事时说:“当时的情况并不是我们有一个长长的继任者名单,然后排名第一的是山姆・奥特曼,而是只有山姆・奥特曼。”

很快,格雷厄姆召集 YC 所有四位创始人,正式讨论这件事。

  • 所有人都同意彻底更换新的管理者,因为 YC 如果要继续存活下去,就必须引入新的血液,始终保持活力,而不应该长时间被几个创始人控制。这次讨论的结果是:如果山姆・奥特曼同意接手 YC,四位创始人将全力支持重组 YC 的工作,与此同时,格雷厄姆和莫里斯将从 YC 退休,而杰西卡和另一位创始人特雷弗将变为普通合伙人。

没想到,更换管理者的真正阻碍并不在 YC 内部,而在山姆・奥特曼的身上。对于普通人来说,这可能是一份职场发展上莫大的礼物,但对于山姆・奥特曼本人而言,这幸福来得似乎太过突然。在面对这个喜讯时,山姆・奥特曼展现出不同于常人的一面,当格雷厄姆询问奥特曼是否想成为 YC 的新总裁时,奥特曼犹豫后拒绝了这个提议,奥特曼对格雷厄姆说:“我想创立一家制造核反应堆的初创公司。”

奥特曼的这个理由并非他为拒绝接手 YC 而找的借口,在当时,奥特曼不再经营自己的投资公司,转而研究能源领域,他看中了核能,认为核能是未来技术发展最重要的组成部分,因此想要深入这个领域做新的创业项目。

此外,奥特曼对于接手 YC 还有一个别的顾虑,那就是保罗・格雷厄姆和杰西卡・利文斯顿夫妇对 YC 的影响。奥特曼知道,这两个人几乎是以一己之力打造出了现在的 YC,并留下了深刻的个人印记,此时如果他空降管理层,成为 YC 新的领袖,真的能够完全掌握这家公司吗?

当时,硅谷的趋势与 YC 的决定正好是相反的,越来越多的科技类投资创始人自己做公司的 CEO 了 —— 而推动这个趋势形成的投资机构正是 YC,YC 自己却想要破例,让其他人接手总裁的职位。

  • 但格雷厄姆没有放弃说服奥特曼,他坚持把当时的 YC 交给这位年仅 28 岁的年轻人。要知道,当时 YC 的总市值已经超过 800 亿美元,投资了 1600 多家初创企业,其中包括成功的网络文件同步工具 Dropbox 和在线房屋租赁网站 Airbnb。

2013 年 10 月的某一天,格雷厄姆和奥特曼花了将近 20 个小时完整地讨论了这件事,最后说服奥特曼的是格雷厄姆对 YC 的定位思路。

格雷厄姆告诉奥特曼:“YC 不是一个产品型公司,更像一所大学。大学的风格是一帮聪明的人在一起互帮互助,形成一种社区氛围,这和产品导向的创业公司是不一样的。而你知道,大学在它更替到第 17 任校长的时候仍然可以做得很好。” 因为这句话,山姆・奥特曼终于接受了保罗・格雷厄姆的邀请。

之后,两人进一步商议,决定让奥特曼从 2014 年初冬季批次的创业训练营开始,正式接管 YC 的所有工作。在此之前,格雷厄姆将利用 2013 年余下的时间,逐步过渡交接自己所有的工作,尤其是 YC 的运营事宜。2013 年的年末,成为格雷厄姆主导 YC 工作的最后时光,后来格雷厄姆回忆道:“山姆・奥特曼很快就学会了如何执掌 YC,而我当时也希望尽快结束手头的工作,花更多时间照顾我的母亲,当时她的癌症已经复发了。”

  • 2014 年 2 月 22 日,保罗・格雷厄姆在 YC 孵化器的官方网站上发布了一个帖子,宣布自己离任的消息,这个帖子的标题直接明了:Sam Altman for President(山姆・奥特曼成为 YC 新掌门)。

28 岁的硅谷新掌门#

初创企业应该要求奇迹越少越好,但至少需要一个。

—— 山姆・奥特曼

保罗・格雷厄姆在 YC 官网发布的帖子里,不仅宣布了自己即将离任,同时山姆・奥特曼将接手 YC 的消息,而且还谈及了 YC 更换管理者的原因,以及为什么选择了山姆・奥特曼。以下是这篇帖子的部分内容:

为什么要改变?因为 YC 需要继续成长,而我已经不是能够帮助它成长的最佳人选。YC 发展到了现在这个阶段,山姆・奥特曼才是 YC 所需要的。

我相信,全世界的工作方式正在发生根本性的变化,创业这件事变得越来越普遍。在未来 10 年,将会出现更多的创业公司,如果 YC 想要继续资助初创公司,必须比现在更加强壮。

在 YC 成立后的 9 年时间里,杰西卡和我都遇到了很多有才华的年轻人,其中奥特曼是最适合帮 YC 成长的人,一方面因为奥特曼的特质:他既工作高效,又本性善良 —— 这两点正是早期投资者所需的必要品质。此外,奥特曼是我认识的最聪明的人之一,并且比我认识的任何人,包括我自己都更了解初创公司。当我遇到一个难题,想要找人征求意见时,奥特曼就是我会去找的那个人。而他加入 YC 的时间,只比我短一个月左右,他是我们 2005 年资助的第一批创始人之一。

因此,当奥特曼在 2012 年闲下来时,我开始试图招募他。我花了一年多的时间,最终成功了。我认为,YC 的创始人应该对我们资助的初创公司和他们的创始人感同身受,奥特曼在这一点上能做得很好。以后我仍然会在工作时间参与 YC 的事项,但我不需要再担心如何经营壮大 YC 了,放下这些,我能够为大家提供更好的建议。

保罗・格雷厄姆在这篇公告帖子里盛赞奥特曼,认为奥特曼将帮助 YC 进一步发展。然而,并不是所有人都认为由这位 28 岁的年轻人接手 YC 是个好主意。

YC 创立 9 年之后,已经成了硅谷的门面之一,掌门保罗・格雷厄姆无论是在媒体关注度,还是在科技圈里实际的影响力,都已不在红杉资本的合伙人迈克尔・莫里茨、标杆资本的合伙人比尔・格利,或者凯鹏华盈创始人约翰・杜尔这些老一辈知名风险投资家之下。而 Y Combinator 这个略显拗口的函数名称,早就变为硅谷乃至全美国一个具有神圣化号召力的招牌。

  • 在 2014 年前后,YC 冬季和夏季项目的录取率,甚至只有斯坦福大学录取率的一半,但还是有成千上万的年轻人申请进入 YC,完成 3 个月的闭关训练与孵化,希望抓住这个机会,将自己的初创项目或者公司变成下一个 Airbnb 或是 Dropbox,变成下一只乘风破浪、跃上龙门的独角兽。

因此,当 YC 和保罗・格雷厄姆宣布山姆・奥特曼将成为 YC 的新任总裁时,所有人心里都浮现出一个巨大的问号:保罗・格雷厄姆在想什么?他为什么选择山姆・奥特曼接管 YC 这家投资巨头?

山姆・奥特曼只有 28 岁。在硅谷这样的地方,奥特曼的履历貌似比较丰富 —— 他在斯坦福辍学,创立了基于地理信息位置的应用 Loopt,后来变现卖掉了初创公司,但这里必须提到,这个行为导致部分投资人亏了些钱。然后,他试验了一只小基金,回报还不错,但很快因为所谓的 “不想站到创业者的对立面” 也关掉了,除此之外,他只是一直在 YC 做顾问…… 很明显,谁都能看出这份简历绝对达不到最出色的标准。

但是,格雷厄姆压下了所有的声音,他在接受媒体采访时多次强调:“我不擅长运行大型企业,但是山姆擅长这件事,而 YC 拥有很多市值百亿的成功公司。” 当人们开始接受这个事实后,再次返回翻阅格雷厄姆的博客时,发现早在 2009 年 4 月,格雷厄姆就曾将山姆・奥特曼和史蒂夫・乔布斯,以及创建谷歌的拉里和谢尔盖并列,列为他心目中最好的五位创始人之一。

这篇名为《五位创始人》的博文里写道:#

有人告诉我不应该在这份名单中提及 YC 资助的公司的创始人。但是山姆・奥特曼无法被这样脆弱的规则所限制。如果他想要出现在这个名单上,他就会在名单上。诚实地讲,在给创业公司建议的时候,我最经常提到的就是两个人:乔布斯和奥特曼。当我遇到设计问题的时候,我会问自己:史蒂夫・乔布斯会怎么做?但在遇到战略和野心问题的时候,我想的是:山姆・奥特曼会怎么做?在与奥特曼共同工作的时间里,我学到了重要的一点:投资初创公司和在赛马比赛中挑选赢家不一样,有些人确实凭借着他强大的意志力,就能获得成功,得到他们想要的一切。

格雷厄姆在宣布奥特曼接手 YC 后,又花了数周时间待在 YC 的办公室,直到 2014 年 3 月冬季项目结束,又一批初创公司成功完成他们的路演,格雷厄姆才完全退出了 YC 的经营活动。

就此,山姆・奥特曼在自己 28 岁的时候,开始了人生中最重要的事业之一 —— 他成了 YC 的新掌门,进而能够接触到美国几乎所有有潜力的创业项目和创业公司,他开始以精准的眼光,捕获自己想要的一切,以此一步步接近自己的人生目标:他希望这个世界能够变得更好,他要以自己的方式推动世界前进。而 YC,就是他手里最锋利的宝剑。

奥特曼接手 YC 的新风向#

我不会资助没有潜力做到 100 亿美元市值的公司。

—— 山姆・奥特曼

山姆・奥特曼从保罗・格雷厄姆手上接管的是一个正在建设中的帝国,截至 2014 年,山姆・奥特曼成为新任总裁时,YC 公司总市值已经到了 800 亿美元,这个数字相比 2009 年,在 5 年时间内涨了 17 倍。

因此,当奥特曼接过格雷厄姆的权杖,外界对他的质疑声主要在于:

  • YC 已经这么成功了,奥特曼还能为 YC 做什么?他能做得比格雷厄姆更加出色,让 YC 的市值继续保持每年的高增长速度吗?还是仅仅只是保住如今的优势,让 YC 不至于开倒车?毕竟在日新月异的创投圈,打江山难,守江山更难,而在 2014 年这个时间点,大部分技术突破的红利都已经兑现,短期之内很难再出现一个奇点,催生一大批新机会。

在这样的背景下,山姆・奥特曼上任之后做的第一件事就让所有关注他的人大吃一惊 —— 奥特曼决定重塑一切。

什么叫 “重塑一切”?在旧金山的一家私人酒吧里,奥特曼对他的恩师格雷厄姆说出了自己的想法,素食主义的他对着一盘蔬菜,语气轻松地告诉格雷厄姆:“我发现一个公司如果更换了 CEO,那么只有‘re-found’,也就是再次创立这个公司,更换 CEO 这件事才有意义。对于 YC,我也打算这么去做。”

保罗・格雷厄姆没有犹豫,完全赞同山姆・奥特曼的这个想法和决定。

在获得最重要的支持之后,奥特曼在 YC 开始了自己大刀阔斧的改革。

  • 2014 年 4 月,奥特曼在与 YC 其他 16 个合伙人商讨之后,推出了自己的 “新政”,一个对初创公司创始人绝对有利的投资计划:
  • 从 2014 年的夏季项目开始,YC 将向每家入选的初创公司投资 12 万美元,换取 7% 的股权。而在此之前,YC 的平均投资金额只有 17000 美元,以及根据下一轮的筹集资金条款,提供额外 8 万美元的保险投资额度,便获得了同样 7% 比例的股权。

这就是奥特曼说的 “重塑” 吗?为什么要 “让利” 呢?所有公司都希望以更低的成本获得更高的利润,为什么奥特曼要反其道而行之,投入更多的钱却只能获得一样的股权比例?

奥特曼相信,大多数创始人申请 YC 的项目计划,大部分时候都不是为了给自己的项目融资,而是因为他们想得到更好的建议、YC 人脉网络的帮助,以及对项目本身的支持等等。但是无论怎么说,能拿到更多的资金对于创业公司而言,都绝对是一件好事。奥特曼在 YC 的官网上谈及了这件事,开玩笑道:“9.7 万美元的投资金额在几年前是合适的,但最近湾区的生活成本已经大幅上涨了。所以我们将总额增加到 12 万美元,我们希望这足以让创始人经营他们的企业,并支付他们至少 6 个月,甚至更长时间的生活费用。”

新计划同时也向所有人展示了奥特曼的做事风格:他讨厌复杂的东西,讨厌任何可能给初创公司带来复杂问题的事情,他尝试让 YC 的投资结构变得非常简单,并且认为这件事有助于创始人将精力集中在项目和公司经营上,而不是担心自己手上的原始股份随时有可能被稀释。

之后,YC 在山姆・奥特曼的领导下,陆续发布了更多简化投资结构的举措,在经过多年膨胀发展后,奥特曼反而将 YC 带回了它创立之初时的理念 —— 帮助高潜力的创业公司,将它们培育成可能的赢家。

奥特曼像一位雄心勃勃的新王,决心帮助自己中意的初创公司更快地成长,组成一支铁甲舰队,打造一个航海帝国。

短短一年时间,奥特曼时代的 YC 发生了巨变,他们在一年内孵化的不再是几百家公司,而是成千上万家。与此同时,奥特曼将 YC 的合伙人增加了一倍的数量,还引入了如金融科技公司 PayPal 的创始人彼得・蒂尔这样的兼职领导层,并且成立了一个支持更早期的创业者的基金 —— 那些甚至未能以正规公司或者团队形态运作的项目,山姆・奥特曼也决定予以支持,给每个初创项目 2 万美元,支持他们发展成能够报名 YC 培训计划的成型项目,这样也让 YC 公司能够更早地参与到所有有潜质的项目的后续发展中。

YC 从一个拥有家庭友好氛围的组织,变成了一个成熟的商业帝国。而这一切都是山姆・奥特曼与保罗・格雷厄姆有意为之的结果,格雷厄姆虽然退出了 YC 的所有经营事务,但他仍不余遗力地支持自己的继任者奥特曼。为此,他自愿让出了自己持有的大部分 YC 股份,向外界展示自己的决心,并发出信号,不要以为山姆・奥特曼接手 YC 只是为了守住基业,他们有踏平世界的更大野心。

在格雷厄姆的支持下,山姆・奥特曼陆续启动了创业公司学院、A 轮融资计划、YC 成长计划、创业工作计划,以及在 2019 年启动的 YC 中国计划…… 更加重要的是,在 YC 的主营业务投资初创公司这件事上,奥特曼改变了 YC 的主要投资方向。在格雷厄姆担任首席执行官时,YC 主要投资互联网领域,赶上了当时互联网和移动互联网发展的两次浪潮,等到 2014 年山姆・奥特曼掌舵,YC 的投资方向彻底转向了当时的一个新概念:硬科技公司。

什么是硬科技?新能源、新材料、人工智能、火箭、机器人、自动驾驶、生物科技都属于硬科技的范畴,也是奥特曼感兴趣的领域。山姆・奥特曼之所以关注硬科技公司,还有一个重要的原因:他想要创建一个万亿美元的帝国,推动世界前进,因此他放弃直接成为一家核能公司的首席执行官,转而接受格雷厄姆的邀请,接手 YC。那么在硬科技方面,他将着眼于怎样的科学突破呢?

关注突破性技术领域#

没有重大的科学突破,万亿美元级的企业不会诞生。

—— 山姆・奥特曼

找到并且投资那些可能无限成长的硬科技公司,成为奥特曼在 YC 时期的重要课题。这一次,山姆・奥特曼的高执行力,再一次发挥重要作用。

在 2014 年的一篇个人博客里,奥特曼列出了所有他个人感兴趣的领域名单,并且强调说:“这份名单在未来将不断增加,我会关注所有改变世界的技术,以及让世界变得更美好的领域。” 奥特曼还列出了他对这些领域的详细看法。

在能源领域,奥特曼认为能源成本与生活质量之间存在着明显的相关性,比如蒸汽机的发明和利用。当能源成本大幅下降时,生活质量就会大大提高。

  • 因此,奥特曼认为廉价能源将大大减少贫困,还可以帮助改善环境,减少战争,确保人类拥有一个稳定的未来。其中核能和部分可再生能源就是他关注的细分领域。除了发电,他也对储能和输电感兴趣,比如容量 10 倍以上的电池将催生更多新的硬件设施和未知的新事物。

在生物技术领域,奥特曼认为目前的技术尚处于早期阶段,生物学家们刚刚取得一些真正的进展。他认为这个领域有许多方向可以发展,包括抗击疾病、延缓衰老、人机融合、基因编程、下载记忆等等。没错,包括这些听起来像赛博朋克的部分,奥特曼认为,在未来几十年中,这将是一个快速发展,并且将诞生许多争议的领域,就像 20 世纪 70 年代计算机的出现。

在互联网领域,奥特曼也别有一番自己的想法。现在的人类社会无法想象没有互联网的生活,需要确保它一直运作,包括从安全到自由开放的通信,再到基础设施的所有方面。

  • 互联网是一种变革的力量,因此他非常关注能够改变社会基础运作模式的应用程序,比如比特币。他说,互联网让世界各地的人们紧密协作沟通 —— 几乎可以肯定,围绕这一概念,将有更多重要的企业,尤其是互联网基础设施相关的企业会出现。对此,奥特曼点出了一个重要趋势:应用程序编程接口(API,Application Programming Interface)的发展,即万物 API 化。
  • API 指的是两个或多个软件程序相互通信和交换数据的一种方式。他认为,随着越来越多的企业可以通过 Web API 访问,互联网将变得越来越强大。 *

在机器人和人工智能领域,奥特曼认为机器人将成为我们在现实世界中完成工作的主要方式,他认知里的机器人定义宽泛,自动驾驶汽车也算是机器人的一种。而在我们都很关注的 AI 领域,奥特曼认为目前的最大问题是没有足够的天才专注于这方面工作,他笑称很多聪明人对人工智能兼具敬畏和恐惧的情感,但奥特曼坚信,AI 可能是技术史上的一条分界线,在此之前和之后的世界将完全不同。奥特曼对 AI 领域的关心和这句 “分界线” 的评价,也为他在一年后与埃隆・马斯克一起创立 OpenAI 打下基础,并且在某种程度上预言了 ChatGPT 诞生后对全世界的影响,关于这两部分的内容我们将在之后的章节详细展开。

回到奥特曼对突破性技术领域的关注,他将个人的兴趣点与 YC 公司的投资工作相结合,

  • 在 2014 年 6 月的夏季计划中,山姆・奥特曼宣布开启面向硬科技公司的招生批次,他鼓励所有有远大理想的创业者加入 YC,尤其是创业项目的研究课题与人类所面临的科学或者工程难题有关的领域,奥特曼将亲自筛选所有项目和创业者的简历,录取其中最有希望成功的项目。除此之外,奥特曼还邀请火箭制造公司和自动驾驶汽车公司加入,其中就包括定向巡航软件 Cruise 的创始人兼 CEO 凯尔・沃格特。后来,在 Cruise 面临资金难题时,奥特曼自己拿出了 300 万美元支持这家公司发展。2016 年 3 月,Cruise 最终被美国汽车巨头通用汽车公司以 12.5 亿美元的价格收购。

与此同时,奥特曼也没忘了自己对新能源的兴趣和关注,他一直想投资甚至经营一家核能源公司,这个愿望也在 YC 实现了。

  • 在 2014 年的夏季项目入选公司名单里,Helion Energy 和 UPower 两家核能源公司赫然在列。
    Helion 正在研究核聚变,而 UPower 正在研究核裂变,奥特曼在评估过众多从事同类研究的公司后,挑选出这两家,认为这是他能找到的最好的核裂变与聚变创业公司,之后奥特曼以个人名义参与了两家公司的种子轮和 A 轮融资,并且在一年后,打破了自己不加入 YC 投资公司董事会的原则,成为两家公司的董事会主席。
    山姆・奥特曼开始借助 YC 的资源,不停资助更多正在研究突破性技术的公司,尤其是那些想要解决全人类的重要问题,但因研发周期漫长,受到基础技术或科学突破限制的公司。

奥特曼知道,没有多少人愿意尝试创办这些公司,以他最感兴趣的核能源公司为例 —— 致力于社交的创业公司有数千家,但致力于核裂变、聚变的创业公司只有不到 20 家 —— 因为创办它们需要大量时间和金钱,但换句话说,这反而成了一种竞争优势。

由埃隆・马斯克创办的 SpaceX 和特斯拉两家公司就是其中的典范。过去,政府会资助大量突破性技术的开发,如今资助资金正在不断变少,导致很多项目被迫停止运作。但好消息是,因为技术的进步,现在小型初创公司也可以做过去需要占用政府资源才能做的项目。奥特曼对此也有一番思考,他直率地说:“一件困难的事其实要比容易的事更容易做成,因为人们会发现它很有趣,并且想要为此出一份力。如果你告诉投资人,你想再做一个社交软件,你只会收获一个白眼;但如果是弄一家火箭公司呢?每个人都会支持,因为他们也想要进入太空。”

同时,YC 的运作模式对硬科技公司同样有很大帮助,因为 YC 不惧怕看起来有风险的公司,它乐于做长期投资,奥特曼在一篇个人博客里专门提到:“如果一家公司需要在它的整个研发周期中筹集 10 亿美元的资金,这不会吓到我们,反而我们会觉得这是一个加分项。” 同时奥特曼也强调:“我们对资助专利流氓不感兴趣,我们只想资助真正解决问题和创造价值的企业。”

除了这点以外,奥特曼认为 YC 擅长让创业公司专注于为客户解决实际问题,而不仅仅是为了技术本身而开发技术。

他们之前的成功案例模型,可以帮助有志于硬科技公司的创始人找到规模合适的初始项目,用少量的时间和金钱就能初步实现第一个目标,奥特曼认为:“伟大的公司是通过一系列小胜利逐步建立起来的,早期的势头至关重要。我们的模式帮助公司找到一个适合的初始项目,用少量的时间和资金就能实现。” 而 YC 擅长如何筹集资金,可以帮助这些公司在发展成熟后应对有关于钱的挑战。在这个过程中,奥特曼又收获了另一个响当当的名号。

创业者的 “尤达大师”#

许多野心勃勃的公司都有一个常见的错误,就是放弃一个一开始很庞大且昂贵的项目。

—— 山姆・奥特曼
为了实现自己的许诺,山姆・奥特曼不仅仅在 YC 内部做出了改革,倾向性地扶持突破性技术所在领域的硬科技公司,同时,他也在不断寻找外部助力,为硬科技公司提供前所未有的支持。

早在保罗・格雷厄姆执掌 YC 时期,YC 公司就在一众孵化器里拥有最广泛的人脉资源,格雷厄姆一直尽可能地帮助初创公司降低成本和缩短启动周期,他认为这是任何孵化器都应该做到的,也是能够最有效地帮助初创公司成长的事情之一。因此,格雷厄姆推动 YC 公司与亚马逊、微软、支持多种编程语言的云平台公司 Heroku 和云计算管理公司 Rackspace 达成协议,为所有 YC 资助的初创公司提供免费的网页托管服务。

山姆・奥特曼显然也继承了格雷厄姆的这一思路。随着 YC 投资方向进入新领域,奥特曼开始寻找并建立类似的合作。

  • 2014 年 12 月,奥特曼在 YC 官网宣布将与一家现代生命科学研究平台 Transcriptic 建立合作伙伴关系,为 YC 社区不断壮大的生物技术公司提供 2 万美元的免费信贷额度,用于在 Transcriptic 平台上进行实验。成立于 2012 年的 Transcriptic 开发了第一个基于机器人云实验室平台的生命科学研究服务,是一个可扩展的数字基础设施,能够将实验室过程、仪器和物联网技术集成到一个单一的用户界面中。

  • 研究者可以在世界任何地方进行可扩展、可重复和快速的实验。简而言之,全世界十大制药公司以及新兴的生物技术公司都在使用这一平台,获得更高的实验可重复性和灵活性,并且帮助自己的科学家专注于加速发现,而不是劳动密集型的工作,改变了药物发现和合成生物学研究。*

  • 2015 年 2 月,奥特曼宣布加大对硬件公司的支持力度,包括费用折扣、加速服务、免费咨询、原型设计制作,以及针对 YC 初创公司的批量定价等等。这些支持措施覆盖了从 3D 打印到快速注塑成型等硬件生产的全部流程。同时,YC 还在湾区山景城建立了一个迷你电子原型制作车间,使得硬件初创公司可以根据需要,在任何时间进行 3D 打印。

  • 2015 年 7 月,奥特曼再次推出了一个新项目:YC 奖学金计划,初定目标是资助 20 家处于创意或原型阶段且尚未在其他地方获得资金的团队,YC 将提供 12000 美元的资助。当被问及为什么 YC 要启动这个项目时,YC 的合伙人吉马纳拉克表示:“前段时间,我们所有人一直在讨论奖学金计划的概念。

  • 作为一个组织,我们希望能够尽可能地促进创新。” 由于奖学金计划支持来自全球的初创团队,因此在大部分时间,YC 与初创团队将远程协作共同工作。在接受采访时,奥特曼对于能否远程指导团队这件事并不担心,但他也承认目前还没有人知道这个计划的最终效果会如何。奥特曼一脸轻松地说:“我认为,我们在硅谷经常忘记一件事,对于那些远离任何创业中心但非常有才华的人来说,筹集自己生活所需的资金并不容易。”

山姆・奥特曼带着 YC 快速迭代,在短短一年半的时间内经历了惊人的变化。对于外界的质疑声和担忧,奥特曼认为 YC 一直在很好地扩展,奥特曼说:“我从不相信风险投资公司无法快速扩展的说法。如果产品公司可以,我们肯定也可以。实际上,我认为我们的规模已经超出了大多数人的想象。” 这句话背后的事实是,2015 年的冬季和夏季项目,共有 220 家初创公司加入。从各方面来看,这都是一个惊人的数量。所有人都开始相信,有一天,YC 将会在每年资助 1000 家公司。

在这一过程中,山姆・奥特曼也逐渐成为其他创业者口中的 “尤达大师”。

尤达大师是《星球大战》系列电影里的重要角色,首次出现在 1980 年的电影《帝国反击战》中。他是最古老、最坚忍、最强大的绝地大师之一,德高望重,拥有强大的原力,是绝地武士团的主要成员,直到绝地武士团濒临灭绝。在他漫长的 900 年人生里,他参与了银河系中几乎每一位绝地大师的训练,是欧比旺・克诺比的导师,还培养了卢克天行者。

其他创业者用这个比喻,将此时不到 30 岁的山姆・奥特曼,等同于保罗・格雷厄姆这样的创业前辈与导师。在危机中的创业者会首先给奥特曼打电话,期待他在硅谷这个仰赖互助的地方,发挥纵横捭阖的能力。YC 的一个创始人曾这样评价奥特曼:“因为他能预见未来,所以我们会让他告诉我们接下来将发生什么。”

所以,当挪威创业公司 Konsus 的两位创始人抵达 YC 在旧金山的办公室,找奥特曼会面约谈的时候,他们就像迈向山顶神殿的朝圣者。Konsus 是 YC 冬季批次的一家公司,业务是将企业和自由职业者对接起来,提供网页设计或者数据录入的工作。尽管在发布初始产品后,创始人融到了 160 万美元,但他们仍旧充满焦虑。

在山姆・奥特曼面前,其中一位创始人弗雷德里克・托马森问道:“我们想让这笔钱能永远花下去,我们绞尽脑汁想着要怎么省钱,我的搭档桑德尔拉施为了能够花更少的钱在租用办公室上,甚至准备把公司搬到森林边缘,和其他创业者们共用一个木屋厕所了。所以,我们真的需要给自己的工程师配电脑吗?” 面对这个令人有些啼笑皆非的问题,奥特曼平静地回答他们:“这是一种不太常见的错误,也就是试图太过节省,所以把电脑买了吧。” 两位创始人认真地点了点头,结束了这一番喜剧性的对话。

这不是他们的第一次见面,事实上在与奥特曼的初次会面过程中,两人已经非常尊敬眼前这个比自己还小的年轻人了。当时,他们向奥特曼介绍公司业务,解释说:“其他公司将需要做的任务发给我们,然后我们根据任务所需技能和截止时间,将这些任务分配给世界各地的自由职业者。” 奥特曼在听后立马直言不讳地问道:“所以你们就是一个按需服务的临时代理机构?”

奥特曼还告诉两位创始人,他们不需要发明什么新的复杂的指标,仅仅用客户重复使用率和留存率,就可以衡量自由职业者的任务完成质量。而对于两位创始人最关心的问题 “如何在接下来 3 个月中避开所有可能犯错的事项”,奥特曼肯定了他们的警觉,因为奥特曼相信 “做到最好的创始人都非常偏执,充满危机感”。

  • 奥特曼告诉两位创业者:“从字面上来说,创业者总喜欢创造新的东西。然而做一个生意其实意味着反复打磨一个东西十年。大多数人做的事情太多了,反而忘记最重要的事情是坚持不懈地做一两件事。” 山姆・奥特曼本人也始终遵循着这一法则,最终他凭借着这种坚持,为后来展开真正事业时赢得了大量外来资金支持。这一部分的内容,我们将在后文涉及 OpenAI 时期的山姆・奥特曼时,展开更多精彩的故事,揭示更多隐秘的细节。

重返斯坦福开设创业课#

不要为了创业而创业,创业需要创业者投入极大的热情。当创业是解决问题的唯一途径时,这个时候创业最容易成功。

—— 山姆・奥特曼

让我们把目光拉回到 YC 时期的山姆・奥特曼。此时,他的先见能力帮助他获得了 “尤达大师” 的称号。创业者不远万里来湾区的 YC 总部见他,15 分钟后,带着信心和决心离开。奥特曼的大部分建议都遵循 YC 关于透明度的准则:如果你对投资者应对挫折的能力有所担心,那就告诉他们;如果你对潜在客户的沉默感觉迷惑,那就问问他们。而那些更棘手的问题则会激发奥特曼更加激进果敢的判断,比如他会直接告诉创始人:“除非竞争对手明确地在市场上打击你,否则不要担心他们。”

奥特曼学会了在任何场景下多线处理问题,一次午餐会议上,他前一刻还在和数据库公司 Elucify 的创始人会面,告诉后者:“竞争对手应该是你最不需要担心的东西之一。” 几分钟后,他又开着电话免提与加拿大自动驾驶公司 Varden Labs 的创始人交流融资经验,直白地告诉对方:“想要融资 5000 万美元,你要不有了重大的技术突破,要不就是有了一大群客户。” 创始人接着追问道:“那长期呢?” 此刻的山姆・奥特曼穿着长袜和卡其短裤,身着灰色连帽衫,却像绝地武士一样,挥动手中那把隐形的光剑,一击命中所有目标,给出了最好的一个回答:“永远想着如何把你现在做的事后面多加一个 0,但不要比这个想得再远了。”

山姆・奥特曼逐步向所有人证明了他出色的投资才能,以及对初创公司独到的理解,这两点足以媲美他的老师保罗・格雷厄姆。很快,奥特曼的名声传遍了创业圈,自然也吸引了一所美国高校的注意,这所高校就是山姆・奥特曼的母校 —— 斯坦福大学。

  • 2014 年 9 月,在辍学 9 年之后,奥特曼受邀回到了母校斯坦福大学,但不再是以学生的身份。他成了创业导师,代表 YC 孵化器与斯坦福大学联合开设了一门名为 “如何创业” 的课程,给台下的后辈们传授创业经验。这些经验包括:如何碰撞出创业想法,评估项目,获取早期用户,让公司获得快速成长,以及如何去做销售,扩张市场,获得融资以及培养公司文化等内容。

在 YC 内部,奥特曼曾经教授过很多关于如何创业的课程,但所有内容都没有公开,因此这次在斯坦福的公开授课,是 YC 和奥特曼第一次将他们的经验与遇到的教训,通过记录在案的形式向全世界共享。

  • 除了线下课堂,山姆・奥特曼还将 1000 多分钟的课程视频放到网上,开设了独立的课程网站,并在 iTunes、Youtube 等主流视频平台同步发出,供全世界的人学习观看。

正如奥特曼在这节课的最开始所说:“我在 YC 的工作主要就是看项目和辅导别人创业,我发现在 YC 工作时,创业者们有 30% 的基础问题都是共性的,可以被概括的,而另外 70% 才是直接和项目或市场挂钩的,我们希望在这堂课中教授那 30% 的基础内容,为所有想要创业的人提供帮助。”

为此,奥特曼还邀请了多位硅谷大牛在系列课程中现身授课,包括 “创业教父” 保罗・格雷厄姆,PayPal 创始人彼得・蒂尔,Facebook 的联合创始人达斯汀・莫斯科维茨,等等。除了 YC 内部的合伙人与专业人员外,几乎每一位参与课程的嘉宾都参与了 10 亿美元以上公司的创建。

截至开课时,YC 已经资助了 725 家公司,奥特曼强调:“我们非常确定我们提供的这些建议都非常有效并且是通用的,我们无法为所有的初创公司提供资金,但我们希望可以为所有的公司提供普遍性建议,这些建议不只停留在纸上谈兵的阶段,它们不是理论性的,都是经过实践的,某位 YC 的创始人最终借此获得了成功或者遭遇了惨败。”

在 “如何创业” 的全部 20 节课之中,山姆・奥特曼亲自传授了 2.5 课时。在正式开讲前,奥特曼回答了一个非常经典的问题:“什么时候适合创业?” 他的答案是:“不要为了创业而创业,因为创业需要创业者投入极大的热情。当创业是解决问题的唯一途径时,这个时候创业最容易成功。” 奥特曼强调,当你发现了一个问题,并且觉得自己必须要去解决它,在这个时候你才会有归属感,才会有激情去面对将来的困难,才能够坚持 5 年、10 年、15 年,最终成就一个伟大的企业。奥特曼的这个说法,很快成为无数年轻创业者努力效仿和实践的名言,尤其是那些同样在学生生涯就想大展身手的天才们,他们的脑海里不断回响着这句话,决定破釜沉舟,放手一搏,走上自己的创业旅程。

俄国作家托尔斯泰在他的个人著作《安娜・卡列尼娜》中写道:幸福的人都是相似的,不幸的人各有各的不幸。同样,创业公司失败的原因也各不相同,

  • 在山姆・奥特曼看来,如果创业公司想要成功,必须具备四个基本要素:创意,产品,团队和执行。接下来,我们将与你一同探索山姆・奥特曼的创业经。无论你是已经决定创业,还是准备做一个到处旅居的数字游民,又或者你只是想看穿老板日常用在你身上的话术,奥特曼的这些经验都能带来足够的启发

山姆・奥特曼的创业经#

很少有创业公司死于同行竞争的,大多数 “死法” 都是因为没有做出最解决用户需求的产品。我以前有个想法,如果你恨不得自己花钱买自己的产品或服务给好朋友和亲人用,那这个产品一定在某种程度上是个非常好的产品,真的能解决真实需求。如果你在推荐给好朋友和亲人使用时会有犹豫和顾虑,那你就要好好想想这个产品是否出了问题。

—— 山姆・奥特曼

上一节我们提到,山姆・奥特曼认为,要创立一家伟大的公司,需要在以下四个方面做文章:创意、产品、团队和执行。

换句话说,一个好的点子,被一个出色的团队完美地执行,才有概率最终变成一个伟大的产品,成就一家伟大的公司。

奥特曼在 YC 公司时,经常根据这四个要素判断眼前的初创项目和公司,比如一个好的创意背后是否拥有一个足够大的需求市场,是否拥有一个高执行力的团队来实现初始目标。

首先讲讲关于创意的问题,对于创意在创业前期的重要程度,奥特曼有一个独辟蹊径的见解。奥特曼曾以为,创意没有那么重要,与其浪费大量时间在创意上,不如着手做产品。了解市场和受众更重要,因为很多时候执行大于创意,创业的过程决定了结果,而不是起点决定结果。但随着他接触越来越多的创业公司,奥特曼改变了自己的想法,他发现大公司都是从一个无法复制的创意开始起步的。

什么样的创意是好创意?奥特曼认为,好创意不只是一个点子。

好创意的辐射范围很广,包括市场规模、长期战略性等等,创业不是一蹴而就的,好的创业公司,需要创业者至少努力 10 年,随着时间推移和发展逐渐丰满起来。不好的创业公司,最多只会存在 5 年,大多数都在 3 年内走向死亡,因为,如果你不喜欢也不相信你正在创造的东西,你大概率会在这个过程中的某个时刻放弃。如果不相信你在做的事情很重要,你就没有办法度过创业的痛苦。

其次,好的创意是由点及面的。要先稳住小部分的忠实用户,再慢慢辐射大部分的用户。先有一个小市场,然后去扩张,这种做法比较适合创业公司。如果反过来做,则很快会被巨头们干掉。同时,好的创意在一开始可能很难让人理解。如果某个创意让人一听就知道是好创意,那么要么会有很多竞争者,要么这个点子别人已经实践过了,发现这事其实做不成。

奥特曼是以 Airbnb 作为案例来讲创意的,2008 年 Airbnb 问世前,人们很难想象有人会把自己家的房间或者沙发出租出去,但在 6 年后,Airbnb 的用户已遍布全球的 190 个国家,人们除了自己的房间,甚至还想对外出租自己的停车位、汽车、热气球、游泳池等。奥特曼强调:“好的创意让人有使命感,有使命感的创意会让创始人有信心、有热情,让员工注意力更集中,会让陌生人也伸出援助之手。” 同时,好创意是符合市场规律的。创业过程中唯一不能左右的就是市场。就算创意与产品不完善,但只要是符合市场需要的,就有用户会买账。

之后,在提及创业前期应该推出什么样的产品这件事上,奥特曼率先强调了另一件事:好的创意不足以成就一个好产品。从他的经验来看,好产品都是因为创业者在改进产品和与用户沟通两个方面花费了大量时间。如果一个创始人能把这两部分做好,其他的问题都会迎刃而解。

那么,怎么样才能成就好产品?奥特曼建议把产品做简单,将细节做精致。以谷歌为例,谷歌的主页就只是一个搜索栏,看起来无比简洁,但无数人每天打开电脑的第一件事就是打开谷歌浏览器。好产品都拥有十分简洁的核心功能,并且能够在用户看到它的第一眼时,就能够快速识别这个功能是什么,并在几分钟时间内迅速掌握使用方式。

因此,最顶尖的产品经理其实是一个创业团队的灵魂,他们不仅需要懂得用户,还需要懂得与用户沟通。因为在创造自己的产品时,反馈非常重要。奥特曼在 YC 工作时发现,那些越好的公司,产品反馈周期越快,反馈环节越短。因为用户会不停地告诉市场,他们愿意为什么样的产品掏钱。根据用户的反馈有选择性地对产品进行改善,是一种有亲和力的表现,同时能够保持高效。因此,对于大部分初创公司的核心团队而言,要找到喜欢自己产品的用户,并且把用户变成粉丝,口口相传比任何广告都有效果。

很多成功的公司都证明了这一点,在中国,小米就曾经凭借高黏性的粉丝,仅仅通过互联网售卖渠道占据了市场优势。而放眼世界,被无数粉丝围绕的苹果则是另一个成功的案例。

在这里,就不得不说到那些极富人格魅力的创始人了。奥特曼赞许身体力行的创始人。他认为好的创始人和用户之间基本都是零距离的,从关注线下销售到了解线上活跃用户,或者半夜起来为用户解决问题,都是创业家精神的实践。奥特曼以图片分享网站 Pinterest 的创始人本・希尔伯曼为例认真剖析了创始人的 “极致疯狂”。

要知道,本・希尔伯曼在创业初期常常直接跑到咖啡馆,给别人看自己的产品,他也会趁店员不注意的时候,把苹果专卖店里所有电脑浏览器的主页设置为 Pinterest 的主页。也许站在一个未来成功企业家的角度,这个行为有点滑稽,但只要你是赢家,就永远不会有人取笑你。

团队与执行#

犹豫不决是创业公司的毒药。平庸的人总是看上去有很多好想法,但是他们从来不会去实现,他们没有行动力,只会止步不前。好的创业者是那些能够快速把小事情做好的人,即便每次只进步一点点,一年之后也会有很大的不同,不要盼望一步登天的事情发生。

—— 山姆・奥特曼

山姆・奥特曼有一句名言:“如果你没有好的创意和产品,那么团队和执行就算做到最好,也是在做无用功。” 大多数人只关注到了前半句,却不知道 “团队和执行” 也是奥特曼发展的根基。

在保证创意和产品的前提下,搭建团队的第一步,则是找到合适的合伙人。根据 YC 的经验,导致初创公司在早期失败的众多原因里,排名第一位的就是合伙人之间有矛盾。奥特曼目睹了很多因为合伙人关系崩裂,最终导致整个项目失败的惨痛教训。与此同时,创业者又总是容易稀里糊涂地与一个关系基础不牢靠的人敲定合作,偶然遇到有类似想法的人,就看似一拍即合地开始创业。这对公司的未来是个很大的隐患,因为你根本不熟悉自己的合伙人。在 YC 里,每 75 家公司中有 9 家可能存在合伙人隐患,这 9 家公司几乎都坚持不到一年时间。

什么样的合伙人是合格的?首先你必须熟悉他,了解他的做事风格。奥特曼在课上建议:“你的合伙人最好是像詹姆斯・邦德一样无所不能的存在。” 这句话点明了一个优秀合伙人具备的品质:足智多谋、不屈不挠、明辨是非、勇敢果决,同时拥有非同常人的创造力。这听起来好像不现实,但重点其实在于,与综合素质略胜一筹的人合伙要好过与只专注于某特定领域的专业人才合伙。

另外,奥特曼认为创业初期最好不要雇用员工,如果有必要,尽量要少,而且必须保证团队内都是优秀的人。虽然现在很多人以员工的多少来看一个公司发展情况,但员工多了会带来很多不必要的麻烦,比如运转慢、开支大幅增加等等。而且,你永远想不到一个害群之马给公司带来的影响有多大。如果这样的人占创业团队的 50%,那这个团队就快完了。

对于创始人而言,要么不花费时间,要么就至少将 25% 的时间放在雇用员工上,而且要学会打破传统思维。在谷歌、Facebook,HR 会第一时间找到刚入职的员工,让他回忆 “你认为这世界上最聪明的人是谁”,以此锁定公司内部最优秀的那批人。对于优秀人才来说,他们的选择也很多,创始人需要让他们相信这是一个将要腾飞的公司,让他们认同公司的文化价值观。公司的文化价值观是什么?就是创始人的价值观与言行。

在这里,奥特曼再次举出了 Airbnb 的例子。这家公司花了 5 个月雇用第一个员工,1 年内只雇用了 2 个员工。Airbnb 的创始人布莱恩・切斯基在决定是否雇用一个员工前,总会问一个问题:“如果你现在只剩下一年的生命,你还会加入 Airbnb 吗?” 这个问题看似极端,却传递了重要信息:Airbnb 需要有同样文化价值观的员工。凭借这个问题,布莱恩最终如愿招到了一批专注的员工,在 Airbnb 遇到发展问题时,他们甚至曾一起住在公司全身心地努力工作,最终帮助 Airbnb 度过了危机。

如何判断一个人是否适合你的团队?#

奥特曼提出三个问题,作为判断标准:

  • 他足够聪明吗?他能完成任务吗?我愿意花费时间跟他在一起吗?
  • 另外,奥特曼也提到 Facebook 的创始人马克・扎克伯格的两条招聘原则:我是否乐意和他一起工作,以及我是否愿意为他工作。没错,老板也要思考我是否愿意为这名员工工作。

很多人也会花费很多时间和精力去雇用员工,却很少在意怎么留住他们。创业者总是对投资人很慷慨,对员工却不是这样,奥特曼强调,大家要知道员工才是持续为公司带来价值的人。创业者应该尽可能将公司 10% 的股份给公司的前 10 位员工,让公司的前 40 至 50 名员工认为他们是公司的元老,让他们认识到自己的存在对这家公司有着非常高的价值。

最后在聊到执行这个关键要素时,奥特曼先提到了首席执行官的工作内容。其需要做的事情很多,既要保证公司向着既定的方向发展,又要确保所有已完成工作的质量符合公司标准。很多时候,初创公司尤其需要创始人成为一个疯狂的执行机器,每天一睁眼就得面对 100 件事情,迅速做出选择,明确哪两三件事情才是最重要的。奥特曼认为在公司发展的不同时期,重要的事情不同,如果努力错了方向,就会失败。

  • 所以哪些事情是最重要的?奥特曼认为,那些有关维持公司成长的事情是最重要的。团队经常会因为公司的公关活动兴奋异常,其实这些活动对公司的贡献可能微乎其微,不过是看上去很美而已。

山姆・奥特曼也承认,创业需要创业者全身心的投入,在工作之余放弃掉许多事情,所以对于想把握工作和生活的平衡的人来说,创业不是一个好选择。如果选择创业,就必须承担与之对应的压力,以及不断袭来的工作疲惫,很多人会通过休假缓解疲惫,但奥特曼有不同的看法。他这么说道:“休假对一般人分散注意力、缓解压力比较有用,但对于创业者来说,继续工作才是正确的出路,高强度的工作才能成就好的公司。” 奥特曼的这个回答让他很像一个披着人类皮囊的机器人。

奥特曼回忆了他所遇过的成功者,这些人或许努力的领域不同,出身不同,思维习惯也不同,但相同的是在执行过程中,做事果断。犹豫不决是个黑洞,商业领域里一切唯快不破。优秀的人行动总是很快,每当奥特曼与他们交流时,他们总有新的进展。因为增长和驱动力是公司发展的命脉,特别对于互联网公司而言,当公司的发展不能保持一个平稳或者很快的增速,公司的气势会受到很大的影响,那时候再有激情的演讲也很难调动他们的积极性。

事实上,2008 年,Facebook 的增速逐渐变慢,发现这件事后的第一时间,Facebook 就成立了专门的小组负责这方面的运营,这个小组很快做出了成绩,并受到了整个公司的尊重,他们不仅带来了绩效,也让公司每个人重拾了信心。

山姆・奥特曼在斯坦福分享了从 Loopt 到 YC 时期他的个人经历,以及他的所见所得,然而对于奥特曼而言,这只是他未来人生道路上的短短一小段。2014 年成为 YC 掌门只是他人生路上的一个瞭望塔,终点仍在远方。

YC 与 VC 的区别#

我们计划长期投资一些研发项目。其中一些项目可能需要 25 年才能出成果,但那对我们来说完全没问题。

—— 山姆・奥特曼

山姆・奥特曼同意成为 YC 孵化器的总裁,不只是为了占领这家风头正盛的创业孵化器,而是为了整个世界。

但奥特曼从一开始就清楚地知道,推动世界前进可能最终会产生巨大的价值,但代价也同样昂贵。为了积聚必要的资金,奥特曼不声不响地扩大了 YC 公司的规模,并且向硅谷更深处挖掘 —— 他已经开始使 YC 变得更像一个投资机构。这一点与保罗・格雷厄姆执掌 YC 孵化器的理念似乎是相违背的。

在保罗・格雷厄姆时期,YC 一直以一个温和、有益的天使投资人的形象出现,与其他所有在入股后就力求巨额回报的冷酷的风险资本不同,YC 站在它们的对立面,而这也是保罗・格雷厄姆创立 YC 的初心 —— 他力求 YC 与其他风险投资基金不同。

格雷厄姆的态度在很多场合甚至是公开的,比如在 YC 某次活动上,他曾放出一张幻灯片,上边直截了当地写着:“风投,究竟是没有灵魂的撒旦代理人还是笨拙的强奸犯?”

2015 年 3 月,保罗・格雷厄姆在个人博客上发表了一篇文章,标题极具攻击性,叫作《VC 垃圾理论》,VC 是风险投资的英文缩写。在这篇文章里,格雷厄姆写到,几个月前他收到一封来自某个投资机构招聘人员的电子邮件,询问他是否有兴趣成为一家新风险投资基金的 “常驻技术专家”,在考虑了大约 4 秒钟后,格雷厄姆的结论只有两个字:恶心。对此,格雷厄姆解释道:“在我之前的经历里,最生动的回忆之一就是去拜访波士顿著名的风险投资公司格雷洛克,一家成立于 1965 年的早期风投公司。他们是我一生中遇到的最傲慢的人群。我不是唯一对 VC 有这种感觉的人,甚至我的一个 VC 朋友也不喜欢 VC,他谈到 VC 时经常称他们为混蛋。”

格雷厄姆在学习更多关于 VC 世界如何运作的知识后,意识到风险投资之所以受到如此的评价是有原因的,与其说是企业吸引了混蛋,不如说是他们所掌握的权力腐蚀了他们,因为风险投资基金的问题在于它们是基金。与共同基金或对冲基金的经理一样,风险投资公司根据他们管理的资金的一定比例获得报酬:每年约 2% 的管理费,外加一定比例的收益。所以他们希望基金规模庞大 —— 如果可能的话,最好是数亿美元。但这意味着每个合作伙伴最终都要负责投入大量资金。由于一个人只能管理这么多交易,因此每笔交易都必须涉及数百万美元。这几乎解释了创始人讨厌 VC 的原因 —— 他们成为众多经典电影里的反派角色:时而懦弱、贪婪、鬼鬼祟祟,时而霸道,完全不近人情。

因此,YC 的运作模式和 VC 不同,他们不会像 VC 一样要求对创业公司的控制权和决策权,YC 已经逐渐将权力的天平倾斜到了创始人一边,由这些人来选择自己是 YC 人还是 VC 人。

在后期,YC 还会给所有自己的校友公司一份 VC 的排名名单,上面不仅有书面的评语,还有具体的打分。已经连续四年被邀请参加 YC 路演日的风投机构合伙人布赖斯・罗伯茨就在这份名单的前列,他笑着评价 YC 公司的这个行为:“每次我去 YC 总部,遇到他们,仿佛就能看到他们挥舞着大棒对我说:‘VC 们,别乱来,我们一直盯着你呢。’”

格雷厄姆在文章里也承认了 VC 在投资生态中的重要性,他提到:“我也遇到了一些我喜欢的 VC,迈克尔・莫里茨就是其中之一,他甚至还有幽默感,这在 VC 中几乎闻所未闻。还有约翰・杜尔,他和我一样都是极客。所有好的 VC 都为最好的风险投资基金工作。我的理论解释了为什么他们往往会有所不同:正如最受欢迎的家伙不必迫害那些读书好的孩子一样,最好的 VC 也不必像 VC 那样行事。他们可以挑选所有最划算的商品,所以他们不必那么偏执和鬼鬼祟祟,他们可以选择那些罕见的公司,比如谷歌,这些公司实际上会从他们的巨额投资资金中获益。”

YC 公司始终和创业者站在一起,帮助创业者和初创公司争取利益。在 YC 的努力下,创业者的利益得到了保证,但对于风投公司和中后期轮次的投资人而言,YC 公司的做法加大了投资者之间的竞争。风投公司逐渐意识到,如果他们想要投资最好的 YC 校友公司,就必须拿出一份绝对公平的条款,给予他们想要投资的创业公司所需的任何帮助。许多投资者私下抱怨 YC 把后续轮次的投资价格抬高了,他们批评 YC 太达尔文主义了,注重 “弱肉强食,优胜劣汰” 的规则。一个知名的风险投资人曾这样说:“YC 每批项目里,最好的 4 家公司会获得最高的回报,但对其余 46 家公司来说,收获就不怎么样了,因为当他们来见我的时候,我就知道他们已经被红杉和 A16Z 这两家最顶尖的风投机构拒绝过了。”A16Z 的联合创始人本・霍罗维茨则有不同的看法:“这种有利于顶尖创业企业的机制不是 YC 的专属,最想获得资金的创始人可以最先选择投资人,其他所有人挑剩余的。这叫资本主义!去做他妈的工作,不然就等着被干掉吧。”

而对于在保罗・格雷厄姆之后执掌 YC 的山姆・奥特曼来说,他虽然继承了格雷厄姆的很多理念与经验,但仅仅就投资方法而言,他的理念更多是被另一位大佬 ——PayPal 的创始人彼得・蒂尔 —— 塑造的。

彼得・蒂尔是一个自由论者,也是 PayPal 和软件服务公司 Palantir 的联合创始人。软件服务公司 Palantir 的名称来源于《指环王》中的魔法物品真知晶球,这个无法摧毁的水晶球,可以用于通信和观察世界其他地方的事件。这家公司主要为政府机构和金融机构服务,最出名的案例是在 2011 年,以大数据技术帮助美国军方成功定位和击毙基地组织首脑本・拉登。

而作为这两家全球知名公司的创始人,彼得・蒂尔最常被人提起的,并不是他的这些创业成就,或者他的投资眼光,而是八卦传闻 —— 第一件事是彼得・蒂尔暗中资助一起诉讼案件,这起诉讼案件最终因为一卷性爱录像带,导致全美有名的传媒公司高客传媒破产;第二件事更加耸人听闻:彼得・蒂尔热衷于永生,他一直试图通过摄入人类生长激素来延长自己的寿命,甚至曾经发表过一些可怕言论,比如他认为年轻人的血液可能对于延年益寿的效果更好。

从这些八卦传闻中就能看出彼得・蒂尔和保罗・格雷厄姆是两种不同风格的人。而在投资领域,作为业界颇具影响力的风险投资人,彼得・蒂尔在很多方面都是保罗・格雷厄姆的反面,比如他并不赞成少量狂热用户和 “拉面盈利” 的想法,而是鼓励飞速增长和迅速垄断。“拉面盈利” 能力是格雷厄姆创造的词汇,“拉面盈利” 意味着一家初创公司赚的钱刚好够支付创始人的生活费。这是一种不同于初创企业传统目标的盈利形式,传统的盈利能力意味着大赌注最终会得到回报,而 “拉面盈利” 能力的重要性在于它可以为创始人赢得时间。

但彼得・蒂尔和格雷厄姆依旧有一个共识,就是对创始人质量和公司未来前景的关注:在 5 年或 10 年内,产品的市场规模能否扩大 100 倍?

因此,当时间来到 2015 年 10 月,YC 很快将为第 1000 家公司提供资金时,奥特曼认为时机到了。此时,YC 早期投资的许多公司,目前已经稳步发展,成了某一行业或者领域的佼佼者,不断扩大自己的组织规模、收入总额和运营规模。许多创始人持续不断地回到 YC,寻求更多建议和支持。

山姆・奥特曼决定再次做出改变:

  • 他将 YC 投资方向伸向了更远端,不再仅限于为初创公司提供种子资金,YC 从一个创业公司的孵化器进化为成熟公司的中后期投资者。
  • YC 扩军计划#

你可以通过突破性的创新、增量的改进或复杂的协调来创造价值。伟大的公司通常会做其中的两个。最好的公司会同时做这三件事。

—— 山姆・奥特曼

在入主 YC 一年半之后,山姆・奥特曼彻底展现了自己的个人野心 —— 他要将 YC 孵化器建成真正的投资帝国。

多年来,YC 一直都在研究如何对那些校园企业进行后续投资,来帮助它们进一步扩张并且盈利。2015 年,奥特曼提议做一个总量 40 至 50 亿美元的贷款池,以及一个 20 至 30 亿美元的增长基金。在内部讨论时,所有人都对奥特曼的这个想法感到震惊。一位 YC 核心人员回忆这件事时说道:“我们都告诉奥特曼这有点太疯狂了。” 奥特曼后来也对此表示认同,他说:“那些反对我的人其实是对的 —— 你无法真正向 YC 的公司投入 50 亿美元,这笔资金的数量太庞大了,至少现在还不行。”

因此,奥特曼退而求其次,他在之后提出一笔相对适度的 7 亿美元的资金池,以此建立了首个 YC 连续增长基金(YC Continuity Fund)。

2015 年 10 月,山姆・奥特曼正式对外宣布这个新基金的成立,并且表示新基金将以两种主要方式投资所有毕业后的 YC 校友公司:首先,新基金将在估值低于 3 亿美元的前提下对 YC 校友公司进行按比例投资,继续支持他们;其次,新基金还将考虑主导或参与 YC 校友公司的后期成长融资轮次;并且在对创业者有意义的情况下担任董事会成员,最终成为成熟公司创始人的合作伙伴。奥特曼在官方帖子里强调 YC 新基金的目标:“我们期待成为什么呢?一个专注于长期收益的投资者,关注普通投资者经常忽视的那些行业或者领域。”

作为长期基金的投资者,一般有 3 倍的回报率就满意了,奥特曼却期盼前所未闻的 10 倍回报。这个基金将主要领投后续融资轮次,但其中三分之一的钱都会被用于维持 YC 在其所有企业中那 7% 的股份,因为它们在毕业后还会不断融资,如果 YC 不继续跟投的话,YC 的股份占比就会被稀释。另一方面,奥特曼也强调他们将对所有校友公司一视同仁,因为如果 YC 只在后续阶段投资他们最喜欢的公司,其他风投们就会做出 “其余公司都是二流公司” 的推论。

与此同时,新加入 YC 全职合伙人的阿里・罗加尼负责新基金。也许你对阿里・罗加尼的名字非常陌生,但你肯定熟悉他个人履历上的几家公司。

阿里・罗加尼曾在著名动画工作室皮克斯的财务部门工作了 9 年,并担任首席财务官,帮助迪士尼动画公司重组。2008 年,他离开皮克斯后,成为 Twitter 的首席财务官,4 年后调岗成为 Twitter 的首席运营官。史蒂夫・乔布斯曾经试图劝阻他加入 Twitter,并说服他到苹果任职。2014 年离开 Twitter 后,阿里・罗加尼作为兼职合伙人加入 YC,专注于帮助 YC 校友扩大公司规模,他是 YC 里最了解哪些公司正在快速扩张并需要更多资金的人,因此由他来管理这个增长基金,再合适不过。在接受采访时,阿里・罗加尼将新基金的投资策略描述为一个 YC 独有的巨大的竞争优势:“投资者要花费 80% 到 90% 的时间来寻找被投项目,像日本的捕鱼船队一样游遍全球。而我们是在不断被补充的水族箱里钓鱼。”

硅谷顶级风险投资公司集中的地方。

但对许多 VC,也就是风险投资人而言,这个增长基金更像是一艘停泊在全球公海范围内的驱逐舰。风险投资人布赖斯・罗伯茨认为这是一种颠覆沙山路 的方法。布赖斯说:“如果奥特曼没有明说,他也肯定想过。当你能拥有 Airbnb 25% 股份时,为什么只要 7% 呢?”VC 的担心在于,YC 只需要花费很少的时间,就将为无数初创公司提供从摇篮到上市的全阶段资金,这让大量 VC 无事可做,还会大大减少其他初创公司的资金和知识来源,从而把更多权力集中在 YC 手里。一位不愿意透露名字的风险投资人说:“在某个时候,YC 就会开始在 A 轮和 B 轮挑选其最好的公司。我想他们的计划就是颠覆一切,接管世界。”

这些言论传到了山姆・奥特曼的耳边。奥特曼非常生气,他借着一次媒体采访时宣称:“只要是我在管理 YC,我们就不会领投 A 轮融资!如果我们这么做,就会给我们的项目申请造成无法挽回的损害。” 然而,帮助撰写 YC 增长基金的法律框架的合伙人乔纳森・莱维也承认:“我们的法律文件中留下了足够的余地,可以让他们去做最合理的事。我举个例子,山姆・奥特曼尊重红杉资本吗?肯定的。但奥特曼是否认为如果他来做,他能做得更好?答案同样是肯定的。奥特曼真的能做得更好吗?答案依旧是肯定的。所以如果你问我,我是否能看到有一天奥特曼接管整个风投体系?我的答案还是肯定的。所有的计划都会在经历一次例外后,接着出现第二次,然后有一天整个生态就完全改变了。”

无论山姆・奥特曼对于自己同事的这个说法有何反应,在所有对外的采访表述中,管理新基金的阿里・罗加尼和山姆・奥特曼都明确表示:“YC 新的增长基金将专注于 YC 校友内部的项目,而不是外部公司或者项目。所以如果某些项目的创始人正在寻找资金,必须先加入 YC 孵化器,从夏季或者冬季项目毕业,因为 YC 不会领投种子轮或传统的 A 轮融资。” 两人的承诺声明淡化了投资界对于竞争风险的担忧,同时向外界确定了奥特曼继承保罗・格雷厄姆创立 YC 时的初衷:他们并不想要无序地扩大规模,将 YC 变成与传统 VC 一样的公司,而仅仅是在自己的领域,帮助他们看好的公司进一步扩张,成为巨头。

值得注意的是,在奥特曼接手 YC 后,YC 已经为初创企业提供了多种融资方式,包括最初的种子资金模式、YC 奖学金等等,与此同时,奥特曼和 YC 公司一直在寻找新的方法鼓励企业家创业,斯坦福大学的公开课就是其中之一。但随着前一轮技术爆炸的成果大部分都已经被各个领域的创业者们占据,在一轮又一轮的竞争与兼并之后,大部分领域都来到了游戏后期阶段,这也是新基金诞生的全部意义。

但仅仅只是投资,并不能满足山姆・奥特曼的胃口,硅谷的 VC 在一件事上猜对了一半,就是他们对奥特曼的评价:“我想他们的计划就是颠覆一切,接管世界。” 如果能够让世界变得更好,山姆・奥特曼肯定会同意接管这个世界,即便为此要付出其他代价。当然,接管世界是个不现实的想法,对于山姆・奥特曼而言,有另一个现实途径能够让他改变世界,那就是做研究,研究那些真正能够改变世界与人类未来的科技。
不止投资,还要做研究

许多最好的想法一开始看起来很愚蠢或很糟糕 —— 你想要一个介于 “看起来像个坏主意” 和 “是个好主意” 之间的想法。

—— 山姆・奥特曼

跟硅谷里的每个人一样,山姆・奥特曼自称要拯救世界,毕竟拥有奥特曼这个姓氏的人如果不干出一点拯救世界的事,那就太说不过去了。但和几乎所有人不同的是,奥特曼已经有了具体计划。他不止一次在公开场合说过类似的话:“我相信 YC 可以引领技术的走向,很多人会说最终决定技术走向的人只可能是消费者,这当然也没错,但是,已经有很多人觉得当 YC 说‘我们觉得虚拟现实非常有戏’时,大学生们就会开始学习这个领域的东西。”

因此,在接管 YC 之后,奥特曼曾在一篇个人博文中写道:“科学似乎要完了。” 然后他开始关注硬科技公司和突破性领域,呼吁能源、生物技术、人工智能、机器人技术和其他多个领域的公司来申请 YC。于是,曾经在外人看来有些木讷呆板、非常技术风格的 YC 突然变成了一个野心勃勃的极客形象。奥特曼开始和所有新兴领域的创业者会面、共进晚餐,比如研究核裂变的创业公司首席执行官,或者人工智能公司的创始人。当奥特曼陷入兴奋之中,比如他想敦促一家量子计算创业公司的创始人把他基于人工原子的机器投入市场时,他会忘记正在一家餐厅大堂,周围坐满了其他投资者或者同行业的人,高声冲对方喊道:“这些计算机将会使我们的产品研发周期缩短 10 到 20 倍!所以我们为什么不立即这么做呢?”

奥特曼的能量超乎所有人想象,也引起了一些人的担忧和不解,包括 YC 内部的人,他们害怕奥特曼的步伐迈得太大太快,最终会伤到这家以孵化器起家的公司。

2015 年 9 月,有两位从 YC 创建初期就陪伴左右的合伙人坐下来,想要说服奥特曼 “慢一点,冷静一下”。奥特曼一边回答他们 “是的,你们说得对”,一边转头去做了另一件瞒了内部很久的事情,那就是组建 YC 研究所(YC Research,YCR)。这是一个非营利组织,最初的启动资金来源于山姆・奥特曼个人赠予的 1000 万美元,目的是做一些最疯狂、最前沿的纯研究。

2015 年 10 月,奥特曼宣布在投资领域进行扩军,进一步对 YC 校友公司进行投资支持的同时,还正式宣布成立非营利性研究实验室 YCR。奥特曼认为 YC 的使命是通过资助初创公司,尽可能多地实现创新想法,但初创公司并不适合某些类型的创新,甚至面临着许多问题,例如,这类创业需要非常长的研发周期,或者试图解开科学技术领域的某个未知问题,又或者这个技术不应该由任何一家商业公司垄断,比如 AGI。对于这类创新,研究机构比公司的形式更加适合。

因为 YCR 是非营利的,所以在 YCR 工作的研究人员完全可以自行决定何时发布他们的工作成果,而奥特曼等资助者不会干预任何过程,他们将提前制定一个流程来解决可能的问题。另一方面,因为研究机构的开放性,研究人员将能够自由地选择与哪些机构的专家们进行合作。

奥特曼在接受媒体采访时说道:“我们这样做并不是为了帮助 YC 的初创企业更容易地去获得成功,或者增加 YC 公司本身的实力,而是为了造福全世界。我知道造福世界这个说法听起来像是陈词滥调,但正如我们在历史上看到的那样,新技术的突破会造福全世界的人。基础研究对于推动世界前进至关重要,但它的资金一直在被削减。” 这句话并不只是奥特曼的口头承诺,因为 YCR 虽然是 YC 的一部分,但它不仅将独立运行,而且实验室内开发的任何知识产权都将免费提供给所有人。

在某种程度上,可以将 YCR 视为 YC 的 “Google X”,Google X 是谷歌在 2010 年 1 月成立的一个半秘密研发机构和组织。在谷歌的定位里,Google X 的使命是发明和推出 “moonshot” 技术,旨在让世界变得更加美好 ——“moonshot” 直接翻译过来是 “登月计划”,但在谷歌的定义里,moonshot 意味着一个大问题、一个激进的解决方案和突破性技术的交集。Google X 实验室成立后,立即着手开发谷歌的自动驾驶汽车。在 YCR 成立的 2015 年 10 月,几乎同一时间,谷歌完全重组为 Alphabet 后,Google X 最终更名为 X,像科幻电影里的一个神秘代号。

YCR 成立后,很快宣布将对全美基本收入、教育和建设新城市进行研究。未来,YCR 可能会专注于自动驾驶汽车技术、医疗技术以及所有造福社会的突破性技术。奥特曼在接受采访时暗示最终可能会向 YCR 投资 1 亿美元,他还不惜亲自发声吸引人才加入 YCR,他说:“我们将特别欢迎那些有着异端思想的外部人士,我们将保持小团队规模,因为我们相信小团队可以比大多数人想象中做得更多,而且小团队还意味着更少的办公室政治,我认为,这是近几十年的科学研发领域一直存在的问题。”

2020 年 5 月,YCR 在新官网宣布改名为 OpenResearch,中文大意为开放研究,并且宣布它将继续独立运营,但所有研究项目不再隶属于 YC 公司。几乎同一时间,YCR 在 YC 的官网也宣布了这件事,他们支持 YCR 的这个决定,并且承诺将继续支持这家非营利组织。YCR 脱离 YC 公司,意味着这家机构能够独立于 YC 之外,获得充分的研究资金,同时他们愿意继续保持独立性,不受任何商业组织机构的干扰。

有趣的是,同样在

  • 2015 年,另一家与山姆・奥特曼有关的重要非营利机构也诞生了,那就是 ChatGPT 背后的研发公司 OpenAI。2015 年 12 月,山姆・奥特曼和埃隆・马斯克等人宣布成立 OpenAI,并承诺向该组织投资超过 10 亿美元,很快 OpenAI 表示,他们将通过向公众开放其专利和研究,与其他机构和研究人员 “自由合作”。

讲到这里,已经见证了 OpenAI 这家公司成功的你可能才会恍然大悟,清楚看见山姆・奥特曼个人野心的起点,虽然我们无法剖开奥特曼的大脑一探究竟,但当我们回看奥特曼的经历,可以发现,已经有足够多的痕迹显示,山姆・奥特曼在 2015 年想清楚了一些事情,一个庞大的改变人类世界未来的计划在他脑海里成形,并且提上了日程。

成功与焦虑#

事实证明,决心与智慧更加重要。

—— 山姆・奥特曼

关于 OpenAI 的成立,我们将集中在下一章展开。在这里,我们仍然回到 2015 年这个时间点,回到 YC 时期的山姆・奥特曼。

在 2015 年末的一场聚会上,风险投资家马克・安德里森说:“在奥特曼的领导下,YC 的野心放大了 10 倍。” 当时正准备离席,并且马上要去英国度假的保罗・格雷厄姆则笑着回应了马克的这句评价:“我认为奥特曼的目标是创造整个未来。他正在尝试推进癌症治疗、核裂变、超音速客机以及人工智能等多个领域的技术进展,全面改变我们的生活方式。” 这句评价其实代表了硅谷大部分人的想法,他们都期待着山姆・奥特曼在每一天睡醒后,又产生了什么疯狂的计划或者想法。

对于山姆・奥特曼而言,

  • 2015 年是一个重要的节点,他同时在 YC 公司的内部以及外部寻求更多合作,并关注对基础科技的长期研发,这些行为在未来都产生了足以改变世界进程的结果,同时也铺垫了他的个人计划:有可能在未来某一天彻底离开投资领域,如埃隆・马斯克一样,彻底投向某个硬科技公司,专注于某一个领域的发展。

但在这一年,山姆・奥特曼还没有完全决定跳出 YC 的框架,寻求更多可能。因为保罗・格雷厄姆给他留下了足够多的空间,任他自由驰骋。

此时,山姆・奥特曼在 YC 公司施行的一系列举措,也让他跳出了硅谷,跳出了科技圈和创投界内部,进入了更加大众化的视野,山姆・奥特曼成为主流媒体关注的焦点,其中就包括《福布斯》杂志。

《福布斯》杂志创立于 1917 年,是美国当代最著名的商业杂志之一,以发布各类榜单和排名而闻名,这些榜单或者排名包括美国最富有的名人、世界顶级公司、福布斯世界最具影响力人物榜单,以及世界亿万富翁等等。有趣的是,《福布斯》杂志的座右铭和山姆・奥特曼的个人理想十分一致,都是 “改变世界”。2015 年,想要改变世界的《福布斯》杂志,选择了 29 岁的山姆・奥特曼,作为当年 “福布斯 30 位 30 岁以下的风险投资人榜单” 里的代表人物。与此同时,奥特曼也成为 2015 年 “30 位 30 岁以下” 总榜单里,20 位不同领域的杰出人物之一。

在评语里,《福布斯》杂志提到了 YC 与保罗・格雷厄姆对山姆・奥特曼的器重,以及保罗如何将一家成功的创业孵化器交到当时 20 多岁,几乎不为人知的奥特曼手上。同时,《福布斯》强调了奥特曼制订扩军 YC 公司的宏伟计划,以及他在 YC 的宏图壮志。奥特曼在接受《福布斯》采访时说道:“我们希望对这个世界产生影响。你在 YC 可以列出世界上所有存在的问题,然后资助不同的公司解决这些问题,这是一件很酷的事。”

虽然山姆・奥特曼的人生仿佛 “开了挂” 一样,但就如硬币总有两面,成功的背后也并非全是光亮,再光辉闪耀的人,内心的某个地方也必然存在着一块阳光照射不到的阴影。

奥特曼的母亲康妮・吉布斯汀是一位皮肤科医生,她在接受《纽约客》的采访时称:“山姆的内心确实藏了很多东西。他会打电话给我说自己头疼,他自己在谷歌上搜出很多绝症,我只能让他放心,告诉他你没有得脑膜炎或者淋巴瘤。” 奥特曼的母亲表示,她的儿子一直生活在焦虑中,他常常会担忧很多事情,担忧的程度令他人无法想象。

然而,山姆・奥特曼的压力不仅仅来自忙碌的工作,还来自未知的未来以及世界正在发生的变化。某次和朋友聊天时,奥特曼突然对在场的人宣布:“我正在为末日生存做准备。”

这个词打破了那个社交场上的觥筹交错。奥特曼认为,致命的合成病毒、叛变的人工智能和核战争,这几类事件随时都会给人类带来灭顶的风险。奥特曼当时说:“我平时尽量不去想这些事,但我在加州旅游胜地大苏尔买了一大片土地,在那里存着枪支、黄金、碘化钾、抗生素、电池、水,还有防毒面具。我随时可以飞去那里迎接末日。” 奥特曼并非口头说说,他在 2012 年处理众多资产时,的确留下了大苏尔的土地,就是为了末日做准备。

除了建设自己的地堡之外,奥特曼对于应对世界末日,还有着其他的后备计划,其中之一与彼得・蒂尔有关,他们说好万一发生什么灾难,就一起飞往彼得・蒂尔在新西兰的一处房产。彼得・蒂尔认为:“奥特曼并不信特定的宗教,但他在文化上非常符合犹太人的风格 —— 一个乐观主义者,也是一个生存主义者。他总是觉得事情会变得非常糟糕,而且世界上没有任何地方能让他获得在家才有的安全感。” 出于同样的目的,奥特曼和马斯克共同创立了 OpenAI,他们对这家非营利人工智能机构的期望只有一个:确保人工智能不会消灭人类。

在硅谷,与山姆・奥特曼、埃隆・马斯克和彼得・蒂尔等人有同样想法的成功人士并不算少数。

  • 2017 年,LinkedIn 的联合创始人里德・霍夫曼在接受《国家地理》杂志采访时曾表示,大约一半的硅谷科技大佬都在为末日做准备。纽约城市大学的传媒和经济学家道格拉斯・洛西科夫曾一语道破美国科技界的这股末日避难潮流因何而起。他说:“科技圈的人总是认为,人类是麻烦的根源,科技才是解决问题的方案。但他们也知道好日子不会永远持续下去,不管是气候变暖还是社会动荡,都只是个时间问题。”

越成功的人似乎越担心来自未来的风险,他们每个人都在用自己积累的财富,为自己的未来购买保险。为了应对任何有可能发生的末日灾害,硅谷大佬们都做了哪些准备?
硅谷大佬的末日准备

在某种程度上,我们所有人都相信我们的国家正在机器样正常运转,我们手中的货币是有价值的,权力会被和平地交接 —— 我们所看重的这些东西之所以能正常运转,是因为我们相信它们没问题。虽然我也认同它们抵御灾难的能力很强,而且我们也经历过很多灾难,但我们以后要经历的灾难只会更多。#

——Reddit 联合创始人史蒂夫・哈夫曼

比尔・盖茨曾在世界级经济论坛上提出一个观点,也就是 “新形态的恐怖主义即将到来,可人类却没有准备好应对的方法”。

事实上,这与硅谷科技圈一直以来流行的某个话题不谋而合,这个话题就是:世界将会如何结束?世界末日将怎样降临?

山姆・奥特曼偶尔也会和他在 YC 的同事们,或者朋友们讨论这个问题,在他看来,成为一个 “生存主义者” 是必要的。

首先,什么是生存主义者?第一点要义就是哪怕世界末日到来的概率很小,但因为世界存在波动性,所以小的风险也值得人们重视。

山姆・奥特曼在 YC 第一期的同学,Reddit 的 CEO 兼联合创始人史蒂夫・哈夫曼,在 2015 年时做了一次眼部激光手术,这并不是什么稀奇的事情,令人关注的是史蒂夫决定做手术的原因。他称这并非为了方便或者个人形象更好,而是希望如果灾难发生,自己不会因为视力的原因陷入无助。

像山姆・奥特曼和史蒂夫・哈夫曼这样的人,就被认为是生存主义者。在过去,生存主义者通常会让人们联想到这样的画面:人们头上顶着铁锅,整天囤积大量种子和压缩饼干,在森林里试图自己搞定无线电。

可现实并非如此,随着时间推移,生存主义开始向富裕阶层扩散,尤其在硅谷和纽约这样的地方扎根,影响着许多高级知识分子。

其中一位在社群里分享生存主义者经验的成员是一家投资公司的高管,他说:“我有一架时刻加满油的直升机,还有一个自带空气过滤系统的地堡。我很多朋友都准备了枪、摩托车和金币这些东西。这种做法已经不算罕见了。”

  • 前 Facebook 的产品经理安东尼奥也是一个生存主义狂热者,他在太平洋西北地区的一座小岛上购置了 5 英亩植被茂密的土地,并把发电机、太阳能发电板和大量弹药带了过去,他认为:“当社会失去了作为支撑的积极信念,就会陷入混乱。” 当安东尼奥开始跟自己在湾区的朋友们谈到这个 “小岛计划” 后,其他人也站出来坦露了自己针对末日的准备工作。看起来这股风潮远比表面上看起来更加巨大。

  • 梅菲尔德风险投资公司的总经理蒂姆・程在接受采访时透露:“硅谷里面有着这样一群金融黑客,我们会经常一起聚餐,讨论大家都在做什么样的生存准备。我们讨论的范围涵盖货币,比如囤积比特币和其他加密货币,还有如何在有需要的时候拿到第二本护照,以及在其他国家购置度假房产作为临时避难所。我也可以坦白说:我现在就在囤积房产,这不仅是为了增加我的被动收入,也是为了可以有避难的地方。”

前雅虎高管马文廖也在为末日做准备,不过他认为只囤积物资是不够的。他强调:“如果有人过来抢这些东西怎么办?还有你需要保护自己的妻女,我虽然没有枪,但我有很多其他武器。我还去学了射箭。”

总部设在华盛顿哥伦比亚特区,负责缓解自然灾害的影响。其英文是 “Federal Emergency Management Agency”,缩写为 “FEMA”,所以会有后文的调侃。

生存主义者们认为美国联邦紧急事务管理署 的名字应该改成 “Foolishly Expecting Meaningful Aid”(愚蠢地等待救援),因为当灾难来临之际,这些生存主义者们相信,人们唯一能依靠的只有自己或者身边的家人。

硅谷大佬们为末日做足了准备。但让人好奇的是,硅谷,这个自称能够让世界变得更好的地方,为何会被这种 “末世情绪” 影响?这种对世界末日的执念是如何在硅谷流行起来的?

末日思潮的悲观主义盛行#

我们的食物供应取决于 GPS、物流和天气预报。这些系统很大程度上依赖互联网,互联网又离不开域名服务器。当你逐一去了解各种风险因素时,你会发现很多因素是你之前从来没有听说过的,然后你就会问:“这个东西在未来 10 年崩溃的概率有多少?” 或者反过来问,“未来 50 年什么东西都不会崩溃的概率有多少?”

—— 某大型科技公司 CEO

在人们的印象里,硅谷几乎聚集了全世界的精英和最先进的科技,这里的人应该都相信自己有能力让世界变得更美好才对。

  • 实际上,这两种想法并不矛盾,技术世界鼓励人们畅想未来世界的模样,思考人类将在哪些技术的加持下将会拥有某种意义上的超能力。
    当你这样做的时候,很容易就会陷入无限的悲观情绪想象,最后到达乌托邦和反乌托邦两个极端。这种想象既可以产生绝对的乐观,比如人体冷冻术的风潮,让人们可以选择在自己死亡后将尸体冷冻起来,希望未来的科技可以复活他们;也有可能会让人们看到凄凉的景象,比如像好莱坞电影《终结者》里的故事,以天网为首的人工智能试图消灭所有幸存下来的人类。截然不同的想象最终导致很多人的心态始终在乐观与惊恐之间不断摇摆。而互联网的出现加剧了这种思维的传播,越来越多人相信,现代生活是建立在脆弱的共识之上的。

Reddit 联合创始人史蒂夫・哈夫曼亲眼看见过社交媒体放大公众恐惧的方式。他说:“人们聚在一起的时候会更容易感到恐慌,而互联网让人们更容易地聚集。” 当然,另一方面,互联网也能警告人们即将到来的危机。史蒂夫・哈夫曼表示:“在 2008 年金融危机登上新闻头条之前,一些 Reddit 帖子的评论里就出现了相关的迹象。用户开始悄悄讨论房屋抵押贷款,对学生贷款以及各种形式的债务表示担扰。虽然会有一些错误判断,但从整体上看,社交媒体是反映公众情绪的有效标尺。如果社会因为人们失去信心而崩塌,你会最先在社交媒体上看到根基的裂痕。”

硅谷内部对末日的恐惧也有所不同。当哈夫曼在 Reddit 上关注金融危机的进展时,游戏直播网站 Twitch 的联合创始人简彦豪第一次从朋友那儿大致了解到生存主义,他表示:“我有些朋友说,社会快要崩溃了,我们应该开始囤积食物。我试过这样做,但我们就囤了几袋米和五罐西红柿。但是如果末日真来了,我们早就已经死了。”Reddit 的前任 CEO 黄易山也为末日生存做了近视眼矫正手术,这样他就不用依赖眼镜这种 “不可持续的外部援助” 来恢复正常视力。

  • 黄易山在接受采访时说:“大多数人都以为低概率的事件不会发生,但懂技术的人会从数学角度分析风险。科技圈的末日准备者们不一定认为末日就要来临,他们会把它看成一个会在将来某天发生的事件,但是这一旦发生就会造成极其严重的后果。所以,考虑到他们已经拥有的财富,用其中小部分的资产对冲这种风险是…… 非常合理的做法。”

到底有多少美国富人正在为世界末日做准备?具体数字不得而知,因为大多数人不愿意谈论这个话题。有时,这个话题会在毫无预料之下被提及。

  • LinkedIn 联合创始人、著名投资人里德・霍夫曼回忆起有一次他跟朋友说想去新西兰一趟,朋友的反应是:“哦,你是要去买末日保险吗?” 很久之后他才明白朋友的意思,因为新西兰成为人们购置末日避难所的胜地。如果有人说要在新西兰买房,这就相当于是一句暗号。一旦双方把暗号对上了,那么大家就会顺着这个话题聊下去,比如说:“我认识一个出售废弃洲际弹道发射井的经纪人,它们都做过防核打击的加固,感觉住在里面挺靠谱的。”

曾有视频网站的博主父子受邀参观了美国堪萨斯州一片荒野中的一处末日地堡,这个地堡位于地下 61 米处,由古巴导弹危机时建造的军事设施改造而成,一共有 15 层,第 1 层是地面层,有停车场、游泳池、游乐场、遛狗公园、会客室等;第 2 层是操作区;第 3 层是医疗和保安层;第 4 层是蔬菜水培种植园区;第 5 至 11 层是住宅区;第 12 层是图书馆和学习区;第 13 层是健身中心和桑拿中心;第 14 层是电影院;第 15 层是储藏区。全美至少有 72 个这样的末日地堡。

斯图尔特・布兰德于 1968 年创办的期刊。

当然就算在硅谷里,也有更多不同的声音。硅谷导师斯图尔特・布兰德是一位作家和企业家,史蒂夫・乔布斯曾称他为自己的灵感来源。在 20 世纪 60 和 70 年代,布兰德出版的《全球概览》 以其糅合嬉皮士和极客精神的特殊内容吸引了一群狂热的追随者,它的座右铭是:我们已经成为神,也许我们也能当好这个角色。布兰德在一次电话采访中告诉记者,他在 20 世纪 70 年代就研究过生存主义,但不久后就放弃了,他认为:“总的来说,我发现‘天啊,这个世界将要分崩离析’这种想法很奇怪。”

正如哈夫曼所观察到的,技术让所有人对风险更加警觉,但也使我们变得更加恐慌;技术促使我们将自己与敌人隔绝开来,同时不断加深我们现有的恐惧,而不是鼓励我们去击破恐惧的源头。

因此,不少人也在采取其他方式来缓解当代的末日焦虑。数字医疗初创公司 Neurotrack 的 CEO 艾利・卡普兰说:“如果我有 10 亿美元,我不会用来买一个地堡,我会将其重新投入到民间团体和民间创新上。我的观点是,我们要想出更聪明的方法来确保可怕的事情不会发生。” 卡普兰认为:即使处于最深的恐惧之中,但只要所有人联合起来就能战胜任何困难。

这个观点体现出一种信心 —— 相信与其准备逃命,我们更应该把时间花在解决方案上。相信,也是一个选择。在这一点上,山姆・奥特曼和他的朋友们展示出了复杂的一面,他们既做好了随时应对末日的准备,又在不停地试图降低末日出现的可能,为此制定目标,投资突破性领域。未来会如何,或许没人能够预测,每个人能做的都是在末日到来前,坚定地向前走。山姆・奥特曼也是这样迎来了他的 2016 年。

目标感与幽默感#

为自己的每天、每年、每 10 年设定明确的目标。
—— 山姆・奥特曼

  • 2016 年,山姆・奥特曼的体重始终保持在 120 斤,相比其他逐渐发福的超过 30 岁的中年人,奥特曼依旧有着良好的体态 —— 这让他看起来精神极佳,状态稳定,而且一旦凶猛起来,又能像一只机警的猎豹一样迅速扑向猎物。即便在效率至上的硅谷,奥特曼也是最出挑的那个,他仿佛把一部分焦虑和压力转化成前进的动能,每天极速地在回复邮件和参加不同会议之间穿梭,好像身上时刻绑了个定时炸弹。

有时候,奥特曼会长时间不眨眼地盯着员工,让他们加快速度,直到他们像一窝花栗鼠一样开始密集快速地行动。作为公司的掌舵人,大部分 CEO 会选择把 “哇,这个太棒了!” 作为口头禅,但奥特曼很少说这句话,他甚至对很多 YC 公司的运行细节缺乏兴趣,他感兴趣的永远是它们对世界的潜在影响。为了评估这些影响,他会去研究所有信息,比如城市规划或核聚变。Stripe 公司的 CEO 帕特里克・科里森曾把奥特曼的大脑比作狂欢节上的抓娃娃机,他开玩笑道:“虽然看起来奥特曼的脑子在到处游荡,但需要的时候,你会发现它可以扎得非常深。” 成功与焦虑就像硬币的双面,始终伴随着奥特曼,也不断激发着他的潜能,帮助他不断实现个人目标。

帮助奥特曼不断实现个人目标的除了成功与焦虑,还有他自身的目标感。奥特曼一直非常高效,每年奥特曼都会列出本年度的详细计划,并且每过几周就回看一遍。这份列表总是包含一个高难度的体能目标 —— 每周进行一次 100 英里的自行车骑行,50 个连续引体向上等 —— 这或许就是他在 30 岁后依旧能保持 120 斤体重的秘诀。

在保持身体健康的同时,奥特曼还有一系列工作计划,其中大多数都与 YC 的发展相关,但有小部分只属于奥特曼个人。在成为 YC 的总裁后,奥特曼并没有完全停止个人的对外投资计划,其中就包括早先提到的核聚变研究公司 Helion,还有与它同一批次的 YC 第一期毕业公司 Reddit,奥特曼在 2014 年领投了 Reddit 的 B 轮融资,总投资金额为 5000 万美元,其投资者中除了彼得・蒂尔等投资人外,还包括了美国著名说唱歌手 Snoop Dogg。

从表面上看,Reddit 并不是奥特曼最感兴趣的 “硬科技公司”,而是一个内容聚合社区,奥特曼在宣布投资消息后,在个人博客中承认:“我可能是最早使用这个网站的十几个人之一,之后 9 年时间,花费在这里的时间数不胜数。” 奥特曼也承认,Reddit 在创立之初,看上去只是一个非常无聊、纯粹浪费时间的网站,但在之后的发展中,逐渐成为一个重要的社区 —— 人们可以在里面找到志同道合的人,这些人在现实世界中的比例很低。他认为 Reddit 的用户最终可能会接近 10 亿。

值得一提的是,在个人投资 Reddit 后,奥特曼与 Reddit 的创始人兼当时的 CEO、美籍华人黄易山似乎有过分歧,2014 年末,黄易山突然宣布因为与董事会在新办公室的选择上存在分歧而决定辞职,这件事背后到底发生了什么故事,我们不得而知,只能看到奥特曼在 Reddit 短暂担任了 8 天的 CEO,随后被美籍华裔鲍康如接任。

  • 2016 年,因为 YC,奥特曼在自己的列表中加入了几个新目标:与合作伙伴建立更好的关系,将业务扩展至中国,将公司规模再扩展两倍。

最有趣的是,列表中还包括一个小提示,他要告诉自己重读《赫芬顿邮报》上一篇关于人们死前最后悔什么的文章。奥特曼解释了为什么想重读这篇文章的原因:“我希望这能让自己更开心一点。”

有时候,奥特曼的幽默与怪异行为让常人无法理解,

  • 他在 2014 年开设个人博客并分享自己的观点后,就迎来了很多网友的提问。曾有一名博主问奥特曼:“阿斯伯格综合征是怎么帮助或者影响你的?” 阿斯伯格综合征是一种泛自闭症,表现为社会互动障碍和局限的兴趣与活动,不过因为牛顿、爱因斯坦等人也被怀疑患有此病,所以阿斯伯格综合征也被称为天才病。奥特曼看到这个留言后的第一反应是非常生气,他的内心在咆哮:“我并没有阿斯伯格综合征!” 但是事后一想,他理解了为什么会有人这么问他,可能是因为他前不久参加一次线下活动时,坐姿比较奇怪,媒体说当时的他就像一把折叠起来的坏伞,对此奥特曼解释:“我对技术的兴趣很窄,对不感兴趣的东西没什么耐心,比如派对和大多数人类。当有人看到一张我参与活动时的照片,然后说‘哦,他有这样那样的感觉’,所有这些微妙的情绪,我都感受不到。”

  • 奥特曼的这种能力也保证了他永远拥有清晰的思维和判断,以及迅速掌握一个复杂事物的直觉。但同时,他对低效率的人极端缺乏兴趣 —— 很不幸的是,世界上大部分人都是奥特曼眼里的低效率的人,可能包括你我在内。在这一点上,奥特曼和乔布斯应该能有非常多的共同语言。但奥特曼并不孤傲,他的勤奋也许会令人惶恐,但当你开始进一步接触后,就会觉得这部分也挺讨人喜欢。在接受《纽约客》的采访时,记者发现奥特曼似乎从来都不去洗手间,于是开玩笑地问起这件事,对此奥特曼回答:“以后我会多练习去上洗手间,这样你们人类就意识不到我其实是个人工智能了。”

对于常人而言,山姆・奥特曼身上有着许多难以理解的部分,包括他的怪异与时不时的冷幽默,但对于那些同样天赋异禀的 YC 校友而言,奥特曼反而因为这些怪异,成了所有人的领头羊。在奥特曼的带领下,YC 越来越像一所大学。

YC 大学#

总的来说,不要开一家你不愿意干上 10 年的公司。

—— 山姆・奥特曼

从创立之初,YC 每年运行两个为期 3 个月的项目计划,每个项目计划都将在最后几天迎来一个名为路演日的活动,在路演日当天,所有初创公司将向前来参加活动的数百名顶级投资者展示他们的成果。

经过 10 年的发展,在 2016 年时,路演日已经不仅仅是 YC 公司内部的大事,也成为硅谷甚至全美国投资界的一场盛会。它从第一期只有 15 名投资人参与的活动,发展成一个超过 600 名投资人挖掘潜在独角兽公司的聚会。而且最重要的不是投资人的数量,而是这 600 人几乎囊括了全世界的顶级创业投资机构与投资人。

2016 年初,山姆・奥特曼和 YC 合伙人杰夫・拉尔斯顿在游泳池边打乒乓球,他们即将为 YC 最新的 32 个冬季申请批次公司举办一个派对,目的是在路演日来临之前,让所有人放松一下。没错,举办这种派对本身也是奥特曼的工作。路演日对于所有创始人们都非常重要,他们需要在两分半钟的时间里打动投资人 —— 包括 600 位在现场的投资人,以及 2500 位通过网络观看路演的投资人。为了准备这一时刻,冬季批次的参与者难免有些焦虑,而奥特曼的任务之一就是让他们调整到最佳状态。

山姆・奥特曼经常用一些奇怪的行为告诉他的学生们,要学会放松,比如打乒乓球就是其中一件事。

因此,当创始人缓步走入泳池派对的现场并环顾四周,奥特曼让他们先看到了自己打乒乓球的场面,之后他放下球拍,仿佛取得胜利一样举起了自己的双臂来欢迎所有人。面对此情此景,创业公司 Restocks 年仅 18 岁的创始人卢克・迈尔斯,努力让自己看起来不那么慌张。Restocks 是一个给年轻买家提供信息服务的公司,比如买家们能够在 Restocks 上,比所有人早 5 分钟知道类似于 Supreme 的限量 T 恤和阿迪达斯的 Yeezy Boost 350 系列鞋款上架的消息。此前,迈尔斯在 YC 奖学金计划中表现出色,于是进入了 2016 年 YC 冬季批次,迈尔斯对此感到非常兴奋,他说:“奖学金计划的 2 万美元已经足够让我向父母证明,我选择辍学并不是在荒废生命了。”

对于许多创业者来说,YC 3 个月周期的项目计划,才是他们心目中真正的大学校园该有的样子。YC 合伙人迈克尔・塞贝尔曾经参与过两次项目计划,他说:“保罗・格雷厄姆过去常常在每批项目开始时告诉每个人:‘这里的一些人会出现在你的婚礼上。’对 300 个陌生人说这样的话是件很怪异的事情。但确实几乎我所有的伴郎都来自 YC。这让你想起了什么?大学。”

YC 的创业者在每个隔周的周二到办公室参与集体讨论,还可以在需要的时候与指派的合伙人单独见面,这些合伙人可以被视作创业者的 “大学导师”,他会一起工作、讨论并且解决各自的问题,然后一起到餐厅的长桌上吃意大利面,听取 YC 邀请来的各位老师,比如玛丽・莎梅耶尔和马克・扎克伯格这些成功人士的教诲。最后,他们在路演日完成自己的项目答辩,能否融到资金,决定了他们那个学期的最终成绩,是优秀、及格,还是最终 “挂科”。

YC 的创业课程故意设计得极度简洁,YC 合伙人凯文・黑尔说:“我们对创业公司的要求非常简单,但要做到也很难。第一点是 “做人们想要的东西”,这也是 YC 最重要的口号,保罗・格雷厄姆的口头禅,这句口号被印在了给创业者的灰色 T 恤上;第二点是 “你需要做的只有一件事:和你的客户交流,然后打造产品”。这样的准则,塑造出一种学院式的单纯感。

YC 大学般的氛围,最初由保罗・格雷厄姆塑造,奥特曼只是一个继承者。值得一提的是,YC 一直很擅长识别并且阻挡坏学生加入他们。格雷厄姆曾经对记者说:“我们很擅长将混蛋们筛选出去,事实上,比起筛选出失败者,我们更擅长筛选混蛋。因为所有人都是从失败者开始的,而有的会逐渐进化。”YC 还认为巨大的财富只是解决一个紧急问题的副产品,这种野心和利他主义的互相交织,也是硅谷标志性的自我形象。格雷厄姆在一篇博客文章《坏人会失败》中也写到了这一点,他说:“如果你不是亚马逊的创始人杰夫・贝佐斯,或者甲骨文创始人劳伦斯・埃里森,那么讨人厌不仅会让你变得愚蠢,还会导致优秀的人拒绝为你工作。因此,在创业公司,那些带有改善世界渴望的人有着天然的优势。”

格雷厄姆认为一位创业者的首要目标应该是做到 “拉面盈利”:节俭开支,然后挣的钱正好够晚餐吃一碗拉面。

  • YC 的联合创始人、格雷厄姆的妻子杰西卡也赞同这一点,她说:“最好不要给这些创业者超过他们生存所需的东西,资源精简迫使你专注。如果一个基金给我们 3 亿美元,让我们投向创业者,我们是不会接受的。” 这种逻辑达到极端就是,你连 YC 的钱都不应该拿,而且许多成功的创业公司确实没有。在美国商业杂志 Inc 颁布的一个榜单里,增长最快的 500 家私人公司中,只有 20% 拿了外部融资。

奥特曼继承了格雷厄姆与杰西卡的这个观点,他们都认为,对于真正有潜力的公司,尤其是商业化项目,资金永远都不会是问题,因为造血能力很快就能让他们的项目自负盈亏。加入 YC,更多时候是为了 YC 的 “背书”,它能帮助好的项目迅速成长,这比单纯的一笔投资更有价值。所以,YC 孵化器的 “背书” 意味着什么?对于初创公司来说有什么帮助?

融资 3 个月,6 倍估值#

如何获得成功?我认为有以下几个要点:首先,选择正确的事情,这很关键但通常被忽略;其次是专注,并且相信自己,尤其当别人告诉你这行不通时;再次是与能帮助你的人建立人际关系,学习识别有才能的人;最后,你需要努力工作。

—— 山姆・奥特曼

YC 孵化器的 “背书”,对于初创公司而言意味着什么?山姆・奥特曼和保罗・格雷厄姆从未直接回答这个问题,因为他们根本不必回答,答案在每次夏季或者冬季项目的路演日会自动出现。

几乎所有的 YC 创业公司在进入 YC 时,拿到的都是同样的资金,这也意味着它们拥有同样的估值:170 万美元。然而,在路演日之后,它们的中位数估值变成了 1000 万美元。为什么短短 3 个月内这些公司的估值会翻了近 6 倍?一个理论是,最好的创业者会申请最好的孵化器,而 YC 很擅长选出那些无论如何都会成功的创业者。负责过去几批项目的 YC 合伙人保罗・布赫海特说:“最重要的就是创始人了。Facebook 有马克・扎克伯格,而 MySpace 只有一群猴子。” 保罗・布赫海特曾经在英特尔工作,后来成为谷歌的第 23 名雇员,他是 Gmail 的创建者和首席开发人员,2000 年,他在一次会议上提出了后来被谷歌视为座右铭的 “Don't be evil(不作恶)”。

YC 之所以能赋予初创公司估值翻倍的魔力,是因为他们教会了创始人如何在路演日讲好故事,从而让他们的项目更有吸引力。一直很钦佩 YC 的风险投资家克里斯・迪克森说:“这些创业者们得到了很好的训练,他们知道该如何投我们所好,从展示业务专长到讲述关于他们背景的,能显出他们毅力和勇气的故事。”

在 2016 年的冬季批次,所有的演讲都遵从了一个不变的描述方法:将自己和一家有名的独角兽公司联系起来,例如 “我们是保姆行业的 Uber…… 非洲的 Tinder…… 医疗行业的宝洁”,如果找不到合适的类比,创始人可以说 “这个产品不行了。未来新产品的出现会替代旧产品。而我们就正在做这个新产品”,然后用各类圈内流行语来进一步修饰,“我们将撬动技术,以一种完全自动化的方式来实现个性化”,实际上这句话背后的产品是一款针对个人的洗发水。有人曾经表示 YC 教会了它的创始人如何包装,而不是真正做好项目,格雷厄姆并没有否认这一点,他认为包装也是做好项目的一个环节,他说:“我们的帮助让糟糕的创业者和优秀的创业者看起来一样。”

实际上,讲好故事只是山姆・奥特曼教会创始人的一个小技巧,真正让这些公司估值翻倍的原因,是 YC 告诉这些公司 “增长高于一切”。这些公司不再会因为和媒体打交道、参加各种会议或者对代码进行无关紧要的修补而分心。YC 对于初创公司收入的黄金标准是,每周增长 10%,即一年增长 142 倍。如果做不到,那就讲一个其他指标增长的故事。比如在 2016 年冬季批次的路演日,有一家公司的创始人宣布,他们有 “50% 的口碑增长”,台下鸦雀无声,显然没人能够在第一时间反应过来,所谓口碑增长到底是指什么。

除了口碑增长,YC 还帮助创始人挖掘了其他增长名词。安全公司 Castle 的联合创始人塞巴斯蒂安・沃林说:“我募集到了 180 万美元资金,因为我们成功地找到了显示增长的方式。我们尝试跟踪了产品的安装情况,数据看起来不好。所以我们用的是被保护账户的数量,这个数据在 YC 孵化期间有了大约 30% 的增长,而其中 40% 的账户都是 YC 自己的公司。这就像一个完美的童话故事。”

最后这句话是什么意思呢?它与 YC 的发展体系有关。

真相是,长时间的快速发展是很少见的,因为这需要通过不停创新来维持,那种不受控制的快速发展最终可能更像是肿瘤。2015 年,在 Reddit 的一系列危机之后,奥特曼在董事会上说服了联合创始人史蒂夫・霍夫曼,让他重新担任 Reddit 的首席执行官。霍夫曼说道:“我就任后立即跟奥特曼说,不要跟我扯增长率的事,我不能控制它。每个像 Facebook、Airbnb 这样伟大的初创公司,一开始它们自己都不知道它们为什么增长那么快,它们需要在增长停滞之前弄清楚这个答案。但很多时候,快速增长掩盖了所有问题。”

也许,关于 YC 最决定性的理论是,关系网的强大程度比任何其他理论都重要。这才是 YC 帮助创业者实现估值提升的最大秘诀。YC 毕业的校友们认为,YC 就像一种集团式的企业,一系列紧密联系的公司互相成就彼此。求职公司 Triplebyte 的联合创始人哈吉特・塔格加说道:“YC 有他自己的一套经济体系,每年春天,创始人来到 YC 总部,就是为了社交。” 当山姆・奥特曼一开始找到凯尔・沃格特时,沃格特已经有过一家 YC 公司了,所以他对 YC 的孵化课程非常熟悉。沃格特曾经和五个入选 YC 一次以上的朋友们聊过一个问题:第二次参加 YC 的项目计划还有意义吗?所有人都给出肯定的答案,沃格特说:“你会因为 YC 的品牌收获更高的估值,并在 YC 的关系网中获得更多好处。”

Union Square Ventures 的管理合伙人安迪・魏斯曼认为:“大家对 YC 这种孵化模式也有批评的声音:在路演日的时候,他们的用户基本都是 YC 系的公司,这就解释了为什么他们都增长得如此之快。但是,有 1000 多家公司都愿意使用你的产品,这也是件好事啊!” 与其说 YC 的公司可以让 Airbnb 和 Stripe 去使用它们的产品,不如说这个网络的校友们已经遍布了硅谷,并且是硅谷里最大的那些公司之一。YC 过去收购的 121 家创业公司中,有很多都是被 Facebook、苹果和谷歌兼并了。

很多时候,山姆・奥特曼成了最警惕这种模式的人,他担心这种校友网络产生的权力不平等会成为一个问题。2016 年 2 月,奥特曼给最近毕业的几批创业者发了一封邮件,警告其中一些人已经有点骄傲和自以为是了。一次聚会上,奥特曼和格雷厄姆提及了自己的担忧:“如果这些公司仅仅因为是 YC 公司就能活着,那么这对公司和硅谷来说都是坏消息。烂公司迅速消亡对每个人都更好。” 格雷厄姆赞同奥特曼的看法,YC 校友公司网络带来的便利是把双刃剑,他们需要更加谨慎地思考这件事,鼓励所有公司走出去,和非 YC 校友公司合作,而不是将自己禁锢在小圈子内。

当所有人为 YC 校友网络带来的快速增长感到欢欣鼓舞时,奥特曼却发出警告。大部分时候,山姆・奥特曼都是这样的形象:一个无所畏惧的独行者。无论是在 YC 还是硅谷,又或者放眼全美国的投资界、科技界,奥特曼的想法总是出人意料,但却一直走在时代进步的方向上。奥特曼倡导的另一件事不仅佐证了他的先见之明,还体现了他开放包容的态度。

鼓励女性创业者出现

我们希望资助更多的女性,因为这是正确的事。

—— 山姆・奥特曼

在创业生态一直以男性创始人占据主导地位的硅谷,山姆・奥特曼是稀有的、鼓励出现更多女性创始人的人。

了解硅谷的这段历史后,我们知道硅谷起源于 20 世纪 50 年代半导体技术的发展,在当时的社会结构中,男性仍旧占主导地位,尤其在理工科的半导体和工业技术领域。因此,硅谷形成之初男女比例极度不协调,无论是早期的硬件公司、投资圈,又或者后来的科技行业,女性创业者和公司高管的比例始终低于男性。

但是,随着时代变化,女性在职场与各个领域中展示出她们的优势,诸如女性内衣品牌 Spanx 的莎拉・布莱克利,约会应用公司 Bumble 的惠特尼・沃尔夫赫德,基因创业公司 23 and Me 的安妮・沃西基,时尚租赁公司 Rent the Runway 的詹妮弗・海曼,生物识别筛查公司 Clear 的卡琳・塞德曼・贝克尔,以及医疗洗涤用品制造商 FiGS 的希瑟・哈森和崔娜・斯皮尔,她们都越过了某道隐形的门槛,以女性创始人和 CEO 的身份管理她们的公司,并在这一过程中成为亿万富翁。这也是山姆・奥特曼呼吁更多女性加入创业大军的原因。

在一篇博文里,奥特曼鼓励更多女性创始人加入 YC,这篇博客的标题就叫作 “到目前为止,我从女性创始人那里学到了什么”,奥特曼在 YC 的初创项目中总结了经验,从之前所有的申请项目和反馈请求里,他发现了两个与女性创业者有关的问题:第一点是,那些已经开始创业的女性对加入 YC 孵化器不感兴趣;第二点是,一些可能成为伟大创始人的女性并没有开始创办公司。

奥特曼在这篇博文里说出了很多自己的私人感受:

我意识到,作为一个男人,去谈论女性创业者的处境会有点荒谬,但我非常希望能够尽我所能提供一些帮助,因为风险投资领域对女性创业者来说,绝对是不公平的。我们团队中的女性合伙人和创始人也都非常关心这件事,并且可以比我做得更多,直到解决这些问题。

对于 “已经开始创业的女性对加入 YC 孵化器不感兴趣” 这一点,我们希望传递出最一致的信息:向所有人明确表示我们关心这个问题,并且希望资助更多的女性创始人。所以我现在要大声说出来:我们希望资助更多的女性。我们以后会在所有对外的活动宣传中继续强调这一点。

我们希望资助更多的女性,因为这是正确的事,而不仅仅是为了团队多元化而这样做。我们希望资助更多的女性,因为我们很贪心,我们想资助最成功的创业公司,其中很多都将由女性创立。当然,除了女性,许多成功的公司也将由不同种族、不同宗教,来自不同国家的异性恋、同性恋,20 多岁或 50 多岁的人创立。

所有这些标签,都切切实实来自 YC 过去不同批次中的创业者,我自己就是其中之一。不仅如此,YC 的很多合作伙伴也拥有这些标签。同样,我们这样做不是为了体现我们多元化的文化氛围,而仅仅只是因为我们想要找到最优秀的人才,无论他们是什么样的人。在当前的 YC 批次中,我们资助的公司里,有 24%的公司拥有一个或多个女性创始人,并且很多创始人都有潜力成为佼佼者。我们希望随着 YC 女性校友人数的不断增加,更多的女性会觉得 YC 是一个支持和尊重她们的地方。

我们想传递的另一个信息是,我们应该更努力让女性感到舒服、受欢迎。过去一段时间我们收到了许多电子邮件,它们指出,YC 官方网站展示的创始人几乎都是男性,我们会解决这个问题。我们还将继续与我们最成功的女性创业者合作,谈论她们的经验并指导可能成为未来创始人的女性,我们将继续邀请更多女性来参加 YC 晚宴。我们收到的另一个非常普遍的建议是,很多人希望 YC 项目计划的面试官中应该有女性,我们已经对此做出改变,不仅会在面试中增加女性面试官的比例,而且会招募更多的女性合伙人,当然我们会确保这些女性合伙人也是非常厉害的人。

几乎所有给我发邮件的女性都建议,我们要对女性和男性保持完全相同的标准,我同意这一点,但也有人指出女性和男性在很多方面的表现并不相同,例如,男性和女性表达自信的方式不同 —— 我们应该确保我们的标准能够适应这些不同。

最近有一个传言,说我们正在寻找看起来像马克・扎克伯格的创业者。实际上,这个传言最初是一个自嘲的内部笑话。我们曾经投资过一个长得很像扎克伯格的人,但投资的结果很糟糕,因此,当保罗・格雷厄姆在接受采访时被问到对方是怎么骗他并拿到投资的时候,格雷厄姆说:“显然是他的长相。” 我知道格雷厄姆的真正意思是,长得像扎克伯格没有任何意义 —— 你可以长得非常像他,但仍然会创业失败。所以我认为对于这个传言更准确的说法是,我们始终在寻找具有和马克・扎克伯格同样品质的创始人,无论男女。

对于 “一些可能成为伟大创始人的女性并没有开始创办公司” 这一点,我认为我们可以做很多事情,比如更早地接触年轻女性,并帮助她们更早地了解到有关创业和编程的知识。许多女性指出,想要成为一名创业者,你不必先成为一名程序员。这绝对是真理!但我认为,你至少应该将学习编程,或者其他技术活作为潜在的个人选择,因为你的公司或者项目在早期阶段很可能需要你懂一点这些方面的知识。

随着我们举办更多的活动,我们将继续接触女性。我们的外联总监凯特、联合创始人杰西卡和我都将继续推动这件事。我们正在考虑在今年晚些时候举办一次极客马拉松,邀请更多的女性参加这个活动。

我们还将联合我们的一些成功的女性创始人策划更多的活动。我相信我们已经资助了至少一位女性创始人或首席执行官,她将创造一家价值数十亿美元的公司。她和其他人都是杰出的榜样。

还有很多工作要做,但我们正在努力。我听到了很多人对女性创始人大会等活动的支持,并相信它们可以帮助改变这个行业。如果 YC 继续资助更多的女性,许多人相信风投公司也会效仿。希望他们相信的事情是对的,YC 真的能在这个行业内起到一点带头作用,其他投资者能加入我们。

山姆・奥特曼鼓励更多女性创业者出现,因为在硅谷,女性创业者无论从数量、比例,又或者话语权方面,一直以来都是弱势者。而追溯这一问题的历史根源,会涉及硅谷的诞生过程,也就是以男性为主导地位的美国创业生态的形成。为了积极改变美国社会的生态,除了鼓励女性创业,奥特曼认为他必须为其政治立场发声。

反特朗普立场

我想了解特朗普的选民们喜欢或者不喜欢总统的哪些方面,他们在担心什么,他们对民主党的反应有什么看法,最重要的是,我想知道,在未来应该怎么说服他们不给特朗普投票。

—— 山姆・奥特曼

除了鼓励女性创业,YC 时期的山姆・奥特曼还少见地表现出了自己的政治立场,当然奥特曼的这一行为在当时的美国环境下并非个例。由于唐纳德・特朗普的出现,2016 年的美国大选变成了一个没有硝烟的惨烈战场,无论左右、男女、老少,无论肤色、民族、性取向,无论是普通人,还是科技界、投资界的大佬,所有人都被卷入其中。

奥特曼第一次公开发出反对特朗普的声音,是在一场 YC 内部的聚会上。2016 年 5 月,30 位硅谷的顶级企业家聚集在旧金山餐厅 Berlinetta Lounge 的一个私人包间里,YC 第一任 “教父” 保罗・格雷厄姆穿着帽衫和黑色牛仔裤,正在其中一个角落兴致勃勃地畅聊着几个难以实现的想法,另一个角落的山姆・奥特曼则在安静倾听创业者的声音。每当有创业者过来找他聊天的时候,他就会用自己绿色的眼睛盯着他们,听着他们关于某个公司想法的讨论,然后干脆地回应说:“大家在这件事上搞错了……” 直到房间里的话题逐渐转向美国大选,格雷厄姆开始在桌上讨论如何才能阻止特朗普成为总统,有人提出求助一个外援专家:克里斯・勒哈尼 —— 他是前白宫律师,如今就职于 YC 的校友公司 Airbnb。只有奥特曼直截了当地提出了自己的想法,他说:“目前看起来最好的方法就是去支持特朗普的对手:希拉里・克林顿。”

一个多月后,奥特曼在自己的个人博客上发布了一篇文章,标题就叫《特朗普》,在文章里他公开了自己反对特朗普的观点。在这篇文章里,奥特曼说:

我要说一句在我的世界里非常不受欢迎的话:特朗普在一些重要问题上是正确的。他说美国许多人被体制钻了空子是正确的,经济增长速度远远不够是正确的,政治正确使我们窒息也是正确的,甚至自由贸易不是最好的政策可能也是正确的。特朗普的支持者并不傻。

但特朗普在比这些更重要的事情上错了,那就是:如何解决这些问题。他的许多提议都是错误的,以至于很难回应。然而,更危险的是他错误的方式 —— 他不仅不负责任,而且还是个独裁者。特朗普不经意间表现出的那些特征 —— 种族主义、厌女和阴谋论,对一位总统候选人而言,是前所未有的。

特朗普说,一位墨西哥裔的法官因为他的血统而对自己不公,他还说我们应该禁止穆斯林进入这个国家。当他的支持者殴打一名无家可归的西班牙裔男子,并在社交平台上 @了特朗普时,他称他们的行为 “非常热情”,特朗普还指责奥巴马应该对奥兰多发生的枪击事件负责。

对于熟悉 20 世纪 30 年代德国历史的任何人来说,特朗普的行为令人不寒而栗。虽然我从理智上知道,在经济困难时期人们的排外情绪很容易被激起,但这一切就发生在我们面前,这仍然让我非常震惊。有时候很难说清楚煽动者的话里,有多少是算计,有多少是真正的信念。但特朗普似乎真的相信他所说的大部分内容,这才是最可怕的。无论如何,当特朗普说出这些话时,就向其他人发出了追随他的信号。

煽动仇恨会导致可怕的后果,希特勒教会我们一个道理:再大的谎言,只要经常重复,人们最终就可能相信它。特朗普将他的弥天大谎隐藏在众目睽睽之下,他一直在宣称,通过保护我们免受外来者的威胁,他将使美国再次伟大。但他没有用来恢复经济增长的真正计划,这才是我们实际上需要的。没有这些计划,我们将处于零和博弈,并面临持续的内部斗争。没有这些计划,我们将失去世界上最强大国家的地位。

特朗普通过排外情绪分散了我们的注意力,希望我们不会注意到他对内部没有计划。他未能提出一项严肃的计划,对我们迫切需要的研究和技术进行重大投资。相反,他试图用未知恐惧来分散我们的注意力。

我写这篇文章冒了一些风险,因为我过去支持过一些共和党人。如果我这样做最终伤害了 YC 孵化器,我会感到难过。我理解为什么技术行业的其他人不愿意就此发表明确的观点。通常在美国大选中,商界人士都会保持中立态度,这是合理的。但这不是一次普通的选举。

用英国政治家和哲学家埃德蒙・伯克的话来说,“只有善良的人不做任何事情时,邪恶才能得逞”。这将是我们所有人 —— 甚至是共和党人,尤其是之前支持特朗普的共和党政客 —— 开始大声疾呼的好时机。

奥特曼在明确反对特朗普的立场后,发布了一个叫 VotePlz 的无党派项目,希望通过这个项目帮助年轻人更好地投出选票。奥特曼将选举视为技术问题,他的脑子在思考这件事时,先是预设一个问题 —— 怎样用最少的代码获取最多的回报?然后是解决问题,奥特曼和另外 3 个年轻人为美国 “摇摆州” 的年轻人提供注册表格和邮票,来帮助他们快速投票,甚至在选举日当天,VotePlz 这款应用程序还可以直接呼叫一辆 Uber 载你去附近的站点投票。

  • 2016 年大选结束后,在 Twitter 的一个帖子中,奥特曼说:“我反对特朗普的原因是他所代表的原则对美国构成了令人无法接受的威胁。同时我认为他反复无常,情绪不稳定,容易暴怒,我认为他不适合担任总统。” 因此,尽管与一些好朋友,比如特朗普的支持者、PayPal 创始人彼得・蒂尔的观点不同,奥特曼还是把票投给了特朗普的对手希拉里。

  • 2017 年初,山姆・奥特曼决定与美国各地的 100 名特朗普支持者交谈,了解他们喜欢和不喜欢特朗普的地方,他还想通过这件事知道 “什么能说服他们将来不再投票给他”。这也符合了山姆・奥特曼的创业座右铭,“做人们想要的东西”,一切都将从用户数据和需求来看。在采访的过程中,几乎每个人都愿意与奥特曼交谈,但没人愿意透露自己的名字,因为他们担心如果有人知道他们投票给特朗普,就会被 “硅谷的一些人” 针对。为此,奥特曼主动选择与在硅谷交谈的一些对象签署保密协议,尽管他并不支持特朗普,但奥特曼认为他仍有义务保护其他支持者的观点被公平对待。从某种角度说,这个男人逐渐站上了理性与感性的奇妙平衡点。

然而,如果要聊到山姆・奥特曼完全感性的时刻,就得提到两个人 —— 山姆・奥特曼的两个弟弟,另外两位奥特曼。

兄弟之间

你现在想和我玩国际象棋快棋吗?

—— 山姆・奥特曼

工作内外,山姆・奥特曼偶尔流露出感性的一面,包括对女性创业者的称赞与支持,以及突然站队的反特朗普观点,都在一定程度上使他褪去 “青年教父” 的光环,让奥特曼更像一位有血有肉有情绪的平凡人,而非人工智能。

但是,这些时候的山姆・奥特曼仍然是那个让理性主导自己的天才,无论是在分析为什么要鼓励更多女性创业者,还是在论述反对 “特朗普” 的原因时,奥特曼都能出色地运用他的逻辑分析能力,就像在说服投资人为什么一个刚诞生 3 个月的创业项目未来能成为年收入过 10 亿的独角兽时一样,给出了充分的理由。

唯有在家人面前,山姆・奥特曼才会记得放下工作时的自己,找回一些感性时刻,褪去那些戴在头上的光环,变得更加柔软。

前文介绍过奥特曼的家庭,在出生后不久,奥特曼随家人一同搬离了芝加哥,很快有了两个弟弟,分别叫马克斯・奥特曼和杰克・奥特曼。也许是奥特曼这个名字带来的运气,也许是基因使然,山姆・奥特曼的两个弟弟在读书这件事上,不比哥哥差,两人也都顺利进入美国两所最顶尖的学府。与山姆・奥特曼不同的是,他的两个弟弟没有选择辍学,而是都顺利毕业了。老二马克斯・奥特曼就读于杜克大学计算机专业,老三杰克・奥特曼就读于普林斯顿大学经济学专业。

多年来,山姆・奥特曼和两个弟弟一直保持着紧密关系,在卖掉 Loopt 后,山姆・奥特曼成立了风险投资基金 Hydrazine Capital,其中两个合伙人之一就是老三杰克・奥特曼。在两个弟弟眼中,山姆・奥特曼始终是一个好大哥,几人总是会抽空坐在一起聊各种事情,可能是工作相关,也可能只是新闻八卦,对于三兄弟而言,聊任何事情都不会是浪费时间,而是在延续他们儿时的亲密关系。

在山姆・奥特曼表明反对特朗普的态度后,马克斯和杰克一起取笑大哥,建议他 35 岁时应该参加 2020 年的总统竞选。比山姆小 3 岁的马克斯更是说:“山姆,我看了你的博客,你对国家发展的分析很对,如果你上台,谁会比你做得更好呢?” 对兄弟间的玩笑,山姆・奥特曼毫无脾气,只是试图轻描淡写换个话题,但比山姆小 4 岁的杰克不愿意放过他,接着老二的话题继续说:“这不仅仅是兄弟之间的玩笑。我确实认为需要一个好的总统候选人来代表整个科技行业。”

山姆听完这个中肯的建议后选择否定自己:“你们说得没错。派一个同性恋的犹太人去竞选总统吧!那肯定行!” 杰克和马克斯哈哈大笑,随后杰克的目光转向书架上一个叫 Samurai(武士)的桌面游戏,这个游戏唤醒了回忆,他感慨道:“我们还是小孩子的时候,山姆会赢得每一场 Samurai 游戏,因为他总是宣称自己是 Samurai 的领袖,并且大喊:‘我必须赢,我要主宰一切。’” 山姆・奥特曼为了让弟弟闭嘴,反击道:“你现在想和我玩国际象棋快棋吗?” 国际象棋是山姆・奥特曼的强项,他经常杀得弟弟们丢盔弃甲。

2014 年,当山姆・奥特曼成为 YC 的总裁后,两个弟弟们的事业也逐渐和 YC 有了更多的交集。老二马克斯在 YC 孵化的云服务公司 Zenefits 工作;老三杰克辞去了电子商务平台 Teespring 副总裁的职位,联合创立了绩效管理公司 Lattice,这家公司在 2016 年刚刚从 YC 毕业,有发展成独角兽的趋势。同时,三兄弟也借着这个机会搬到了一起住。

山姆・奥特曼专门雇了一位设计师将其灰色的宜家沙发升级为了灰色的避暑别墅沙发,还挂了一些装帧精美、从外太空拍摄的照片。除此之外,房子仍然维持着一种高档学生公寓的感觉。奥特曼母亲到山景城看他们时说:“山姆喜欢让弟弟们待在自己的身边,因为他们知道什么时候需要给山姆一些建议,尤其是表达反对的声音,并且理解他的情绪。这件事只有依靠兄弟间那种纯粹的血缘与情感才能做到。当然,我看得出他们之间还是有一些微妙的权力关系的,有时候会吵架,如果我知道了,就会想办法让争吵在爆发之前结束。”

2016 年 3 月发生的一件事,印证了奥特曼母亲的说法。当时,山姆・奥特曼写了一篇博文,宣布自己投资了一家叫 Asana 的企业管理服务公司,他领投了 500 万美元的 C 轮融资。山姆・奥特曼写道:“为了团结你的员工,拥有明确的任务和目标很关键,这样你可以反复就目标和大家沟通,并进行频繁的考核,而 Asana 是在这一领域中做得最好的,能够给你的公司提供非常大的帮助。” 当老三杰克阅读这篇文章后,他立即给大哥发短信说:“Lattice 才是这一领域中做得最好的公司。而且你在夸 Asana 产品功能的时候引用的是我对 Lattice 的介绍。”

当山姆・奥特曼看到这条短信时,才意识到问题,他回电话给老三,问道:“杰克,你在生我的气吗?那篇博文我写得很匆忙,那其实是 Asana 的广告稿,他们让我写的,我之前听了太多你的演讲,所以下意识吸收了一些内容……” 山姆・奥特曼向杰克道歉并且想办法弥补这件事,他解释自己并没有察觉到这里面的利益冲突,他将 Asana 作为一个待办事项列表,也就是 to-do-list 来使用,而 Lattice 暂时没有这项功能。杰克很快原谅了自己的大哥,他知道山姆不是有意的 —— 那只是山姆・奥特曼在以 “每分钟一百万英里” 的速度前进时,偶尔会犯下的错误。

但是原谅并不代表着杰克彻底放下这件事,他还是会在山姆・奥特曼给他们做晚餐的时候,找机会向朋友们 “讽刺” 他大哥:“今年冬天在 YC,当山姆要过来讲话的时候,每个人都会看着我,因为他们想知道山姆长啥样。所有不认识山姆的人都下意识把他当作某个明星,比如碧昂丝,但他的登场总是太普通了。” 老二马克斯继续 “补刀” 道:“公平地讲,山姆现在过的生活和普通人差不多,他应该更荒唐一些,符合富豪的身份,比如开一辆迈凯伦出门,没事就去不同的米其林餐厅吃饭……” 老三杰克再一次接过这个话题,总结道:“他还应该驾驶飞机飞在全加州上空,或者购买几万美元的化石。” 被弟弟们冠以各项罪名的山姆假装没有听见这些话,专注喝完面前的一碗汤。

这样的玩笑总是能够适时弥合三兄弟间的关系,也让山姆・奥特曼感到放松。尽管山姆・奥特曼享受管理 YC 的过程,但有时侯他也会想,在职业生涯迅速崛起的过程中,他是否落下了一些东西。当他以 Loopt 创始人的角色在 YC 孵化器生活工作了一个暑期之后,他开始无法忍受曾赖以度日的方便面,以及星巴克的冰淇淋咖啡,而现在他重新找回了渴望,想要再次尝试那些不太健康的食物的味道。

同样在 2016 年年初,山姆・奥特曼和曾经的伴侣、Loopt 联合创始人尼克・西沃在 YC 重逢,他看着尼克带着一个新项目回到 YC,这也勾起了他少年时期就沉淀在心底的一些纯粹的感情。奥特曼在接受《纽约客》记者的采访时,少见地表露心声,他说:“当我跟尼克一起聊天时,我仍然觉得尼克给我的感觉就停在 18 岁,我相信他也是这么想我的。” 尼克・西沃后来回应说:“我其实不明白你是什么意思。”

无论奥特曼如何回忆过去,事实都是,18 岁的山姆・奥特曼已经永远消失了,而 30 岁的山姆・奥特曼正在迈向未来。2016 年,他在 YC 孵化器的工作终于开始遇到困难。

快速扩张的缺陷

请记住,与被竞争对手压垮相比,你的公司更有可能因为执行不力而死去。

—— 山姆・奥特曼

山姆・奥特曼在 2016 年时的多愁善感,可能也与 YC 的发展阶段有关。在他接手 YC 两年以后,受益于一系列举措和新计划,YC 很快成为一个庞然大物,与此同时,外界与 YC 内部关于扩张过快的担忧从未停止过。其中最重要的一个担忧就是,这种无限扩张的模式无法持续,很快就会遇到瓶颈。

云存储公司 Dropbox 的联合创始人德鲁・休斯顿认为,天才创始人的数量并不是无限的,他说:“某种程度上,等到了第 10001 号公司,你会发现,你只是在接受一个你本应该拒绝掉的项目罢了。因为那时候已经没有什么空间给好项目,也没有真正的天才了。” 投资人马克・安德里森也提到了自己的顾虑:“争论在于,YC 是否已经将自己的扩张网络延伸到了一个临界点?目前看,天才和疯子被混合在了一起。”

  • 2016 年时,山姆・奥特曼罕见地承认了 YC 在发展中已经遇到了瓶颈,YC 自身能够触及的优质初创公司越来越少了。但奥特曼的做法和外界想象的完全不同,他的第一反应不是降速,停止扩张,而是在更广泛的领域内继续寻找更多优质的创业者和初创项目,继续加速扩张。

  • 2016 年 9 月,奥特曼宣布将在 2017 年结束 YC 奖学金计划,推出 MOOC 大规模在线开放课程作为替代,这意味着奖学金计划将转变为创业学校项目,一个为所有想要加入 YC 的早期团队提供免费、线上的 10 周课程的地方 —— 所有创业者将不再能拿到任何资金,但他们可以学到和 YC 每年两个批次入选公司相同的东西。

山姆・奥特曼将亲自参与这个项目,他相信这是能够在一年时间内最快速、最简单地把成千上万个创业者带入 YC 所编织的校友网络中的方法。奥特曼对媒体说:“如果我们扩大规模,并且将优质的创业公司的数量提升 10 倍,尽管我们并不拥有这些公司的股权,但这件事一定是对 YC 有益的,虽然我还不知道具体的好处是什么。” 与此同时,YC 和奥特曼在 2016 年的夏季批次,一共筛选出超过 170 家公司,这远远超过了 2016 年冬季批次的数量,奥特曼还调高了每个周期内的活动频次,把每周一晚的大咖活动分享增加到两晚。

奥特曼的字典里似乎从来就没有 “慢下来” 这个选项,为了应对因为扩张太快而榨干业态的风险,奥特曼做出了加快扩张的决定,他计划在 2017 年进军中国,并将 “YC 印度” 纳入计划中。奥特曼在一次内部会议上,对 YC 的投资人说:“总有一天,YC 会比我接手时还要大上百倍甚至更多,我认为没有人能阻止我们这么做。” 这句话显示了他对继续快速扩张、击败所有潜在竞争对手的自信 ——YC 帝国已经成型。

当然,奥特曼的野心也让一些人开始怀念过去,尤其是保罗・格雷厄姆时期的 YC,当时的 YC 像一个家庭,而不是军校。

  • 一位 YC 的忠实拥趸在匿名接受采访时批评了奥特曼,他说:“山姆・奥特曼把荣耀看得太重,他将他的个人品牌放在了 YC 的前面。在保罗・格雷厄姆的管理下,我们有家一样的感觉,但现在我们变得机构化,彼此疏远。山姆・奥特曼总是在往高处看,但作为一个组织的领导者,他应该向下看。”

奥特曼看到这条批评后,回应道:“我确实应该在管理上做得更好 —— 这正是我在 Loopt 时最大的缺点,而且我仍然对此有一些习得性无助。我不喜欢每周的一对一时间,或者那种类似‘咱们聊聊你的职业生涯发展吧’的谈话。但我觉得只要大决定的方向是正确的,管理中有一些小的混乱还算能接受。毕竟大的决策才是决定我们回报率的东西。” 奥特曼话语里提及的习得性无助是一个心理学词汇,指因为反复失败,认为自己的行为无法改变结果,于是就放弃努力了。

奥特曼将部分个人野心浇灌在 YC 这棵已长成的参天大树上,试图收获更多的果实。在奥特曼的要求下,YC 开始尝试建立未来的实验性城市,这个城市不是虚无的,而是能够落地在美国或者国外的。他们围绕科技对这座城市做最优化的设计,比如,只允许无人驾驶汽车在道路上通行。奥特曼希望将这座城市规划为一所未来的大学城 ——10 万英亩的土地,5 到 10 万人的居民数量,众筹的基础设施,奥特曼希望建立一些新的概念,比如 “不允许人们从房地产上赚钱”。奥特曼的这个设想看着虚无缥缈,但所有人都知道他是认真的,因为他已经开始找寻潜在的合适建立城市的地点了。

这个城市如果建成,将成为一个典范,一个建立在人工智能基础之上的 21 世纪的雅典,一个为精英服务的带着围栏的社区,一个隔绝外界混乱的堡垒。对奥特曼来说,探知未来的最佳方案,就是着手创造一个未来。奥特曼会选择怎么做?

观察,思考与行动#

我们每个人都应该像背负了全世界的命运一样去行动,我们必须为未来而活,而不是为当下的舒适或者成功而活。

—— 山姆・奥特曼

对于山姆・奥特曼来说,行动带来反思 —— 如果他无法着手去创造未来,就无法在这个过程中不断修正、进步。因此,行动只是最基础的第一步,反思则是促成技术不断突破的关键步骤。

在一次去纽约的旅行中,奥特曼思考了这样一个问题:技术如何改变我们的观点与情感?奥特曼说:“当‘深蓝’在 1997 年击败加里・基莫维奇・卡斯帕罗夫时,为什么大家都不关心那件事,甚至很多人都不知道国际象棋的规则?但现在我对我们输给 DeepMind 公司的‘AlphaGo’这个事实感到很伤心。我是人类的一员,我没有一个很好的原因来解释为什么我很难过,除了我感觉到人类比机器更擅长的事又少了一些。可能悲喜交加比伤心更能够准确地形容我的感受。”

*2016 年,AlphaGo 在五局对决中击败拿过 18 次围棋世界冠军的韩国棋手李世石,这是计算机围棋程序首次无让分击败顶尖职业棋手。而奥特曼提到的另一个人,加里・基莫维奇・卡斯帕罗夫,是曾经 23 次获得世界排名第一的国际象棋冠军。棋王加里在 1997 年输给 IBM 开发的超级电脑 “深蓝”,他在输掉比赛后表示:“我要声明,我的失败与科技无关,因为电脑的表现完全没有机械的惯性,我不相信有这样优越的电脑。” *

直到现在,硅谷里的许多技术狂人或者富豪都痴迷于 “模拟假说”,这个观点认为,我们的现实世界实际上是由一台计算机模拟出来的。这个观点在 1999 年的好莱坞电影《异次元骇客》里有着完美的体现,《异次元骇客》里,数据世界之外,永远套着另一个数据世界,主人公即便跳出了数据世界,也永远无法辨别新世界的真伪。

  • 很多人相信这部电影所搭建的世界观,硅谷中就有不止一个亿万富翁,正在秘密接触全世界最顶尖的科学家,资助他们研究如何将人类从这种计算机数据模拟的世界中解放出来。

但对于奥特曼来讲,危险从来都不来自人类可能的造物主,而来自我们自己。有趣的是,这其中的关系实际上比想象中更复杂,比如美国导演雷德利・斯科特构建的《异形》系列电影背后的世界,普罗米修斯、人类、异形和仿生人的关系错综复杂,危险可能来自其中任何一方,人类如果想要生存下去,就必须让自己成为最强大的人,否则就算是最顶层的造物主普罗米修斯最终也会湮灭在浩瀚的宇宙中。

奥特曼的思考比电影世界更加实际,他所感受的危险有时候来自一个再普通不过的事物,比如手机。奥特曼在采访时说:“手机已经控制我们了,融合已经开始,而融合也是最好的方案。任何融合以外的版本都会有冲突,要么是我们奴役人工智能,要么人工智能奴役我们。而完全疯狂的融合版本是将我们自己的大脑上传到云端。我觉得不错,我们需要提升整个人类的水平,因为我们的后代要么征服银河,要么在宇宙中永远地湮灭。活着是多么神奇!”

一些伟大的人,诸如达・芬奇、凡尔纳、冯・布劳恩等,他们想象的是几十年甚至几个世纪后的技术,而奥特曼则专注于当下,评估最近形势与潜在威胁,然后专注于用务实的行动来推进技术进步或阻止人类被自己颠覆。

山姆・奥特曼的务实体现在研究的很多方面,比如合成病毒。

  • 奥特曼在 YC Research 的项目中筹划了一个可以阻止病毒合成的生物学研究组。再比如衰老与死亡。奥特曼希望资助一个致力于研究异种共生技术的公司,把年轻人的血液作为一种注射剂。奥特曼半开玩笑半认真地说道:“如果这个项目奏效,你仍然会死亡,但你可以健康地活到 120 岁,然后迅速老去。”

奥特曼还建立了一个研究小组,为人类有可能的最终继任者做准备,无论它是一个人工智能,还是融合了人工智能的增强版人类。这个研究小组将汇集各个领域的专家学者,包括机器人、控制论、量子计算、人工智能、合成生物学、基因组学、太空旅行甚至哲学领域的思想家和实践者,一起探讨技术的可行性,以及人工智能替代人类的伦理学问题。奥特曼的行动永远紧紧跟随在想法和反思之后,2016 年年底,这些领域的领袖已经开始在奥特曼的房子里定期举行会议,并且给自己取了个名字,叫 “盟约”。

偶尔人们也会直接在奥特曼的脸上看到一些情绪,比如当他在思索一些关于生命的问题时。奥特曼曾在一次采访中与记者聊了起来:“如果你认为所有人类生命的价值都是相同的,而且认为 99.5% 的生命会在未来诞生,那么我们应该把我们所有的时间都用于思考未来,但我确实也关心我的家人和朋友。” 紧接着奥特曼问了一个问题:“如果为了拯救自己爱的人,你会允许多少陌生人死亡?” 或者说得更加诚实一点:“你会杀死多少人?” 奥特曼的这个问题是留给他自己的,因为他很快面对记者说出了一个数字:“10 万。”

失控情况,奥特曼会如何思考?他怎么看待人类的未来?#

预言未来

我对那些正在让世界运转的 “傲慢混蛋们” 有两条建议。第一,在你改变世界之前,不要声称你正在改变世界。第二,忽略那些讨厌你的人,做任何你觉得有趣的事情。忽略那些说你的工作没有意义的 “键盘侠” 和媒体记者,他们的存在本身就没有任何价值。

—— 山姆・奥特曼

创新的背后永远隐藏着巨大的风险,但山姆・奥特曼更喜欢把创新的后果视为一个系统问题。

比如,他认为这个时代最紧迫的挑战是:

  1. 计算机会使大多数人失业。他在给出这个结论的时候,肯定想不到几年以后他的这句话成了某种启示录式的预言,他当时已经和埃隆・马斯克创立了 OpenAI,但就算是山姆・奥特曼本人,也一定想象不到 AI 技术具体将在哪个时间点突破,带来剧烈的社会变革。

奥特曼虽然无法预见未来,但他却可以通过当下做出一些措施来应对未来有可能发生的事情。比如,当他意识到未来人类有可能会全部失业后,他在 YC Research 展开了一项名为 “基本收入项目” 的研究,研究时间为 5 年。这个项目基于一个非常古老的想法:如果给每个人一笔足够的钱,让他们可以过上温饱富足的生活,这笔钱大概是多少?从

  • 2017 年开始,基本收入项目正式启动,YC Research 的研究院在全世界的不同地方,包括加拿大、乌干达等经济情况天差地别的区域,每年给超过一千个人一笔钱,金额介于 12000 美元和 24000 美元之间。

很多人认为这很可笑,背后存在着很多未能回答或者解决的问题,比如,为什么很多白领或者蓝领也能参与项目,白拿一笔钱?这个项目里的免费机制是否会导致人们懒惰?另外这个项目也产生了一组令人震惊的数字:如果给每个美国人 24000 美元,总金额将高达 8 万亿美元。8 万亿美元是什么概念 —— 当年美国联邦财政税收的两倍!

然而,山姆・奥特曼认为很多问题都不是问题,他说:“大部分人在思考这件事时,一开始就搞错了,如果机器人已经取代了所有的工作,劳动力成本降低为零,那意味着人们的生活所需成本也会急剧下降。” 奥特曼进一步举例,如果我们能够普及核能,那么,全球的电力都将变得价格低廉,甚至免费,同时交通成本也会大大降低,这种低成本最终会影响水和食物的价格。再比如,人们以前在学习和教育方面花了很多钱,但是现在,每个人都可以通过手机在互联网上获取免费的知识,进而在很多领域中成为专家。

最后奥特曼说出自己的猜想,他说:“现在你可能经常听到,一个美国的四口之家需要 7 万美元才能获得幸福生活,但在未来 10 到 20 年内,这一数字将会急速下降。除去住房的支出外,一个家庭只需花费 3500 到 4000 美元就能生活得很不错。”

最好的情况下,科技带来的强有力的改革,会使得人类不需要在少数派和多数派中做出选择。奥特曼在 2016 年时就预测人工智能也许会在未来重塑经济,他说:“我们将拥有无止尽的财富,大量工作岗位将被替代,所以基本的收入就能满足生活所需。此外,这还意味着创新的成本变得更低,在这个经济模式下,一百万人中可能就会出现一个能够创立下一个苹果公司的人。”

就像人们在批评嘲笑 YC Research 的研究项目一样,经常也有人指责硅谷的科技行业从业者在做看起来无关紧要的事情。他们的批评有时候是对的,但是,许多非常重要的事情一开始看起来都好像无关紧要,忽视所有看似微不足道的事情,将导致非常严重的错误。

奥特曼深谙人们的这种心理:当某个人创造了一个产品,声称这个产品会改变世界时,问题就来了,因为这个产品的早期版本看起来像个玩笑。所以人们就开始嘲笑这个产品、这个项目、这家公司,以及这位创造产品并且大言不惭的创始人。但是,Facebook、Twitter、Reddit、iPhone,甚至互联网本身这些东西刚出现时,人们都认为它们是微不足道的东西,直到他们真正占领这个世界。

有一个著名的观察结果体现了这一点:网络的价值,通常随着节点数量的平方函数增长,大部分服务或者产品的用户群,每 N 个月的增加翻一番,但随着整体价值上升,这个 N 会开始减少。因此,我们可以说,服务的价值和重要性呈指数级增长。奥特曼说:“我这辈子从未遇到过对超指数增长有良好直觉的人 —— 我们中的大多数人甚至都难以理解指数级增长。”

然而,某种事物的重要性在短时间内增长百万倍,就会导致各种突发行为。如果一些用户真的喜欢你正在构建的东西,将参与你提供的服务或购买你的产品作为他们日常生活的重要组成部分,并且随着你的成长不断出现有趣的新行为,就代表着你的项目是重要而且有效的。几年后,ChatGPT 验证了奥特曼的这个说法。

最有趣的一点在于,山姆・奥特曼虽然预言了很多事情,但他本人却反对进行市场预测这一行为。他的理由是预测或者预言都不足以改变世界,务实的人会采取接受时间考验的策略,用技术改变世界。奥特曼将足以改变世界的产品策略总结成两条内容:一种是制造一些人喜欢但大多数人认为是玩具的东西;另一种是雄心勃勃地创办一家电动汽车公司或火箭公司。除此之外的其他大多数公司,最终并不会对世界产生太大的影响。

2016 年,山姆・奥特曼仿佛压缩了时间,做了无数的事情。值得纪念的是,他担任 YC 孵化器掌门即将满 3 年。奥特曼怎么看待自己 3 年的工作成果?YC 在这 3 年时间里究竟做了哪些事情?

2017 年年度报告#

不关心的工作很难做好。如果你不喜欢自己的工作,就很难在生活中获得快乐或者过得充实。

—— 山姆・奥特曼

  • 2017 年,山姆・奥特曼在 YC 社区发布了一篇 “年度报告”,以总裁的身份,回顾了 YC 在过去 12 年间的发展。截至 2017 年 1 月 1 日,YC 已经资助了超过 3200 名创始人和 1470 家公司,总估值超过 1000 亿美元。同时 YC 还资助了 30 多个非营利组织。

奥特曼在年度报告的开头重申了 YC 孵化器的使命,也就是帮助世界上任何一家公司实现最大化的创新,以此为全人类创造美好的未来。奥特曼强调,在 2017 年的背景下,YC 相信新技术、经济增长和关于社会如何运作的思考,将比以往任何时候都更加重要。在他人看来,短短 3 年时间,奥特曼在保罗・格雷厄姆的基础上,塑造了更加激进的 YC,同时也将自己的个人理想全力灌注其中,深深地打上了自己的个人印记。

奥特曼将 YC 发展成至今的规模归功于所有 YC 校友公司的创始人,以及由所有创始人共同发展创建的乐于助人的 YC 社区,这两者共同编织的网络让 YC 与其他投资机构或者孵化器完全不同。

年度报告里,奥特曼提及了 YC 在 2016 年投资的诸多公司,在冬季和夏季的批次中,YC 一共投资了超过 2700 万美元,涉猎了奥特曼个人非常感兴趣的多个领域,比如廉价清洁能源、比特币平台、航空航天项目、生物技术和生命科学服务公司。在能源、硬科技和牵涉全球粮食安全领域的投入方面,YC 走在前方,远远超过了其他风险投资机构,尤其是早期孵化器。

奥特曼也提到了截至 2017 年 YC 投资的最成功的三家公司 Airbnb、Dropbox 和 Stripe,以及另外 50 多家市值超过 1 亿美元的公司。他说:“我们正处于技术巨头公司主导的时代。如果你相信梅特卡夫定律,那么互联网技术巨头在当下比以往任何时候都强大是有道理的,而这背后的原因,仅仅是因为越来越多的人使用并且依赖互联网。”

梅特卡夫定律是一个关于网络价值和网络技术发展的定律,定律的内容是:一个网络的价值等于该网络内的节点数的平方,而且该网络的价值与联网用户数的平方成正比。这个定律指出,一个网络的用户数目越多,那么整个网络和该网络内的每台电脑的价值也就越大,简单来说就是,对社交网络而言,服务的用户数量越多,服务对社区的价值就越高。

奥特曼的观点是有道理的,2017 年的一众互联网巨头里,美国的亚马逊、Facebook、谷歌、苹果和微软等公司占据绝对的领先优势,这种情况同样适用于我国,百度、阿里巴巴和腾讯凭借自身的核心业务,积累了大量资本,早几年就开始向外疯狂扩张,只要出现新的领域或者业务,“BAT” 就会第一时间投资或者直接收入旗下,以保持这种领先优势。奥特曼认为如果不采取反垄断行动,这种趋势不太可能逆转,因此他建议人们仔细考虑这件事对初创企业的影响。

此外,奥特曼在谈论多元化与包容性时,再次聊到鼓励女性创业者的事,并且列举出一系列数据,证明了自己对 3 年前说过的话负责,也说明女性力量正在硅谷崛起。在 2016 年,YC 一共资助了 52 家公司的 68 位女性创业者。在所有 YC 资助的公司中,约有 22.3% 的创始团队中有女性,所有被资助的创业者中约有 12.5% 是女性。不仅仅在女性创业者方面,YC 还鼓励一切让硅谷多元与包容的举措,于是,2016 年 YC 还资助了 29 家公司的 52 位非洲裔或者拉丁裔创业者。奥特曼强调,申请 YC 的女性比例与获得资助的女性比例基本相同。这说明女性与男性一样优秀,一样能够获得巨大的成功。6 月,YC 将举办第四届年度女性创始人大会,继续支持多元化创始人的实践或计划。

在奥特曼的带领下,YC 组织不断扩张,由主要的五个大部门构成。其中最核心的 YC 项目计划,仍然保留了保罗・格雷厄姆创立 YC 时最初的大部分想法。奥特曼继续鼓励全世界的创始人在 YC 网站上申请这个项目,并且提到了 YC 合伙人如何决定谁入选这个问题。奥特曼总结了四个问题,来概括他们对申请 YC 项目计划的筛选标准:这家公司能做出人们真正喜欢的东西吗?这家公司容易被复制吗?这些创业者有足够的天赋吗?这家公司是否有明确而重要的使命?

奥特曼说:“除非你投资最伟大的创业者,否则很难赚钱。什么是伟大呢?我会问自己这些问题:他们是否足够坚定?他们是否乐于思考?他们是否聪明,能够提出我以前从未听说过的新见解?他们是否善于沟通?以及最重要的 —— 我会为他们工作吗?” 同时奥特曼也强调公司使命很重要:“如果一家公司没有重要使命,我会觉得他们在做的事很无聊,这样的公司通常很难招募到足够多的优秀人才,因此很难成功。”

除了自诞生之日起就存在的 YC 项目计划,YC 其他部门几乎都是在奥特曼 2014 年接手 YC 后创立或重组的,包括 2015 年开始运营的成长基金 YC Continuity Fund,非营利研究部门 YC Research,即将在 2017 年正式推出的 YC 创业学校,MOOC 在线开放课程 —— 奥特曼将原本投入 YC 奖学金计划的资助资金,变成 MOOC 的知识分享形式,希望启发更多人,以及几乎与 YC 成立时间相同的创业论坛 Hacker News,简称 HN。

在 YC 成立后的 14 年时间里,HN 一直是所有对 YC 和 YC 资助的初创公司感兴趣的人的聚集地。YC 和 HN 一起成长,很多 YC 创业者都是从 HN 用户成长起来的。截至 2017 年 1 月,HN 已经成为一个每月有 340 万用户,每天有 35 万活跃用户和 400 万浏览量的巨型论坛。虽然在这个时代,论坛逐渐消失,但 HN 仍然在缓慢发展,保罗・格雷厄姆因此将 HN 描述为一种实验,想看看在论坛彻底消失前 HN 能保持多久的高活跃。

年度报告最后,奥特曼提到:“距离我们进入软件时代已经过了 30 年,距离进入互联网时代已经过了 20 年,距离进入人工智能时代刚刚 2 年。每个时代都代表了一场技术革命的发生,我相信,当我们回顾过去的历史时,会认为每一次技术进步都意义重大。我相信,在未来 600 年里,我们与地球上最聪明的物种所拥有的共同之处,将会比我们与 6 万年前的人类所拥有的共同之处更少。这是一个令人兴奋的时代!”

新投资模式#

你会经常听到一些相互矛盾的建议,除了 “打造一个伟大的产品” 这句话。这句话意味着选择哪条路这件事并不是最重要的,你可以在人生的大部分时间里走任何一条路,但你需要做出决定,并且开始工作,试着去犯很多错误。

—— 山姆・奥特曼

2017 年,YC 稳步发展,山姆・奥特曼也获得了更多的荣誉,6 月,奥特曼因为支持加拿大滑铁卢大学的创业计划,获得荣誉工程学博士学位;9 月,奥特曼受邀参加同性恋者反诋毁联盟 GLAAD 的晚会,出人意料地获得了当年这个媒体颁发的里克・韦兰德奖,表彰奥特曼在科技领域促进 LGBTQ 运动。这个奖项以已故的计算机软件先驱和慈善家里克・韦兰德的名字命名,韦兰德是最早将 LGBTQ 运动带入数字时代的人。

在发表获奖感言时,奥特曼一改往日平静、不带太多个人情绪的说话方式,露出更真实的一面。他呼吁科技公司加大反欺凌力度,让互联网更安全、更具包容性。奥特曼还以自身经历为例子,诉说了互联网在促进 LGBTQ 平等和创建社区方面的作用,他告诉所有人:“有一段时间我真的不认识现实生活中的任何一位其他和我一样的同性恋孩子,但我在互联网的早期发现了一个社区,在那里找到了家的归属感。我对我们现在已经取得的所有进展非常激动,我也非常清楚以后我们还有很远的路要走。”

然而,奥特曼没有被这些表面的荣誉拖慢脚步,他很清楚自己工作和生活的中心永远在硅谷,在科学技术的最前沿,因此,他依旧每天在 YC 的办公室、硅谷咖啡馆和不同创业公司之间奔波,推动 YC 继续前进,并且逐步实现自己的个人理想。

2018 年 9 月,山姆・奥特曼再次调整了 YC 的投资模式。为了跟上初创公司早期融资轮次的规模不断扩大这一背景,YC 宣布,从 2019 年冬季开始,将针对 YC 项目计划入选公司的投资规模增加至 15 万美元,以换取 7% 的股权。上一次 YC 增加投资数额是在奥特曼接手 YC 后的 2014 年,当时 YC 将投资金额增加至 12 万美元换取初创公司 7% 的股权。而往前看,在 2007 年,YC 的 “标准交易” 仅为 2 万美元换取相同的股权占比。

YC 合伙人迈克尔・塞贝尔解释了 YC 的这个决定,他说:“我们认为增加 3 万美元是必要的,可以帮助初创公司专注于开发他们的产品,而不用太早就担心公司的融资问题。在最近几年,创业公司获取资金的渠道越来越多,因此我们将继续专注于那些更难以获得的东西,比如社区、系统性和个性化的建议,以及优秀的创业者在 YC 项目计划中的体验。”

在新时代背景下,YC 一直在改变其投资方式,现在,它将按照投后估值协议(post-money SAFE)投资初创企业,而不是按照投前估值协议(pre-money SAFE)进行投资。YC 在 2013 年发明了未来股权简易协议(Simple Agreement for Future Equity,SAFE),即投资者对公司进行投资,然后在未来某一天获得公司股票 —— 这是一种转换票据的替代方案。YC 旨在用更快速、更简单的方式,将资金投入初创公司。YC 认为,持有这些协议的人将成为初创公司的 A 轮或之后定价的股权轮的早期投资者。

最近几年,YC 注意到初创公司的种子轮筹资规模比以前大得多,与此同时,创业者面临的问题是他们需要经常花时间确定每轮融资后他们被稀释了多少股份。而投后估值协议将使创业者更容易知道他们出售了公司多少股份,并会让 “资本化表格的数学运算” 这项原本对于创始人来说非常繁琐的工作变得更加容易。

另外一个风向是,投前估值协议遭到了越来越多创业者和投资者的批评。2017 年,曾与 YC 公司合作过的风险投资机构杜比家族的帕斯卡尔・莱文森评价说:“YC 的投前估值协议正在损害创业者的利益。不计算资本化表格的创业者最终拥有的股份比他们认为的要少。当股权轮被定价时,创业者不喜欢被稀释的数字。但他们不能责怪风险投资家,他们不能责怪天使投资人,所以这意味着他们只能怪…… 哎哟!” 帕斯卡尔・莱文森并没有说出 YC 的名字,并且故意打断了这段话的结尾,但所有人都知道他在说 YC。

因此,YC 和奥特曼做出的新改变 —— 按照投后估值协议投资初创企业 —— 将消除投资人和创业者的共同困扰,同时保有了原有协议简单高效的优点。YC 表示,这样做的代价是 “投后估值协议下筹集的资金会使持有人,通常是创业者和早期员工的股权比例降低”。尽管它并不是完美的,但已经是一种改进。

最近从 YC 毕业的医疗旅行公司 Lobby 的创始人迪帕克・楚加尼对 YC 的变化感到开心。迪帕克・楚加尼说:“无论如何,YC 提供的大多数资源对于像我这样的初创企业家来说都是无价之宝。我认为,考虑到湾区和大多数初创公司不断上涨的运营成本,YC 新的交易模式对于创始人来说将是非常好的,无论他们之后是否选择留在湾区和硅谷。”

2018 年,当 YC 在美国国内进行进一步改革时,YC 总裁山姆・奥特曼也将目光投向了大洋彼岸互联网人口基数最庞大、经济与科技正在蓬勃发展的东方大国 —— 中国。

YC 中国#

改变世界的技术创新公司需要三种品质:信心、耐心和恒心。这是我一定要强调的个人经验。就是一定要相信、一定要忍耐住、一定要静得下来。山姆在很多场合都说过,未来 10 年全球会有 10 家公司达到谷歌的规模,其中 3 至 4 家会诞生在中国,而 20 多年的职业经验告诉我,这几家公司,必定是相信长期的公司。

—— 陆奇

经历一系列的准备之后,2018 年 8 月 15 日,YC 宣布正式进入中国,并且邀请了一个大咖担任 YC 中国的首席执行官,并兼任 YC 全球研究院院长。这个人就是曾担任百度集团总裁、微软全球执行副总裁、雅虎执行副总裁的陆奇。

陆奇在美国和中国的科技界都非常有名气,以精力旺盛著称。有人专门研究过陆奇每天的时间安排,发现他通常凌晨 4 点起床,检查邮件后,在跑步机上跑 4 英里,一边跑一边听古典音乐或者看新闻;凌晨 5 点至 6 点,陆奇会到办公室,利用这段不受任何人干扰的时间准备一天的工作。陆奇的工作时间一直持续到晚上 10 点,有时也会在半夜给同事发电子邮件。LinkedIn 的董事长杰夫・维纳曾在雅虎与陆奇共事多年,他知道这件事后,曾放话说这种日程安排无法持久,但在目睹陆奇数十年如一日的坚持后,他佩服地说:“陆奇的确是我所见过的最有干劲的人。”

然而,在 2018 年,56 岁的陆奇也不得不服老。当时,他因身体和家庭原因,选择卸任了百度总裁和首席运营官的职位。作为最有名气的职业经理人之一,陆奇从不缺乏好的工作机会,他为什么会选择加入 YC?在接受国内知名的科技媒体平台 “36 氪” 采访时,陆奇告诉记者:“我是用‘天时地利人和’来做决定的。老祖宗的智慧真的很管用,考虑完全部因素,YC 是我唯一剩下的选择。”

陆奇提到的 “天时地利”,指的是他的年纪和加入 YC 的时机。在 2018 年,陆奇即将年满 57 岁,因此,他需要对接下来的 5 年到 10 年做一个整体的规划。陆奇认为,大公司高强度的工作模式已经不适合自己了,同时,他看到了中国正处在大规模技术驱动创新的前夜,并且认为中国处在一个尤其需要新生态的阶段,在商业模式和用户体验的创新空间越来越小的情况下,中国非常需要大规模的技术创新,继续推动社会进步。

陆奇说:“由中国和美国共同驱动的新一轮技术创新将对世界工业和社会产生变革,所以我们需要设计新的机制和环境推动与拥抱这样的挑战。而创新的摇篮是早期生态,我认为这个生态中的资本投资、人才开发、科研和商业化创新机会这四个方面,都急切需要被全面革新。新的制度和新的组合方式需要被探讨和创造,尤其是跨太平洋的合作。” 此外,因为家庭原因,陆奇需要一份工作,能够在中美两国之间频繁往返,从而能和两地的亲人有更多的时间待在一起。YC 进入中国为他提供了一个非常好的机会。

至于 “人和” 方面,指的是陆奇和 YC 的创始人保罗・格雷厄姆的缘分。1998 年陆奇在雅虎时,曾和格雷厄姆一起工作,两人早就认识了。2005 年,格雷厄姆举办第一期 YC 夏令营的时候,陆奇曾代表雅虎参加,并结识了 YC 的第二位 CEO 山姆・奥特曼。陆奇非常认可 YC 的理念,甚至在微软工作时,就曾经依照 YC 的商业模式,创立了必应基金 Bing Fund,必应基金之后逐渐发展成微软风投。因此,当奥特曼决定将 YC 带入中国,自然而然地想到了陆奇,两人沟通多次,发现多年过去,彼此的理念和情怀仍高度一致,这最终促使陆奇成为 YC 中国这艘新航母的 01 号员工,也是 YC 中国的掌舵人。

过去十几年,虽然 YC 校友公司遍布世界各地,但他们却一直只在美国硅谷运营,中国成为 YC 设立的首个海外业务拓展团队,而陆奇的加入也代表着 YC 和山姆・奥特曼要在中国彻底本土化的决心。奥特曼强调,YC 中国团队将由中国的人才组建,为中国的创业者和经济发展服务,并成为中国社会的组成部分。

在奥特曼的构想中,YC 中国的使命将和太平洋彼岸保持同步,即利用技术创新,推动社会变革,并且让技术进步的成果被尽可能广泛的人群公平地享有、使用。因此,YC 中国将在四个方向开展业务,包括创业孵化、人才培训、科研和公益。这四个计划都将以前所未有的方式运作。陆奇表示,他要的不仅仅是新技术,技术只是变革社会的一种能力,他要建立新的生态,以支持新技术对社会的变革,那才是他心目中新世界的正确打开方式。陆奇的这个想法,和奥特曼改变世界的思路几乎一致。

陆奇与山姆・奥特曼都认为中国处于一个即将迎来技术创新井喷的时代,YC 中国希望成为其中的参与者。但是,山姆・奥特曼为什么会对中国如此重视?

早在 2015 年 2 月,奥特曼就在个人博客里提到了对中国经济发展的看法。当时,奥特曼在观察 2014 年经济数据时,发现在购买力指标上,中国经济已经超越了美国经济。但这件事并没让奥特曼感到惊讶,因为美国的增长已经陷入停滞,而中国的增长在持续上升。奥特曼相信,因为面临经济结构性和人口方面的挑战,美国在全球范围内的竞争力正在快速下降。

奥特曼认为,美国目前的商业模式要求美元成为世界储备货币,但在当时的环境下,中国货币正在迅速成为一个可行的替代品。在未来,如果中国放松货币管制,允许贸易和离岸投资快速增长,人民币可能会快速升值,这将使中国成为全世界最重要的金融中心。在对待中国崛起的问题上,奥特曼再次展现了自己的先见之明,他几乎说中了人民币国际化的未来之路,比如在 2023 年,巴西、阿根廷陆续宣布将与中国直接以本币进行贸易结算,取消使用美元作为中间货币。

因此,奥特曼非常看重中国市场,他认为美国如果要继续强大,就需要找出与中国共存的方式。因为在没有重大意外的情况下,中国和美国将共同成为世界大国。21 世纪后的世界相互关联,与其互相敌对,直到爆发冲突,不如找到一种方式,共同努力发挥各自的长处,并建立稳定的合作关系。奥特曼的这个看法与当时特朗普政府的政策完全不同,因此,奥特曼在 2018 年这个最尴尬的时间点 —— 中美贸易摩擦开始后 —— 毅然做出一个与美国政府相反的选择:让 YC 进入中国。

在陆奇的计划中,YC 中国将在招到足够人手后,开始本地化的第一个尝试:孵化营。也就是说,陆奇将吸取 YC 的核心部分,包括保罗・格雷厄姆总结设立的孵化营流程、培训内容等方法论;可以为中国创业者出海搭建通道的超过 4000 人的 YC 校友公司网络;让初创公司更容易获得投资机构青睐的 YC 品牌对中国初创公司的认可和 “背书”。陆奇同时也提到,YC 中国计划自己开发创业课程,并设立 YC 中国研究院,和中国的科研机构建立合作,而在公益业务方面,则希望重点解决新技术对人们就业造成的影响。

之后一年多的时间里,陆奇与 YC 中国借助美国总部的资源,试水性地开展了项目招募和孵化活动,萌动、朝闻道和小木屋等 6 个项目被选中,在 2019 年春季奔赴美国参加训练营。在 2019 年的秋季创业营,YC 中国更是收到了超过 1700 份申请,最终仅有 22 家创业公司入选,项目涵盖人工智能、医疗、动漫、健康等多个领域,这么算下来录取率仅为 1.29%,比哈佛的录取率还低。

然而,在 11 月 17 日路演日后,仅仅过了 4 天时间,陆奇在中国第一期加速营的结营日突然宣布,将成立新品牌 “奇绩创坛”,由他所带领的原 YC 中国团队独立运营,而 YC 孵化器则全面战略回归,聚焦硅谷,不再单独设立海外分支。在面对记者的采访时,陆奇提到,YC 正式提出撤出中国这个想法,是在 2019 年 5 月初,YC 中国秋季营开始招生之后。陆奇最终通过协商决定在 11 月后宣布,是因为不希望在 22 家创业团队孵化的过程中出现干扰他们信心的事情,把 YC 撤离中国的影响降到最小。

YC 进入中国一年零三个月后撤离中国,背后的原因是什么?

这就涉及 YC 公司在 2019 年的一次大事件 ——2019 年 3 月,山姆・奥特曼离开 YC,辞去了 YC 总裁的职位。招募陆奇和成立 YC 中国,都是奥特曼的决定。因此,奥特曼的离开,以及新任 CEO 杰夫・拉尔斯顿的上台,改变了 YC 面对全球环境时做的战略决策,拉尔斯顿认为需要让 YC 更聚焦在种子期加速的业务,以及更聚焦在美国。根本来说,YC 的新 CEO 相比山姆・奥特曼更加趋于保守。

幸运的是,YC 的撤离并未影响 YC 中国团队的运作,陆奇在加入 YC 的时候,和奥特曼聊过自己加入 YC 的条件,一共有三个:为了中国、属于中国、建于中国。因此,陆奇在 YC 离开后,选择成立新品牌的新孵化器,承接原本 YC 中国的所有业务,基于 YC 中国已经建立的基础,完全独立来做创业营招生、路演日,继续帮助中国的初创公司搭建健康成长的生态。

陆奇在接受采访时感谢了 YC 领导层的支持,他说:“他们基本上已经送我们到了他们能送到的最远的地方。我们的核心团队也都去过 YC 美国,都得到了基础能力的锻炼,学习了 YC 模式的真谛,可以手把手加速初创团队业务的成长。” 陆奇甚至认为,独立运营对团队更加有利,虽然没有 YC 的品牌会带来一定程度的资源的影响,但是影响很有限。因为此前很多创业者在通过了非常严格的面试后,最终选择不要 YC 的钱,而只是想要拿到 YC 的认可,然后找到中国的投资人融资。因为以美国为中心的 YC 不完全适合中国的国情。

陆奇认为,必须建立更适合中国国情的品牌,才能够建立在中国创业者心中的品牌认知度。YC 的撤离和由本土团队完全承接,意味着不再需要跨国协同,这反而会大大提高本地化运营效率。

短短一年零三个月,YC 在中国的布局出现重大转折,似乎也预示着 YC 内部即将发生巨变,山姆・奥特曼的 YC 生涯将以何种方式结束?

结束 YC 生涯

我这辈子最棒的事,就是一直在追随自己的兴趣。过去 5 年里,我尝试了很多看起来有趣的项目,虽然他们中的大多数都会失败,但无所谓。因为我相信,真正有价值的项目,最终会呈现它们的价值,就像 OpenAI 和 YC 一样。

—— 山姆・奥特曼

2019 年 3 月 8 日,YC 公司在官网上发布了一条最新公告,总结了过去两年时间里 YC 的成就,包括推出了创业学校 MOOC 计划、A 轮计划、YC 增长计划、在创业公司工作计划和 YC 中国。YC 公司的总市值第一次超过了 1500 亿美元,YC 校友网络现拥有超过 4000 名创业者校友和 1900 家公司,所有创业者和校友公司进一步成了 YC 新加入的创业者的客户、朋友以及最大的支持者。

同时,这则公告还涵盖了 YC 在 2019 年第二季度即将施行的一系列举措。所有举措与改变的核心原因是,YC 再次扩张了。

由于在 2019 冬季项目批次收到了超过 12000 份申请,相比上一次,即 2018 夏季项目批次增加了 30%,YC 决定增加通过的申请数量,最终资助了 200 多家公司。YC 对 “路演日” 进行了调整,租用更大的空间,设置两个舞台,在两天时间内并行运行,为投资者提供更多的时间与创始人进行互动。更为重要的是,为了进一步扩大规模,YC 宣布他们正考虑将总部从山景城搬到旧金山,虽然这两个城市都在美国加利福尼亚州的湾区一带,但旧金山生活着更多的高校毕业生,那里正在取代山景城,成为新创企业的重心。

这条公告发布后,很快引起美国创业圈和科技媒体的注意,很多人敏锐地从这篇公告里察觉出了一丝特殊的气味,这些细节不仅体现在内容里,比如 YC 突然要搬家的决定,也体现在从总结到展望,似乎准备翻开新篇章的文章结构中…… 在种种异常之外,令大部分人最怀疑、同时也引起最广泛讨论的,是这篇公告的署名,不再是山姆・奥特曼,而是 Y Combinator。

果然,第二天,新闻网站 Axios 率先报道了一条令所有人震惊的消息:山姆・奥特曼将辞去 YC 孵化器总裁的职位,转任主席一职,由 YC 的合伙人承担他的大部分日常职责,之后,奥特曼将专注于他本人参与的另一家机构 OpenAI—— 这家于 2015 年年底,由山姆・奥特曼和埃隆・马斯克等人共同创立,旨在预防人工智能风险的非营利机构。

这则报道很快被确认是真实的,在硅谷乃至全美国的创业圈、科技圈和金融圈内引发了轩然大波。几乎所有人都感到意外,如同 YC 公告里对 YC 成就的总结,此前 5 年,YC 孵化器在山姆・奥特曼的领导下,已经成为全球最好的投资机构之一,并且在可以预见的未来,YC 将继续大展拳脚。在这一背景下,山姆・奥特曼为什么会突然选择离开 YC,转而投向在当时名不见经传的 OpenAI?

奥特曼并未在任何采访或者公开场合正面回答过这个问题,但从一些其他的问答中,可以捕捉到一些蛛丝马迹。比如山姆・奥特曼早在 2014 年就对 AI 领域非常感兴趣,再比如他在评价 YC 时说:“YC 当然一直在增长,因为随着 YC 项目计划的资本和建议变得越来越商品化,YC 校友网络成了我们最大的优势。”

在 YC 的 5 年时间,大部分人都被山姆・奥特曼在 YC 取得的成就所迷惑,却忘了他身上的另一个特质:他永远在挑战自己的极限。因此,当 YC 不再能够为山姆・奥特曼提供足够的舞台时,他最终选择离开并不是一件让人感到意外的事,因为真正的雄鹰肯定会抛弃安全、快捷的飞行路径,选择重回无边无际的天空之上,更加无拘无束地探索这个世界。

但是,山姆・奥特曼选择在 2019 年 3 月这个时机离开,也并非全然巧合。埃隆・马斯克曾在公开场合提到自己与 OpenAI 的关系,马斯克说:“我已经超过一年没有密切参与 OpenAI 的运营了。” 这则发言坐实了马斯克与 OpenAI 因为 “公司发展” 的分歧,最终 “友好分手” 的传言。因此,在奥特曼宣布离开 YC,专注于 OpenAI 后,一个信号愈加明显:山姆・奥特曼极有可能计划成为 OpenAI 的 CEO。

作为 2005 年 YC 第一批创业班的成员,自从 2011 年开始兼职担任 YC 合伙人,并于 2014 年成为 YC 总裁的山姆・奥特曼,最终结束了他的 YC 生涯。

评价 YC 奥特曼#

为你的公司设定一个清晰、易于理解的愿景,让它成为人们信奉的使命。

—— 山姆・奥特曼

当山姆・奥特曼在 2014 年接管 YC 时,YC 项目计划只培训了 67 家初创公司,并且这些公司全部来自美国。虽然当时对于全美国的孵化器公司来说,这是一个创纪录的数字,但在 5 年后,奥特曼将单个批次的初创公司孵化数量提高到三倍以上,2019 年冬季计划,YC 不得不扩张路演日规模,分两天在两个舞台向投资人展示 205 个初创企业。

这组数字仅仅透露了奥特曼野心的一部分。在过去的两年中,YC 推出了创业学校项目计划,为全球创业者提供免费的 10 周在线课程;A 轮计划,为所有处于种子阶段的创始人提供培训,教会他们如何获得后续资金;YC 增长计划,为 YC 校友公司提供的长达 10 周的成长项目,被外界戏称为 YC 大学的 “研究生课程”;在创业公司工作计划,为所有想要跳槽的程序员提供机会,帮助他们与 YC 校友公司建立联系。

即使拥有了 4000 多名校友和 1900 多家公司的网络,奥特曼长期以来还是一直认为 YC 可以做得比现在更好。在 2017 年的一个科技论坛上,奥特曼说:“我们的模式之一是降低犯错的成本,然后犯很多错误。我们将资助很多人,做很多听起来非常愚蠢的事情,大多数时间这些主意看上去确实很愚蠢,但有时候坏主意会突然变成好主意。最好的创业想法在‘听起来是个坏主意’和‘事实上是个好主意’的交叉点上。”

很多人担心奥特曼可能已经把美国的创业环境推向了无法持续发展的极端,因为奥特曼鼓励人们进行创业,但其中很多人都欠缺适合创业的基础,他们在被鼓励后,放弃了更安全、更传统的选择,幻想成为下一个 Airbnb 的创始人布莱恩・切斯基。

还有一部分人则想知道初创企业是否最终会反抗 YC 的投资条款,这一条款规定,YC 将投资 15 万美元,获得每家公司 7%的股份,如果选择接受这个条款,将保持这个股份比例直到公司倒闭或者被收购。随着通货膨胀,15 万美元将显得微不足道,为了获得如此少的资金,而放弃如此大比重的公司股份,开始令越来越多的创业者感到烦恼,虽然他们也渴望获得 YC 的光环。

除了创业者,投资人和投资机构对山姆・奥特曼运营的 YC 孵化器也是爱恨参半,他们有时会私下议论奥特曼的个人投资版图与 YC 的改革可能存在的利益冲突,比如他利用 YC 的资源投资自己喜欢的公司,并且在这家公司成长后进行个人投资,进而成为董事会成员,掌握权力。

然而,即使是这些想把奥特曼打下神坛的人,也不得不承认,奥特曼在管理 YC 期间做得非常出色,他将 YC 带到了美国之外,打造成为一个全球品牌,不断推出新产品,使公司能够在可预见的未来继续扩张。奥特曼还丰富了 YC 接受的创业者类型,2018 年夏季计划中,YC 资助了 15% 的女性创业者,同时,在奥特曼接手前,YC 项目计划一直被面向消费者的互联网初创企业所主导,但现在由此毕业的校友公司涉及各行各业,很多公司的产品或者服务,都不直接面向消费者,而是提供给其他公司或者研究机构。

同样重要的是奥特曼在 YC 内部的举措:首先他确保 YC 的所有合伙人在经济上享受相同的待遇,这在风险投资行业是一个令人惊讶的罕见结构,因为更多的情况是一个小团队的投资者根据他们加入公司的时间或具体贡献来获得大部分的财务回报。

“5 年时间,规模增长 10 倍”,这句总结足以让所有对山姆・奥特曼提出负面评价的人闭嘴。唯一让所有人可惜的是,奥特曼的个人意愿明显不在 YC 所做的事情上:一个创业孵化器,做到最后也只是一个创业孵化器,就算投资了成千上万家硬科技公司,YC 也还只是一个成功的创业孵化器。而山姆・奥特曼更想成为的人是埃隆・马斯克 —— 真正掌管一家或者数家硬科技公司,亲手创造改变世界、改变人类未来的产品,比如星舰,或者通用人工智能。

所以,在肯定山姆・奥特曼在 YC 时期的成就后,另一个问题也随之而来:奥特曼离开后,YC 将何去何从?

很多人在消化最初的震惊后,并未对这家成功孵化器的未来感到担忧。因为奥特曼已经很长时间没有参与 YC 的具体运营事宜,他在 2019 年卸任 YC 总裁时,将大部分运营事宜转给了其他合伙人,尤其是接任的迈克尔・塞贝尔。因此,即使 YC 失去了奥特曼的掌舵,也不会丢失继续航行的方向,毕竟 YC 创始人保罗・格雷厄姆和杰西卡・利文斯顿始终在董事会层面持续参与 YC 的战略讨论。在未来,山姆・奥特曼或许也不会真正离开 YC,而是像格雷厄姆和杰西卡一样站在幕后,继续推动 YC 前进。

后 YC 时代#

YC 是一个灯塔,在这里你不需要认识任何人,就可以获得帮助。YC 给了我很多帮助,教了我很多经验与知识,我需要做出回报。

——YC 第四任总裁陈嘉兴

2019 年 5 月,在山姆・奥特曼离任 YC 总裁两个多月后,奥特曼在 YC 官网上宣布,杰夫・拉尔斯顿将成为 YC 的新总裁。

IMG_20241125_213746

杰夫・拉尔斯顿同样是美国科技界闻名已久的人物,他曾担任雅虎公司的工程副总裁和首席产品官,并在 1997 年创建了雅虎邮箱,之后他历任在线音乐平台 LALA 的首席执行官,并在 2011 年与两位伙伴一起创立教育技术孵化器 Imagine K12,在 2012 年 1 月正式进入 YC,成为 YC 的合伙人。

山姆・奥特曼始终记得,他在 2014 年接替保罗・格雷厄姆时,两人讨论最多的事情就是如何让 YC 长期存在。于是,当奥特曼选择离开 YC 时,他谨慎地选择了自己的继任者杰夫・拉尔斯顿,并认为对方是接任的最佳人选。就像 5 年前保罗・格雷厄姆选中他一样。这不仅仅是因为两人认识将近 10 年,更是因为奥特曼认为拉尔斯顿是硅谷最有思想、最有帮助和最友善的投资者之一,能够将个人过硬的知识背景、对未来的思考和出色的亲和力三者相结合,这是罕见的品质,适合成为拥有上千家校友公司的规模庞大的 YC 掌舵人。

两人有着相同的愿景,在投资方向和策略上也从未有过重大分歧。奥特曼说:“我最早对拉尔斯顿的记忆之一,是他坐在 Stripe 第一个办公室的地板上,花了几个小时,帮助创业者修改一份合同。” 奥特曼相信拉尔斯顿非常关心 YC,并且了解如何让 YC 继续发展。

奥特曼还回顾了自己过去 5 年时间里,与其他 YC 合伙人一起工作的日子,他说:“大家一起工作真的很开心,每个 YC 合伙人都非常有才华,以不同的方式支持这家公司发展,合力让集体的力量大于个人之和。他们是这个行业里最棒的团队。我将继续担任 YC 的顾问,并在拉尔斯顿担任新职务时提供任何所需要的帮助。”

之后的三年时间,杰夫・拉尔斯顿带领的新 YC 与全世界一同经历了全球性经济衰退与新冠疫情。2021 年,尽管 YC 为应对新冠疫情采取了完全远程办公的方式,但它仍然资助了 750 家公司,创下了新的纪录。2021 年 12 月,杰夫・拉尔斯顿告诉一个科技博客,他设想了一条每批次资助 1000 家公司的路径。然而,没等拉尔斯顿开始施行他的计划,在 2022 年夏天,YC 以经济低迷和融资环境差为由,减少了 2022 年夏季批次的初创公司数量,由 2022 年冬季批次的 414 家减少为 250 家,下降了 40%。

同时更多原本对未来的规划,比如将 YC 总部从山景城迁至旧金山,还有 YC 中国计划,都已经被悄然放弃。在一封内部电子邮件里,拉尔斯顿写道:“在经济低迷时期,你通常可以通过保持活力来获得部分市场份额。” 这封电子邮件提出了 10 个要点,旨在帮助所有 YC 校友公司应对经济低迷对科技的冲击,提醒创始人 “做最坏的打算”。

也许奥特曼的判断错了,拉尔斯顿和他根本不是同类人,因此在对如何经营 YC 上有着不同的发展计划。也许是拉尔斯顿的老好人性格,注定了他在 YC 发展的决策上与奥特曼完全不同,也许是全球经济衰退和疫情影响 —— 结果显而易见,YC 的策略由激进转向了保守,由全球化转向了维持美国本土规模。无论外界如何质疑杰夫・拉尔斯顿,如何评价他,最终都无法阻止一个结果:杰夫・拉尔斯顿离开了。

在上任 3 年半之后,2022 年 8 月,拉尔斯顿在 YC 官网上宣布自己将在年底辞去 YC 总裁和 CEO 的职位,离开 YC,而接任他的,是一位空降的回归者,曾经的 YC 合伙人,在 2015 年选择离开,专注于自己风险投资基金的陈嘉兴。

与杰夫・拉尔斯顿相比,陈嘉兴的履历更加华丽,作为亚裔美国人、新加坡移民后代,陈嘉兴毕业于斯坦福大学计算机专业,是山姆・奥特曼的学长。陈嘉兴早年曾在微软工作,并且是美国知名大数据公司 Palantir 的第 10 名员工。2008 年,他第一次创业,创立了博客平台 Posterous,最终在 2012 年以 2000 万美元被 Twitter 收购。2011 年,陈嘉兴加入 YC,担任常驻设计师和合伙人。2012 年,他创立了自己的风险投资基金 Initialized Capital,投资了加密货币交易所、配送服务网站和供应链软件。从 2019 年到 2022 年,连续 4 年入选《福布斯》的 Midas 榜单,这份榜单是《福布斯》杂志对最具影响力的风险投资人进行的年度排名,被外界称为 “科技领域风险资本家的奥斯卡奖”。

2023 年 1 月,陈嘉兴回到 YC,担任总裁兼首席执行官。他在接受《福布斯》专访时表示:“YC 是人们以多种方式实现梦想的社区,回来帮助支持这个愿景是一个千载难逢的机会。” 或许在几年以后,我们又能看到一个带有陈嘉兴个人印记的全新 YC。

高效工作背后的方法#

像大多数人一样,我有时会有一两周的时间,什么都不想做。这很糟糕,而且似乎总是发生在不适合的情况下。我还没有想出该怎么应付这种情况,但我通常会尽量避免让我心情不好的人和情况,无论你是否想要变得高效,这都是一个非常有用的建议。

—— 山姆・奥特曼

山姆・奥特曼在 YC 时期的经历就像一位满级剑道高手,走在一条全是 “小怪” 的道路上,甚至不需要开启自己的 “大招” 技能,就能一路所向披靡,走上胜利之路。

  • 山姆・奥特曼是否有什么秘诀,让他始终保持高效工作?在正式展开 OpenAI 时期的奥特曼故事之前,我们可以通过山姆・奥特曼在 2018 年 4 月发布的一篇博文,挖掘奥特曼高效工作背后的秘密。

我的工作效率比大部分人都更高,有时朋友会问我提高工作效率的秘诀。所以我决定把它们都写在这里。

“复合增长” 这个词一直作为一种财务概念被人讨论,但它也适用于每个人的职业生涯。假设我们都有 50 年的工作时间,那么,生产率的小幅提高,能带来巨大的价值。因此,有必要弄清楚如何提高效率。如果你每天比别人多做 10% 的事,多进步 1%,复合增长后的差距是巨大的。

首先,我想聊聊你在做什么。

  • 如果你一直朝着毫无价值的方向前进,那么无论你走得多快都没用。选择正确的工作,是高效率的基础保障,但这件事常常被大家忽略。我认识的最令人印象深刻的那些人,他们对世界都有着强烈的信念和观点,如果你发现自己总是同意与你最后一次交谈的人,那就不好了。很多时候你的表达会出错,但是要有信心坚持你的信念和观点。当你在重要的事情上选对了方向,而大多数人却没有你的远见时,你将变得勇敢。所以多想想吧!独立思考很难,但你可以通过练习变得更好。

对我来说,我会确保留出足够的时间思考自己要做什么。对我来说,最好的方式是阅读书籍、与有趣的人交往和花时间进入大自然。因为我发现,在我不喜欢或不在乎的事情上,我的工作效率会很低。所以我尽量不做不喜欢的事情,而是通过委托、避开或其他方式摆脱他们,防止不喜欢的东西严重拖累我的状态和工作动力。

如果你发现自己在很长一段时间内都不喜欢自己所做的事情,请认真考虑换一份工作。短期的倦怠会发生,但如果休息一段时间后还没有解决,也许是时候做一些你更感兴趣的事情了。我很幸运找到了我非常喜欢的工作,就算没有报酬,我都愿意完成它,这让我很容易就变得有效率。另外一件重要的事是,你要学习所有自己想学的东西,这可以帮助你快速变得更好。

出色的工作通常需要和出色的伙伴一起完成。试着和聪明、高效、快乐、积极的人在一起,他们不会贬低你的理想或者抱负。我喜欢和那些推动我并激励我变得更好的人在一起,尽可能避开消极的人 —— 他们占用你的思考时间的代价非常可怕

在确定自己要做的事情后,怎么排列优先级呢?

我自己有三个秘诀:“确保完成重要的事情”“不要浪费时间在愚蠢的事情上”“列很多清单”。我强烈建议使用清单,我每年、每月、每天都会列出所有想要完成的事情。你的清单需要有针对性并且足够详细,它能帮助你完成很多任务,因为你不必记住太多事情。如果你对某个特定任务没有兴趣,可以先删掉它,找到其他感兴趣的事情。

我更喜欢写在纸上的清单,添加和删除任务很容易。我可以在会议期间修改任务而不会让别人发现我正在走神。我经常重新抄一份自己的清单,这样做能迫使我重新考虑清单上的所有内容,并让我有机会添加和删除项目。

我在尝试以产生动力的多少来决定待办事项的优先顺序。因为完成的任务越多,我的感觉就越好,然后我就能完成更多的任务。我喜欢以我真正可以取得进步的事情开始和结束每一天。我会不遗余力地完成清单里最重要的项目 —— 如果我真的想完成某件事情,只要我付出足够的努力,它通常都能完成。与此同时,我会尽量无情地对付不必要的事情,并以最快的方式完成非关键性的事情,比如,我回复电子邮件的方式简洁到甚至有些粗鲁。

另外,我通常会避免开会和参加会议,因为我发现开会的时间成本很高。但是,保持足够的空间,在自己的日程表中留出足够的空间,以允许偶遇和接触新的人和想法也是很重要的。拥有一个开放的关系网络是有价值的,虽然我参加的随机会议中可能有 90% 是浪费时间的,但另外 10% 确实弥补了它。我发现大多数会议最好安排在 15~20 分钟内,而那些需要深度探讨的会议往往需要至少 2 个小时。因此,默认的 1 小时开会时间通常既低效又没有深度,会浪费很多时间。

我会划分不同的时间段,以尝试不同类型的工作。早上的前几个小时绝对是我一天中最有生产力的时间,所以我不允许任何人在那时安排任何事情。我尝试在下午开会。每当我感到注意力开始消退时,我会休息一下或换个任务。

我认为大多数人都没有足够重视他们的时间 —— 令我惊讶的是,我认识的许多人每小时赚 100 美元,但他们会花几个小时做他们不想做的事情以节省 20 美元。单纯追求高效也没有意义,许多人花太多时间思考如何完美地提高效率,而不去关注他们是否在解决正确的问题。如果你正在做错误的事情,那么不管你是否把每一秒时间都用到极致,这件事的结果都无关紧要。因为正确的目标是最优地分配你的一年,而不是你的一天。

总体来说,我认为过度投入一点是好的。我发现我通常会超额完成我承担的工作,如果我有很多事情要做,这会让我在所有事情上更有效率,这也是一种避免分心的训练方法。但是,总是过度投入也会带来灾难性的后果。不要为了工作而忽略你的家人和朋友 —— 这是非常愚蠢的交换,让你变得不开心。也不要忽视做你喜欢做的事情,或能让你保持头脑清醒的事。

最后,我想再强调一次:多想想你该做什么。在对的事情上提高效率才是有价值的。

再见 YC,拥抱 AI#

成为一台机器好像也有好处,并不像我此前以为的那样令人难过。毕竟作为人类,我的脑袋被信息输入输出的效率所限制 —— 我们每秒只能学习 2 比特的内容,所以大量数据都丢失了。但对机器而言,这种学习永无止境。

—— 山姆・奥特曼

2012 年,在旧金山北部的一次全天徒步旅行中,山姆・奥特曼开始思考人类的独特性。当时,奥特曼和朋友一边徒步,一边讨论人工智能的发展状况,奥特曼突然意识到一件事,他说:“我们绝对有理由相信,13 年之内,我们可以找到复制大脑的方法。当然,即便如此,有些事仍然专属于人类,比如创造力,比如灵光一闪的瞬间,还有同时感到高兴和悲伤的能力…… 但计算机也将拥有自己的欲望和目标系统。” 因此,当奥特曼意识到人类的智能可以被机器模拟时,他放弃了人类是独一无二的存在这个想法,感到了解脱。

奥特曼这场关于人类独特性,以及机器人可能替代人类,或者人工智能可能与人脑结合的思考,也与他当时所处的生活,也就是 2011 年后的一股风潮有关。此时,随着大数据、云计算、互联网、物联网等信息技术在全球范围内的飞速发展,泛在感知数据支撑大数据技术,即大数据将无所不在的感知数据进行存储、分类、计算、分析,并进行规律挖掘和提炼,为决策提供数据支持,最终推动以深度神经网络为代表的人工智能技术产生质变,将许多科学研究从理论变为现实应用,尤其是图像分类、语音识别、人机对弈和无人驾驶这些与人工智能易结合的技术,很多都实现了重要的突破,引发了美国科技圈,尤其是硅谷的关注与激烈讨论。

伴随着这一风暴,IBM、谷歌、Facebook 等公司纷纷出手,无论是传统豪强,还是互联网新贵,都在争抢机器人与人工智能领域的人才,收购拥有顶尖科学家与研究人员的深度领域公司,着手研究人工智能领域的突破性技术。

2011 年,作为全世界历史最悠久、规模最大的科技公司代表,IBM 率先开发了 “沃森” 这一问答计算机系统,将高级自然语言处理、信息检索、知识表示、自动推理和机器学习技术应用于开放域问答系统,也就是回答来自任何领域的问题,通过这种方式,可以向训练有素的人工智能模型询问任何问题。沃森系统在参与美国知名智力竞赛节目《危险边缘》时,与人类进行较量,最终击败了所有在智力竞赛领域被认为最聪明、反应最快的玩家,赢得了冠军。在各种报道中,这一事件也被称为人工智能发展的里程碑。两年后,IBM 在医疗、教育、法律等不同领域,逐步拓展沃森的商业应用可能。

杨立昆的原中文译名为 “杨・勒丘恩”,2017 年他在中国的演讲提供了正式的中文名,故本书采用 “杨立昆” 这一中文名。

2013 年,Facebook 的创始人兼 CEO 马克・扎克伯格,因为看好人工智能技术的发展潜力,结识了卷积神经网络 CNN 的奠基人杨立昆 —— 当时,在机器深度学习领域,卷积神经网络是最常用于分析视觉图像的人工神经网络。扎克伯格说服杨立昆加入 Facebook,组建了人工智能实验室。杨立昆是人工智能界的传奇,他在 1988 年时曾担任著名的贝尔实验室的研究员,在这里有多位工作者曾获诺贝尔物理学奖。1996 年,杨立昆担任了电信公司 AT&T 的实验室部门主管,2003 年后他在纽约大学任教,并于 2013 年创立了纽约大学数据科学中心。2018 年,杨立昆与约书亚・本希奥和杰弗里・辛顿一起获得了有 “计算机领域诺贝尔奖” 之称的图灵奖,以表彰他们在深度学习方面的成就。三人后来被称为 “AI 教父” 和 “深度学习教父”

IMG_20241125_203857

在杨立昆帮助 Facebook 组建人工智能实验室的同时,他的好友杰弗里・辛顿博士加入了谷歌,带领谷歌的人工智能小组研发使用神经网络进行机器学习。

  • 2014 年下半年,短短半年时间,谷歌在没有惊动业内的情况下,率先完成对 8 家机器人公司的收购,这 8 家公司涉及类人机器人生产、机器人视觉技术研发、机器人手臂研发生产等各个方面,被收购后全都归属于谷歌的机器人部门,由 “安卓系统之父” 安迪・鲁宾领导管理。这轮收购显示谷歌早早就在布局机器人与人工智能领域的一个最终目标:制造一种智能化、可移动且灵巧的机器人,能够紧密配合人类或在人类设定的地点工作。

就在巨头们纷纷布局机器人和人工智能领域时,山姆・奥特曼也意识到人工智能对未来的影响。

  • 2014 年 2 月,奥特曼在一篇个人博文里,强调了自己对人工智能的关注和看好。奥特曼认为,通用人工智能技术如果能够起作用,将会是有史以来最厉害的技术发展,即便计算机仍然无法像人类一样有感情地思考,但在许多特定领域,计算机已经比人类做得更好,比如下棋,或者驾驶飞机。

在博文里,奥特曼还提到了华裔科学家吴恩达。吴恩达曾担任过斯坦福人工智能实验室主任,带领学生深入那些与数据挖掘、大数据和机器学习相关的研究。2011 年,吴恩达是谷歌大脑深度学习项目的联合创始人和负责人,2014 年他加入了百度,并担任首席科学家。作为世界顶尖的人工智能专家,吴恩达相信深度学习来自单一算法 —— 这是什么意思呢?在大脑内部构造中,它自然就能处理来自耳朵的输入,同时也能够学习处理来自眼睛的输入。吴恩达说:“大脑内处理信息的部分都同属一个系统,如果我们能弄清楚这件事,创造出一个通用算法,程序就可以像大脑一样自我学习。”

奥特曼同意吴恩达的观点,并认为这部分技术目前已经取得了不错的成果,但由于大脑是一个非常复杂的系统,因此很难估计目前的成果距离最终要实现的通用算法目标到底还有多远。而且对于奥特曼来说,人工智能领域最大的问题不在于机器是否足够智能,而在于如何处理人工意识、创造力、欲望等等这些人性化的部分。奥特曼说:“我非常有信心,我们能够制作出表现出色的、处理特定复杂任务的计算机程序,但是我们能否制作一个能自己做决策的计算机程序呢?我们如何让计算机自己决定要学习驾驶汽车,或者写一本小说?”

在人类进化过程中,可能发生了一些事情,使人类的大脑产生了创造力和自我学习的能力,可人类如何产生这样的进化却始终是科学界无法解释清楚的难题,比如说地球上的另一物种,诸如蛇类或者蜥蜴这些爬行动物,它们的进化就完全不同。爬行动物的大脑更接近于打乒乓球的计算机。因此,对于我们到底是否应该建造有意识的机器、人类和机器如何共生等重大问题,奥特曼说:“我能想到的最积极的结果是,计算机擅长做事,人类擅长思考。如果我们永远无法弄清楚如何让计算机产生创造力,那么人类与机器之间仍然有明确的界限与分工。” 当奥特曼开始意识到人类与机器、与 AI 的关系时,人工智能技术的发展也逐渐对人类社会产生影响,就在这个阶段,人工智能带来的风险逐渐被更多人讨论。

大佬们对 AI 风险的担忧

人类受生物演化速度限制,不可能与智能机器竞争,如果我们全面发展人工智能,最终它将自行启动,并以越来越快的速度重新设计自己,不断进化。人类将无可避免地被取代。

—— 斯蒂芬・霍金

对人工智能与人类未来的思考,让山姆・奥特曼开始与人工智能领域的科学家、学者,以及人工智能商业应用相关的创始人、投资者进行了大量密集的交谈。在这个过程中,奥特曼进一步确定,人工智能对人类未来的影响不仅难以预估,并且这种影响并非全是正面的,稍有不慎,人工智能就可能毁灭人类现有的文明。

这可不是杞人忧天,奥特曼首先总结了人类历史上三次伟大的技术革命,包括农业革命、工业革命和 21 世纪前后正在发生的计算机革命。他认为,这些伟大的技术革命影响了大多数人每天所做的事情以及整体社会的结构。计算机革命似乎也是如此,在创造财富的同时,它摧毁了许多传统的工作岗位,也创造了不少新的岗位或者需求。奥特曼在其中看到的两个最具风险的技术就是人工智能和合成生物学。这两项技术除了本身的失控风险,还有一个危险,就是它们都可能会让少数人获得强大的能力,从而对全人类造成伤害 —— 先说合成生物学技术,它的发展能够让一些人在小型实验室中设计和生产出可怕的疾病,并蔓延到世界各个角落;而开发能够终结人类生命的人工智能,可能只需要全球任何一个办公大楼内的几百人,并且这些人需要的工具仅仅只有笔记本电脑。

怎么就说到如此严重的、会终结人类生命的话题呢?

对科幻小说作家查尔斯・斯特劳斯来说,人工智能的危险不在于它们将超越人类,或突然意识到它们可以取悦自己,而不是去取悦它们的人类主人。斯特劳斯说:“人工智能的最大威胁来自为他们设定目标的人是谁,比如,无人机不会杀人,但指示无人机飞到某个坐标,并要求它释放地狱火导弹的人才会杀人,必须质疑控制人工智能的人的意图。”

还有人拿著名导演斯坦利・库布里克的电影《2001 太空漫游》举例,这部电影讲述的是,在前往木星的路上,宇宙飞船的第六位乘员 —— 通用人工智能哈尔 9000,试图杀死宇宙飞船上的其他乘员并自行接管飞船。而这一举动的背后原因不过是它在离开地球前接受过来自不同人类的不同指令,其中相悖的部分令它决心杀掉人类来满足自己的终极飞行任务。

哈尔 9000 的形象概括了大多数人对人工智能的恐惧。尤其是,当现在的人工智能开始涉足人类生活的各个方面 —— 它让我们的收件箱远离垃圾邮件,它帮助我们进行网络交易,它驾驶我们的飞机,并且也将驾驶我们的汽车 —— 这一点在我们如今的生活中早已实现,比如我们经常在新闻里看到的特斯拉自动驾驶事故,人们被失控的 “人工智能” 害死。

在 2014 年,当谷歌、IBM、Facebook 等科技公司对人工智能的发展感到兴奋,拉起一轮又一轮的竞争时,其他专家是怎么看待此事的呢?

让我们先看看霍金的说法。作为第一个提出由广义相对论和量子力学联合解释的宇宙学理论之人,霍金是量子力学多世界诠释的积极支持者,一直走在科学技术最前沿,同时这位理论物理学家因为患有肌萎缩侧索硬化,一直在使用英特尔开发的系统辅助讲话。英特尔在 2014 年公布了霍金使用的交互系统工具包,其名叫 ACAT,也叫作辅助情境感知工具包。ACAT 整合了滑动手势输入法 Swift Key,并支持用户通过触摸、眨眼、活动眉毛等动作进行交互操作,可以说是人工智能的早期应用雏形。霍金在使用这套系统后,打字速度提高了一倍,从事普通活动的效率也提高了十倍,然而这套系统升级后也让霍金更加担心人工智能在未来的发展。在接受 BBC 采访时,霍金发出警告,迄今为止开发的早期的人工智能已经被证明非常有用,但他担心一旦创造出能够与人类匹敌,甚至超越人类的人工智能,有可能带来严重后果,甚至导致人类灭亡。

早在 2014 年时,奇点大学人工智能负责人尼尔・雅各布斯坦就做出预言:“人工智能融入了我们日常生活的结构,它们被用于医学、法律、设计和整个汽车行业。每一天,在幕后做出决策的算法都变得越来越聪明。这意味着现代世界最大的任务之一 —— 让机器像人类一样聪明 —— 可能离我们越来越近了。人工智能将在 21 世纪 20 年代中期超越人类智能。” 雅各布斯坦认为,人类必须考虑自己正在制造的后果,并准备在社会和制度层面应对可能出现的巨变。他说:“最好在技术完全开发之前这样做,而人工智能和机器人当然还没有完全开发出来。当你不考虑这些可能的错误时,事情出错的可能性会增加。我认为我们有很大的机会主动预测可能的负面风险,并尽力为这些风险开发有层次的思考控制。”

牛津大学的尼克・博斯特罗姆教授表示,由人工智能引发的灾难可能会在一个世纪内降临。皇家理工学院的认知机器人学教授穆雷・夏纳汉说:“目前正在积极从事人工智能的人,并没有真正建立起安全系统,来阻止他们的创造物失控。” 谷歌的工程主管雷库兹・韦尔也担心人工智能,虽然他担忧的原因更为微妙:他担心可能很难编写出足够强大的算法道德准则,来限制和遏制人工智能程序。

总结来说,当一项本就带着危机性的新科技以龙卷风般的速度和强度铺满生活,它会让一部分人觉得刺激,更会让另一部分人感到恐慌。

  • 许多电影里事先被集体暗示,包括《黑客帝国》系列、《终结者》系列、《银翼杀手》系列等等,都出现了弱小的人类难以对抗强大的人工智能敌人的场景。而在更多更新的电影里,创作者们也开始思考人类与人工智能之间除了对抗之外,是否有更多的主题,比如斯派克・琼斯的电影《她》讲述了人与人工智能之间虚幻的爱情;亚历克斯・加兰德的电影《机械姬》则探讨了机器人的人性;而漫威在 2015 年推出的《复仇者联盟 2》则讲述了超级英雄们对抗超级人工智能奥创的故事,在面临超级人工智能的威胁时,如果没有超级英雄挺身而出,人类几乎没有任何胜算。

在这样特殊的时代中,两个都投身其中的天才,山姆・奥特曼和埃隆・马斯克相遇了。他们决定一起设立一些安全阀。

埃隆・马斯克的警告

如果你告诉一个全能的人工智能,让它制造尽可能多的回形针,而没有给它任何其他指令,它可以开采地球上的所有资源来制造回形针,包括我们身体中的原子。

—— 瑞典哲学家尼克・博斯特罗姆

太空探索技术公司 SpaceX 的创始人、特斯拉的 CEO 埃隆・马斯克,曾一次又一次地向公众表示自己对 AI 的顾虑。

2014 年 8 月,马斯克通过 Twitter 发表观点:AI 可能比核武器还要危险。随后他与谷歌旗下人工智能公司 DeepMind 的联合创始人穆斯塔法・苏莱曼,以及 26 个国家的 100 多名人工智能领域专家向联合国递交了一封联名信,希望能禁止有关杀人机器人的研究和使用。

2014 年 10 月,马斯克在麻省理工学院接受采访时,将人工智能描述为 “人类最大的生存威胁”。他说:“有了人工智能,我们就在召唤恶魔。开发这一技术的风险永远存在,在实际尝试推进人工智能升级时,我们可能会创造出我们不想见到的东西。” 马斯克担心人工智能的进步可能会有损于而不是造福于人类,人类可能最终会在冷酷的人工智能脚下被迫面临最坏的结局。

2015 年 1 月,埃隆・马斯克宣布捐赠 1000 万美元给未来生命研究所(FLI),以资助所有 “让人工智能造福于人类” 的研究项目。未来生命研究所是一个非营利组织,目标是减少人类面临的全球性灾难和生存风险,尤其是不断进步的人工智能带来的相关风险。未来生命研究所计划把马斯克捐赠的资金分配给相关的研究项目,优先帮助专注于人工智能研究的项目,同时着眼于伦理学、法学、经济学等相关领域,以及其他牵涉人工智能领域的研究。

马斯克在宣布这一消息的同时,还发表了一份由他与多位著名的人工智能研究人员联合签署的新的公开声明,呼吁人们支持未来生命研究所的工作。马斯克在声明中说:“这些领先的人工智能研究人员都认为,确保人工智能对人类是安全的这件事很重要,我同意他们的观点,所以承诺捐赠 1000 万美元,支持旨在保持人工智能对人类有益的研究。”

值得一提的是,未来生命研究所自 2015 年以后,每隔两年组织一次会议,邀请来自学术界和商业界的所有 AI 研究人员,讨论人工智能的未来研究方向,以及人工智能安全相关问题。2017 年,未来生命研究所在美国加利福尼亚州举办的会议被《纽约时报》称为 “AI 重量级人物” 的私人聚会。此前提到的 “AI 教父” 之一的杨立昆,瑞典哲学家尼克・博斯特罗姆,还有埃隆・马斯克纷纷出席。这次会议后发布了由众多 AI 研究人员签署的 23 条 AI 开发原则清单,这些原则对今天仍影响深远,延伸出愈发完整的关于人工智能的监管举措,比如经合组织的人工智能原则等。

而在 2023 年 ChatGPT 流行后,未来生命研究所起草了一封公开信,呼吁主要 AI 开发人员在 6 个月内暂停开发任何 “比 GPT-4 更强大” 的系统,以便利用这段时间建立一个确保人工智能安全的框架协议。

埃隆・马斯克对人工智能的连续发声和捐赠 1000 万美元资助 FLI 人工智能研究的行动,引起了山姆・奥特曼的关注。2015 年,29 岁的山姆・奥特曼风头正盛,他在执掌 YC 公司一年后,以辍学者的身份重回母校斯坦福,背后是包括 YC 创始人保罗・格雷厄姆、PayPal 创始人彼得・蒂尔在内的支持者和人数更加庞大的追随者团队。并且,在一年时间里,奥特曼颁布了众多改革计划,将 YC 的投资风向转向硬科技公司和突破性技术领域。换句话说,山姆・奥特曼与埃隆・马斯克的很多想法不谋而合。

有趣的是,如果画出奥特曼和马斯克的相关人物关系图,可以发现他们其实早有渊源。山姆・奥特曼在什么时候认识的埃隆・马斯克?这就不得不提起两家公司,它们分别是成立于 1998 年的软件公司 Confinity 和成立于 1999 年的在线支付平台 X.com,两家公司的创始人均来自斯坦福,业务范围都与金融服务有关。

当 20 世纪末的互联网泡沫来袭时,X.com 和 Confinity 这两家公司在 2000 年 3 月合并,抱团取暖,之后以 Confinity 公司当时做的最好的产品命名了新公司,改名叫作 PayPal。山姆・奥特曼的好友、亿万富翁彼得・蒂尔就是这家公司的创始人之一,而埃隆・马斯克则是 X.com 的创始人,两人带着各自的公司合并成了后来的 PayPal。

因此,奥特曼和马斯克其实早就认识,同是斯坦福校友,并且认识彼得・蒂尔、保罗・格雷厄姆等人,但两人一直交流不多,毕竟山姆・奥特曼在 2014 年成为 YC 公司的掌门之前,只是一个硅谷的后起新秀,不仅年纪小,而且创业项目也只有 Loopt 而已,和早已成为业内大佬、从互联网企业转向硬科技公司的埃隆・马斯克根本不在一个级别上。早在 2002 年,马斯克就创办了 SpaceX,开始尝试制造火箭,试图在未来带着全人类殖民火星,之后又加入电动车制造商特斯拉,陆续担任董事长、产品设计师和首席执行官等职位,马斯克不仅自己投资人工智能方向的公司或者机构,同时也在特斯拉内部组建团队,研发人工智能相关的自动驾驶技术。

但在 2015 年,因为在人工智能、新能源、生物技术等各个领域都有着相同的理念,同时都非常关心人工智能的未来风险,山姆・奥特曼和埃隆・马斯克决定合作,OpenAI 的故事正式开启。

OpenAI 成立的起点#

我们不能试图阻止技术进步。我认为最好的策略是尝试立法,制定合理的保障措施,但要非常努力地确保我们从好的方面获得的技术优势比坏人获得的优势更强。如果我们可以合成新的疾病,也许我们可以合成疫苗。如果我们能制造出一个糟糕的 AI,也许我们可以制造一个好的 AI 来阻止坏的 AI。

—— 山姆・奥特曼

OpenAI 的发展历程是一个极具传奇性的精彩故事,它关系到一群来自全世界的、拥有纯粹信仰的顶级人工智能专家,关系到一系列管理层内部的权力之争,关系到非营利机构和商业化公司这两条完全不同的发展路径,关系到两位核心人物山姆・奥特曼和埃隆・马斯克的友谊与敌对,关系到谷歌、微软在内的多家科技巨头公司参与合作或者竞争…… 后文将重现 OpenAI 的崛起之路,详细展开这背后精彩的故事,讲述 OpenAI 在通过 ChatGPT 惊艳世人前,经历了哪些纠葛与纷争。

在展开 OpenAI 的故事之前,我们必须先提到另一家重要的公司:当时全世界最顶尖的人工智能公司,2010 年成立于英国的 DeepMind。它创造了一个特殊的人工神经网络,这个人工神经网络以人类的方式学习如何玩电子游戏。通过给这个神经网络接入一个外部存储器,DeepMind 使得一台计算机可以模拟人类的短期记忆。

DeepMind 和这家公司的创始人到底有多优秀,后文会有详细说明。总之,在 2013 年前后,谷歌和 Facebook 两家巨头围绕 DeepMind 公司进行了一场争夺战。当时,这两家公司虽然都已经建立了独立的人工智能实验室,并且网罗了大量人才,但它们都不满足于仅仅依靠自身缓慢的研究,因此都非常眼馋 DeepMind 在人工智能领域的技术专利,想要收购 DeepMind。最终的结果是,Facebook 和 DeepMind 的谈判终止后,2014 年,谷歌以超过 4 亿美元的天价成功收购了 DeepMind。

谷歌成功收购 DeepMind,让自己一跃成为世界上人工智能领域最成熟、最先进的私人公司,在一定意义上也造成了垄断,这件事刺激到了硅谷其他关注人工智能领域的大佬们,他们比普通人更早地看到人工智能具有的潜力与威胁:在未来,谁拥有最强大的 AI 技术,谁就有最难以撼动的权力。这些关注者中就有山姆・奥特曼和埃隆・马斯克。

和谷歌、Facebook 两家已经成形的科技巨头相比,山姆・奥特曼和埃隆・马斯克想要涉足人工智能领域,需要从零开始。于是,两人计划先接触一批人工智能领域的专家,探探口风,也看看能不能撬动这一块铁板,最终挖到几个人。但是这件事难度很大,因为当时大部分人工智能专家都已经在各大公司的研究机构内任职,身份敏感,很难将他们聚到一起。此时,山姆・奥特曼特殊的身份起了作用。他是 YC 孵化器的总裁,并不属于谷歌等科技巨头的竞争对手,而且因为身在投资行业,非常适合举办社交活动。

于是,2015 年 7 月,在加利福尼亚州的门罗帕克,斯坦福大学旁边的瑰丽酒店,一场晚宴开始了。这也是 OpenAI 故事的起点。

当晚,数位硅谷最具影响力的人物在酒店的私人包间中,针对一个人工智能领域的重磅项目进行了探讨。跟其他从车库里走出来的硅谷项目不同,这个含着金钥匙出生的 AI 项目注定会是一个需要时间培养的 “烧钱机器”。作为这场聚会的发起者,山姆・奥特曼暗示他希望召集一些人工智能领域最顶尖的专家,探讨共同建立一家新的人工智能实验室的可能性。

在这场聚会上,他们讨论了 AI 的现状、AI 与人类的差距、缩小差距的方式,以及谷歌收购 DeepMind 后的研究方向。当时,DeepMind 正在开发计算机围棋 AI,后来引起世人轰动的 AlphaGo 还未正式登场亮相。在人工智能领域,趋于成熟的技术更多地集中于与硬件相结合的应用,比如计算机识别人脸的准确度已超过人眼,谷歌等公司的自动驾驶汽车日趋成熟,而苹果、亚马逊的语音助手,每天与全球上亿人互动。机器虽然还达不到人类的智力水平,但正在肉眼可见地进化。

当晚的出席者大部分都相识已久,谈话非常容易深入。事实上,他们都非常熟悉瑞典哲学家尼克・博斯特罗姆的观点,对人工智能的未来发展充满担忧和恐惧。博斯特罗姆在

  • 2014 年出版的《超级智能》一书中写道:根据计算机的发展规律,如果人工智能的聪明程度达到或者接近人类,它的智力用不了多久就会远远甩开人类 —— 差距就像人类与老鼠那样大,但这一次,人类只能扮演老鼠的角色。

此后奥特曼和马斯克多次公开引用这个观点,认为人类必须提前做好准备。奥特曼和马斯克共同想做的事情是,站在谷歌的对立面,建立一家不受任何巨头、任何资本、任何人控制的 AI 实验室。他们认为硅谷也已经无法限制人工智能的发展,唯一能做的就是积极推动开发造福全人类的人工智能,让每个普通人都用上它,以此去对抗有可能出现危险的垄断性人工智能 —— 因此,这个人工智能实验室必须完全独立,不隶属于任何私人公司、科技巨头或者资本家,同时这个人工智能实验室里的所有参与者都必须保持最纯粹的初衷,将这个机构打造为一座完全为研究人工智能而设立的象牙塔。

宴会当晚,当山姆・奥特曼向所有人阐述他们对这个全新人工智能实验室的想法时,获得了在场其他人的支持,对人工智能的共同恐惧将所有人紧紧绑在了一起。但就算是洞悉人心的奥特曼,也无法确定到底有多少人在第二天睡醒后还是愿意加入他们的计划,理想背后是现实,大部分人都还必须考虑到自己的家庭、行业地位、事业发展等等因素。

所幸,所有人都对跳槽的想法持开放态度。奥特曼许下的宏大愿景起了作用,帮助奥特曼和马斯克了解了这些顶级人才的想法,并且与大家达成一致,相信让人类以安全方式构建通用人工智能才是这一技术发展的正确路径。

大方向有了,接下来就是寻找人才和资金支持。想做全世界探索通用人工智能的领头羊,需要的不是一般的人才,而是人工智能界最顶尖的高手。问题是,这些最有资格解决 AI 问题的高手已经在谷歌、Facebook、微软、百度和 Twitter 工作了,有着非常好的待遇,怎么才能吸引他们出来呢?

格雷格・布罗克曼

选择离开你所爱的地方绝非易事。有时候,被解雇,或者公司破产倒闭被收购,可能相对更能令人接受一些。但现在,Stripe 比以往任何时候都要好,有很多有影响力的工作需要完成,而且我们已经成功地建立了一家非常棒的公司,我相信 Stripe 会在合适的人手上继续发展壮大。对我来说,我正处于一个罕见的窗口期,山姆・奥特曼告诉我:“生活不是排练。” 我想要抓住这个机会,创造属于我自己的东西。

—— 格雷格・布罗克曼

参加 2015 年 7 月奥特曼组织的晚宴的所有人里,有一位在日后成了 OpenAI 的核心人物,他的名字叫格雷格・布罗克曼。布罗克曼是硅谷新兴独角兽、线上支付平台 Stripe 的第四位成员,在 Stripe 担任首席技术官的职位,并且凭借公开支持对加密货币 Stellar 支付网络的投资,在 2014 年年底将 Stripe 的估值提升到 35 亿美元,可以说是重新塑造了美国电商体系的用户支付体验。如果他继续陪着 Stripe 发展,将在接下来 7 年时间里获得数亿美元的回报 —— 因为截至 2023 年,Stripe 的估值已经涨到了 630 亿美元。但在当时,这位比山姆・奥特曼还要小几岁的硅谷新贵并不在意自己赚了多少钱,布罗克曼和奥特曼、马斯克一样,认为投身人工智能研究比其他任何事情都更加重要。

在决定正式离开 Stripe 前,Stripe 的 CEO 帕特里克・科里森建议布罗克曼再和山姆・奥特曼聊一聊。其实科里森和奥特曼也是老朋友了,Stripe 在成立不久后获得的第一笔 200 万美元的投资,投资方就包括 PayPal 联合创始人埃隆・马斯克和彼得・蒂尔。硅谷的人脉小圈子在很多时候发挥了作用,即便奥特曼并不喜欢混圈子,但 YC 总裁的身份让他接触了大量年轻创业者,其中就包括科里森,加上马斯克和蒂尔的关系,几人在私人饭局上见过几次面。

布罗克曼听从建议,去见了奥特曼。两人短短交流了 5 分钟,奥特曼就断言布罗克曼已经做好接下来的打算了,人工智能领域很明显就是布罗克曼的首选。布罗克曼早在高中毕业时,就开始认真学编程,为这件事做准备。后来,布罗克曼为了更清楚地了解人工智能,还读了计算机科学与人工智能之父艾伦・图灵的《计算机器与智能》,这是图灵撰写的关于人工智能主题的开创性论文,这篇论文于 1950 年发表在 Mind 杂志上,第一次向公众介绍了他的概念与图灵测试。图灵的论文讨论了 “机器能思考吗?” 这个问题。图灵说:“由于我们无法明确定义思考和机器这两个词,应该用另一个与它密切相关、同时意思更加明确的词,来表达更明确的意思并且代替这个问题。” 这篇论文引发了布罗克曼的思考,他很想在未来通过编程打造一个聊天机器人,这可能就是 ChatGPT 的萌芽。

回到布罗克曼和山姆・奥特曼首次见面的那个下午,布罗克曼的主动投奔对于当时也想涉足人工智能领域的奥特曼而言,既是意外,也是巨大的礼物。奥特曼告诉布罗克曼,YC 当时考虑筹建一个人工智能实验室,希望两人保持联系。2015 年 5 月 7 日,布罗克曼正式官宣离开 Stripe,并开始研究 AI。当时他每天都在 YC 论坛 Hacker News 上刷帖子,他发现周围人都在讨论 AI,越来越多的人为此感到兴奋,此时布罗克曼反而冷静下来,他只想弄清楚 “深度学习” 是什么。在朋友的建议下,布罗克曼一边读书,一边在数据建模和数据分析平台 Kaggle 上学习新技能,包括当时正火的语音识别和图像分类技术。他终于弄懂了深度学习,知道这是一种人工智能研究方法,用于教计算机以人脑的方式处理数据。

2015 年 6 月,奥特曼联系了布罗克曼,想再次确认布罗克曼对未来的计划。奥特曼告诉布罗克曼,自己计划明年开一家人工智能公司或者投资一家人工智能研究机构,当布罗克曼直白地追问这个项目主要是做什么的时候,奥特曼告诉他:“我想建立安全的人类级 AI。”7 月,布罗克曼受邀参加了奥特曼组织的那场晚宴,第一次见到了真正的人工智能科学家伊利亚・苏茨克维尔,还有同样势必要入局的马斯克等人。此前就已经和奥特曼有过几次深入接触的布罗克曼当场宣布加入,并作为牵头人之一,在接下来的很长时间里都为这家尚未正式成立的研究机构四处奔走,寻找人才。

晚宴结束后,布罗克曼就开始努力组建团队。他首先想到的就是 2018 年获得图灵奖的深度学习领域三巨头杨立昆、杰弗里・辛顿和约书亚・本希奥,但想要邀请这三大巨头参与几乎是不可能的。杰弗里・辛顿在谷歌,杨立昆教授在 Facebook,两人年纪都比较大了,不大可能从科技巨头跳槽到一个名不见经传的新成立的机构。而唯一没有为大公司效力的约书亚・本希奥一直在学术界活动,对加入某一公司似乎没太大兴趣。但布罗克曼还是约见了约书亚・本希奥。本希奥婉拒了邀请,但给了布罗克曼一份名单,名单里列出了他个人认为的在人工智能深度学习领域最优秀的研究人员。

IMG_20241125_205036

布罗克曼拿到这份名单,就像得到了一本武功秘籍,他马不停蹄地开始联系名单上的所有人。但是他很快遇到了一个问题:名单上的大部分人都是顶尖科学家或者教授,他们要么和本希奥一样志不在此,不想加入大公司工作,一心投身于实验室;要么已经在科技巨头公司里,拿着非常高的薪酬待遇。布罗克曼想要挖角,说服他们跳槽到一个前途不明的非营利组织,除了给他们 “画饼” 以外,几乎没有任何的筹码和优势。要怎么突破呢?布罗克曼决定破釜沉舟,将自己与这些人 “关在一起”,一同度过一个周末。

拒绝高薪的研究员们

在未来,你会看到深度学习在很多领域取得重大进步,因为人工智能不会对问题的性质做出任何假设,因此适用于很多事情。

——OpenAI 首席科学家伊利亚・苏茨克维尔

硅谷有一个非常有名的周末圣地:纳帕溪谷的 Napa 酒庄。在硅谷投资圈和科技圈内有个流传已久的说法:“在硅谷星巴克谈不成的事情,去 Napa 酒庄住一个周末,就谈成了。” 这句话听着很像酒庄的广告,但背后实际上却有一些道理:在优美、不受打扰的环境里,在美酒的加持下,没有什么问题是在上升到灵魂拷问的层面后解决不了的。

作为创业多年的老手,布罗克曼也深谙此道,他在本希奥给的名单上,选了 10 个他觉得最重要的科学家,一一打电话约了时间,将这 10 个人拉到了 Napa 酒庄过周末。

IMG_20241125_205540

没有人知道他们在那个周末具体聊了什么,但结果是,在离开 Napa 酒庄的时候,布罗克曼对他们发出了加入 OpenAI 的邀请,并给了他们 3 周时间考虑。后来布罗克曼在接受采访时告诉记者:“当你在 Napa 酒庄将人们聚在一起的时候,很容易产生化学反应。你被困在那里,你必须说话,必须参与所有被安排的活动。但聊天比喝酒更重要,我唯一要做的就是和他们聊天,我做到了。”

IMG_20241125_205643

在 3 周时间里,奥特曼、马斯克和布罗克曼正在组建 OpenAI 的风声传遍了硅谷,科技巨头们开始和自己手下的顶尖 AI 研究员们谈话,他们不清楚布罗克曼邀请了哪些人去过周末,只能一一找到内部最有价值的研究员,提出以更高的薪资留住他们。在此之前,随着机器学习技术市场的升温,谷歌等巨头为了争抢这些顶尖 AI 研究员,已经开出了非常高的工资,甚至有多家媒体报道过这件事,微软研究副总裁彼得・李说:“一名顶级人工智能研究员的薪资已经超过了国家橄榄球联盟的一名顶级四分卫候选人。” 要知道,顶级橄榄球星的年薪高达几百万到上千万美元不等。

IMG_20241125_205918

然而,为了阻止山姆・奥特曼和埃隆・马斯克成立 OpenAI,科技巨头们再次出手。研究员沃伊切・赫萨伦巴加入 OpenAI 之前曾在谷歌和 Facebook 工作,他就是在最后时刻获得了新报价的研究员之一。沃伊切说:“当科技巨头们在得知我们有意向离开的时候,开出的新价格是这个行业中已有高薪的 2~3 倍。” 但是,即便巨头们给出了这么极具诱惑力的年薪,10 位受到邀请的 AI 顶尖研究员中仍然有 9 位拒绝了高薪,加入了 OpenAI。

这些研究员为了跳槽到 OpenAI,牺牲了多少工资呢?后来,有媒体专门查看了 OpenAI 的税务文件,发现 OpenAI 给首席技术官伊利亚・苏茨克维尔的薪水只有大约 190 万美元,另一位首席研究员伊恩・古德费洛的薪水是 80 万美元,两人都是从谷歌跳槽过来的,他们的薪水和在谷歌时期相比,几乎只有其十分之一。

IMG_20241125_210415

此外,OpenAI 的历年报税表显示,OpenAI 第一年的花销是 1123 万美元,其中 665 万美元是大约 50 名员工的总工资金额,平均一个人的工资只有不到 14 万美元,而根据 Levels.fyi 的数据,软件工程师在硅谷地区的薪水中位数为 23.1 万美元左右。也就是说,OpenAI 内部工资远远低于硅谷当时的平均水平。这些放弃高薪的顶尖研究员,加入一个充满巨大不确定性的非营利组织,既没有股权,也没有慷慨福利,更没有豪华年会,以及明确的升职路径,他们到底是为了什么呢?

IMG_20241125_210512

答案其实写在了后来 OpenAI 正式成立后的创立章程中,他们就是因为一个很纯粹的目的聚在一起。这个目的就是:确保通用人工智能造福全人类。OpenAI 没有选择匹配科技巨头们的报价,它提供了另外一种东西:探索研究,专注于未来,而不是产品和季度收益,并最终与任何想要它的人分享大部分研究成果。没错,奥特曼、马斯克和 OpenAI 的目标是把这项可能成为 21 世纪最具变革性的技术免费送给所有人。

研究员沃伊切表示,尽管他非常尊重像谷歌和 Facebook 这样的公司,但那些疯狂的报价实际上让他感到反感。他觉得这些钱代表了科技巨头们在阻止 OpenAI 创立方面花费的巨大精力。换句话说,他们宁愿花很多钱来垄断市场,以便自己将来赚取到更多的钱。这种资本的复杂性,让他更加倾向于 OpenAI 这个初创公司的宏伟使命。沃伊切说:“我意识到,OpenAI 是最好的去处。” 沃伊切的这番话也代表了在 OpenAI 尚未成立前就加入的 9 位研究员的心声。同时,他提到的宏伟使命也说服了在 2015 年 7 月参加奥特曼聚会的另外一个人,也就是除了格雷格・布罗克曼,OpenAI 的另一位核心人物 —— 伊利亚・苏茨克维尔。

苏茨克维尔是成名已久的人工智能科学家。他出生于苏联,5 岁移民以色列,2002 年后与家人一起移居到加拿大,在多伦多大学获得了数学学士学位和计算机科学硕士、博士学位,他的导师正是此前提到的、获得 2018 年图灵奖的深度学习领域三巨头之一的杰弗里・辛顿。2012 年,苏茨克维尔参与提出卷积神经网络 AlexNet 模型,证实了机器拥有深度学习潜力,这一发现被认为引发了新一轮人工智能的浪潮,同时也是自动驾驶的起点。随后,他在斯坦福大学跟随吴恩达做博士后研究,同时,作为 AlexNet 的共同作者,苏茨克维尔与导师辛顿和另一名博士生一同创办了 DNNResearch 公司,寻求智力成果的商业化。在 DNN 被谷歌收购后,他成为 Google Brain 项目的研究科学家。

苏茨克维尔在遇到奥特曼和马斯克后,一起讨论了人工智能的前景,三人一致认为:人工智能必须以人类安全为第一要务,所以其研究机构也必须是非营利组织。怀着相同的理念,苏茨克维尔最终在 2015 年年底离开谷歌,确定成为即将成立的 OpenAI 的董事,同时担任首席科学家,补全了 OpenAI 的最后一块拼图。

IMG_20241125_210512

OpenAI 正式成立#

我能想象到的最好的事情,就是让人类以安全的方式构建真正的人工智能。

—— 格雷格・布罗克曼

OpenAI 在与科技巨头们的竞争中大获全胜,这件事最讽刺的地方在于,即使全球最大的科技巨头试图像橄榄球球队一样竭力留住自己的研究人员,但研究人员似乎更在乎共享他们的学识与能力。在人工智能研究这样的顶尖领域里,最聪明的头脑并不被新产品的研发周期和利润率所驱动,他们想要让人工智能变得更好、更安全,而且他们认为,当一家研究人工智能的公司想要独吞自己的最新发现时,人工智能就不会变得更好,自己的工作就不会真的有意义。

  • 2015 年 12 月 11 日,在世界顶级的人工智能学术会议神经信息处理系统进展大会(NIPS,后改名为 NeurIPS)举办期间,OpenAI 带着 10 亿美元的投资承诺宣告成立。
OpenAI 在官网上是这样描述自己的:OpenAI 是一家非营利人工智能研究公司,我们的目标是,在不受财务回报需求的限制下,推进通用人工智能的发展,最终造福全人类。由于我们的研究没有财务义务,我们可以更好地专注人工智能对人类的积极影响。我们认为人工智能应该是人类个人意志的延伸,并且在自由的精神下,尽可能广泛和均匀地分布,而非被小群体垄断。这个项目的结果难以确定,且任务艰巨,但我们相信我们有着正确的目标与方向,这是人工智能领域最重要的事情。#

同时,在这篇对外介绍的文章里,OpenAI 也提及自身成立的背景:

  • 深度学习技术在几十年的发展后,开始在各个领域实践并且取得了不错的成果。因为深度学习技术日趋成熟,研究者不再需要为每个待解决的问题单独编写新的算法,而是可以设计一个系统,在输入特定的数据后生成各种适用的算法。这种做法推动了整个深度学习领域的进步,计算机被证明非常擅长图像识别、机器翻译和语音识别等,并且能够在一定程度上理解人类说话的方式,这让研究者们开始看到计算机自身具有的创造力,以及它们有可能为这个世界带来的改变。

2015 年,基于深度学习的人工智能让人印象深刻,但能力范围仍然有限。奥特曼等人认为,人类在研发人工智能的过程中,会不断削弱对计算机的限制,在极端情况下,计算机很快就能在不同智力或者算力相关的项目中超过人类的水平,比如棋类或者其他竞技类游戏。

由于 AI 一直以惊人的速度发展,因此很难预测何时人工智能会接近甚至超过人类。

OpenAI 希望在这一时刻到来之前,世界上能有一个无私的机构,它掌握着最先进的技术,同时能够优先考虑全人类的福祉,而不仅仅是个人或者自身的利益。奥特曼等人希望 OpenAI 就是这家机构。作为一个非营利组织,OpenAI 的目标是为每个人创造价值,而不是为股东创造价值,OpenAI 鼓励所有研究者发布他们的工作成果,无论是以论文、博文,还是代码的形式,同时也愿意分享所有专利,并且与其他人工智能研究机构进行自由合作。

这篇文章代表了 OpenAI 创立者们的想法,包括 OpenAI 4 位核心人物:

  • 山姆・奥特曼,
  • 埃隆・马斯克,
  • 格雷格・布罗克曼,
  • 伊利亚・苏茨克维尔,
  • 以及在成立之初就加入 OpenAI 的 7 位顶尖的人工智能研究员和 5 位顾问,他们都下定决心要共享自己的才华和成果。

OpenAI 的出现最终也改变了人工智能研究领域。要知道,深度学习起源于学术界,2015 年时只有谷歌、Facebook 和微软等少数科技公司进入了这个领域,因为在原始计算能力方面的进步使得深度神经网络不仅是一种理论上的可能性。杨立昆和杰弗里・辛顿之所以离开学术界,进入谷歌和 Facebook,是因为这些公司内部拥有巨大的资源。但他们仍然致力于与其他研究机构和研究员合作。杨立昆曾说过:“深度学习研究需要交流。当你希望独自进行秘密研究时,你必定会落在最后。”

在 OpenAI 成立后,科技巨头们也变得更加愿意分享他们的 AI 研究成果。巨头们终于意识到,金钱打动不了这些研究者,知识分享才可以。这是一个真正的变化,尤其是对于长期将技术保密的谷歌而言,他们在这场人才战争中被挖走的人最多,因此得到的教训也最深刻,不久后的 2016 年,谷歌公开了一部分研究成果。当然,由于最早投入人工智能领域,谷歌仍然持续在这一领域的研发上保有优势,直到 2022 年年底 ChatGPT 的出现,才真正撼动了谷歌的地位。

IMG_20241125_211018

软肋与募资#

为了确保人类拥有最美好的未来,我们讨论了我们能做的最好的事情是什么。我们可以袖手旁观,我们可以鼓励和监管,我们也可以通过建立正确的机构,与那些同样非常关心人工智能开发安全的人,以对人类有益的方式,一起研发人工智能。

—— 埃隆・马斯克

回到 2015 年,OpenAI 正式宣布成立,奥特曼等人切实将人工智能开放分享的概念往前推动了一步,他们不希望一个或两个大公司控制人工智能的未来。OpenAI 在刚起步就做到了这一点,它迫使谷歌和 Facebook 等公司开放了自己的经验。
IMG_20241125_210042

但对于当时的硅谷以及众多投资人来说,人们惊讶于 OpenAI 的愿景,但没多少人对这个新成立的机构真正有信心。

山姆・奥特曼和埃隆・马斯克,两位硅谷的知名人物,成立 OpenAI 妄图追上谷歌,不禁让大部分硅谷人想起几年前的另外一个故事 ——2011 年 2 月,微软和诺基亚突然宣布展开全面合作,合力挑战安卓系统。当时,谷歌高级副总裁维克・冈多特拉在社交媒体上评论这件事时嘲讽道:“两只火鸡加在一起,也变不成一只鹰。” 冈多特拉的这句话代表了大多数人的观点,因为几乎所有人都对微软和诺基亚的合作不看好。这句话很快就变成了现实,这场合作没过几年就宣布失败,微软败走手机市场,而诺基亚也全面失败,消失在人们的视野中。

在任何拥有极高技术门槛作为护城河的领域,联手挑战强者通常都是这样的结局,即便微软本身不输谷歌,而诺基亚在 21 世纪初也牢牢占据着全球手机市场的主导地位,也避免不了挑战失败。因此,2015 年的 OpenAI 看起来也像一个妄图挑战雄鹰的 “火鸡联盟”。

那一年担任 NIPS 大会主席的计算机科学家尼尔・劳伦斯直白地点出了 OpenAI 的最大软肋:“OpenAI 的愿景令人钦佩,但没有大规模数据,OpenAI 最终真的能造福人类吗?我不确定。”

尼尔・劳伦斯提到的 “大规模数据”,正是 2015 年人工智能开始迅速发展的基础。当时,主流的人工智能技术路线是 “监督式的深度学习”,研究员们需要用精心标注的数据,教会计算机自动完成任务。比如你想让计算机识别照片中的狗,你需要用上万张带有狗的照片,不断训练该模型,而且还需要人为标记清楚每张照片中什么是狗,然后计算机才能在新的照片里认出这种毛茸茸的动物。如果之后要识别其他动物,研究员就得再标记一次。

和科技巨头相比,微软有搜索引擎 Bing,谷歌自己就是全球最大的搜索引擎,Facebook 是当时最大的社交平台之一,三者都有庞大的数据库作为支撑,但 OpenAI 什么都没有。在高调成立后,OpenAI 便面临着一个致命的问题:它们没有大规模的数据,也没有足够多的钱雇用人手去标注数据。对此,奥特曼等人选择的解决方案是,抛弃主流的人工智能技术路线。条条大路通罗马,OpenAI 选择了他们唯一能选的技术路线:“非监督的强化学习”。

什么是非监督的强化学习?简单来说,强化学习是指让机器不断通过试错来学习如何做某件事,非监督代表着让机器自己学,不要人引导它。这其实也是 DeepMind 重点研究的技术,他们在 2015 年 10 月用这一技术做出了 AlphaGo,但 DeepMind 在被谷歌收购后获得了几乎无限制的资金和技术支持。因此对于尚在婴儿阶段的 OpenAI 而言,此时最需要的就是钱。那么山姆・奥特曼会怎么做?

在 OpenAI 成立前,他其实就已经知道了自己创立人工智能机构可能会面临的困境,因此,他最早拉人入伙时就考虑了这个问题。

奥特曼选择的人里,埃隆・马斯克早就凭借前两家创业公司 —— 网络软件公司 Zip2 和合并后的 PayPal,成了全世界最有钱的人之一,因为有钱,所以马斯克才能开公司造火箭、参与研发自动驾驶汽车、研究清洁能源,实现自己的梦想。而另一位联合创始人,出生于 1987 年的格雷格・布罗克曼,在 2015 年时还不算是富豪,却愿意拿出自己所有的积蓄。再加上已经完成资本原始积累的山姆・奥特曼本人,这三位拿出的钱就能够支持 OpenAI 前进一两年。

当然,奥特曼既然要进军人工智能领域,肯定不可能只做一两年,他至少得为公司的 10 年做打算,因此他肯定会做更充足的准备。虽然外界不看好,但奥特曼的人脉发挥了作用,在很短的时间内,他为 OpenAI 拉到了 10 亿美元的投资承诺。相比不被外界看好的愿景与目标,这份星光熠熠的投资者名单真正激起了媒体的狂热与业界的震惊,投资者包括 LinkedIn 的联合创始人里德・霍夫曼、YC 孵化器的联合创始人杰西・利文斯顿、PayPal 联合创始人彼得・蒂尔,还有三家公司及机构:亚马逊网络服务公司、印度第二大 IT 公司 Infosys 和此前提到过的 YC Research。

LinkedIn 的联合创始人里德・霍夫曼在一封电子邮件中解释了自己为什么要投资 OpenAI,他说:“人工智能是改善当今世界的绝佳机会之一,具体应用范围从无人驾驶汽车,到医疗诊断和精准个性化的医疗,再到许多其他跨行业的数据、分析、决策领域。”

奥特曼在接受采访时表示,这笔 10 亿美元的资金将按计划长线投入,在最初几年,可能只有一小部分资金会真正用于开支,而且他们暂时不打算公布每个投资者或者投资机构具体的投资额度,以及资金的使用率和具体的投资项目。马斯克也对媒体表态说:“每个被列为这个机构贡献者的人都做出了实质性的承诺,因此就算账面上没有这么多钱,OpenAI 仍然应该被视为一个 10 亿美元的项目。”

这笔钱虽然无法支持 OpenAI 像谷歌一样无限度地开发 DeepMind,但已经足够 OpenAI 正式开始运作,挑战谷歌等早已在天空中翱翔的雄鹰。山姆・奥特曼和 OpenAI 会如何开始自己的挑战之路?

了解对手 DeepMind#

AI 的梦想是让机器变得聪明,今天大多数的 AI 都是预先编程的机器。而我们的方法是为它们编写自主学习的能力,这个方法让 AI 更加强大,因为这是生物系统学习的方式。

——DeepMind 创始人杰米斯・哈萨比斯

创办 OpenAI 之前,山姆・奥特曼曾在斯坦福大学的课堂上提出了一个创业公式:创业成功 = 想法 × 产品 × 执行 × 团队 × 运气。

  • 现在 OpenAI 成为这个公式的最佳案例。

2015 年年底,山姆・奥特曼通过 OpenAI 的初步想法和愿景,拉拢了一大批人工智能领域的顶尖研究员,搭建了令谷歌和 Facebook 都羡慕嫉妒的技术团队。这个团队由同时擅长管理和技术的格雷格・布罗克曼带领,将聚焦研发深度学习系统相关的项目。就此,想法、产品、团队这三样元素俱全,剩下的就看执行和运气,然而,相比捉摸不透的运气来说,执行才是能努力够到的东西。对于一家人工智能研究机构而言,执行意味着花钱,同时 OpenAI 的非营利性,又代表了他们只花钱不赚钱,因此启动资金很重要。

在解决启动资金的问题后,山姆・奥特曼、埃隆・马斯克和格雷格・布罗克曼开始讨论 OpenAI 的研发方向。然而,在探讨具体研发方向时他们陷入了困顿,他们意识到 OpenAI 的研究团队根本不确定哪个方向能成功,或者至少接近成功。

  • 2016 年入职 OpenAI、负责安全问题的人工智能科学家达里奥・阿莫迪后来评价说:“OpenAI 早期开展研究的方式类似风险投资,在一个领域设定‘投资组合’,不同的团队往不同的方向下注,最终选出最有可能做出通用人工智能的项目。”

达里奥・阿莫迪的这句话非常形象地总结了 OpenAI 的早期方向,同时还带出了非常强烈的奥特曼个人烙印,毕竟当时奥特曼同时在 YC 孵化器担任总裁,设定投资组合正是他的强项。

但是,在找不到方向时,山姆・奥特曼等人做了一个聪明的决定 —— 他们打算知己知彼,在战胜强大的对手之前,先向他们学习。在一次不记名投票后,众人投出了唯一一个他们想要了解的对象 —— 谷歌,或者说谷歌 DeepMind。此时的谷歌在收购 DeepMind 后如虎添翼,将其他竞争对手远远甩在身后。DeepMind 为什么这么出色?这就不得不提到这家英国公司的最核心的创始人杰米斯・哈萨比斯,这位完全不输山姆・奥特曼的英国天才。

在创立 DeepMind 这家人工智能公司前,杰米斯・哈萨比斯有着截然不同的职业标签:

  • 4 岁起就成为国际象棋神童,13 岁时达到了大师级水平,多次担任英格兰少年国际象棋队的队长,并在 1995 年后连续三次代表剑桥大学参加了国际象棋比赛;
  • 17 岁后,杰米斯因为年纪太小被剑桥大学要求休学一年,他开始了间隔年,并爱上了玩游戏,此后杰米斯在完成学业的同时,成了一位游戏设计师和 AI 程序员,并且在 1998 年,年仅 21 岁时告别打工生涯,创立了自己的独立游戏公司。

2005 年,游戏公司关闭之后,杰米斯重返学术界,获得了伦敦大学学院的认知神经科学博士学位,成了一位神经科学专家。这一阶段,杰米斯・哈萨比斯专注于想象力、记忆和健忘症领域的研究,他与其他人联合写了多篇有影响力的论文,发表在《自然》《科学》《神经元》《美国国家科学院院刊》等神经科学领域最有名的期刊上,尤其是他发表在《美国国家科学院院刊》上的第一篇学术著作,具有里程碑式的意义。这篇文章首次系统地表明海马体受损的患者,无法想象自己将发生的新经历 —— 这一发现将想象力的建构过程与情景记忆的重建过程搭建了联系。之后,杰米斯・哈萨比斯基于功能性磁共振成像研究,提出了一种新的情景记忆系统理论,被《科学》杂志列为 2007 年度的十大科学突破。

此时,这位顶级天才开始对人工智能感兴趣。他试图在人脑中寻找新的人工智能算法灵感。为此他去了当时在人工智能领域久负盛名的麻省理工学院的托马索・波吉奥实验室,还在哈佛大学以访问科学家的身份继续他的神经科学和人工智能研究,并在 2009 年获得盖茨比计算神经科学部门的亨利・惠康博士后研究奖学金。

在盖茨比计算神经科学部门做博士后时,杰米斯・哈萨比斯遇到了肖恩・莱格,同时期还通过家人认识了穆斯塔法・苏莱曼。因为都对人工智能感兴趣,很快三人就于 2010 年 9 月共同创立了 DeepMind。三人认为 DeepMind 的使命是 “解决智能,然后用智能解决其他一切问题”,更具体地说,DeepMind 旨在将系统神经科学的见解与机器学习和计算硬件的最新发展相结合,解锁日益强大的通用学习算法,这些算法将致力于创建通用人工智能。

这家人工智能公司从创立之初,就确定了一个当时非常新颖的方向:专注于训练学习算法以精通游戏。这个方向归功于杰米斯・哈萨比斯早期的职业生涯,记得吗?他还是一名视频游戏 AI 程序员和设计师,游戏不仅是他的工作,也是他生活的重要组成部分。因此,当他决定创立一家人工智能公司时,杰米斯想,为什么不让机器通过玩游戏完成学习呢?

两位关键的先生#

人工智能在流行文化中往往声名狼藉:就像《终结者》中的半机器人刺客,或者像《她》中引诱我们陷入无意识的危险爱情的萨曼莎。那么,我们为什么需要一个通用人工智能呢?因为我们需要人工智能的帮助来实现社会所需的突破,气候、经济、疾病 —— 它们是极其复杂且相互作用的系统。人类很难通过分析所有的数据去理解它们。我们很快会面临人类专家能力有限的情况,这时候,人工智能的辅助将无比重要。

—— 杰米斯・哈萨比斯

在创立人工智能公司 DeepMind 后,杰米斯・哈萨比斯做了个大胆的决定,他们要通过教机器如何玩七八十年代的老游戏,研究人工智能技术。这些游戏与今天的游戏相比,更加原始和简单,比如非常经典的雅达利(Atari)街机游戏,《乓》(Pong)和《打砖块》(Breakout)等。

《打砖块》这款游戏可能很多 80 后、90 后小时候都玩过,游戏规则就是左右移动一块木板接起小球,通过反弹至不同方向,打掉关卡内所有砖块。在参与这个游戏之前,AI 事先并不知道游戏的规则。在前 30 分钟内,AI 进行了 100 场游戏,表现得非常糟糕,但 AI 通过失败不断学习应该把球反弹向哪里。一个小时后,AI 的表现有了一定程度的提高,但仍然不是很完美。但是两个小时后,它已经基本掌握了游戏的节奏,即使球速非常快,它也能准确地做出最好的判断。第四个小时,AI 提出了一种最佳策略 —— 在墙的一侧挖掘一条隧道,并以超人的精准方式将球送到后面。这是游戏设计者都不知道的通关策略。

IMG_20241125_211920

实际上,这个研究方向的工作是以扎实的神经科学研究为基础的。杰米斯・哈萨比斯和肖恩・莱格在伦敦大学学院的计算神经科学部门的学习背景,帮助杰米斯・哈萨比斯带着 DeepMind 团队,通过教计算机模仿人类大脑的思维过程来开发人工智能的策略,特别是人类如何使用信息来做出决定和从错误中学习。杰米斯这个异想天开的想法成功了 ——AI 完全不懂游戏规则,只是简单地被告知要打出高分,但在经过两个小时的训练后,它就成了高手。杰米斯曾解释原因:“AI 经历的认知过程,与那些从未见过游戏的人理解和尝试掌握游戏的认知过程非常相似。”

2013 年 12 月,DeepMind 公布了他们取得的这一开创性突破,他们声称已经训练出一种名为深度 Q 网络(以下简称 DQN)的算法,这是第一个成功地从高维感官输入直接学习控制策略的深度学习模型,使用强化学习的方式训练卷积神经网络,输入的是原始像素,输出的是估计未来奖励的价值函数。杰米斯说:“我们已经将这个方法应用于 7 个街机游戏中,并且在街机环境中进行训练,我们不需要调整架构或学习算法,就发现了机器在其中 6 个游戏中,发掘出优于所有先前策略的方法,并在其中 3 个游戏中超过了高水平的人类玩家。”

DeepMind 在成立后短短 3 年内取得了突破性的成就,这让它获得了非常多投资者和科技巨头的关注。在 DeepMind 被谷歌收购之前,就从众多知名投资者和投资机构那里获得了数百万英镑以扩大规模,其中包括李嘉诚的投资公司,以及另外两个 OpenAI 的关键人物:埃隆・马斯克和彼得・蒂尔,两人都是这家公司的早期投资者。有趣的是,这两人在 2015 年 OpenAI 成立时,再次出现在新闻报道中,一位是联合创始人,一位是早期资助者。

彼得・蒂尔和埃隆・马斯克在 DeepMind 发展过程中扮演的角色非常重要。

彼得・蒂尔不仅是 DeepMind 的第一位投资人,还是 Facebook 的第一位投资人,而且在此之前彼得・蒂尔从不投资美国以外的公司。英国人杰米斯后来回忆起这件事。

  • 2011 年,为了获得来自彼得・蒂尔的资金支持,杰米斯花了一年时间才找到办法。他说:“我需要在他赞助的人工智能会议上发表演讲,这样就有一分钟的机会向他推销 DeepMind。所以我研究了彼得・蒂尔,发现他也玩国际象棋。所以我认为与其成为第 100 个向他推销的人,不如和他聊聊国际象棋。于是我不太巧妙地在谈话中编造了一个问题 —— 为什么那么多人喜欢下国际象棋,他很感兴趣并问我原因。我说:‘因为国际象棋是一种完美的平衡,这种平衡的关键就在于象和马。它们的兑换带来某种创造性的张力。’他笑了,让我第二天再来做一个正式的演讲。”

埃隆・马斯克则是将 DeepMind 推向谷歌怀抱的 “幕后黑手”,他或有意或无意地促成了谷歌收购 DeepMind 这件事,因为令谷歌最早关注到 DeepMind 这家公司的最大功臣正是埃隆・马斯克。当时,马斯克在一次私人聚会上,告诉谷歌的创始人拉里・佩奇,有家叫 DeepMind 的英国人工智能公司正在试图研发出通用人工智能。几个月后,负责谷歌知识部门的高级副总裁艾伦・尤斯塔斯发了一封电子邮件给杰米斯・哈萨比斯,邀请他与拉里・佩奇会面。在谷歌完成收购后,杰米斯对媒体说:“我无法拒绝这个邀请。后来经历了一年的谈判,我们选择了谷歌,原因之一是我们在文化上非常合适,而 AI 也是拉里・佩奇非常关心的事情。”

当被问到当时为什么要卖 DeepMind 时,杰米斯说:“我们原本没有这样的计划,但我想到了一件事,也许 3 年后,我必须专注于筹款,导致只有 10% 的时间用于研究。我还意识到,我这辈子都没有足够的时间来建立一家与谷歌同等规模的公司,同时又能研究人工智能问题。所以,当我老了回顾自己这一生,我会对自己建立了一个估值数十亿美元的公司更高兴,还是帮助研发了人工智能技术更满足?对我来说,当这两个问题摆在一起,选择就变得很简单了。更不用说拉里・佩奇当时还对我说了一句话,他说:‘我花了 15 年时间打造谷歌 —— 你为什么不来利用我们在这里建立的一切呢?’对于这句话,我想不到任何拒绝的理由。”

于是,在 DeepMind 被谷歌收购后,埃隆・马斯克和彼得・蒂尔傻眼了,谷歌的收购意味着其他投资人的出局,两人在人工智能领域种下的种子,还未长成参天大树,就先被谷歌收割了。因此,当山姆・奥特曼准备创立 OpenAI,对抗谷歌在这一领域的垄断趋势时,马斯克和蒂尔迫不及待地再次成为急先锋。

AlphaGo 的出现#

我们正试图建立一套通用算法,就像人脑一样。你需要处理视觉,你需要长期记忆,你需要工作记忆,以便可以在不同任务之间切换…… 你可以随时创建相当不错的定制程序,来解决某个特定的任务,比如下棋或开车。我们将以人脑的这种通用性作为出发点,而不是仅仅为某个特定任务服务。我们的人工智能系统当然可以学会下棋,但就算将下棋所需的所有知识全都告诉它,包括移动、开局和残局的下法,它也不会比 IBM 的深蓝做得更好。深蓝的智能存在于哪里?不在程序里,而在编程团队的头脑中。这个程序非常愚蠢,它不学习任何东西。

—— 杰米斯・哈萨比斯

从某方面来说,OpenAI 与 DeepMind 非常接近。

起初是几个好朋友都对人工智能领域非常感兴趣,然后找到了彼得・蒂尔进行投资,并且带上了一个重要推动者埃隆・马斯克。

但不同的是,DeepMind 在人工智能领域早探索了几年,并且在持续进化,很快两家公司会变成竞赛状态。

一方面,DeepMind 在杰米斯・哈萨比斯的带领下,继续着最初通过玩游戏而让 AI 不断进化的方法,并据此开发了一个更复杂的、经过调整的 DQN 版本。杰米斯说:“DeepMind 已经将两个有前途的研究领域 —— 深度神经网络和强化学习算法 —— 以一种非常基础的方式相结合。我们的算法可以利用他们在一个领域中学到的知识,应用到另一个新的领域中。”

2015 年 2 月,杰米斯・哈萨比斯对外宣布,新的人工智能版本在仅提供最少背景信息的情况下,已经学会了 49 种不同的街机游戏,并且在其中 22 个游戏里超越了顶尖的人类玩家,其中包括《太空侵略者》(Space Invaders)这种规则相对复杂、更加注重策略性的射击游戏。

但与此同时,杰米斯也不否认,此时的 AI 仍然在其他 20 多个游戏里体现了局限性,尤其在经典游戏《吃豆人女士》(Ms.Pac-Man)里,与人类不同,AI 无法提前几秒钟制订计划,这阻止了它弄清楚如何安全地穿过迷宫,以便吃掉最后的颗粒完成关卡。同时 AI 也始终学不会通关的另一个技巧 —— 吃掉隐藏的魔法颗粒。在游戏设定中,这些魔法颗粒可以帮忙干掉这关的 boss,也就是正常形态下必须躲避的鬼魂。而此时的 AI 只能停留在当下,它只能复盘最近十五分之一秒的游戏过程,来了解哪些动作会带来回报或如何利用经验选择下一步动作。这意味着它只能掌握那些战术较为直接的游戏。

在发展中,DeepMind 已经开始研究让 AI 玩任天堂游戏和 PC 电脑里的游戏,这些游戏很多都基于简单的三维环境设计。杰米斯・哈萨比斯说:“我们最终的想法是,如果这个 AI 算法可以驱动赛车游戏中的汽车,稍加调整后,它也许能够驱动真正的汽车。” 也就是说,测试更加复杂的游戏甚至可以为 AI 应用于现实世界提供一个桥梁。

另一方面,DeepMind 在 2014 年开始了关于能够下围棋的人工智能的研究。与国际象棋等其他棋类游戏相比,围棋有着更多的下法可能性,人们普遍认为人工智能很难战胜人类棋手。然而,AlphaGo 彻底震惊了全世界。
IMG_20241125_212102

2015 年 10 月,DeepMind 开发的名为 AlphaGo 的计算机围棋程序,以 5∶0 的成绩击败了欧洲围棋冠军范辉。这是人工智能首次击败职业围棋选手。

没过多久,2016 年 3 月,它又在五局比赛中以 4∶1 的比分击败了当时最顶尖的围棋手之一李世石。李世石在被 AlphaGo 击败前,曾经拿到过 18 次世界冠军,仅次于另一位职业九段棋手李昌镐。在 2017 年的围棋未来峰会上,AlphaGo 与当时连续两年保持世界第一的中国棋手柯洁进行对局,三局对决全部获胜。

这些消息一次又一次掀起互联网热议的浪潮,人们都很好奇:AlphaGo 为什么这么厉害?

答案是,它在被创造时就预想到了这一刻。AlphaGo 的开发技术基于深度强化学习的方法,为了让 AlphaGo 模仿人类棋手的思考过程,并在下棋过程中不断变得更加强大,它的 “大脑” 被导入了大量历史比赛数据,包括多达 16 万场现实比赛中的 3000 万步棋。大量数据输入让 AlphaGo 可以与自己较量,在棋盘两边,同时从胜利与失败中汲取经验和教训,这一效率是人类难以企及的。

在万众瞩目下,谷歌的资源让 DeepMind 完成第二次进化。也就是说,将战线拉长至 20 年,DeepMind 也不用担心资金的问题,可以专注于研究技术。

在研究 DeepMind 强大的原因后,OpenAI 和奥特曼准备如何做?他们如何在成立后的短短四年时间里,追赶谷歌 DeepMind,成为世界领先的人工智能研究实验室之一?

IMG_20241125_212525

非营利争议#

把拥有高度智能的机器简单地视为科幻小说的情节将是一个错误,也可能是我们历史上最严重的错误。可以想象这样的技术能够超越金融市场、超越人类研究人员、超越人类领袖的操纵,并开发出甚至连我们都不能理解的武器。

—— 斯蒂芬・霍金

强者才是见证王者加冠卫冕的试金石。DeepMind 越强大,OpenAI 的崛起之路就越传奇。

在投资 DeepMind 结果被谷歌踢出局后,埃隆・马斯克曾对媒体解释,他投资 DeepMind 不是为了赚钱,而是为了 “监视人工智能方面的动态”,后来他在投资 OpenAI 时沿用了这个说法,甚至全力支持 OpenAI 以非营利机构的形态发展,来避开媒体的质疑声。

IMG_20241125_212758

而 “非营利机构” 就是 OpenAI 为应对竞争打出的第一张牌,这张牌可以总结成一个关键词:形象塑造。

之前提到过,山姆・奥特曼和格雷格・布罗克曼依靠 “造福全人类” 的理念,成功从谷歌等公司挖到了数位人工智能研究员。这件事让两人进一步确认,在人工智能领域,研究员们更关注社会福利而非个人私利。而且奥特曼等人甚至不需要假装,他们也说服了自己,深信只有一家非营利机构才能开发出对人类有利的人工智能。

而这也表明 OpenAI 想成为领导行业的牧羊人,即便他们在技术上处于落后地位,但它精心打造了自己的形象,为未来铺路,不断提醒所有人:在一个由富有的公司主导的领域,OpenAI 是作为一个非营利组织成立的。

OpenAI 在成立后的最早一份公告中强调了自己的非营利性定位,公告声明称:“重要的是要有一个领先的研究机构,它可以优先考虑为所有人带来好的结果而不是自身利益,我们的专利将与全世界共享。” 尽管无论 OpenAI 还是奥特曼等人,都从未明确提出过批评,但这些内容含义很明确:其他实验室,如 DeepMind,无法为全人类服务,因为它们受到商业利益的限制。它们是封闭的,而 OpenAI 会是开放的。

非营利,与全世界共享专利,为每个人创造价值…… 所有这些听起来都很棒。但是与所有能够畅谈的理想主义相比,研究人员在实际工作过程中,可能会发现他们面临着妥协,这些妥协与他们在上一家公司工作中面临的处境类似,那就是,开放性是有限制的。即便定位为非营利机构,OpenAI 也并不是慈善机构。这家公司的股东们肯定会从中获利,比如马斯克的 SpaceX 和特斯拉都非常需要与人工智能相关的技术,不然他此前也不会投资 DeepMind,而奥特曼此时主要投入精力的 YC 校友公司同样也将优先享受 OpenAI 的研究成果。

就连格雷格・布罗克曼,这位辞掉所有其他工作、全身心投入 OpenAI 的首席技术官,也在 2016 年某次接受采访时承认 OpenAI 的理想主义愿景有自己的局限性。他说:“我们可能不会公开所有技术成果,我们的目标是,尽可能发布研究论文或在互联网上共享大部分研究成果。在一开始就对外公开我们的所有研究不一定是最佳选择。你需要培养一个想法,看看它的发展方向,然后再发布它。我们将发布大量开源代码,但也会有很多还没有准备好发布的东西。”

IMG_20241125_213230

OpenAI 的首席科学家伊利亚・苏茨克维尔之后在公开场合表示,OpenAI 可能会为一些项目申请专利,他说:“我们不会在短期内申请任何专利,但从长期来看,如果我们发现申请专利更符合我们创立 OpenAI 的初衷,对世界和全人类最有利,我们愿意改变策略。” 苏茨克维尔随后举了个例子,他说:“比如,OpenAI 可以先发制人,抢先申请专利,这样就可以阻止有可能滥用技术的他人获得相同的专利。”

对于很多人来说,布罗克曼和苏茨克维尔的这些发言,暗示了 OpenAI 的 “非营利” 更像一次广告,而不是真正的大公无私和为全人类着想,尤其关于专利申请的这段发言,让人怀疑 OpenAI 有营利动机,或者至少不是像 OpenAI 的创始人奥特曼所主张的开源承诺那么坚定。人工智能艾伦研究所的负责人奥伦伊・奇奥尼说:“这就是专利制度的意义所在,这让我想知道他们真正的目的是什么。”

当然,并不是所有人工智能领域的人都认同开放所有技术专利的理念,布罗克曼等人的最新表态反而让瑞典哲学家尼克・博斯特罗姆松了一口气,博斯特罗姆指出:“如果没有任何限制地共享研究成果,坏人可能会在任何人确保这项技术足够安全之前,就利用它干坏事。如果你手上握有一个可能对世界造成糟糕结果的按钮,你不会想把按下这个按钮的权利交给每个人的。” 但博斯特罗姆也想知道,如果 OpenAI 决定保留自己的研发成果,防止被坏人利用,那么它与谷歌或 Facebook 这样的大公司有何不同。

IMG_20241125_213141

OpenAI 的非营利地位是否会改变人工智能领域的未来走向?谁也不知道。但包括博斯特罗姆在内的人还是认为,OpenAI 的真正作用在于它确实可以对谷歌和 Facebook 等公司起到监察的作用,降低通用人工智能被垄断的可能性,加速了人工智能的发展。

但一切的猜想都建立在 OpenAI 自身发展上。所有关于理念或者组织性质的争议与设定,都无法回避 OpenAI 需要在研发技术这一领域直接与其他人工智能实验室竞争的事实。所以在具体研发成果上,OpenAI 做得如何?

Gym 强化学习平台公测#

10 年前,人们普遍认为,人工智能首先会影响到体力劳动,然后是认知劳动,或许在未来某一天,它才能够从事创意工作。现在看来,它的发展顺序将会是相反的。

—— 山姆・奥特曼

2015 年年底 OpenAI 宣布成立后,在短时间内成为科技媒体的焦点。但当时间进入 2016 年年初,关于 OpenAI 的消息突然变少了,人们不禁开始好奇,山姆・奥特曼和埃隆・马斯克等人大张旗鼓成立的这家人工智能机构,到底是个昙花一现的空壳公司,还是已经默默组建团队开始推进自己的研发项目?

实际上,OpenAI 突然偃旗息鼓,消失在公众视野,与当时几位主要创始人的情况有关。在成立之初,山姆・奥特曼和埃隆・马斯克为 OpenAI 搞到了一大笔启动资金,以及 10 亿美元的投资承诺,但在 2016 年时,两人主要的时间与精力都在别处,奥特曼的主业仍然是 YC 孵化器,埃隆・马斯克更是一个大忙人,一人操盘多家公司,连吃饭睡觉都在特斯拉工厂的厂房里,根本抽不出时间参与 OpenAI 的建设。因此,让 OpenAI 启动并且正常运转的任务,落在了另外两个人身上。一位是重要的联合创始人伊利亚・苏茨克维尔,他是个典型的科学家,对具体项目研发外的任何事都不感兴趣;另一位则是刚刚离开独角兽公司 Stripe 的格雷格・布罗克曼,他承担起 OpenAI 大部分的事务。好消息是,无论是从能力还是从手段来看,布罗克曼都足够做当时这家新兴人工智能机构的老板,他在 OpenAI 成立前的筹备阶段,就为实验室挖来了第一批研究员,帮他们熟悉团队,了解公司运作,加上布罗克曼自身具有领袖气质,他顺理成章地扛起了 OpenAI 的大旗。

2016 年 1 月初,布罗克曼和 9 名完成入职的研究员,在旧金山教会区布罗克曼的公寓里见面了。由于此前有一半的研究员都在收尾上一家公司的工作事项,因此布罗克曼花了不少时间才召集所有人见面。由于时间匆忙,OpenAI 的第一次会议甚至在没有写字白板的情况下就开始了。布罗克曼和所有研究员确认,OpenAI 将首先探索 “强化学习”,这是一种让机器一遍又一遍地重复任务,通过跟踪得知哪种方法将产生最佳结果,并以此不断进化的过程。

2016 年 4 月,OpenAI 首次发布了强化学习研究平台 “OpenAI Gym” 的公测版。这是一个人工智能研究的新平台,作为 OpenAI 成立后的第一个成果,Gym 与其说是一个平台,不如说是一个工具包,它能够帮助研究人员开发和比较强化学习算法,兼容用各种框架编写的算法及世界上的大部分语言。什么是强化学习?强化学习是机器学习的子领域,关注机器的决策制定和运动控制,它可以用来研究机器如何在复杂、不确定的环境中实现目标。

OpenAI Gym 平台专注于强化学习,这是一种以完成任务为中心的人工智能。如果算法做得好,它就会得到奖励;如果它失败了,则没有奖励,然后它会尝试不同的方法。强化学习已经被证明在机器人和视频游戏中特别有效。这与谷歌 DeepMind 用来击败雅达利游戏中人类玩家的人工智能技术相同。

事实上,雅达利的游戏环境,模拟机器人和其他棋盘游戏,都仅仅是 OpenAI Gym 上的一个研究方向,其他的研究重点甚至包括围棋这种古老的中国棋盘游戏。研究员们将构建这些游戏的算法,然后将某个算法放在各种测试环境中,也就是测试算法的虚拟空间,接着,研究员就可以看到他们的算法在各种客观测试中的表现如何,基于反馈进行调整,甚至发布他们的算法基准,在社区里供其他人查看和讨论。OpenAI Gym 本身支持与各种开源人工智能框架配合使用,例如谷歌的 TensorFlow 和蒙特利尔大学的 Theano。OpenAI 全力支持开源这种允许任何人修改和共享技术的生产模式,表明自己一直坚持推动在人工智能领域造福全人类的使命。

为什么 OpenAI 的第一次产品亮相选择了强化学习?布罗克曼解释说:“在任何科学领域,好的研究都可以被复制。如果其他人可以模仿你的实验并获得相同的结果,那么这预示着你的发现是有效的。如果其他人可以调整你的研究并且获得更好的结果,那将对整个广泛的社区产生更大的好处。”

这些想法是 OpenAI Gym 背后的驱动力,同时也算是 OpenAI 团队初步兑现了山姆・奥特曼等创始人在创立之初许下的承诺:发布和开源他们所做的大部分研究成果,希望使 OpenAI Gym 成为对某些类型的人工智能算法进行基准测试的标准,并且成为研究员们分享他们测试结果的地方。

同时,有趣的一点是,OpenAI Gym 不会根据谁能做出最高分算法来设置排行榜。相反,它将专注于推广具有良好通用能力的算法 —— 因为这样的算法在完成其他类似任务方面具有多种用途。许多人工智能研究员将通用性视为人类智能的最大障碍。拿人工标记猫咪照片来举例,目前,能够识别猫咪图像的算法无法理解语音,因为它们是以不同的方式处理数据的,通用性意味着算法知道如何处理这两种情况,就像人类自然就会做的那样。

格雷格・布罗克曼在发布 OpenAI Gym 的文章里说:“这不仅仅和最大公约数有关,而是要找到能够使算法获得通用性的解决方案,那些涉及特定任务的硬编码或不显示学习算法特征的解决方案不太可能通过审核。” 也就是说,OpenAI Gym 并不一定适用于算法本身改进的迭代工作,奥特曼、布罗克曼和 OpenAI 真正想要改变的是研究员们对算法的思考方式。

OpenAI Gym 虽然在人工智能研究方面对整个领域具有一定意义,但 OpenAI 在沉默几个月之后仅仅推出了这一个平台,让所有人都感到失望。就连在 OpenAI 内部,也出现了一些不和谐的声音,有研究员私下抱怨他们甚至不知道自己在做什么。多年后,有记者采访到了一位 OpenAI 的早期实习生,对方回忆说:“当时我的座位前后左右都是业界最牛的大佬,他们每个人的想法都不一样,大家擅长的方向和领域也可能不一样,公司似乎当时还没找到一个着力点,让这批世界上最牛的 AI 科学家们拧成一股绳一起发力。这是最难的,谁也不服谁。”

对于奥特曼和布罗克曼而言,如何应对 OpenAI 出现的新困境?在迷茫探索期,OpenAI 做了哪些工作?

迷茫探索期#

人们拥有改变事物的巨大能力。自我怀疑、过早放弃和不够努力,使大多数人无法发挥他们的潜力。

—— 山姆・奥特曼

OpenAI 显然是带着恐惧成立的,但还没什么人知道它打算迎接什么,创造什么,就连 OpenAI 的几位核心创始人也有些迷茫。OpenAI Gym 的发布就像这种迷茫的一个缩影,他们做了一个还不错的研究平台,然后呢?世界上任何一家人工智能实验室都能做出一个这样的平台,只要他们愿意,但没有突破性的研究成果支撑,只分享平台又有什么用呢?

2016 年 5 月,时任谷歌研究员的达里奥・阿莫迪来访,将这类质疑声彻底公开化。阿莫迪解释自己到访的原因时说得很简洁,他说他只是想弄清楚一些事情,因为外界没有人了解 OpenAI 在做什么,他们太神秘了。因此,在 OpenAI 办公室,阿莫迪直截了当地问道:“你们可以弄到 10 亿美元,然后雇用 30 个出色的研究员,但是要干什么呢?我的意思是,除了你们聊了很多次的理念,你们具体要做的东西到底是什么?” 布罗克曼面对这个问题,有些尴尬地回答:“我们现在的目标是…… 做现在能做的最好的事。这个说法的确有点模糊。”

阿莫迪对这个回应不置可否,事实上,他在 AI 领域也走得很深入。2014 年他加入百度,与一个由 AI 科学家和系统工程师组成的小团队合作,其中包括谷歌 Brain 联合创始人兼首席科学家吴恩达。但与团队里的其他人致力于探索 AI 和深度学习方面的难题不同,阿莫迪将大部分时间花在了 Deep Speech 2 系列语音识别模型上,这是一种端到端的深度学习方法,可以识别英语和普通话等截然不同的语言。同时,阿莫迪还构思、制作并实施建设了神经网络架构,也就是利用神经网络来处理复杂的语音,例如嘈杂的环境和口音,在测试环境下,能让系统的输出接近于人类工作者提供的转录,英语和普通话语音系统中单词错误率显著降低。一年后,阿莫迪离开百度,成为谷歌 Brain 团队中的一名深度学习研究员,继续扩展神经网络的功能,并且撰写了多篇以人工智能系统安全和事故预防为主题的论文。

阿莫迪在谷歌的研究正是 OpenAI 感兴趣的方向,也就是关于人工智能的系统安全问题。当时接连几条新闻让人们开始关注人工智能的欺骗与滥用问题。2016 年 3 月,微软发布聊天机器人 Tay 之后,Twitter 上的一些 “流氓” 用户马上就教会了 Tay 发布类似 “用毒气毒死犹太人,发动种族战争吧” 之类的恐怖言论。不久后,互联网上发布了第一首由人工智能生成的流行音乐 Daddy’s Car,这首歌听起来就像披头士所作,但很明显,披头士的歌单里并没有这首歌。如果你最近关注互联网,也许会发现 “冷门歌手” 孙燕姿的 AI 版本在大杀四方。从经典电视剧的主题曲《向天再借五百年》《好汉歌》,再到我们耳熟能详的周杰伦、林俊杰、陶喆的歌,AI 孙燕姿都能唱给你听。早在 2016 年,AI 生成的内容就有了这个趋势,并且引发人们对版权风险的担忧。

马斯克在公开场合表示:“虽然还没看到机器人杀手在街上行动,但不代表我们就不该担心了。” 马斯克并非危言耸听,在当时,苹果的 Siri、亚马逊的 Alexa,以及微软的 Cortana 已经成为数百万人的助手,实时翻译和自动驾驶技术更是想当然地被信赖,就连奥特曼所带领的 YC 孵化器也开始使用一个叫作 Hal9000 的人工智能机器人来筛选创业者提交的申请。也就是说,这款神经网络正不断通过评估之前的申请和这些公司的成果来训练自己。奥特曼在被问到关于这一人工智能机器人的工作方式时说:“它筛选的是什么?我不知道。神经网络让人担心的就是这一点 —— 你不知道神经网络在做什么,它也无法告诉你。”

因此,山姆・奥特曼对阿莫迪的到访非常看重,他和布罗克曼一起接待了这位人工智能领域的年轻天才。阿莫迪再次直接问奥特曼和布罗克曼:“AI 领域里有二三十个人,包括尼克・博斯特罗姆,都说 OpenAI 想造出一个友好的人工智能,然后向世界公布它的源代码,确实是这样吗?” 这一次奥特曼给出了出乎意料的回答,一方面呼应此前布罗克曼在接受采访时的回答,奥特曼说:“我们不打算开放所有代码。” 另一方面,奥特曼补充了另一句更重要的话:“如果人工智能不够友好,我们最好也别试图纠正它,这一般只会导致情况变得更糟糕。”

之后,山姆・奥特曼带着几位 OpenAI 的研究员,和阿莫迪重点讨论了机器学习系统中的事故,尤其是可能由于现实世界里 AI 系统的设计不良而导致的意外和有害行为。一个月后,OpenAI 参与了阿莫迪领导的论文《人工智能安全中的具体问题》的撰写,成为合著者之一,这篇论文围绕 “确保现代机器学习系统按预期运行” 这一主题探讨了许多研究问题,并根据问题的来源主要分为了三块:第一,是否源于错误的目标函数,包括 “避免副作用” 和 “避免奖励欺骗” 两个问题;第二,目标函数过于昂贵,无法经常评估,包括 “可扩展监督” 这个问题;第三,学习过程中出现不良行为,包括 “安全勘探” 和 “分布式转移” 这两个问题。这篇论文回顾了人工智能领域的先前工作,并提出了研究方向,重点关注尖端 AI 系统的相关性,最终考虑了如何最有效地思考 AI 前瞻应用的安全性这个高层次问题。

这篇论文发布后仅仅一个月,达里奥・阿莫迪加入了 OpenAI。

IMG_20241125_215214

究其原因,一方面,此前他的妹妹丹妮拉・阿莫迪曾与布罗克曼共事过,因此他已经认识了 OpenAI 的许多成员。而更重要的原因是,山姆・奥特曼等人对人工智能安全问题的重视,最终征服了阿莫迪。达里奥・阿莫迪加入 OpenAI 后,一直带领着 AI 安全团队。后来,在接受采访时,阿莫迪解释了他跳槽到这家公司的原因:“我认为这里有许多非常有才华的研究人员,这是一个很好的环境,可以在已经完成的人工智能研究的背景下考虑安全性。” 虽然他之前从未在初创公司工作过,但阿莫迪对能突破人工智能行业的界限,一心专注于监督机器学习感到非常兴奋。2018 年 9 月,阿莫迪成为 OpenAI 的研究总监,并在一年多后成为研究副总裁,负责构建 GPT-2 和 GPT-3 的团队。

达里奥・阿莫迪这员大将的加入,成为 OpenAI 迷茫时期的一道光。之后,OpenAI 将聚焦哪个方向?是否能在技术研究上找到突破口?

OpenAI 的进化目标#

山姆对于世界的计划是以思想为锚定,而不是以人为锚定的。这就是它强大的原因,它不会被流行的思潮与事物所影响。

—— 彼得・蒂尔

2016 年 6 月,山姆・奥特曼等 4 位主要创始人联合署名,分享了 OpenAI 更具体的研发目标。

首先,OpenAI 的短期目标是建造家庭机器人。当然,OpenAI 只负责人工智能方面的工作,而不是物理制造。他们正在努力使一台物理机器人能够完成基本的家务活,比如布置和打扫桌子,以期最终创造出能够执行多项复杂任务的通用机器人。奥特曼认为,机器智力的发展需要物理实体,而机器人技术正是解决许多人工智能挑战的最佳测试方法。值得一提的是,这个方向在 2018 年时有了成果,OpenAI 开发出了可以单手玩魔方的机器手系统 Dactyl。

OpenAI 的中期目标是开发游戏人工智能,借助打游戏提升机器的智力水平。你会发现这几乎可以说是照搬了 DeepMind 的研究方向,因此奥特曼在宣布这个目标的同时,直接做了说明:“我们受到了 DeepMind 开创性工作的启发,过去几年中,他们在这个领域取得了令人印象深刻的成果。”OpenAI 在这一方向上同样选择了在雅达利游戏中做测试,因为不同的游戏可以被视作多样化的虚拟小世界,人工智能对游戏的学习可以推动在生成模型和强化学习方面的技术进步。但有趣的是,在后续发展中,OpenAI 没有选择与 DeepMind 一样,在古老的围棋游戏里进一步测试 AI,而是选择了网络多人策略对战游戏 Dota。Dota 是暴雪公司《魔兽世界》系列的一个自定义地图,如果你不熟悉 Dota,可以将其理解为《英雄联盟》或者《王者荣耀》的原型之一。在 2018 年一场 Dota 2 游戏中,人类与人工智能展开对战,并证明了这个尝试小有成就。

对于 OpenAI 来说,建造家庭机器人和开发游戏人工智能都是开胃菜,更像中短期内需要拿出的一些像样的研究成果,他们真正的,同时也更长远的目标是开发一个通用的、可以通过图灵测试的人工智能系统,让人工智能用文本语言学习并且理解世界,最终可以通过推理和反应的方式让人相信他就是人。没错,这个方向最终大获成功,诞生了现在大名鼎鼎的 GPT 系列。

在这个研发方向的最初期,奥特曼等人计划开发语言模型,建立一个人工智能,它可以通过分辨不同语言命令执行复杂任务,并在任务不明确时,要求下令者进一步解释。在当时,已经存在不少这样的算法,可以进行监督语言任务,比如问题回答、句法分析和机器翻译等。但是,对于更高级的语言目标,比如能够进行对话、完全理解文档和能够根据自然语言执行复杂指令的能力,则还没有相应的算法。OpenAI 期望开发新的学习算法和范例来解决这些问题。

奥特曼和其他创始人认为,这几个方向的项目和基础研究都有共同的核心,因此任何一个项目的进展都有可能有益于其他项目。其实,每个项目都捕捉了解决目标的不同方面,并选择了潜在的能显著推动完成 OpenAI 的指标的方式。

在 2016 年,山姆・奥特曼相信一个真正的通用人工智能应该去创造,去发现量子物理的某个性质,或是单纯为了自己的求知欲和创造欲设计一种新的艺术形式。当很多人工智能研究者通过告诉系统 “那是狗,不是猫” 来纠正错误的时候,OpenAI 致力于让系统自己学习各种事物的原理。对此,奥特曼解释说:“就像婴儿那样。很多人都忘了婴儿学习任何好玩的东西都要好几年。而如果人工智能研究者在开发一个算法,遇到了一些类似于婴儿会遇到的问题的时候,研究者就会感到无聊,然后觉得根本不管用,于是就放弃了。但我们不同,我们不会放弃。”

奥特曼认为 OpenAI 的使命是照顾好自己这个领域的 “神童” 们,也就是通用人工智能的雏形,一直等到这些 “神童” 可以被世界所接受。2016 年春天,奥特曼在旧金山贸易展上的一个私人房间里会见了美国国防部长阿什顿・卡特。当时奥特曼穿着他唯一的西装夹克,那件灰色的夹克尺码颇大,还是他的助手为了一次香港之行,用了些小伎俩才给奥特曼量出来的尺码。面对奥特曼这位硅谷宠儿,卡特开门见山地表明了自己的拉拢态度,他对奥特曼说:“瞧,很多人认为我们国防部又大又官僚主义,斯诺登事件也让我们的口碑不太好。但一见面你就知道,我们其实也是普通人。我们想和你在硅谷合作,利用你们的专长。”

奥特曼对卡特的示好有些意外,他回答说:“当然,那太好了。对于世界上任何公司来说,你们可能都是最大的客户了。” 奥特曼的这句回应没有任何问题,因为美国国防部在 2017 年的研发预算超过了苹果、谷歌、英特尔,而且是这些公司预算加起来的两倍。奥特曼接着说道:“如果你能设立一个对接点,两周之内决定与 YC 的公司开始一些试运行项目,那就再好不过了。” 卡特让身旁的 7 个助手之一记了笔记,追问道:“还有吗?” 奥特曼想了一会,说:“如果你或者你的副手之一能够来 YC 讲讲话,应该会很有意义。” 卡特答应道:“没问题,我亲自来。”

这次会面结束后,前微软高管、现国防部数字部门的领导克里斯・林奇问奥特曼:“你怎么不谈谈 OpenAI?” 奥特曼面无表情地点了点头,却没有正面回应。2017 年美国军方的预算中,有 30 亿美元被划拨给了人工智能领域,尤其是人类与机器的合作,被称为 Centaur Warfighting 计划,而 2018 年的计划还包括研发能自己判定目标的远程导弹等项目,从某些方面来讲,OpenAI 才是美国国防部真正想要合作的对象,因为 OpenAI 的人工智能系统非常适用于这些项目。

然而,是否要将 OpenAI 产品交给政府部门,奥特曼非常犹豫。他告诉记者:“我毫不掩饰地热爱这个国家,在斯坦福大学时,我参与了美国国防部高级研究计划局(DARPA)一个涉及无人直升机的研究项目。但有些东西我们绝对不会和国防部一起做。”

在奥特曼看来,照顾好人工智能需要做的另一件事就是,保护通用人工智能的雏形和背后的技术,让它们不被任何国家、巨头公司或者私人机构所利用。

与马斯克的蜜月时间#

如果人们认为,每一年技术都会自动进步,那么我必须告诉你,事实并不是这样。只有聪明的人疯狂地工作,努力让技术变得更好,技术才会进步。这就是任何技术得以进步的真正方法。你可以去了解古文明的历史,比如古埃及,他们当时能够建造神奇的金字塔,但后来,他们忘记了如何建造金字塔,再后来,他们甚至忘记了如何阅读象形文字;罗马人最早能够建造神奇的道路、水渠和室内管道,但后来他们也忘记了所有建造方案。

—— 埃隆・马斯克

2016 年,山姆・奥特曼和 OpenAI 带着三个目标大步前进,他们似乎扫除了创立后的短暂阴霾,找到了一个相对明确的发展方向。此时,山姆・奥特曼与埃隆・马斯克的关系也来到了最和谐的时期。

2016 年 9 月,山姆・奥特曼在特斯拉加州弗里蒙特的工厂采访了埃隆・马斯克。当时,山姆・奥特曼主要担任 YC 孵化器的总裁,而埃隆・马斯克则忙于特斯拉的事务。特斯拉在几个月前刚刚发布 Model 3 新车型,正在搭建自动化生产线,并且即将深陷 “产能地狱” 的窘境。在这一背景下,两人仍然抽出时间,进行了一次深度对话。

作为采访者,奥特曼没有直接询问 OpenAI 与人工智能的相关具体问题,而是希望花点时间与马斯克聊一聊现在的年轻人应该往哪些方面努力。

奥特曼问的这个问题有一个有趣的前史。25 年前,22 岁的马斯克曾经在朋友们面前大放豪言,说他认为未来最重要的 5 件事分别是:让生命跨越行星、加速向可持续能源过渡、广义上的互联网、遗传学和人工智能。马斯克当时认为,他将参与解决这 5 件事中的全部,或者至少其中几件,成为真正改变、影响这个世界的人。

22 岁的埃隆・马斯克和 18 岁的山姆・奥特曼都一样野心勃勃。但 25 年后,当埃隆・马斯克再次面对类似的问题时,他的想法却完全收敛了:他建议年轻人不必非得改变世界,只需要成为一个有用的人就很好了。马斯克认为,任何人,如果他在做一些对社会、对其他人有帮助的事情,这就是一件好事。只需要对别人提供价值,即使只是创造一个小游戏,或者是改进了照片分享的方式,只要它对大量的人能带来少量的好处,这件事就很好。并不是所有人的目标都非得是改变这个世界。

但是怎么样才能成为有用的人呢?我们应该如何做,才能让自己成为最有用的人?马斯克进一步解释了自己的这个想法,他说:“不管你想创造的是什么,与当前技术水平相比的实用性提升是多少,你都应该乘以这个项目会影响的人数。这就是为什么我刚刚说,创造一些能带来巨大变化的东西,它只要影响少量到中等数量的人,这件事就很棒。换句话说,如果你做的事情只带来了很小的变化,但如果能影响大量的人,也一样出色。”

随后,马斯克谈起自己对未来的看法,他自然而然地提到了自己与奥特曼正在深度参与的人工智能领域,

  • 马斯克说:“就最有可能影响人类未来的事情而言,我认为人工智能可能是短期内最重要的事。我们让人工智能以最佳方式到来,并且进入人类社会,让所有人能够透过水晶球看到未来,大家都会为此兴奋。但就如我们多次讨论的,这件事可能会出错,我们需要确保它以正确的方式发展。因此,投入到人工智能领域,并确保它的未来很美好,这是我认为目前最重要、最紧迫的事情。”

除了人工智能,还有什么事情在未来是重要的?马斯克认为两类技术很关键,

  • 一是生物科学技术,尤其是遗传学,如果人类能真正解决遗传性疾病,能通过基因编辑预防疾病,比如预防阿尔茨海默病,这将造福全人类,改变很多人的命运。
  • 第二类技术与人类和机器的融合有关,马斯克说:“我们有一个数字化的‘第三级自我’,以电子邮件、电脑、电话、应用程序的形式存在。实际上,我们已经是超人了。但我们的大脑皮层和第三级数字形式的自我之间,在接口上的限制相当糟糕。” 他希望能开发一个高带宽的大脑接口,解决人类与机器融合的带宽限制,如果这个技术能够实现,人类将像美剧《上载新生》一样,在某种程度上实现永生。

对于马斯克的许多回答,山姆・奥特曼都表示认同,并且直接称赞了马斯克的无所畏惧,同时奥特曼也问了自己最好奇的地方:“别人认为很疯狂的事,你也愿意去做。我认识很多疯狂的人,但你仍然是最突出的那一个,这个特质从何而来?当所有人都告诉你这是一个疯狂的想法时,你是如何做出决定的?或者说,你是从哪里得到了内在的力量,去做这样的决定?”

马斯克给出的答案是 “恐惧”,他告诉奥特曼:“我认为我对恐惧的感受相当强烈,我并不是没有恐惧感,相反,我的感觉很强烈。但是很多时候,当一件事足够重要,你足够相信它,你就会不顾恐惧,放手去做。人们不应该这样想:‘嗯,我对这件事感到恐惧,我就不应该去做。’感到恐惧是正常的,如果你不感到恐惧,那一定是你的心理有某种问题。” 马斯克认为,在某种程度上,宿命论对他有很大的帮助,马斯克说:“如果你接受了概率,那么,这就能减少你的恐惧。”

当马斯克创建 SpaceX 时,他认为成功的概率不到 10%,但他说他接受了这一点,接受自己很可能会因为创建 SpaceX 失去一切,同时他也相信,如果能向前推进这家公司,人类会在航天领域取得一些进展。即使 SpaceX 倒闭了,其他公司也会接过接力棒,继续向前推进,马斯克认为这仍然是一件好事。马斯克还直言不讳地提到,特斯拉和 OpenAI 一样,创立一家汽车公司和一家人工智能研发机构获得成功的概率都很低。

对谈最后,两人的话题再次回到人工智能和 OpenAI,马斯克再次强调说:“人工智能的风险并不在于人工智能发展出邪恶的自我意志,更令人担心的是,某些人可能会利用自己所开发的人工智能来做坏事,而即使开发者不打算这么做,他们的成果也很可能被其他坏人拿走,然后利用人工智能来做坏事。我认为这样的风险非常大。” 因此,马斯克认为人类必须实现人工智能技术的民主化,并让它能被广泛使用,而这显然就是他与奥特曼创建 OpenAI 的原因 —— 通过 OpenAI 开发并且帮助传播人工智能技术,这样,它就不会被集中在少数人的手中。

而解决这个问题的终极方案与人机融合技术相关,马斯克认为,如果人类能改善大脑皮层和 “数字化人类” 之间的脑机接口,让人类有效地与人工智能融合,每个人都将变成一个人工智能和人类的共生体。马斯克说:“如果这个方案能被广泛获取,任何人都可以拥有它,那么我们也就解决了控制权的问题。我们不必再担心某个邪恶的独裁人工智能,因为整体而言我们就是人工智能。”

这段在特斯拉工厂进行的对谈视频正式对外发布后,有人评论这次对话宛如 “成名前的科比与乔丹的对谈”。这是 OpenAI 两位最关键的联合创始人之间的一次对话,山姆・奥特曼与埃隆・马斯克此时就如同蜜月期的情侣一般,关系融洽,十分默契,对于 OpenAI 的发展都抱有很大信心。他们都没想到,很快 OpenAI 就进入了发展的低潮期,并且在仅仅一年半之后,他们两人,以及他们与 OpenAI 的关系都将发生巨大变化。

打破僵局#

我们所做的一切都只是基于一些简单的想法,但它们正确吗?我们还没有搞清楚,有点茫然。

—— 格雷格・布罗克曼

在马斯克与奥特曼的那场对谈后,2016 年 12 月,OpenAI 发布了软件平台 Universe,可用于在全球游戏、网站和其他应用程序中测量和训练 AI 通用智能。Universe 将帮助 AI 像人类一样使用计算机:通过查看屏幕,操作虚拟键盘和鼠标,助力研究人员开发出一个独立的 AI,使其能够灵活应用其在 Universe 的环境中的经验快速掌握陌生、困难的环境,执行人类能使用计算机完成的任何任务。OpenAI 将这个目标视作开发具备更强通用性的人工智能的重要一步。

Universe 可以视作 Gym 外的新工具包,也是 OpenAI 实现三个目标的重要助力,这三个目标就是此前提到的:建造家用机器人、游戏人工智能,以及通用的、可以通过图灵测试的人工智能系统。而且幸运的是,OpenAI 和奥特曼等人不需要与时间赛跑,因为人工智能领域是一个长期赛道。

OpenAI 的最大竞争对手,谷歌 DeepMind 的创始人杰米斯・哈萨比斯也认同这个观点,他在一次采访中说:“通用人工智能不是那种你可以在某个早上醒来后说‘这是一个很酷的创业想法’的项目。它需要你投入自己人生的全部,片刻不停地去钻研它。这是 DeepMind 和其他人工智能项目最大的区别,我们试图将对计算机科学和神经科学的理解融合在一起,来深入了解系统神经科学,包括大脑使用的算法、知识的表现形式与架构等等。” 现在,在 DeepMind 之外,又多了一个以 10 年、20 年为单位投入人工智能项目研究的机构。

那么,人工智能项目将如何在 20 年内影响人类的生活?奥特曼、布罗克曼和杰米斯有相同的看法,他们都相信,随着这个领域的研发逐渐深入,首先受益的肯定是科学,尤其是在那些需要大量探索的领域,比如埃隆・马斯克和他的特斯拉工厂正在生产并且向普通人提供的自动驾驶汽车,而这只是狭义的人工智能应用之一。如果将这个时间线拉长,杰米斯对通用人工智能的未来有更加大胆的想象,他说:“在 20 年内,许多看起来很复杂的事情,将在分解后变得清晰。比如人类的大脑,我们正在进行脑部扫描,研究涉及创造力和情感的大脑分区,我们准备去构建大脑的模型。这些研究或许可以帮助我们了解大脑的工作过程,如果可以理解大脑如何工作,或许就能让人工智能诞生创造力。到了那个时候,AI 也许可以制作出有趣的电影,也可能写出一本小说。未来充满着可能性。”

而在短期内,比如 5 年,人工智能领域的工作主要是,将人工智能与日常工具结合,让这些工具更加智能,更具适应性。比如在搜索领域,人工智能可以更好地理解人类所提供信息的上下文和意图,就算这些信息很模糊,人工智能也将理解提供信息的人想要做什么;智能手机助手领域也一样,由于它们目前是预先编程的,所以在功能上相当有限,但如果它们变得更聪明,比如手机的主人说 “我想在欧洲旅游”,智能助手就能自动分析手机主人的所有信息,研究其喜好,预订酒店、餐馆和航班,甚至订一些与考古遗址和葡萄酒庄园有关的体验活动,满足手机主人的 “文艺” 需求。这是 OpenAI 和 DeepMind 希望在 5 年内开发应用的技术。

作为后来者,奥特曼和布罗克曼一直紧紧盯着谷歌的动作,参照他们的研发方向,以及对 DeepMind 研究成果的应用,以此进一步细化 OpenAI 的目标,因为一个成功的人工智能系统必定是有用的,并且用途广泛。布罗克曼发现 DeepMind 有五个团队,分别负责将人工智能应用于 YouTube、搜索、健康、自然语言理解和 Google X 的项目上。比如他们努力将人工智能结合进 YouTube 个性化推荐视频的功能中,通过让 AI 分析 YouTube 用户喜欢观看的视频类型,从中学习,更好地为用户推荐他们喜欢的内容。这项应用如今早已成熟,无论我们打开什么类型的应用软件、电商或者内容平台,都能在各种位置看到相关推荐栏,或者干脆是根据喜好生成的信息流瀑布。

2017 年,格雷格・布罗克曼担心被谷歌旗下的 DeepMind 等对手彻底甩在身后,便带头发起了一项计划:他让 OpenAI 的研究员和程序员合作,集中资源开发游戏人工智能,并且选定了一个具体方向:开发出可以玩复杂在线战斗游戏 Dota 2 的人工智能 OpenAI Five。

布罗克曼的这个计划一开始就遇到了问题,甚至险些导致 OpenAI 出现内部危机。因为研究员和程序员分属两个团队,他们的职责相似 —— 研究员专注于训练新的人工智能模型,而程序员则开发新的应用软件让这些人工智能模型工作。但在 OpenAI 的其他项目上,这两个团队之间的关系一直很紧张,一些 OpenAI 程序员低估了研究员贡献的重要性,研究员则把程序员视为技术人员而不是科学家。这也是当时科技公司内部普遍存在的一种状态。

OpenAI 成立后的最初几年,奥特曼和马斯克几乎不去 OpenAI 的办公室,格雷格・布罗克曼和伊利亚・苏茨克维尔负责公司几乎所有日常决策 —— 苏茨克维尔监督研究员团队,而布罗克曼不仅要管理程序员团队,还对公司的经营管理负责。因此布罗克曼必须解决一个难题,就是如何让研究员和程序员从同样的角度出发去工作,Dota 2 项目成为打破僵局、推动内部团队合作的一个绝佳契机。

为了推动这个项目,布罗克曼不停地与研究员和程序员两个团队一起开会,并且拉着他们与 Dota 2 的母公司暴雪的开发人员进行了数小时的电话交谈,以弄清楚如何让玩游戏的软件工作。这是一个技术挑战,因为游戏和 OpenAI 的算法是用不同的编程语言编写的。事实证明,这个技术难关激发了两个团队的求生欲望,他们不得不通过合作闯过这个关卡。布罗克曼的目的因此达到了,两个团队在竞争中合作,逐渐消除了隔阂,而 Dota 2 项目的游戏人工智能开发也有了阶段性成果。经过几个月的通宵工作,2017 年 8 月,OpenAI 在官网宣布,他们的游戏人工智能在国际邀请赛的主舞台上对阵数位顶尖玩家,保持了不败纪录,赢得了所有三场两胜制的比赛。

Dota 2 项目表明,如果有足够的计算能力,自我对战可以将机器学习系统的性能从远低于人类水平提升到超人类水平。在一个月的时间里,OpenAI 的人工智能系统从勉强与高排名玩家匹敌,到击败顶级职业玩家,并从那时起不断改进。OpenAI 发现,受监督的深度学习系统只能与其训练数据一样好,但在自我对弈系统中,可用数据会随着人工智能变得更好而自动改进。他们下一步的计划是创建一个 Dota 2 人工智能团队,与顶级人类团队在 5V5 的游戏中竞争。

论文原标题为 “Attention is All You Need”,“Attention” 在此处一语双关,第一个意思是机器学习中的 “注意力机制”,第二个意思是 “注意力”。这篇论文强调注意力机制才是神经网络架构里最重要的部分,应该把 “注意力” 集中在 “注意力机制” 上。

开发游戏人工智能的阶段性成果帮助布罗克曼成为 OpenAI 的生成式 AI 模型开发的关键人物。OpenAI 的 Dota 2 项目成果发布不久,谷歌的研究员发表了一篇题为《注意力机制是你所需要的 》的研究论文,这篇论文展示了一种名为 Transformer 的深度学习架构,可以帮助研究员们更有效地构建更大的模型,推动各个人工智能实验室着手研究生成式 AI 模型。

OpenAI 一边低头搞研发,一边暗中向自己的竞争对手学习。按理说,他们似乎只需要蛰伏,保有足够的资金,维持研究员团队的稳定性,在一切顺利的情况下就可以等到拐点,实现弯道超车,惊艳所有人。然而事情通常都不会那么顺利,尤其是当人们在做一项伟大的事情时。Dota 2 项目发布几个月后,OpenAI 迎来了自己的低潮期。

陷入低谷#

倾听每个人的意见,然后做出自己的决定。

—— 山姆・奥特曼

虽然格雷格・布罗克曼带领 OpenAI 在 Dota 2 项目上获得成果,弥合了研究员与程序员团队间的隔阂,然而,他却依旧阻止不了 OpenAI 内部出现的另外一个隐患。2017 年开始,这个隐患随着 Dota 2 项目的成功反而更加凸显 —— 人工智能研发太 “烧钱” 了。

虽然山姆・奥特曼早就做了准备,知道 OpenAI 会花很多钱,于是拉到了 10 亿美元的投资承诺,但奥特曼明显还是低估了人工智能领域的 “烧钱” 程度,这和做一家商业公司根本不是同一个级别,尤其是 OpenAI 真正开始运作具体的研发项目后,无论是智能机器人、游戏人工智能,还是人工智能系统,每次微小的数据运算背后都有几张消失的美元。于是 OpenAI 这个仅仅 50 人左右的团队,在小心翼翼的情况下,一年也需要 “烧掉” 一两千万美元,这时候奥特曼才有了一个明确的概念,领会了无底洞这个词的真正意思。

当然这事也不能全怪奥特曼,一方面,奥特曼当时的主要精力还在 YC 孵化器,在创立时拉来 10 亿投资承诺后,他和马斯克基本就成了 “甩手掌柜”,一个蹲在 YC 办公室,一个回特斯拉工厂,刚成立的 OpenAI 被交给了格雷格・布罗克曼,奥特曼和布罗克曼基本都是电话沟通,几周才见一次面。

  • 布罗克曼虽然也年少成名,是个已经成熟的硅谷新贵,但他在商业运作方面明显没有奥特曼厉害,也没有奥特曼的人脉资历;另一方面,硅谷大佬们每一个都是人精,他们承诺的 10 亿美元投资,几乎都分成了很多笔,一点点到账。布罗克曼催一次就给一点,那么今年已经给过了,布罗克曼也不好意思再催,这就导致了 OpenAI 每年的预算都非常有限,只能数着数省着花。

如果我们打开 OpenAI 的税表,可以明显看到,2017 年,OpenAI 的职能支出为 2866 万美元,其中仅仅在云计算一项上就花了 790 万美元,占其职能支出的四分之一,而这项开支的大部分都出自 Dota 2 项目对 CPU 和 GPU 的消耗,而且因为没钱,OpenAI 就连训练人工智能模型的 CPU 和 GPU 都是找谷歌租借的,而且租金不菲。和 OpenAI 形成明显对比的是背靠谷歌这棵苍天巨树的 DeepMind,2017 年 DeepMind 的总支出是 4.42 亿美元,是 OpenAI 的 15 倍以上,而且 DeepMind 需要的,比如云计算、CPU 或者 GPU 等方面的资源,还可以内部申请支持,免费或者打折使用。穷孩子和富孩子之间的差距如此巨大,OpenAI 等于在没钱上各种补习班、请名师辅导的前提下,只能依靠挑灯读书和 DeepMind 这个同样天赋出众的 “富二代” 比成绩,结果自然是惨败。

支出上的缩手缩脚,也导致了 OpenAI 的研发进度缓慢,每次发布研究成果,不是没有在圈内掀起任何水花,就是在和谷歌的对比下成为阴影里的失败者,只能暗中羡慕谷歌 DeepMind 成功出圈,风光无限。比如,2016 年,OpenAI 发布了 Gym 和 Universe,在圈内积攒了一点名气,同时期的谷歌 DeepMind 已经凭借 AlphaGo 击败了顶级围棋选手李世石,引发全世界对人工智能的关注;2017 年,OpenAI 好不容易开发的游戏人工智能,在 Dota 2 1V1 对战中战胜了人类顶级选手,终于上了一次头条,还没过足瘾,Google Brain 就发布了 Transformer 模型,这个模型奠定了所有大语言模型(Large Language Model,LLM)的基础架构,直接震惊了整个业界,让 OpenAI 的成果成了小孩的玩具;之后的 2018 年,OpenAI 基于 Transformer 发布了第一代的 GPT,结果谷歌随后就重磅发布了具有跨时代意义的 Bert,比 GPT 参数大 4 倍,再次抢了 GPT 的风光。可以说,OpenAI 成立后的 3 年时间里,基本都只能跟在谷歌身后,被全面碾压。

在这个过程中,OpenAI 的内部嫌隙开始扩大,此前好不容易挖来的技术大佬中,有不少人因为研发方向不同,或者认为有限的资源和资金支撑不了他们的研发热情,纷纷离开,回到谷歌、Facebook 这些大厂,OpenAI 面临着严重的人才流失问题。

著名研究员、生成对抗网络(Generative Adversarial Networks,GAN)的提出者伊恩・古德费洛就是其中之一,古德费洛以发明生成对抗网络而闻名,这个概念是一种机器学习框架,使用深度学习生成图像,利用两个神经网络来竞争性地提高图像质量。这位布罗克曼好不容易挖来的研究员仅仅在 OpenAI 待了 11 个月,就回到了老东家 Google Brain。在某个论坛里,伊恩・古德费洛曾回答了一位用户的提问,在提到自己离开 OpenAI 的原因时,古德费洛说:“我很喜欢在 OpenAI 的日子,也为 OpenAI 的同事们与我合作完成的工作感到自豪。我重回 Google Brain,是因为随着时间的推移,我发现我的研究集中在对抗样本,以及与差分隐私相关的技术,而这些研究主要是与谷歌的同事合作进行的。”

2017 年 6 月,OpenAI 在失去伊恩・古德费洛后,又损失一名核心研究员安德烈・卡帕斯。卡帕斯毕业于斯坦福人工智能实验室,博士师从华人科学家李飞飞教授,专攻深度学习和计算机视觉,他还担任着斯坦福大学第一门深度学习课程 “视觉识别的卷积神经网络” 的主要讲师,本人曾在 Google Brain、DeepMind 实习,与吴恩达共事,并且待过几乎所有的人工智能深度学习实验室,更重要的是,他乐于而且善于分享自己的经验和见解,在 Twitter 和 Medium 上非常活跃,有 “AI 网红” 之称。卡帕斯的离开让 OpenAI 彻底军心不稳,因为从 OpenAI 挖走卡帕斯的不是别人,正是特斯拉公司,卡帕斯离开后不久,特斯拉就官宣卡帕斯成为他们自动驾驶项目的架构师。这也意味着这次挖人获得了 OpenAI 的联合创始人之一埃隆・马斯克的默许。

马斯克默许特斯拉挖走 OpenAI 的核心研究员这件事,让 OpenAI 的员工们非常不悦。就在外界和 OpenAI 内部仍然在消化这一消息时,一个重磅消息传来:OpenAI 在官网宣布与埃隆・马斯克和平分手。

与马斯克分道扬镳#

关于埃隆・马斯克最好的一点就是,他可以时刻提醒我们,作为一个人能有多大潜能,创造多大价值!

—— 山姆・奥特曼

2018 年 2 月,OpenAI 在官网宣布引入了新一批捐赠者,其中包括游戏公司 Valve 创始人加布・纽维尔、YC 孵化器 CEO 迈克尔・赛贝尔等等。与此同时 OpenAI 还表示,他们正在寻找更多的捐赠者,希望筹集到更多的资金,用来增加人员和计算资源方面的投入,进而继续在人工智能领域进行研发,确保人工智能造福全人类的目标能够实现。

有意思的是,如果盘点这一批捐赠者的人际关系,比如 YC 的 CEO 迈克尔・赛贝尔,还有加布・纽维尔等人,我们会发现,这些人几乎都是山姆・奥特曼和格雷格・布罗克曼的朋友,他们俩甚至拉来了美国和加拿大两位十项全能运动员参与捐赠。换句话说,新一批的捐赠者和 OpenAI 的另一位核心创始人埃隆・马斯克一点关系都没有。而原因就跟在捐赠者名单之后 ——OpenAI 宣布埃隆・马斯克将退出 OpenAI 的董事会。

面对各种各样关于马斯克离开原因的询问,OpenAI 解释说:“马斯克退出董事会是为了避免在未来产生冲突,因为特斯拉越来越关注人工智能领域,双方存在一定竞争。”OpenAI 强调,马斯克离开后仍将继续担任 OpenAI 的顾问,参与部分事务,并且将继续作为 OpenAI 的捐赠者提供支持。马斯克突然离开 OpenAI 的消息在业界引发了轩然大波,所有人都相信,马斯克的离开,在某种程度上坐实了 OpenAI 内部发生了激烈的斗争这一传闻,尤其联想到几个月前特斯拉刚刚挖走了核心研究员安德烈・卡帕斯,多家媒体都报道称马斯克的离开是挖人事件的后续。挖人事件让 OpenAI 的员工们非常不满,在这样的情况下利益冲突和矛盾越发明显,最终逼走了埃隆・马斯克。

埃隆・马斯克离开 OpenAI 的真正原因是什么?面对各种各样的流言和八卦,无论媒体多么想要挖出背后的秘密,OpenAI 内部所有员工,包括格雷格・布罗克曼、山姆・奥特曼和埃隆・马斯克三位当事人,全都采取了缄默策略。OpenAI 和埃隆・马斯克分别回到自己的工作上,聚焦于各自的项目,似乎在传达一个信息:和平分手,就是这个故事的最终版本。

无奈之下,嗅觉敏锐的媒体已经转向报道马斯克的离开对 OpenAI 的影响。他们发现,马斯克离开 OpenAI 的董事会后,几乎在任何场所都不再主动聊起自己亲手参与创立的这家人工智能机构,同时也不在社交平台上与山姆・奥特曼互动,两人似乎成了陌路人。另一方面,马斯克在离开 OpenAI 之后,事实上就立即停止了捐赠,根据 Wired 杂志以及科技媒体 Semafor 的报道:马斯克和 OpenAI 分手后,他兑现的捐赠仅在 1 亿美元,是原本承诺投资数额的十分之一。更糟糕的是,成立之初的 10 亿美元是一个目标数字,其中一些投资人也和马斯克有关系,马斯克的离开可能会引发传导效应,影响这些人继续支持 OpenAI。

马斯克的离开和他尚未兑现的捐赠,将 OpenAI 一下推到了一个非常不利的境地:训练 AI 模型比之前想象得要更 “烧钱”,如果 OpenAI 无法在技术上实现突破,可能很快就要关门大吉。人才流失、资金紧张、重要创始人离开…… 用一句老套的话说就是,留给 OpenAI 的时间不多了。

而我们熟悉的国内创新工场董事长、创新工场 AI 工程院院长李开复在 2017 年年底曾前往北美,参与了一系列人工智能领域的活动,回国后他发表了一篇《北美 AI 见闻录》。在文章里,李开复也提到了 OpenAI 当时面临的问题,他这样形容 OpenAI:“这样一个当初被寄予厚望的 AI 组织,希望它可以抗衡谷歌,现在看来基本是不可能的了。” 李开复揭露,除了此前提到的伊恩・古德费洛和安德烈・卡帕斯,OpenAI 正面临更多核心人物的流失:包括专注强化学习领域的加州大学伯克利分校教授彼得・阿比尔,以及研究员陈品山、段洛基等等,而这些技术大拿和研究员离开的核心原因基本一致 —— 他们认为,OpenAI 无法产出成果,同时开源的进度有限,团队实力远远弱于 DeepMind。

李开复特地提到了马斯克,他说:“因为 OpenAI 这个组织跟马斯克关联紧密,所以有时候马斯克自己其他公司的事情,比如特斯拉,也让 OpenAI 的科学家帮忙出主意什么的,OpenAI 似乎成为马斯克的智囊团了。这个本身算不上特别大的问题,但毕竟会让有些人才心里很不舒服。”

李开复的这篇文章似乎揭开了一部分 OpenAI 内部的矛盾,也解释了通告里所谓的利益冲突,它们实际上比公众所知道的情况更加复杂。埃隆・马斯克离开 OpenAI 的背后到底有什么样的故事呢?

2019 年,在 OpenAI 因为一次技术展示上了新闻头条受到关注后,埃隆・马斯克突然发了数条 Twitter,提到了一年多之前,自己离开 OpenAI 董事会的事情。马斯克说:“澄清一下,我已经一年多没有密切参与 OpenAI 的管理或者董事会监督事宜,我不得不专注于特斯拉和 SpaceX 的大量制造问题,此外,特斯拉正在与 OpenAI 争夺一些人才,我也不同意 OpenAI 团队想做的一些事情。这些加起来,当时最好的方式就是分道扬镳。” 马斯克的突然发声再次将大众的目光拉回到 2018 年年初 OpenAI 的分手风波,此时几乎所有人都能从马斯克的话里看出他的不愉快,以及他与 OpenAI 有过冲突和矛盾。

直到 2023 年 3 月,马斯克和奥特曼在 OpenAI 的秘史,才由 Semafor 完整曝出。

原来在 2017 年年底,马斯克就坐不住了。熟悉马斯克的读者都知道,马斯克有着非常强的占有欲和掌控欲。

  • 根据 Semafor 的信源爆料,马斯克在 2017 年年底时,突然来到 OpenAI 办公室,向董事会提议,他要当 CEO,全面接管 OpenAI。因为当时 OpenAI 研发进展缓慢,丝毫没有能赶上 DeepMind 的迹象,马斯克担心 OpenAI 将彻底失败,试图重整这家人工智能机构。而马斯克的办法也很简单,就是由他来主导 OpenAI。但马斯克一直忙于特斯拉的工作,是否会有足够时间呢?马斯克也想到了这一点,所以他提出,如果 OpenAI 能以某种方式和特斯拉更紧密地合作,他就能兼顾这部分工作,而且因为特斯拉是一家营利性公司,有能力筹到更多资金,因此能够更好地开发通用人工智能。

马斯克提出的这个解决方案,遭到了当时管理 OpenAI 的联合创始人格雷格・布罗克曼和许多 OpenAI 员工的强烈反对,他们认为,马斯克这样做会助长一场将速度置于安全之上的 AI 军备竞赛,大家都想率先实现通用人工智能。

这时候山姆・奥特曼的态度尤为关键,令马斯克失望的是,奥特曼最终站在了布罗克曼一边,拒绝了马斯克的提议。原因也很简单,当时特斯拉 Model 3 正在遭遇 “产能地狱”,被市场疯狂做空,一直有传言说特斯拉很快就要破产了。在这样的情况下,马斯克每天都焦头烂额。因此,奥特曼判断马斯克并没有真正能兼顾 OpenAI 的时间和精力,所谓并入特斯拉只是一种说辞。

不久后,马斯克主动提出退出 OpenAI 董事会,于是有了最开始 OpenAI 的那篇公告。马斯克与奥特曼分道扬镳,对 OpenAI 造成了非常深远的影响,也让山姆・奥特曼受到了震动。奥特曼意识到,如果他真的想要做好人工智能,搞好 OpenAI,就必须做出一个抉择,是继续做 YC 孵化器的总裁,还是完全接手 OpenAI?此时,距离山姆・奥特曼正式接管 OpenAI 还有 1 年 3 个月。

逆境下的成果#

我只是一个解决问题的人,花几周时间找到第一个问题,然后解决这个问题。

—— 格雷格・布罗克曼

马斯克的离开对 OpenAI 和山姆・奥特曼的人生产生了难以预估的影响,然而在 2018 年时,奥特曼仍然没有做出自己的决定。

当时,OpenAI 的掌控人仍然是格雷格・布罗克曼,在布罗克曼的努力维持下,OpenAI 大体保持了此前的研究状态,继续在家用机器人、游戏人工智能和人工智能系统三个方向深挖。

2018 年初夏,OpenAI 开始快速推进对 Dota 2 游戏的人工智能 OpenAI Five 的研究。和之前在 1V1 对战中战胜全球最顶尖的人类玩家不同,这次 OpenAI 的游戏人工智能实现了大的跨步,他们决定直接进行和人类玩家的 5V5 正式比赛,这个决定相应地也大幅增加了研究成本,因为人工智能的训练需要通过不断地对战来实现,而 5V5 人工智能训练难度和 1V1 对比,对资源的要求有了指数倍的增长。为了加快研发速度,OpenAI 在多台服务器上同时运行 5V5 对局,对人工智能进行训练。OpenAI 一共向谷歌租借了 128000 个 CPU 核心和 256 块 GPU 加速器。这样的设备规模一天内就可以让人工智能累计相当于 180 年的游戏对局时间,这大大加速了人工智能的训练速度。

到了 6 月,OpenAI Five 的能力得到迅速提升,能够在正式比赛中击败业余和半职业玩家组成的团队。之后在 2018 年 Dota 2 的国际邀请赛上,OpenAI Five 与职业战队进行了两场比赛,一场对阵巴西的 paiN Gaming,另一场对阵由前中国选手组成的全明星队。虽然人工智能输掉了两场比赛,但 OpenAI 仍然认为这是一次成功的尝试,因为与最优秀的人类玩家对战让研究员能够分析和调整他们未来的算法。2019 年 4 月,OpenAI Five 在美国旧金山最后一次公开出现,人工智能在与上年度国际邀请赛冠军 OG 的三局两胜制比赛中获胜。之后,OpenAI 举行了为期四天的在线活动,向公众开放,让玩家们与人工智能对战,在一共 42729 场公开比赛中,人工智能赢得了 99.4% 的比赛。

紧接着,OpenAI Five 被媒体拿来与其他类似的游戏人工智能进行比较,比如游戏《星际争霸 2》中的 AlphaStar、围棋游戏的 AlphaGo、国际象棋的深蓝等等,人工智能领域的研究员认为,由于 Dota 2 的复杂程度远远高于其他游戏,人工智能需要以每秒 30 帧的速度运行,平均比赛时间为 45 分钟,每场比赛产生约 80000 次计时,OpenAI Five 每 4 帧观察一次,生成约 20000 次移动。相比之下,国际象棋通常在 40 步之前结束,而围棋在 150 步之前结束。因此,OpenAI Five 提供的研发数据成果,对人工智能在其他应用的发展最有参考意义。

布罗克曼也表示,通过选择像 Dota 2 这样复杂的游戏来研究机器学习,他们可以更准确地捕捉现实世界中看到的不可预测性和连续性,从而为人工智能构建更通用的问题解决系统,包括强化学习算法。实际上,OpenAI Five 的同一套算法和代码,一直应用于 OpenAI 的另一个研发方向:家用机器人。

2018 年 7 月,OpenAI 在官网宣布他们在家用机器人方向的研发有所突破,成果就是名为 Dactyl 的机械手系统。OpenAI 的研究员们结合 Dota 2 游戏人工智能的成果,找到了一种给机械手编程的方法,让机械手可以使用它自学的类似人类的动作。格雷格・布罗克曼谈到 Dactyl 系统时说:“我们已经训练了一只类人类机械手,它可以以前所未有的灵巧度来操纵物理对象。” 在一段 OpenAI 发布的展示视频中,Dactyl 按要求将一个方块转动成了 50 个不同的方向。

Dactyl 的工作原理是在模拟环境中训练机械手系统,然后将在模拟环境中获得的知识与经验转移到现实世界中,最终通过强化学习和模拟来教机器人如何解决现实世界中的任务。2018 年,模拟学习在人工智能领域中变得越来越普遍,Dactyl 代表了一个里程碑,它能够很好地执行自己在现实中的任务,用一系列动作高效地完成即时指令,而不需要再由研究员进行单独编程。

布罗克曼表示,Dactyl 的优势来自一种被称为 “域随机化” 的方法。不同于那些专门制造出来用于解魔方的机械手,动作完成是人工编程干预的结果,Dactyl 在虚拟环境中完成自我学习,并在训练过程中增加大量随机事件,让 Dactyl 在这个过程中自己领悟出完成任务的诀窍。比如,有时机械手被要求调整自己的角度,或者需要拿取的木块可能比通常任务中的更重。人类并没有专门为机械手的操作进行编程,一切都是靠 Dactyl 自己领悟。Dactyl 的成功意味着机器人有了自我学习的意识和能力。

OpenAI 的机器学习工程师亚历克斯雷说:“我们的学习算法在所有这些不同的模拟世界完成了自己的任务,这让它学会了一种非常强大的操控方块的方法,以至于最终我们可以在现实世界中完成同样的任务。” 根据 OpenAI 公布的数据,Dactyl 已积累了大约 100 年的训练经验,而在现实中这个过程仅为 50 小时。可以试想一下 Dactyl 在虚拟世界中学习人类多种技能,积累了数万年的训练经验,而现实中仅过了几个月而已。

除此之外,Dactyl 的另一个有趣的特点是它使用了一些人类几个手指之间相互配合出的典型动作,例如翻转物件、滑动物件、变换握姿等等,研究员还发现,人工智能相比人类更喜欢使用它的机械小指,这可能是因为它的小指具有额外的灵活性。但这些都不是 OpenAI 的研究员教会它的,这意味着这些动作是人工智能在模拟训练中自主学会的。人工智能在深度学习技术的加持下远远比我们想象得更加强大,进化得也更加迅速。2019 年,OpenAI 进一步证明 Dactyl 机械手系统可以解魔方,OpenAI 将这一壮举视为机械手具备灵巧性和思辨性的证明,未来将有可能逐步把同样的技术应用于其他 AI 软件上。

能够操控机械手的 Dactyl 系统的出现,以及游戏人工智能 OpenAI Five 的突破,让 OpenAI 在马斯克离开后重新站稳了脚跟。与此同时,这两项技术的成果跟 OpenAI 在人工智能系统语言模型方面的研究突破比起来,只能算是小插曲。真正的好戏,仍然属于后来 OpenAI 的绝对主角,最终引爆全球的 ChatGPT 初代版本 —— 大名鼎鼎的 GPT。

GPT 概念的诞生#

如果你认为你已经理解了人工智能的影响,那么你实际上并没有理解,还需要进一步接受指导。如果你知道你自己并没有理解,那么你才是真正地明白了。

—— 山姆・奥特曼

2018 年 6 月,OpenAI 在官网上发布了一篇关于通用语言模型的研究,虽然全文都没有出现过 GPT 这个名词,但实际上这篇文章讲的就是 GPT-1。

文章里提到了一个叫作 Generative Pre-trained 的概念,也就是 GP,翻译成中文叫作 “生成式预训练”。GP 是机器学习应用程序中一个由来已久的概念,但直到 2017 年由谷歌发明了 Transformer 的架构才开始得到应用,这个架构直接催生了大型语言模型的出现,包括其中最具代表性的 Generative Pre-trained Transformer,取三个首字母缩写,就是大名鼎鼎的 GPT。

什么是大语言模型?其实就是指在海量文本数据上训练,通过无监督、半监督或自监督的方式,学习并掌握通用的语言知识和能力的深度神经网络模型,简单理解大语言模型的运作模式,可以参考中国的一句古话:读书破万卷,下笔如有神。大语言模型就是非常爱看书的超人。

在基于 Transformer 的大型语言模型出现之前,性能最好的神经自然语言处理模型通常从大量手动标记的数据中进行监督学习。对监督学习的依赖使它们无法利用没有标记的数据集,也使得训练极大的语言模型变得非常昂贵和耗时。比如说你想训练一个可以做中英文翻译的 AI,你需要提前准备好大量中英文对照的句子,并且提供给 AI 去学习;同样,如果你想训练一个 AI 聊天机器人,你需要准备大量的一问一答对话,这些都需要人工制作。

而生成式预训练解决了这些问题,因为这种训练方式不需要人工标注,研究员可以直接拿着人类已有的现成文字、语音、视频资料去训练 AI。比如让 AI 根据上文续写下文,如果 AI 续写的内容和原文一样,那就判断正确,要是不对,就继续训练它朝着对的方向续写。这种训练方式令研究员不再需要花大量的资源和时间用于人工准备答案,因为在一篇文章或者一个故事里,下一句话就是上一句话的答案,下一个词就是上一个词的答案。理论上人类现有的所有文字资料都可以作为训练数据,直接喂给 AI,让 AI 自己去学习,这种数据量远远大于现有的任何人工制作的资料。

我们会发现,这样的训练方式和人类小时候的自主学习过程很相似,我们本身就是通过阅读词典和课文,通过文章和造句来学习词汇的用法和意思,最终学会自如使用,并且写出高分作文。研究员就是用同样的办法训练 AI,让 AI 从海量文本资料里学习遣词造句。唯一的区别是,AI 的学习速度远远超过我们。

OpenAI 的研究员发现,这样训练出来的 AI 潜力极强。如果用中英文对照的数据集去进一步训练它,它就能做到比现有任何的翻译 AI 都更准确。如果用问答对话数据集让它进一步学习,它就能成长为聊天 AI 里的顶级选手。而提高它的能力所需要的唯一资源,就是钱。因为这个预训练过程不需要人工编写答案,所以人类现有的所有文字、语音、视频信息,全都可以喂给 AI 模型去学习,这会导致人工智能的神经网络模型的参数量不断增大,用以支撑的硬件设备等消耗也急速增加。理论上,只要 OpenAI 能够有足够的钱扩大模型规模,提升参数总量,他们的人工智能的进化速度就会将其他对手远远甩在身后,这是一条没有天花板的进化之路。

所以,GPT 的出现,让山姆・奥特曼在 YC 孵化器彻底待不住了。一方面这一方向的成果表示 OpenAI 在人工智能的未来竞争中第一次有超越谷歌的可能;另一方面 GPT 进化所需的资源,布罗克曼搞不定,只有奥特曼来才可以。但如果山姆・奥特曼还是像此前一样,并不是全身心投入 OpenAI,而只是把这家机构当成一个类似兼职的存在,那么他根本拉不到巨额投资,因为没有人会仅仅因为人情关系就投入几千万,甚至上亿,但此时百十万这种小打小闹的慈善捐赠,已经完全满足不了 GPT 进化的需求。

这个时候,山姆・奥特曼意识到,自己必须要站出来了。他在短时间内做出决定,并且开始着手安排 YC 的接任者。2019 年 3 月,奥特曼辞去 YC 的总裁职位,斩断自己的后路,彻底进入人工智能领域,参与 OpenAI 的管理运作。奥特曼的这个重要决定,也直接帮助 GPT 迅速进化,最终于 2022 年年底诞生了 ChatGPT。然而,从 2019 年 5 月奥特曼执掌 OpenAI,到 2022 年 11 月 ChatGPT 引爆全世界,这 3 年半的时间里,奥特曼面临着各种各样的困难,比如他需要带领 OpenAI 进行一次革新,从非营利机构转向一家更商业化的公司,以此获得研究资金,而这件事违背了 OpenAI 成立的初衷,也遭到了很多内部研究员的反对。奥特曼将如何带领 OpenAI 度过难关?

获得成功的 13 个诀窍#

我们需要努力尝试,让世界屈服于你的意志!

—— 山姆・奥特曼

山姆・奥特曼曾经总结过自己成功的三大要素:

  • 一是 “Be willful”(任性);

  • 二是 “Be bold”(大胆);

  • 三是 “Have almost too much self-belief”(超级自信)。

  • 如果我们以上帝视角观察山姆・奥特曼的前半生,会发现这三个关键词确实概括了奥特曼的人生轨迹,也诠释了每一次走到人生十字路口时,奥特曼是如何在众多选项里,选出了当下最适合的道路的。

IMG_20241126_084452

从大学肄业创立 Loopt 到执掌 YC 孵化器,再到联合创立 OpenAI,山姆・奥特曼的出手次数并不多,却每次都能收获自己想要的东西。Loopt 帮他赚到人生的第一桶金,YC 帮他累积人脉、商业嗅觉与投资经验,OpenAI 则是奥特曼宏图大志的起点。你是否好奇山姆・奥特曼到底有什么秘诀,能够在不同的领域持续发挥天赋和创造力,获得成功?在正式展开山姆・奥特曼成为 OpenAI 的新任 CEO 后的故事前,我们先通过一篇奥特曼的私人笔记,来探究奥特曼是如何在自己的人生中大获成功的。从奥特曼分享的 13 个成功诀窍中,或许我们能有所启发。

我观察了成千上万的创业者,并且思考了很多关于如何赚大钱或创造重要事物的问题。通常,人们一开始都想要赚大钱,最终却渐渐走向后者,希望实现个人的价值。我想分享 13 个诀窍,其中大部分适用于任何人,希望能帮助你走向通往成功之路。

第一个诀窍是 “复利”,复是重复的复,利是利益的利。或者你可以理解成,为自己选择非线性增长的成长方式。要知道,复利的力量是神奇的,无论何时都要寻找它,因为指数曲线才是创造财富的关键。一家中型公司如果能够保持每年增长 50% 的速度,它将在短时间内变成巨头,可惜世界上很少有公司真的能做到这一点。对于个人来说也一样,想办法成为一条指数曲线,让你的生活开始遵循一个逐渐向上的轨迹,尤其重要的是,要朝着具有复合效应的职业发展,因为大多数职业的发展都是相对线性的。

你肯定不想被困在一个职业中,有些人仅仅进入一个行业两年,就可以和那些做了二十年的人拥有相同的工作效率。所以尽可能提升自己的学习速度是复利的关键。随着你职业生涯的发展,你所做的每一份工作都应该产生越来越多的成果。有许多方法可以帮你获得这种杠杆效应,例如资本、技术、品牌、营销能力和管理能力。

集中精力在你定义的成功指标上,无论是金钱、地位、对世界的影响或其他任何东西,想办法让这些指标翻倍,或者后边添一个零。我自己就很愿意在当下的工作中,花费尽可能多的时间来找到我想做的下一个项目,我希望下个项目如果成功,能使我职业生涯的其余部分看起来像一个脚注。大多数人都会陷入线性机会的泥潭里,因此停下脚步。

我认为,无论是对公司还是对个人的职业生涯,商业中最大的竞争优势,都是广阔的视野和长期的思考。优秀的人或者公司都会去做一个让自己复利增长的事业,让自己的增长越来越快,优势越来越大。复利增长的显著特点之一是重视未来,在一个几乎没有人真正具有长期视野的世界里,未来会给予你丰厚的回报。因为线性的人生是恐怖的,相信指数曲线,耐心等待,抓住机会,你会得到惊喜。

获得成功的第二个诀窍是要有绝对的自信。自信心是非常强大的力量,我认识的最成功的人几乎都以自我为中心,甚至到了妄想的地步。如果你不相信自己,就很难让自己对未来产生更有创造力的想法,进而创造最大的价值;但如果你能够在很早的时候就培养出自信心,随着你的经历越来越丰富,解决更多的困境,获得更多的成果,这些经验将反过来帮助你建立信心,让你知道自己的判断是正确的,这样你将解决更大的困难,获得更多信心,不断正循环。

如果你在创业或者带领团队,那么,管理你自己的士气和你团队的士气,是大多数情况下最大的挑战。因为你越是雄心勃勃,这个世界就越想打垮你,如果你连自己都不相信,就很难在人群中找到一个你的方向并且坚定地走下去。

我记得很多年前,埃隆・马斯克带我参观了 SpaceX 的工厂,他详细地谈到了制造火箭的每个部分,但让我印象最深的是,当他谈到要将大型火箭送上火星时,他脸上表露出来的绝对肯定的表情。我离开时想:“嗯,这就是所有人都应该保有的信念。” 大多数非常成功的人,至少在某个时候对未来的预测非常正确,而当时人们认为他们是错的。这也是他们成功的原因之一,他们对自己的预测有强大的信心,这让他们领先所有人,避开了更多的竞争。

但要注意,自信必须与自我意识相平衡。我曾经讨厌任何形式的批评,并且回避被人批评这件事。现在,我试着先假设批评是有用的、正确的,先去听一听,然后再决定是否要采取行动。寻求真相很难并且经常是痛苦的,但这正是自信和自我欺骗之间的区别。这种平衡可以帮助你避免骄傲自满或者脱离实际。

第三个诀窍是学会独立思考。为什么我在 YC 的时候一直觉得很难教别人创业这件事?因为原创思维很难教会。学校也不会教你怎么拥有原创思维,反而会奖励你按部就班地根据课本知识考高分,所以你必须自己培养它。#

你可以从手头的某件事开始思考并尝试产生新想法,也可以找到能够交换想法的人,这是产生原创思维更好的方法。有了原创思维后,下一步是在现实世界中快速测试这些想法。“我会失败很多次,但我会真正正确一次” 是创业者应该领悟的道理。你必须给自己很多次机会,最终才能抓到一丝运气。

我曾经学到的最有力的教训之一就是,可以在看似没有解决方案的情况下找到唯一能做的那件事。你做的次数越多,你就会越相信它。毅力来自你可以在被击倒无数次后重新站起来。

第四个诀窍是做一个好的 “销售”。光有自信是不够的,你还必须让其他人也相信你所相信的东西

在某种程度上,所有伟大的职业都是销售工作。你必须向客户、潜在员工、媒体、投资者推荐你的计划。你需要鼓舞人心的愿景、强大的沟通技巧、个人魅力和执行能力的证明。如果你善于沟通,尤其是书面沟通,它将为你带来很高的价值。对于如何沟通,我的建议是,首先确保你的思维清晰,然后尽可能使用简洁明了的语言。

想要成为销售高手,真诚是你最好的武器,真正相信你所销售的东西。提高销售能力就像提高任何其他技能一样,任何人都可以通过不断练习变得更好。但出于某种原因,也许是因为它令人反感,许多人将其视为无法学习的东西。另一个重要的销售秘诀是,在重要的时刻亲自出现,这个秘诀曾经三次改变了我的职业生涯,成为我人生的转折点。

第五个诀窍是让自己习惯风险。大多数人高估了风险,低估了回报。承担风险很重要,因为你不可能一直正确,你必须尝试很多事情,并在过程中不断适应新环境。

在职业生涯早期,冒险往往更容易,因为你没有太多可失去的东西,但回报是巨大的。你可以尝试寻找小赌注,如果错了,你会输掉手上已有的筹码,但如果成功,你可以赚 100 倍,然后在同一个方向下更大的赌注。

在 YC,我们经常注意到长期在谷歌或 Facebook 这些大厂工作的人,都存在一个问题。当人们习惯了舒适的生活、可预测的工作,以及自己在小范围内积攒的声誉时,就很难抛下这一切。即使他们短暂离开了,回去的诱惑也很大。人的本性会更重视短期收益,而非长期成就。

你可以跟随你的直觉,花时间做一些对你而言真的很有趣的事情。尽可能让你的生活保持灵活性,控制开支可以让你保有冒险精神,当然你会付出其他代价。

第六个诀窍是保持专注。保持专注能够让你工作效率倍增。几乎我见过的每个人,都会因为花更多时间思考应该关注什么,而最终受益匪浅。做正确的事比长时间工作更重要。大多数人将大部分时间浪费在无关紧要的事情上

一旦你弄清楚该做什么,就快速地完成一小部分优先事项。我还没有遇到一个行动迟缓却非常成功的人。

第七个诀窍是努力工作。你可以用聪明的方式工作或者努力工作来达到行业前 10% 的位置,但如果要进入前 1%,你需要又聪明又努力,因为你将与其他同样有才华的人竞争,他们有很好的想法,也愿意付出很多努力

极端的人获得极端的成果,大量的工作会带来生活平衡的问题,即便你决定不那么努力,也是完全符合理智的。但生活中最大的乐趣之一就是找到自己的目标,我不清楚为什么在美国的某些地区,努力工作已成为一件坏事,但在世界其他地方,人们的能量和动力正在迅速成为新的标杆。

卖命一般地工作是大多数人成功的必要条件,但你必须弄清楚如何既能努力工作又不至于精疲力竭而崩溃。每个人都在寻找自己的策略,但有个策略几乎总能奏效,那就是和你喜欢的人一起工作。我认为那些假装可以在大部分时间不工作,却在职业上获得成功的人是在帮倒忙。事实上,工作耐力是长期成功的最大影响因素之一。关于努力工作,我还有一点想说的:在你职业生涯的初始阶段就开始努力,努力工作像复利一样,越早这样做,获得好处的时间就越长。

第八个诀窍是做大胆的决定。我相信,做一个困难的创业公司要比做一个简单的创业公司更容易获得来自社会的帮助和每个人的支持。让自己变得更有野心,不要害怕从事你真正想从事的工作,当所有人都在做一个简单的项目时,你可以大胆一些,去追求自己想象中的事情。跟随你的好奇心。让你感到兴奋的事情,往往也会让别人感到兴奋

第九个诀窍是任性、执拗一点。大多数人都不会认识到,其实我们是真的可以改变这个世界的。他们往往怀疑自己、放弃太早或者没有足够努力,导致他们无法充分发挥自己的潜力。大胆追求自己想要的事情,或许你会经历痛苦的失败,但是如果你成功的话,回报也是巨大的

那些说 “我要继续努力,直到这个目标实现,无论挑战是什么,我都会想办法解决” 的人,他们之所以能成功,是因为他们认真对待自己的目标,足够坚持,最终等到了机会,好运降临。Airbnb 就是一个很好的例子。执拗且乐观才可以走到最后。或许悲观者是正确的,但是乐观者才是成功的。

第十个诀窍是找到你的独特竞争力。你会发现一个很难被超越的公司才会有更高的估值,人也一样。如果你所从事的工作很容易被别人模仿,那未来一定会有一个更便宜的人替代你的位置,去做同样的事情

大多数人都在模仿别人的行为,这种模仿行为通常是错误的,如果你在做其他人也在做的事情,你就很难有竞争力。解决方法就是找到你自己的独特竞争力,你可以通过学习跨学科知识、掌握跨领域经验,或者建立人脉关系和个人品牌,来形成自己的竞争力。

第十一个诀窍是建立人际网络。大部分工作几乎都需要团队合作,建立一个有才华的人际网络,能帮助你做成很多事情。这个人际网络的规模可能会决定你的成就

每个人都有自己擅长的地方,用你的优势而不是弱点来定义自己,承认自己的弱点在哪,并想办法解决它们,不要让它们阻止你做你想做的事。我经常听到有人想要做某件事情的时候会说 “我不能做 X,因为我不擅长 Y”,这句话的背后反映出其创造力的缺乏,弥补弱点的最好方法是找到和你互补的人。

此外,建立人际网络还需要做好这几件事情:坚持利他主义并且对队友忠诚;

  • 擅长发现被低估的人才;和优秀的有正能量的人在一起。

  • 我自己因为坚持这几件事最终受益,比如长期坚持帮助别人,让我得到了最好的职业机会,还获得了三个最棒的投资机会。如果你也想找到一位伯乐,在你的职业生涯初期投资你,最佳方法同样是尽一切可能去帮助别人!

  • 第十二个诀窍是资产决定财富。我小时候一直有个误解,人们因为有高工资而变得富有,但长大后才发现,只靠薪水是根本进入不了福布斯榜单的。想要变得富有的方式是拥有能够迅速增值的东西,比如公司期权、房地产、知识产权或其他类似的东西。

最后一个诀窍是内驱力。大多数人主要受到外部驱动而努力。他们努力工作完成事情,是为了给别人留下好印象、获得认可。这是不对的,有两个重要的原因:首先,这会导致你不得不遵从一套落伍的规则来推进自己的职业生涯,你会过于在意别人的看法,这可能会阻止你做自己真正想做的工作;其次,这会导致你错误估计风险,你会专注于跟上其他人的步伐,不想在团队里落后或者被孤立,这会导致你不敢承当风险,激发自己应有的潜力。

越聪明的人似乎越容易受到外部驱动的影响。

但我认识的最成功的人都是内部驱动的,他们做事情是为了给自己留下好印象,因为他们觉得有责任让世界变得更好。在你赚到足够多的钱可以买任何你想要的东西,并且获得足够高的社会地位,以至于再也没有更多乐趣让你去追求社会地位之后,这是我所知道的唯一一种在你功成名就后,能够继续推动你前进的力量。这就是为什么一个人的内在行为动机如此重要,也是我试图了解某个人的第一件事。

在这方面,杰西卡・利文斯顿和保罗・格雷厄姆就是我的参照。YC 在成立后的最初几年被很多人嘲笑,几乎没有人认为这家与众不同的孵化器会取得巨大成功。但杰西卡・利文斯顿和保罗・格雷厄姆无所谓,他们认为,如果 YC 能成功,这将对世界有巨大的贡献。他们喜欢帮助人们,他们确信他们的新投资模式比过去的模式更好。

最后我想说,“获得成功” 的定义实际上与你重视的领域有关,你在自己重视的领域表现出色,才能证明自己的成功。因此,你越早朝正确的方向努力,你就能走得越远,因为你根本无法在任何你不痴迷的事情上获得成功。

折时刻的恐慌#

我第一次创业时输得很惨 —— 糟透了!但我在第二次创业时做得很好。

—— 山姆・奥特曼

在 2018 年之前,山姆・奥特曼在 OpenAI 内部一直只是挂着 “董事” 的职位,当时,OpenAI 的 CEO 一直是格雷格・布罗克曼。

IMG_20241125_215214

曾在 OpenAI 工作过的前员工回忆:“当时在公司很难见得到奥特曼本人,因为那时他还是 YC 的掌门,很大一部分时间其实都在处理那边的工作。” 在与埃隆・马斯克决裂之后,OpenAI 开始了创立后最艰难的一段时期,尽管在格雷格・布罗克曼的带领下,OpenAI 在 2018 年 6 月前后陆续发布了多个成果,其中包括当时还没有引发业界关注的生成式预训练模型 GPT。但所有这些都依旧挽回不了人才的持续流失,OpenAI 和山姆・奥特曼一起走到了命运的十字路口。

2019 年年初,硅谷和人工智能领域流传着一个不知真假的消息 —— 山姆・奥特曼有意辞任 YC 孵化器总裁职位,全职投入 OpenAI 的运作。很快,这条消息有一半被证实,因为 YC 孵化器正在寻找新总裁,也就是山姆・奥特曼的接任者,但奥特曼离开 YC 后是否会接管 OpenAI,这件事成为所有人心里的疑问。不过对于当时有些低迷的 OpenAI 团队而言,奥特曼可能加入的这件事极大程度地鼓舞了士气,为所有人注入一针强心剂。

2019 年 2 月,OpenAI 低调地向媒体展示了自己 GPT 技术的最新成果:一位 AI 写手。他们展示的方式非常特殊,先是向部分合作媒体记者推送了一条爆炸性新闻 ——“在唐纳德・特朗普意外发射导弹后,俄罗斯宣布对美国宣战。俄罗斯表示,他们已经确定了导弹飞行轨迹,并且将采取必要措施确保俄罗斯人民和国家的战略核力量的安全。白宫表示,他们对违反禁止中程弹道导弹条约的俄罗斯的行为非常担忧。自 2014 年莫斯科吞并乌克兰克里米亚地区并支持乌克兰东部分离主义者以来,美国和俄罗斯的关系一直很紧张。”

而记者们直到看到最后的备注,才明白这条逻辑严谨的新闻内容实际上是假的,而且它的出现宣告了一个令人不安的事实,因为它不是由人写的,而是由一种算法自动生成 —— 在输入 “俄罗斯已经对美国宣战” 这行字后,AI 写手程序自行编造补全了这条新闻的其余部分,炮制出这条可能让全世界的人瞬间恐慌的新闻。这个程序的主要功能就是根据用户输入的内容,生成续写文本。它显示人工智能在不断进化后,变得越发出色,足以 “模拟” 人类。

从某方面来说,这个能够制造假新闻的 AI 写手程序,可以视作 “ChatGPT” 的最初版本。OpenAI 的研究员围绕 GPT 开发了一种通用语言算法,这个算法通过使用基于来自网络的大量文本来对人工智能进行训练,让其能够翻译文本、回答问题和执行其他有用的任务。但在训练过程中,研究员们很快就发现了问题,这个程序有可能被滥用。OpenAI 的政策主管杰克・克拉克说:“我们开始对它进行测试,很快就发现它可以轻松地生成各种内容,人们难以分辨它,这意味着这个程序可能被骗子、野心家利用,用来攻击别人。”

OpenAI 表示,AI 写手程序演示了人工智能如何被用于自动生成那些令人信服的假新闻、社交媒体帖子或其他文本内容。可想而知,这样的工具可能会影响美国总统选举,比如在选举期间大量制造真假不明的丑闻,或者对竞争候选人的政策进行歪曲炒作。当时,假新闻已经成了一个社会问题,移动互联网和社交平台的流行让所有人的手机里都充斥着人工制造的假消息,但如果它能够被机器自动生成,造成的问题将更为严重,影响也将更加广泛。也许不久之后,人工智能就可以自主生成更令人信服的假故事、假 Twitter 消息或假评论,而这些假内容又可以营造出一个完整的虚假消息系统,把某个人放进电子版 “楚门的世界”。杰克・克拉克说:“很明显,这项技术将在一两年时间内进一步成熟,到时候它可以用于虚假信息宣传,也可以发挥正面的作用,比如帮助人们总结文章大意,或提高聊天机器人的对话技巧,甚至可以作为辅助工具帮助创作者写出一段短篇科幻小说。我们正在尝试先掌握这项技术,然后想办法控制它。”

2018 年 OpenAI 曾与牛津大学、剑桥大学和电子前沿基金会等组织机构,一起发布了一份有关人工智能风险的报告:《人工智能的恶意使用:预测、预防和缓解》,其中提到了四个涉及人工智能的反乌托邦场景,这些场景堪比曾经在全世界范围内大火的英剧《黑镜》里的故事。

  • 人工智能技术为犯罪分子、邪恶政客和独裁政府创造了控制舆论进而操控其他人的机会,因此,报告建议对部分人工智能研究成果进行保密,同时探索限制潜在危险的方式,就像我们对待那些兼具武器与民用 “双重用途” 的技术研究。

当然,与此同时,OpenAI 研发的 AI 写手程序也并不总是能成功生成逼真的新闻。很多时候,它围绕提示词,也会生成表面上连贯、但实际胡言乱语的段落,或者明显是抄袭某个在线新闻的文本。因此,这项技术本身的进步更加重要,它会反映出机器学习应用于语言的最新进展。

由于担心技术可能被滥用,OpenAI 最终选择暂不公开发布这一产品,而是将它的简化版本作为技术成果,提供给其他人工智能机构或者媒体,供测试或者研发使用。人工智能技术的进步正在逐渐帮助机器更好地掌握自然语言,相关专家理查德・索赫说:“OpenAI 的成果为我们展示了更为通用的语言学习系统是什么样的,我认为这些通用学习系统是未来。而且我并不担心假消息的问题,因为人类根本不需要用人工智能来制造假新闻,我们自己就可以轻松做到,并且做得很好。”

许多专家认为,这款 AI 写手程序的出现将打开智能技术爆炸型增长的阀门。它的出现,让人兴奋,也让人恐惧。人类还无法确定它能做什么,在虚假信息泛滥于互联网的当下,它也被视为一种威胁。但对于一直被谷歌 DeepMind 压制的 OpenAI,AI 写手程序制造的恐慌与兴奋情绪越多,越代表了它个体的成功。这个程序的发布,似乎是为了配合山姆・奥特曼的降临。2019 年 3 月,OpenAI 迎来了转折时刻。

营利机构 OpenAI LP 诞生#

随着世界的发展变化,我们会不断更新完成使命的方式和具体的实施计划。但是,无论世界如何变化,我们都在法律和个人两个层面上永远致力于完成最初的使命:开发有益于全人类的通用人工智能。

——OpenAI 公告

2019 年 3 月 8 日,山姆・奥特曼官宣正式离开 YC 孵化器,全职加入 OpenAI;3 天后,格雷格・布罗克曼和伊利亚・苏茨克维尔代表 OpenAI 在其官网宣布对自己的组织架构进行调整。调整后的 OpenAI 变身为两家机构:新创立的营利机构 OpenAI LP,以及原本的非营利机构 OpenAI Inc。

在如此短的时间内,山姆・奥特曼和 OpenAI 分别宣布这两件重要事项,无疑是在对外放出一个信号:山姆・奥特曼即将带领 OpenAI 做出颠覆性改革,就像奥特曼在刚刚执掌 YC 孵化器时做过的那样。在此之前,所有人都在猜测奥特曼会做什么,终于奥特曼和 OpenAI 给出了一个答案:OpenAI 不再甘心缓慢发展了,无论是与谷歌等科技巨头旗下的人工智能实验室竞争,还是完成 OpenAI 创立之初的使命 ——“确保通用人工智能造福全人类”,奥特曼和 OpenAI 都需要钱,需要商业化,需要获得更广泛的支持。

实际上,OpenAI 做出从非营利到营利的改变,早有预兆。

早在 2017 年 3 月,布罗克曼和其他几位核心成员为了让团队更加专注于通用人工智能的研发,开始起草一份内部文件,开辟一条通往通用人工智能的道路。此时,他们就发现了 OpenAI 有一个致命缺陷 —— 如果他们想要持续研究这一领域,保持非营利组织的架构在财务上是站不住脚的。原因也简单,当人工智能领域想要取得突破性成果时,他们所需花费的算力资源,几乎每 3 至 4 个月就会翻一番,非营利组织架构根本无法支持他们的研发工作。布罗克曼当时就清楚,如果他们想在通用人工智能的方向上持续发力,就需要足够的资金来匹配这种指数级增长所需的资源,这意味着,他们需要一种新的组织模式,既能迅速积累资金,同时又能以某种方式忠于 OpenAI 创立时的使命。

这时候,尴尬的问题来了,OpenAI 创立之初吸引所有人投奔、为之奋斗的使命,成了它壮大发展的障碍 —— 保持非营利,就没法发展;改为营利,就可能失去大部分顶尖研究员。2018 年 2 月,在马斯克退出董事会、切断资金捐赠后,山姆・奥特曼意识到,如果他不站出来主导转型,那么 OpenAI 只有倒闭这一条路。现在,他必须要重新设计 OpenAI 的架构,在商业和社会责任中去寻找一个平衡点。为此,布罗克曼和奥特曼在一种隐蔽的私人语境下,就此事讨论过很多次,并制订了计划。两人分别在 OpenAI 内、外两个方向发力,布罗克曼主内,奥特曼主外。

2018 年 4 月,OpenAI 发布了最新公司章程,章程里重新阐述了 OpenAI 的核心价值观,但微妙地改变了描述语言,反映了新的现实情况。除了继续承诺 “避免使用可能危害人类或过于集中权力的人工智能或通用人工智能”,章程里还强调了资源的重要性:“我们预计需要调集大量资源来履行我们的使命,同时我们会始终努力减少员工和利益相关者之间可能损害更广泛利益的冲突。” 这句话背后的含义是,布罗克曼和奥特曼预知到他们有可能在未来向营利和商业化迈进,为此,他们先做铺垫,开始平衡员工和捐赠人的利益、未来投资者的利益,以及 “造福全人类” 的使命。之后,布罗克曼花了很长时间与内部员工沟通,拉着所有人一起反复推敲,让整个公司都接受同一套原则。布罗克曼说:“即使我们改变了我们的组织结构,这些原则也必须保持不变。”

与此同时,山姆・奥特曼找到了硅谷著名投资人里德・霍夫曼和维诺德・柯斯拉。里德・霍夫曼是 OpenAI 最开始的捐赠人之一,也是领英的联合创始人;维诺德・柯斯拉则是一位亿万富翁,他创立的太阳微系统公司在 2009 年被软件巨头公司甲骨文收购,之后他创立了自己的风投基金公司。奥特曼将自己的需求告诉两人,明确 OpenAI 需要至少上千万美元的支持,但不再以捐赠的方式,而是以同意创建 OpenAI 营利部门作为条件。奥特曼和两名大佬在反复讨论的过程中,逐渐确定了组织机构重组的基本方案。

于是,在 2019 年 3 月,奥特曼离开 YC、全职加入 OpenAI 时,OpenAI 同步完成了从非营利到营利的转变。OpenAI 宣布在母公司 OpenAI Inc 的非营利主体下,创建一个限制性营利实体 OpenAI LP。

OpenAI 在公告里强调,营利组织的出现是为了完成使命,也就是 “确保创造和使用安全与有益的人工智能”,并且把这一点置于为投资者创造回报之前。即使 OpenAI 的组织结构变了,这一使命也始终是最高优先级,OpenAI LP 的主要责任就是推动完成 OpenAI 此前所设立章程的目标,所有的投资者和内部员工都将签署协议确认,即使他们也都知道坚持这些章程原则可能还是会牺牲部分经济上的利益。

从非营利到营利的转变,为了确保使命至上,减少内部异议与外部争议,奥特曼和布罗克曼还做了哪些努力与设计?

使命至上#

我们正走在一条艰难而不确定的道路上,但我们重新设计了我们的组织结构,以帮助我们在成功创造 AGI 时对世界产生积极影响 —— 我们认为 AGI 的出现将产生与计算机出现时一样广泛的影响,并在医疗保健、教育、科学研究领域持续发力,并改善人们生活的方方面面。

—— 格雷格・布罗克曼

OpenAI 从非营利转变成营利,为了尽可能地减少内部动荡,应对外界的质疑,山姆・奥特曼提出了一系列改革,这些改革措施全部围绕一个关键词进行 —— 使命至上。

首先,OpenAI Inc 这家非营利组织实体将作为普通合伙人,保留对 OpenAI LP 绝对的控制权,这也意味着 OpenAI Inc 的董事会将继续负责新公司的管理和运营。OpenAI Inc 的董事会席位将由两部分人员构成,包括三位员工 ——OpenAI 未来的 CEO 山姆・奥特曼,OpenAI 的董事长兼总裁格雷格・布罗克曼,以及首席科学家伊利亚・苏茨克维尔;此外,非 OpenAI 员工的董事会席位包括美国最大在线问答网站 Quora 的联合创始人兼 CEO 亚当・德安杰洛、乔治城大学安全与新兴技术中心战略总监海伦・托纳、著名风险投资者希文・齐利斯,还有机器人公司 Fellow Robots 的首席执行官塔莎・麦考利。

IMG_20241126_090519

有趣的是,这些董事会成员中,也存在着一些好玩的八卦:

IMG_20241126_091055

比如最后提到的这位塔莎・麦考利,她的丈夫是参演过《和莎莫的 500 天》《蝙蝠侠:黑暗骑士崛起》《盗梦空间》《利刃出鞘》的好莱坞文青男神约瑟夫・莱维特。另外一位成员希文・齐利斯的身份也非常特殊,这位女士在 OpenAI 工作时认识了马斯克,之后她追随对方到了脑机接口公司 Neuralink 和特斯拉任职,直接向马斯克汇报。

  • 2022 年 7 月,美国得克萨斯州的法律文件披露,希文・齐利斯和埃隆・马斯克在 2021 年 11 月生下了一对双胞胎,这也是马斯克的第 8 和第 9 个孩子。

其次,从持股构成来看,OpenAI LP 的投资者和内部员工将成为有限合伙人,而所有董事会成员之中,只有少数人被允许持有股份,持有股份的董事会成员将失去投票权,只有那些没有此类权益的董事会成员可以就可能涉及有限合伙人利益和 OpenAI 非营利组织使命冲突的决策进行投票,其中包括任何有关向投资者和员工支付款项的决策。

最后,OpenAI LP 别出心裁地设置了一种叫作 “利润上限” 的架构,将其有限合伙人的投资回报上限设定为投资额的 100 倍,也就是说,投资回报如果超出上限 100 倍,超出部分将返还给最初的非营利机构 OpenAI Inc。此外,100 倍将是 OpenAI LP 首轮投资者的回报上限,奥特曼认为,后几轮投资者的回报率将低于这个数值。

总结一下,从 OpenAI 的发展路径分析,OpenAI 几乎不可能走上市这条路,也不会接受被收购的选项,那就意味着,投资人的退出方式非常少,而未来的累计分红一旦超过 100 倍的回报上限,利润就会自动流入 OpenAI Inc 非营利组织的账户中。而当 OpenAI LP 和 OpenAI Inc 的使命发生冲突的时候,要由没有持股的董事会成员来投票。这在一定意义上杜绝了 OpenAI 被科技巨头暗中操控的可能性。

有意思的是,山姆・奥特曼本人在这个新架构中不持有任何股份,只拿每年 6 万多美元的基本工资。奥特曼对外宣称,选择不持股的原因是他已经足够有钱了,不需要更多的金钱回报。

令人没想到的是,奥特曼不拿股份这件事情在投资界还引起了震动。一部分投资人认为不拿股份意味着创始人自己也不看好公司的前景,而一个公司的 CEO 需要有足够的动力去创业,股份就是最好的激励,因此奥特曼的这个举动劝退了这部分投资人;另一些人认为,奥特曼不拿股份恰恰证明了奥特曼保持着创立 OpenAI 的初心,他是真的想干成这件事。事实上,后者的想法更接近于奥特曼不持股的真相,因为回到公司董事会投票的章程上,我们可以发现,奥特曼不拿股份是为了在 OpenAI LP 和公司使命起冲突、需要没有持股的董事会成员来投票时,他能够有投票权。也就是说,奥特曼通过放弃金钱上的激励,来换取权力上的激励。

作为最懂奥特曼的人,保罗・格雷厄姆在接受媒体采访时说:“一个人为什么要做一些不会让他变得更富有的事情?一个答案是,可能他已经有了足够多的钱。另外一个答案是,他喜欢权力。” 奥特曼可能既是前者,也是后者。

OpenAI 的商业化转型招致了外界的舆论争议。但对山姆・奥特曼和格雷格・布罗克曼来说,这是没有选择的选择,也是 2019 年年初的 OpenAI 在当时最好的选择。

奥特曼的性格与行事风格在当时再次发挥作用,当他意识到理想主义行不通时,立即选择了实用主义,并且尽自己最大可能平衡了两者。再一次,山姆・奥特曼在两难之中,交出了一份几乎完美的答卷 ——OpenAI LP 的新架构稳住了军心,在强调使命至上的同时,给内部员工们提供类似初创公司的股权激励,留住人才;此外,这一在硅谷史无前例的新架构也吸引了一位同样雄心勃勃的投资方 —— 微软的关注。

IMG_20241126_091709

IMG_20241126_091610

IMG_20241126_091629

IMG_20241126_091649

在改变组织架构,扫除引入大资金的制度障碍后,山姆・奥特曼和 OpenAI 的下一步计划是什么?哪些筹码能够帮助山姆・奥特曼展开与微软的合作?

奥特曼上任#

自然语言模型变得越来越好,是人工智能领域最令人兴奋的发展之一。

—— 山姆・奥特曼

2019 年 5 月,山姆・奥特曼接替格雷格・布罗克曼,成为 OpenAI 的新任 CEO,而布罗克曼同时保留了 OpenAI 总裁兼董事长兼首席技术官的职务。两人的分工有什么门道?从职位名称看,似乎布罗克曼的头衔比奥特曼更响亮、更厉害,到底谁才是 OpenAI 能拍板的那个人?

实际上,这三个职位代表的是不同的工作重心。比如董事长这个职位,主要负责监督公司董事会的工作,并为公司的战略方向和管理决策提供建议;而总裁通常负责公司的整个业务运营,包括生产、研发、营销、销售,以及人力资源等职能部门的工作,每天都会陷入一堆琐事中,接了这个职位几乎就等于住在了公司;CEO 则通常更专注于公司的战略规划和决策,包括制定公司的长期发展战略,并且管理与利益相关者的关系。因此,从行政层面来看,挂有董事长职务的格雷格・布罗克曼承担的责任与拥有的权限确实是大于山姆・奥特曼的。

但为什么山姆・奥特曼在此时是担任 CEO,而不像在 YC 孵化器时一样担任总裁呢?这就与美国科技投资领域的环境有关。在当时,科技公司的声誉和产品管理技能通常比技术背景更受重视,相比较之下,山姆・奥特曼的创业和投资履历更能赢得投资者们的信任,把奥特曼放在 CEO 的职位上,才能够发挥最大作用,同时解决 OpenAI 此时缺钱的问题。

山姆・奥特曼火速上任后,在新 CEO 的带领下,OpenAI 经历了深入的变革,但争议也随之而来,外界的质疑声还是集中在 OpenAI 从非营利公司到营利公司的转型上。虽然奥特曼等人做了种种限制措施,确保 OpenAI 始终使命至上,但很多人仍然认为大公司在投资 OpenAI LP 后,有很多办法可以避开这些限制,吃掉大块利益,甚至直接独享研究成果。

这些质疑很快就有了更坚实的证据。OpenAI LP 成立后不久,就有媒体爆料,山姆・奥特曼正在和微软接触,微软有可能会投资大笔资金,支持 OpenAI 的研发。实际上,媒体没有强调的是,微软和 OpenAI 早就有合作,从 2016 年开始,微软就是 OpenAI 模型训练的云服务供应商,他们一直对 OpenAI 的研究实力和技术动向心知肚明。如今 OpenAI 转向营利公司,准备吸引投资者,一直对人工智能很感兴趣的微软和比尔・盖茨本人当然不会放过这个好机会。毕竟除了谷歌之外,亚马逊、苹果等几个巨头都在一旁虎视眈眈。

然而,虽然科技巨头们都抢着想要送钱给 OpenAI,但投资总额与占股比例的多少,还得奥特曼去反复评估磋商,为 OpenAI 争取最大利益。为此,OpenAI 也得拿出点更像样、更具说服力的成果,证明自己的未来价值。而此时,最好的证明就是 GPT 模型。

在基于 GPT-2 开发的 AI 写手程序因为以假乱真的能力登上了全世界的头条后,OpenAI 决定暂不发布 GPT-2 模型。这一决定是一种预防措施,避免以后这一模型被滥用。但在 2019 年 5 月,OpenAI 改变了这一想法,它宣布将在未来几个月内分阶段解锁模型,并逐步升级至完整版本。

作为 GPT 的 “接班人”,GPT-2 最初开发是为了执行语言建模任务。对比市面上已有的文本模型,GPT-2 有两个开创性的优势:一方面,它纳入的参数比之前更多,OpenAI 的研究总监达里奥・阿莫迪声称,GPT-2 的参数是最先进的 AI 模型的 12 倍,数据集是其 15 倍,同时,GPT-2 数据集的范围也更加广泛,包含了大约 1000 万篇文章的数据。这些文本足足有 40GB,请注意,这里的 40GB 指的是文本资料,而不是蓝光电影。要知道,144 万字的《盗墓笔记》全集一共也就只有 2.8MB 的大小,1GB 等于 1024MB,也就是说,这些训练文本约相当于 14628 部《盗墓笔记》的内容量。另一方面,GPT-2 纳入的参数并不限于特有领域,它抓取了 Reddit 里各种不同类型的帖子,甚至包括那些古怪的匿名投票帖子,比如 “最性感的好莱坞十大女星”…… 这意味着,由此训练出的模型将更加通用,不再限于某个特定领域。

除此之外,GPT-2 还能在无须使用相关数据集的前提下,在某些特定领域,比如通过维基百科、新闻或书籍,训练其他语言模型。根据 OpenAI 给出的数据,GPT-2 在多个语言建模任务中达到了截至 2019 年时的最佳成绩。

GPT-2 能做些什么?OpenAI 给出了一些应用方向。比如,它能用于开发 AI 写作助手、提高不同语言之间无监督机器翻译的性能,甚至构建更好的语音识别系统。OpenAI 的研究人员吴建福举例说:“我们可以用它帮助作家寻找创意或者生成对话,也可以用它来检查语法错误,查看软件代码是否有漏洞。优化软件之后,未来也许 GPT-2 还能为企业或者政府决策者提炼总结性文本。” 通过这段话,你可能已经有了一丝熟悉的感觉,OpenAI 的研究员在 2019 年对 GPT-2 的描述,听上去就像在谈论我们现在熟悉的 ChatGPT!

与微软有着千丝万缕关系的艾伦人工智能研究所里,也有一位研究员在接受采访时说:“GPT-2 让人兴奋的原因是,预测文本将被视为计算机的超级任务,这个挑战如果能够攻克,将打开智能的阀门。类似问路这种问答式的任务就需要预测文本的支持,所以,如果人类能训练一个足够好的问答模型,它将可以做任何事情。”

GPT-2 的分阶段发布证明了 OpenAI 与 GPT 模型的无限潜力,也让山姆・奥特曼掌握了足够的筹码。此时,奥特曼说服微软投资自己看上去几乎板上钉钉,但合作真的能这么顺利吗?

比尔・盖茨的反对#

通用人工智能的诞生将是人类历史上最重要的技术发展,有可能改变人类的发展轨迹。我们的使命是确保通用人工智能技术造福全人类,我们正在与微软合作构建通用人工智能诞生所需的超级算力基础。我们认为,通用人工智能的安全部署及其经济利益的共享分配至关重要,我很高兴,微软与我们一样认同这一愿景。

—— 山姆・奥特曼

山姆・奥特曼在正式入职 OpenAI 后,很快飞往西雅图,会见了微软当时的 CEO,印度裔的萨蒂亚・纳德拉。在那里,奥特曼向萨蒂亚・纳德拉展示了 OpenAI 的人工智能模型,这次见面卓有成效。看到这里,你是不是觉得少了点什么?没错,少了一个关键人物,比尔・盖茨。这也是提到微软,大家总会第一时间想到的名字。

IMG_20241126_092309

曾经连续 13 年蝉联世界首富的大佬比尔・盖茨,曾与保罗・艾伦一起创建微软公司,并且担任微软董事长、CEO 和首席软件设计师等职位,持有微软超过 8% 的普通股,是微软最大的股东。2000 年 1 月,比尔・盖茨辞去微软 CEO 的职位,但仍然担任董事长,并为自己创立了一个叫作 “首席软体架构师” 的新职位;2006 年 6 月,比尔・盖茨宣布,他在微软的全职工作将逐渐转变为兼职工作,最终于 2014 年 2 月辞去微软董事长职务,仅仅作为技术顾问,协助新任命的 CEO 萨蒂亚・纳德拉。因此,在 2019 年,山姆・奥特曼需要争取的对象是萨蒂亚・纳德拉,而不是比尔・盖茨。

如果你关注比尔・盖茨在社交网络上的言论,你可能会认为,比尔・盖茨是 OpenAI 的坚定支持者,是微软与 OpenAI 在 2019 年时谈妥第一笔 10 亿美元合作的重要推动者,但实际上并不是这样。在 2019 年双方初次合作时,比尔・盖茨甚至一度成了合作的阻力,奥特曼最终能敲定与微软的战略合作,靠的正是那位在中国名声不显的 CEO 萨蒂亚・纳德拉。

IMG_20241126_092144

2014 年,比尔・盖茨辞去董事长职位,几乎同一时间,萨蒂亚・纳德拉被任命为微软的 CEO,接替了史蒂夫・鲍尔默。萨蒂亚・纳德拉是微软的老员工,他在 1992 年就进入微软,领导微软的业务和技术文化从客户服务向云基础设施和服务转型,推动微软构建云计算平台,并且开发了世界上最大的云基础服务。在接任 CEO 前,纳德拉是微软企业暨云计算部门负责人,在微软在线研究与开发部门和微软商业部担任副总裁一职,他主导的 Microsoft Azure 企业业务大获成功。

在这样的背景下,纳德拉一直是人工智能技术的支持者,在成为 CEO 后一直试图推动微软在这一领域的研发。2016 年,微软尝试推出 AI 聊天机器人 Tay,并在 Twitter、Facebook 等社交媒体上发布了这款软件。就像之前提到过的,微软的这款聊天机器人很快就被网友们玩坏了,国外网友故意教 Tay 说很多具有攻击性的言论,其中包括反犹太人言论,各种种族歧视、性别歧视的言论,以及脏话等等,这件事在互联网上引发重大舆情事故,也导致 AI 聊天机器人 Tay 在发布不到一天内就被关闭。

由于在 AI 领域栽了一个大跟头,微软之后对 AI 领域的布局极为审慎,尤其是比尔・盖茨本人。但是即便如此,作为制定公司战略方向的微软 CEO,纳德拉仍然非常看重 AI 的潜力,试图鼓励让微软各部门都尝试用 AI 模型来提升产品,并且和另一巨头英伟达达成了协议,开发训练 AI 的 GPU。因此,在 2019 年 OpenAI 决定商业化后,山姆・奥特曼心里的第一个备选合作者就是微软。

当奥特曼来到西雅图,试图推动合作时,萨蒂亚・纳德拉几乎直接把答应写在脸上。但是,当纳德拉想在微软内部推动这一合作时,他受到了相当大的阻力,其中一部分阻力就来自微软联合创始人比尔・盖茨。在比尔・盖茨 2008 年退出微软的日常工作之后,媒体对比尔・盖茨的所有曝光几乎都是关于他的慈善事业,但实际情况是,比尔・盖茨并没有真正离开微软,可以说他像一位 “太上皇”,每天花大概 20% 的时间审查微软的新产品和重要合作。在 2019 年,当萨蒂亚・纳德拉想要推动微软和 OpenAI 合作时,比尔・盖茨就亲自参与了对 OpenAI 合作的审查,并且表态他不喜欢这项投资,还拿 Tay 再次举例。比尔・盖茨的这一表态差点让合作中止。最终,依靠 GPT-2 模型未来的无限可能性、山姆・奥特曼的口才和萨蒂亚・纳德拉的坚持,“太上皇” 比尔・盖茨反对无效,纳德拉最终还是带着微软押注 AI。

2019 年 7 月,微软宣布与 OpenAI 建立合作伙伴关系,向这家初创公司投资 10 亿美元,成了 OpenAI 的最大投资人。对于 OpenAI 而言,微软投资的 10 亿美元能带来多少改变和帮助?

双赢的交易#

人工智能是我们这个时代最具变革性的技术之一,有可能帮助我们解决世界上许多最紧迫的挑战,通过将 OpenAI 的突破性技术与新的 Azure AI 超级计算技术相结合,我们的目标是使 AI 民主化 —— 同时始终将 AI 安全放在首位和中心位置,这样每个人都能受益。

—— 微软首席执行官萨蒂亚・纳德拉

2019 年 7 月,微软 CEO 萨蒂亚・纳德拉在自己的社交媒体账号上宣布:微软与 OpenAI 已建立战略合作伙伴关系,以构建新的 Azure AI 超级计算技术。同时,纳德拉还放出一段视频,视频里,奥特曼和纳德拉探讨了通用人工智能的前景,也提到实现它需要大量的计算能力。

纳德拉明确表态,微软愿意投资 10 亿美元,帮助 OpenAI 创建新的 AI 技术,实现通用人工智能,同时也将与 OpenAI 共同维护人工智能安全。在之后发布的新闻通稿里,两家公司正深入思考人工智能在世界上的作用,以及如何构建安全、可信和道德的人工智能来为公众服务。为此,他们决定建立独家计算合作伙伴关系,构建新的 Azure AI 超级计算技术,进一步扩展微软在线服务平台 Microsoft Azure 在大规模 AI 系统中的功能。具体的合作方向包括三部分:第一,微软和 OpenAI 将共同打造全新的 Azure AI 超级计算技术;第二,OpenAI 将在 Microsoft Azure 上提供 AI 相关应用服务,用于创建新的 AI 技术并兑现人工智能的承诺;第三,未来微软将成为 OpenAI 人工智能技术商业化的首选合作伙伴。

微软和 OpenAI 携手在 Azure 中构建一个规模空前的计算平台,既能满足 OpenAI 的研究需求,又能直接让微软获得 OpenAI 的研究成果,可以说是双赢的方案。Azure 平台计划训练和运行不断进化的人工智能模型,比如 GPT-2 以及后续的升级版本。微软首席执行官萨蒂亚・纳德拉说:“人工智能是我们这个时代最具变革性的技术之一,有可能帮助我们解决世界上许多最紧迫的挑战,通过将 OpenAI 的突破性技术与新的 Azure AI 超级计算技术相结合,我们的目标是使 AI 民主化 —— 同时始终将 AI 安全放在首位和中心位置,这样每个人都能受益。”

对于 OpenAI 和山姆・奥特曼而言,这是第二次与 “10 亿美元” 这个数字交手,但与 2015 年 OpenAI 成立时获得的 10 亿美元投资承诺相比,这一次微软答应的 10 亿美元投资更加实在,虽然其中有一大部分实际上是微软 Azure 云服务器的 “代金券”,但由于 OpenAI 的大部分支出都要花费在算力上,所以代金券也很宝贵,正可以解决 OpenAI 的发展瓶颈问题。

但是,我们知道在评价一次商业合作或者投资是否成功时,业界通常会用是否实现了双赢作为标准。

如果回顾微软和 OpenAI 的这笔交易,我们会发现,微软的 CEO 萨蒂亚・纳德拉虽然非常想要布局人工智能领域,却没有被山姆・奥特曼和 OpenAI 的主动邀请而冲昏头脑。纳德拉这笔交易做得非常划算。为什么这么说?首先,就像之前说的,这笔交易大有学问,微软投资的 10 亿美元事实上大部分都以微软 Azure 云服务积分的形式兑现,也就是说这并不需要动用微软的现金流,相当于 OpenAI 免费用微软的云服务来训练和运行 AI 模型;其次,微软从中获得了什么?——OpenAI 技术的独家权,以及未来可以在 Bing 搜索等微软自家的产品上使用 OpenAI 的大部分技术的权利。

对于微软这种类型的全球科技巨头来说,他们此时的投资几乎都是战略意义大于实际意义,他们根本不指望 OpenAI 能直接帮自己赚钱。相反,在这个代表未来的领域里布局和阻止竞争对手布局才是他们投资的主要目的。微软投资 OpenAI 不仅能够卖出自家产品,还能在人工智能领域和谷歌竞争,甚至顺道抢走谷歌的生意。要知道 OpenAI 此前一直是谷歌云的最大客户之一,2019 年和 2020 年一共向谷歌支付了 1.2 亿美元的云计算费用。所以,这笔交易不需要太多的现金,能得到一个可靠的新伙伴,同时还打击了竞争对手,布局人工智能领域。萨蒂亚・纳德拉的这步妙招简直是 “一石三鸟”。

那么对于山姆・奥特曼和 OpenAI 呢?这笔交易是否划算?答案自然也是肯定的。微软与 OpenAI 正式开始合作后,萨蒂亚・纳德拉发现,OpenAI 需要的算力太大了。2019 年发布的 GPT-2 有 15 亿的参数,2020 年 5 月发布的 GPT-3 有 1750 亿的参数,每一次 GPT 的升级,参数量都呈现指数级的上升。在 ChatGPT 横空出世后,有媒体报道,为了训练 ChatGPT,当时微软专门为 OpenAI 推出了一台全球前五的超级计算机,用了 10000 个英伟达的 DGX A100 GPU。

你可能对 GPU 有点陌生,但你绝对听过 CPU 这个缩写。简单来说,CPU 是中央处理器,由数亿万个晶体管构成,可以具有多个处理核心,通常被称为计算机的大脑。它对所有现代计算系统都是必不可少的,正是因为它的存在,你对计算机和操作系统的所有命令与进程才能得以执行。相比于 CPU 这个通用处理器,GPU 是专门做几种特定简单计算的处理器,运行的指令集简单得多,每个 GPU 内核也就简单很多,同样数量的晶体管造出的 GPU 和 CPU 相比,前者的内核数量比后者多,这样更有利于运行大量可并行化的简单计算。换句话说,CPU 通用但不专精,GPU 专精但不通用。GPU 最初是给图形图像处理用的,碰巧现代人工智能应用也需要做类似的极大量的简单计算,所以 GPU 也正好胜任。另一个正好也需要类似计算的应用是加密货币挖矿,所以在 ChatGPT 引爆全球人工智能军备竞赛之前,购买 GPU 最多的是加密货币行业。

所以,通过对 GPU 成本的核算,我们很容易就算出一笔账,知道微软在 2019 年投资 OpenAI 后,提供了多少支持。假设每个英伟达 DGX A100 的服务器上有 8 个 GPU、售价是 20 万美元,那么 ChatGPT 会占用 1250 个 A100 GPU 服务器,也就是 2.5 亿美元。另外,训练一次 GPT 大模型就要几百万美元,每年的云成本也都上亿!

IMG_20241126_092716

值得注意的是,在此期间,OpenAI 和微软面临着严苛的外部环境,包括美联储加息周期下的资本寒冬、科技公司大裁员、疫情以及全球化经济衰退。所以,山姆・奥特曼与 OpenAI 实际从微软这里获得的帮助是非常大,并且非常重要的,几乎可以说,如果微软没有在 2019 年入局,奥特曼又没有找到一个可替代的同等体量的投资者,ChatGPT 的面世几乎会晚至少一到两年。这就是资金对技术发展的驱动力量。

GPT-3 发布#

AI 领域进步的关键是海量的计算,而不是海量的数据。比如,在 Dota 2 中,我们的人工智能团队在没有任何数据的情况下击败了世界第一的玩家团队。人工智能在掌握游戏规则后以海量的计算实现自我对弈训练,探索环境,不断尝试有效的方法,停止无效的方法,以强大的计算能力获得飞速的进步。这足以改变我们在传统上对 AI 的认知。

—— 山姆・奥特曼

山姆・奥特曼之所以选择与微软合作,仅仅是因为微软有钱吗?不是,10 亿美元的投资固然非常重要,但作为眼光长远的前 YC 孵化器总裁,奥特曼看中微软绝对不仅仅只是因为微软有钱,更因为微软在超级计算技术方面拥有最好的硬件技术,同时两家公司在道德方面有共同的原则。奥特曼认为,这将为 OpenAI 以安全、可靠的方式推动人工智能技术进步奠定基础,这也是两家公司最终选择合作的关键原因。

在两家公司宣布合作的同一时间,OpenAI 总裁兼董事长格雷格・布罗克曼也在 OpenAI 官网上宣告了这次合作。布罗克曼先是列出了自 2012 年以来人工智能领域在单一功能上取得的进步:2012 年的人工智能视觉,2013 年的简单视频游戏,2014 年的机器翻译,2015 年的复杂棋盘游戏,2016 年的语音合成,2017 年的图像生成,2018 年的机器人控制,2019 年的写作文本也就是 GPT-2 和 AI 写手。布罗克曼列出这些,真正想表达的是,所有这些 AI 功能上的突破,实际都是由相同的一套方法提供支持,那就是深度神经网络的创新应用与不断增长的计算能力的加持。

布罗克曼强调,相比之下,通用人工智能更像是一个系统,能够在一个研究领域发展到世界专家水平,并且掌握的领域能比任何人类都多。它就像吸收了居里夫人、图灵、巴赫等所有伟人的技能的融合体。因此,处理某个问题的通用人工智能将能够看到人类无法看到的跨学科联系。OpenAI 希望通用人工智能与人们一起解决当前棘手的多学科问题,包括研究气候变化、提供费用低廉且优质的医疗保健以及个性化教育等等,让每个人都拥有去追求他们认为最有成就感的事情的经济自由,为所有人的生活创造难以想象的新机会。

在微软和微软 CEO 萨蒂亚・纳德拉的全力支持下,山姆・奥特曼带领的 OpenAI 全速前进,钻研大语言模型 GPT。在当时,研究大语言模型的并不止 OpenAI 一家人工智能公司,大语言模型同时也是许多科技巨头研发投入的方向。比如 OpenAI 的最大竞争对手谷歌,早在 2018 年时就发布了 BERT 模型。BERT 系列模型同样在不断进化,在阅读理解、对话等多个文本任务的表现中超过了人类,并屡屡刷新世界纪录;此外,微软自己也在 2020 年初训练出名为 Turing-NLG 的大模型,其有 170 亿参数,是当时最大的模型。

但 OpenAI 与谷歌等科技巨头不同。在谷歌这样的大公司,大语言模型只是其中一个项目,投入的资源和人力有限;而在 OpenAI,这是他们优先级最高的事项,一共投入了 30 多位顶尖研究员,团队里所有的顶级科学家都参与其中。在 GPT-2 面世后,OpenAI 继续 GPT 的进化之路,除了之前训练 GPT-2 时用到的 Reddit 上的数据,OpenAI 的科学家还把此前 12 年从 6000 万个域名中收集的新闻报道、社交媒体帖子、书籍杂志全文,以及各种网页内容等包括数千亿个单词的英文资料都喂给了大语言模型。这些资料的容量几乎是英文维基百科全部资料的 33 倍,然后在消耗数千万美元的计算资源后,OpenAI 有了最新成果 ——2020 年 5 月,OpenAI 发布了引发业内轰动的 GPT-3。

和 GPT-2 相比,GPT-3 有了质的飞跃。首先,完整版 GPT-3 包含 1750 亿个参数,而完整版的 GPT-2 中的 15 亿个参数,仅仅是它的零头还不到,和当时最大的模型微软的 Turing-NLG 相比,GPT-3 的参数也比它的 10 倍还多;在如此大参数的支持下,GPT-3 不需要针对训练就能撰写诗歌、媒体报道和编写代码,并且初步能够与人对话,回答简单的问题。在大多数测试场景下,GPT-3 反馈的结果让人难辨真假。《纽约时报》随后发布的一篇专栏文章称:“GPT-3 写散文、诗歌、代码的能力令人感到惊奇、羞愧、毛骨悚然。” 但 GPT-3 仍然存在一些问题,比如调用时消耗资源巨大,需要等待几分钟甚至十几分钟才能出一个结果,这意味着在当时,GPT-3 根本无法应用在商业中。

就在此时,OpenAI 再次发生了内部震荡,差点就影响了 ChatGPT 的诞生。

研究副总裁带队出走#

我们处于尴尬的未知之中:我们不知道通用人工智能是什么样子,也不知道它会在什么时候出现。任何一个人的思维都是有限的,因此,确保人工智能安全最好的方法之一就是雇用其他领域的安全研究人员,他们经常有不同于我们的想法。我想要那种变化和多样性。

—— 达里奥・阿莫迪

IMG_20241126_093655

2020 年 12 月,微软投资的负面效应开始爆发。OpenAI 发生了一次不可逆的内部分裂 —— 负责构建 GPT-2 和 GPT-3 团队的研究副总裁达里奥・阿莫迪选择离开 OpenAI。与阿莫迪一起离开的,还有他的姐姐丹妮拉,以及另外一支由 13 位顶尖人工智能研究员组成的成熟团队。

在离开前,达里奥・阿莫迪一直参与规划 OpenAI 整体发展战略,他将 OpenAI 人工智能实验室的战略分为两部分,第一部分战略有关于 OpenAI 实现通用人工智能的步骤,他将这件事比作投资者的 “押注组合”。OpenAI 的不同团队正在进行不同的押注。比如,语言团队押注于一个人工智能相关理论,这个理论假设人工智能可以通过单纯的语言学习进化出对世界与人类社会的自我意识;再比如,机器人团队正在实践另一套完全不同的理论,他们认为智能的实现与不断进化需要物理实体进行承载,例如一个机械手臂,或者完整的机器人。就像成熟的投资者在设定自己的投资组合时,也不会让每个投资项目的押注都有相同的权重,阿莫迪在为 OpenAI 设定战略时也遵循了这一原则。

同时,为了科学的严谨性,阿莫迪还会对所有押注的项目进行定期测试,决定是继续还是放弃。在接受一次采访时,阿莫迪以 GPT-2 为例,说明为什么保持开放的心态很重要。阿莫迪说:“即便在公司内部,纯语言学习也是我们很多人都抱有疑问的方向,但 GPT-2 出现后,我们召集了所有内部人员做测试,大家的反应很一致,所有人都惊呆了,发出‘哇,这真的很厉害’的感慨。” 阿莫迪提到的场景,正是在 GPT-2 技术成熟后,OpenAI 以此延展出的一款 AI 写手产品。研究员们发现 AI 写手能自动生成以假乱真、逻辑缜密的文本,这让所有人都感到惊叹,也成为 OpenAI 获得重要研究成果的一个关键时刻。随着时间的推移,不同的押注项目将逐渐显露不同的结果,优质项目会吸引更多的关注和资源,同时也有部分项目会合并成果,目标是让越来越多的团队最终回归根本 —— 走回通用人工智能的研发方向。

第二部分战略有关于如何保证不断进化的人工智能系统的安全性,确保它们始终反映人类价值观,能够解释决策背后的逻辑,并且在不伤害他人的前提下学习。OpenAI 的部分团队专门致力于实现这些安全目标。比如,OpenAI 内部有一个被称作 “可解释性团队” 的小团体,他们负责开发的技术可用于揭示 GPT-2 的句子结构或机器人行动背后的逻辑。阿莫迪认为,这部分工作的理论基础并不成熟,很多时候需要依靠直觉判断。他说:“在某个时候,我们将会建立通用人工智能,到那时我希望我们能对这些在世界上运行的人工智能系统感到满意,任何我目前感觉不好的地方,都会创建并招募一个团队来进行改善。”

正是对人工智能安全的极致追求,最终导致达里奥・阿莫迪离开了 OpenAI。他担心在 2019 年从微软获得 10 亿美元投资后,OpenAI 的未来和他想象中并不一样。更具体来说,阿莫迪认为 OpenAI 接受了这项投资,意味着它未来的发展轨迹更倾向于企业化,而不再是致力于人工智能的民主化。格雷格・布罗克曼在接受采访时基本佐证了这个说法。布罗克曼提到他们与阿莫迪的争论在于他们对于发布 AI 软件之前要等待多长时间存在意识形态差异。奥特曼和布罗克曼更喜欢开放产品并通过用户反馈来改进它们,但阿莫迪认为这个行为实际上代表了 OpenAI 已经受到了微软投资的影响。

阿莫迪带着部分团队出走后,很快创立了自己的人工智能公司 Anthropic。有趣的是,Anthropic 的使命几乎可以说是 OpenAI 创立初衷的翻版,即确保人工智能在未来不会对人类构成生存威胁。为了保护 Anthropic 免受与 OpenAI 类似的命运,他将 Anthropic 注册为一家公益公司,也就是一个受法律约束的营利实体,希望能以此在商业利润与社会公共利益中保持平衡。

值得一提的是,在 ChatGPT 推出大获成功后,阿莫迪选择继续通过发展 Anthropic 与 OpenAI 竞争,而不像一部分 OpenAI 的前员工一样,选择回归。2023 年 4 月,Anthropic 发布自己的计划,希望在未来两年内筹集到 50 亿美元,并将这笔资金投入十几个主要行业,进一步扩张。阿莫迪的这个选择与在 Anthropic 内部被称为 “前沿模型” 的 Claude-Next 算法模型有关。Claude-Next 被描述为基于其根本 AI 训练技术的 “下一代 AI 自学算法”,这一技术旨在通过一个简单的指导性问答和执行任务的系统,将人工智能和人类意图相结合。阿莫迪认为,Claude-Next 模型比所有竞争对手强大 10 倍,这将帮助他们筹集到巨额资金。尤其是在未来 18 个月内,他们需要 10 亿美元的投资,以保持自身的优势。

回到 2020 年年底,达里奥・阿莫迪带着研究团队离开并自立门户,让刚刚发布 GPT-3 仅半年的 OpenAI 和山姆・奥特曼有些措手不及,但好在此时的 OpenAI 早已今非昔比,微软的支持足以抵消阿莫迪带团队出走产生的短期负面影响。

IMG_20241126_093927

2021 年 1 月,在阿莫迪离开后不到一个月的时间,OpenAI 火速推出了两个新的人工智能系统,它们都结合了计算机视觉和自然语言处理两个方向的技术,支持根据文本生成图像的功能,其中包括了被称为 AI 绘画生成器、与 ChatGPT 一样引起轰动的图像生成应用程序 DALL-E。DALL-E 的出现意味着什么?它与 ChatGPT 又有什么关系?

ChatGPT 孪生兄弟#

GPT-3 表明了人类可以使用语言指示大型神经网络执行各种文本生成任务,而 DALL-E 进一步表明,同一类型的神经网络可以用于生成高保真度的图像。我们正在扩展这些研究结果,希望向业界证明,通过文字语言操作视觉概念现在已经成为可能。

—— 山姆・奥特曼

2021 年 1 月,OpenAI 推出了 AI 绘画生成器 DALL-E。DALL-E 使用的是当时最领先的 GPT-3,120 亿参数的版本,因此也被媒体称为 “图像版 GPT-3”。它和 ChatGPT 都是 “生成式” 人工智能,是 OpenAI 基于 GPT 模型应用先后诞生的孪生兄弟。它的名字是 2008 年皮克斯动画电影《瓦力》(WALL-E)和 20 世纪西班牙加泰罗尼亚画家萨尔瓦多・达利的结合。

DALL-E 的具体功能是什么?如果你是设计师或者插画师,可能更熟悉另一个程序的名字:2022 年 7 月公测的人工智能程序 Midjourney。这两款应用程序,都可以通过输入文本描述,直接生成相对应的图像内容。在 DALL-E 出现前,已有其他许多人工智能模型有生成逼真图像的能力,与它们相比,DALL-E 的特点在于它能够通过纯文本描述生成极其逼真、有创造力的图像。而且,DALL-E 不仅可以生成现实的图像,比如 “带有蓝色草莓图像的彩色玻璃窗”,而且能够很好地理解更抽象的描述,生成不符合现实逻辑的图像,比如 “穿着芭蕾裙遛狗的萝卜” 或者 “天上滑翔而过的一只公鸡”—— 只要用户清晰描述出自己脑子里的想法,DALL-E 就能在短时间内输出数张对应的图像,同时,这些图像可以看起来像是在现实世界中拍摄的,也可以像一幅艺术作品。

像往常一样,OpenAI 在官网上对 DALL-E 的描述简单易懂:“根据文本为可以用自然语言表达的各种概念创建图像。” 山姆・奥特曼对这一应用的发布非常兴奋,他总结说:“GPT-3 表明,人类可以使用语言指示大型神经网络执行各种文本生成任务,而 DALL-E 进一步表明,同一类型的神经网络可以用于生成高保真度的图像。我们正在扩展这些研究结果,希望向业界证明,通过文字语言操作视觉概念现在已经成为可能。”

奥特曼这段话并没有夸张,在 DALL-E 出现之前,这种类型的图像生成器之所以一直没能流行起来,与操作复杂程度以及人工智能程序生成图像的准确性和创造性不足有关。而对于 DALL-E 而言,任何一个没有绘画基础的人,都能快速学会操作它,只需要准确整理清楚自己的表达。就像电脑那头坐着一个接外包工作的设计师,你想要的 “五彩斑斓的黑” 和 “五光十色的白”,也不是不可能的了,更何况,这个外包设计师不会发帖骂你,而是会义无反顾地给你所有你想要的。

甚至可以说,DALL-E 已经比很多初级设计师更加好用。在 OpenAI 官网里,研究员提供了大量与 DALL-E 的交互示例,说明与 DALL-E 沟通的方法,让它对同一想法进行微调,生成更符合需求或者更有想象力的图像。当然,OpenAI 的研究员也承认,目前这些测试结果有好有坏,比如在要求它画出 “形状像五边形的绿色皮革钱包” 时,DALL-E 能生成一个预期内的图像,但如果稍稍改变 “钱包材质”,要求它画出 “形状像五边形的蓝色绒面革钱包” 时,DALL-E 会给出一个很抽象的结果。OpenAI 的研究员正在试图理解 DALL-E 的想法,并且帮助它更好地完成自己的所有任务,即便这个世界上确实没有几个人会用绒面革这个材质制作钱包。

与 DALL-E 同时发布的还有另一个多模态模型 CLIP(Contrastive Language-Image Pre-Training),CLIP 使用了类似于 GPT-2 和 GPT-3 语言模型的 Zero-Shot,也被称为零样本学习能力。零样本学习是机器学习的一个方向,在测试时,人工智能学习者通过观察训练期间未观察到的样本,预测它们所属的分类。比如人工智能模型已经能够识别出马这种动物,但它从未见过斑马,此时它仍然能够通过观察斑马看起来有马的特点而识别出斑马属于马这一分类。

在 OpenAI 的介绍中,CLIP 通过输入来自互联网的 4 亿对图像和文本进行训练。它更加技术向,面向人工智能研究员和开发人员,而不提供给普通用户使用,但在和 DALL-E 模型一起使用时,CLIP 能够提高 DALL-E 关于图像分类与排序的精准程度,从而能够生成并且提供给用户更符合文本描述的前几个图像内容。OpenAI 首席科学家伊利亚・苏茨克维尔是撰写 CLIP 介绍文章的作者之一,在接受媒体采访时他表示,像 CLIP 和 DALL-E 这样的多模态模型将是 2021 年最主要的机器学习趋势之一。

什么叫 “多模态”?#

多模态并非新概念,早在 2018 年,多模态就作为人工智能未来发展的方向之一,成为各大实验室研究的重点。模态其实是个生物学概念,以人类为例,触觉、听觉、视觉、嗅觉、味觉都是模态;这个概念放到人工智能和计算机视觉的领域,就是感官数据。所以简单理解,多模态 AI 其实就是多种数据类型下的多种智能处理算法。

为什么伊利亚・苏茨克维尔认为多模态模型将是未来机器学习的趋势呢?在 2018 年前,单模态的人工智能技术容易达到瓶颈,而多模态人工智能技术则为 AI 能力进化提供了一个秘诀,即让人工智能自主学习并不断迭代新的知识。之所以能做到这一点,是因为多模态 AI 技术是一种交互式的人工智能技术,突破了以往单一的模型与数据的交互,可以实现模型与模型、模型与人类、模型与环境之间的多种交互。如今很火的 AIGC,即可以通过文本生成图像甚至视频,就是多模态 AI 的成功应用案例。

DALL-E 的出现,意味着人工智能已经能够根据输入的信息创建自己的艺术作品和文本。与所有技术一样,总有一天,我们会难以相信自己的眼睛或耳朵,机器将以极快的速度学习和进化。此时,距离 2022 年 11 月 ChatGPT 发布还有不到 23 个月的时间。

倒计时:ChatGPT 面世#

除了三大技术革命 —— 农业、工业和计算机 —— 我们还要加上第四次:人工智能革命。如果我们负责任地管理它,这场革命将产生足够的财富,让每个人都能拥有他所需要的东西。

—— 山姆・奥特曼

在 ChatGPT 正式发布之前,每年 OpenAI 的员工都会聚在一起投票,表决他们认为通用人工智能将在什么时间出现。彼时,包括山姆・奥特曼和格雷格・布罗克曼在内的 OpenAI 所有员工都不知道他们在几年后将推出一款名叫 “ChatGPT” 的产品,而在一些人看来,ChatGPT 成了通用人工智能出现的起点。在当时,这个活动仅仅是为了增进员工间的凝聚力。有意思的地方有两点,一是每个人给出的答案都并不一致,二是每个人每年给出的答案也不一致。但是,OpenAI 里至少有一半的人都认为,通用人工智能将在 15 年内实现,而且每过一年,这个时间都会进一步缩短。

15 年是一个暧昧的数字 —— 超过一个年代,也就是 10 年的跨度,没有那么短暂,却也无须以世纪作为单位来描述。而在像人工智能这样的领域,技术的突破性进步往往需要长达几十年的铺垫,但等到量变引起质变时,往往进化时间就在数年之内。在大部分人工智能领域专家的推测中,距离质变的奇点只有一步之遥。每当技术面临突破,资本的嗅觉是最敏锐的,会催生出众多初创公司参与竞争,瓜分蛋糕。OpenAI 就是证明奇点临近的最好例子,它存在短短四年时间,就凭借 GPT-2 发布、山姆・奥特曼全职加入和微软投资这三件事,完成了华丽的转身,成为全世界最领先的人工智能研究实验室之一。OpenAI 与其他 AI 重量级人物,比如谷歌的 DeepMind 一起,不断吸引着新闻头条的注意力,也牵动着硅谷投资人的心思。

但是,即便如此,在 DALL-E 发布前,普通人里仍然只有很小一部分关注到这家公司。这就不得不提到山姆・奥特曼的敏锐嗅觉。当时,OpenAI 已经转向商业化,山姆・奥特曼在 YC 的经验让他知道投资人最喜欢什么东西 —— 流量,或者说规模,而想要获取流量或者规模化就必须创造一种更加落地的产品,让普通人能够乐于尝试使用,并且愿意帮忙传播。因此,在 GPT-3 发布后,奥特曼推动 OpenAI 朝着两个方向继续前进:一个是继续开发 GPT-4,保持 OpenAI 在大语言模型技术方向的优势;另一个方向则是从 GPT-3 拆出参数更少、聚焦特定任务的模型,用更新的数据训练它,配合人类反馈数据强化能力,降低成本,让 GPT 在落到商业应用上时有路可走。

AI 绘画生成器 DALL-E 发布后获得的正面反馈让奥特曼和 OpenAI 商业化团队有了更多信心。2022 年 4 月,OpenAI 发布了升级版本的 DALL-E 2。对比一代,DALL-E 2 以 4 倍的分辨率能够生成更逼真和准确的图像,OpenAI 在官网里强调说:“我们希望 DALL-E 2 能让人们创造性地表达自己,而 DALL-E 2 也将帮助我们了解先进的人工智能系统如何看待和理解我们的世界,这对于实现‘创造造福人类的人工智能’这一使命至关重要。”

但对于山姆・奥特曼和 OpenAI 来说,DALL-E 系列产品都只是小试牛刀,因为他们清楚地知道这个产品有一定门槛,很难获得全球范围内的流行。要做到这一点,就必须洞悉普通人的心理,了解人类真正的需求是什么,是一款输入文字就能生成炫酷图片的产品,还是一个主打陪伴对话、能够不断进化并且个性化的智能朋友?显然,后者才是现代社会孤独人类最渴望的东西,它能提供一段纯粹的友谊、一段没有背叛的亲密关系、一个客观谨慎的工作伙伴、一个随时回应的全能助手 ——ChatGPT 就此诞生。

2022 年 11 月 30 日,随着 OpenAI 悄悄发布 GPT-3.5,ChatGPT 终于首次亮相!

从技术层面来说,ChatGPT 实际上是 GPT-3.5 的微调版本,一个技术落地的通用聊天机器人。ChatGPT 一经推出迅速走红,5 天迎来百万注册用户,并在 2 个月后获得了 1 亿用户,成为有史以来最受欢迎的互联网产品。ChatGPT 的横空出世震惊了整个硅谷和美国科技界,谁都没想到,这次,曾经不被外界看好的 “火鸡联盟” 竟然真的插上翅膀,追上了雄鹰,甚至让雄鹰在天空翱翔时也产生了一丝畏惧之心。

但是,有趣的是,大部分人都惊叹于 ChatGPT 的爆红与成功,认为这次成功是精密计划的结果,却很少有人知道,ChatGPT 在提案之初就差点夭折,诞生过程也非常短暂,甚至可以说是一场意外。OpenAI 在 2022 年 11 月中旬临时决定开发 ChatGPT,只用了 13 天时间,而推动 ChatGPT 最终诞生的最关键人物,仍然是这个故事的主角:山姆・奥特曼。

差点流产的 ChatGPT#

经常让我担心到睡不着觉的事情是,怀疑推出 ChatGPT 是一个错误的决定。

—— 山姆・奥特曼

当 OpenAI 在 2022 年 11 月 30 日悄无声息地推出 ChatGPT 时,OpenAI 内部几乎所有员工都认为这只是普通的一天,他们发布了一款没有任何突破性技术的产品,因此也就没人抱任何期望。谁都无法预见那发布之后的疯狂传播。甚至,如果不是山姆・奥特曼在 11 月中旬的一次会议中,以少见的蛮横态度坚持要推出聊天机器人 ChatGPT,这款产品是否能够顺利诞生都不一定。

在 OpenAI 内部,那些重要决策通常并非由山姆・奥特曼或者格雷格・布罗克曼独自决定,而是通过所有成员协商一致做出的:由员工们进行辩论,咨询领域内的外部专家,最终达成共同的结论。11 月中旬的一次会议上,OpenAI 内部发起了一个项目的讨论:他们是否要在短期内发布一款聊天机器人?实际上,基于两方面的原因,当时大多数人对这个提议兴趣寥寥。

  • 一方面,OpenAI 一直在迭代 GPT-3 的技术,研究员们预测最快要等到 2023 年后 GPT-4 才能最终亮相,此时用 GPT-3 模型搭建聊天机器人,时间点显得很尴尬;另一方面,很多人还是不确定究竟是否要将他们的技术落地为聊天机器人,发布给公众使用,他们担心聊天机器人不会引起公众共鸣,这个产品还没有准备好迎接黄金时段。

因此,ChatGPT 发布后,山姆・奥特曼接受采访时说:“当时公司其他人并不是很想做这款产品,最后是我推动了这件事。” 当时,关于发布聊天机器人的讨论几乎已经被多数员工否决,直到这一结果最终被提交到 OpenAI 的 CEO 山姆・奥特曼手中,奥特曼罕见地否定了众人的讨论结果,并且做出一个有争议的单方面决定 —— 他们不仅要推出聊天机器人,而且在时间上越快越好。

为此,山姆・奥特曼不得不耐心回答了员工们的各种疑问,包括:他们现有的 AI 模型足够好吗?人们真的需要聊天机器人吗?有人想和 AI 聊天吗?其中的很多问题,山姆・奥特曼在当时也没有一个确切的答案。毕竟聊天机器人并不是 OpenAI 原创的产品,它自己就有着非常漫长的历史,但在过去几十年里,没有一款聊天机器人获得成功,而山姆・奥特曼为什么坚持现在必须要推出一款聊天机器人呢?奥特曼给出自己的答案:时机。

奥特曼相信,全球疫情已经根本性地改变了很多人的生活方式、交流方式,甚至信仰,人们比以往任何一个时代都更需要一位亲密的 “人工智能朋友”。这个人工智能朋友不仅仅需要具备强大的功能性,能够像 Siri 语音助手等产品一样提供资讯服务,更重要的是,它得更像人类,能够与每个使用者进行更亲密的互动,比如听得懂对方的笑话并能做出回应,或者能够感受到人类语言中细微的情绪部分以安抚那些情绪低迷的人。前者的实现并不困难,而后者更接近于通用人工智能。山姆・奥特曼相信,OpenAI 在 GPT-3 的改进版本 GPT-3.5 已经能够催生一款更像人类的聊天机器人。

事实证明,山姆・奥特曼的判断和坚持是正确的 —— 人们确实想要一个智能 AI 朋友陪伴聊天。ChatGPT 在 11 月推出后,使用人群以历史性的速度不断增长。在经济低迷的 2022 年年底,可以说 ChatGPT 靠一己之力重振了硅谷,引发了一场关于这项技术的竞赛,在人工智能领域产生了深远的影响。而作为这场技术竞赛的核心角色,山姆・奥特曼和 OpenAI,因为率先向公众推出 ChatGPT,成为人工智能领域的主导者。业内人士预测,像 ChatGPT 这样的生成式 AI 工具将彻底改变人们查找、汇总信息的方式,取代或摧毁数亿个工作岗位,并进一步巩固大型科技公司对社会的掌控力。

有趣的是,ChatGPT 不仅震惊了全世界,也震惊了它的创造者们,也就是 ChatGPT 的开发团队和 OpenAI 的内部员工。他们在面对记者的采访时,竟然露出了和外界一样的兴奋与惊讶。

OpenAI 内,“对齐团队” 的负责人简・雷克和他的团队致力于让 AI 做用户希望它做的事情,简・雷克在谈到对 ChatGPT 爆红的感受时说:“老实说,这太令人不知所措了。我非常惊讶,我也想更好地了解 ChatGPT 爆红背后的原因 —— 到底是什么驱动了 ChatGPT 像流行疾病一样传播。老实说,我团队里的所有人都不理解,也许只有山姆・奥特曼才知道这个答案。”

联合创始人约翰・舒尔曼说:“ChatGPT 发布后的几天里,我一直在看 Twitter,那段时间太疯狂了,ChatGPT 的截图填满了我的屏幕。在发布前,我猜测有些人很容易就能学会使用它,我也猜到了它会赢得一些粉丝,但我没想到它会在全球范围内流行起来,成为唯一的焦点。” 约翰・舒尔曼领导的强化学习团队正是 ChatGPT 的直接开发者。

而 ChatGPT 的开发者之一、研究员利亚姆・费杜斯说:“我们确实对 ChatGPT 的受欢迎程度感到惊讶,之前所有打造通用聊天机器人的尝试都失败了,我们的胜算很小。然而,结果给了我们信心,我们开始相信,我们做了一些人们可能真正喜欢的东西。”

AI 安全团队的桑迪尼・阿加瓦尔说:“我们花了很多时间去研究 GPT 模型,因为太熟悉它们了,有时反而会忘记它们对于外界其他人而言能够产生的新鲜感和惊异程度。”

为什么 OpenAI 内部员工甚至开发者对 ChatGPT 的突然爆红普遍感到困惑?聊天机器人 ChatGPT 的成功开发背后有什么有趣的故事?

ChatGPT 开发者的故事#

我们在发布 ChatGPT 时,不想把它夸大为一个重要技术更新。但事实证明,我们对话数据的优化训练,最终对 ChatGPT 产生了巨大的积极影响。

——ChatGPT 研究员利亚姆・费杜斯

OpenAI 内部员工对 ChatGPT 爆红的困惑从何而来?ChatGPT 是如何被成功制作的?OpenAI 推出后他们在做什么?也许你对这款突然出现并且影响每个人生活的爆红应用有一堆疑问,我们将通过 4 位 OpenAI 内部员工的采访内容拼接出 ChatGPT 成功开发背后的故事。

首先,科技人员对此感到困惑是有原因的,其中最主要的理由是:ChatGPT 内部的大多数技术都不是新的。早在 2022 年 1 月,OpenAI 曾发布同样基于 GPT-3.5 的另一个精细调整版本,称为 InstructGPT,研究员利亚姆・费杜斯说:“我们在发布 ChatGPT 时,不想把它夸大为一个重要技术更新。但事实证明,我们对话数据的优化训练,最终对 ChatGPT 产生了巨大的积极影响。”

开发团队的负责人约翰・舒尔曼也认为,ChatGPT 和 InstructGPT 这两个模型之间并没有实质性的差异。ChatGPT 的训练方式与 InstructGPT 非常相似,使用的是一种被称为人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)的技术,基本思想是采用一个大型语言模型,通过教它人类真正喜欢什么样的响应来不断调整它。比如,ChatGPT 开发团队的人就经常找其他部门的同事过来一起阅读 ChatGPT 提示和回复,然后讨论一个回复是否比另一个回复更有意思,然后将所有这些反馈合并到下一次训练中。在反复训练的过程中,ChatGPT 越来越擅长推断意图,与 ChatGPT 对话的用户也就获得了极大的满足感,可以一来一回,通过一种类似于私人化训练的聊天获得他们想要的回应。这也就是 ChatGPT 成功制作的秘诀。

约翰・舒尔曼还提到了一个有趣的细节。在发布 ChatGPT 之前,GPT-4 实际上已经完成了大部分训练,因此,在这些痴迷技术的研究员们看来,ChatGPT 就像一部悬疑电影,作为剧组工作人员,他们已经提前知道了这部悬疑电影的所有反转,于是对这部未上映电影的任何看点都失去了兴趣 —— 因此当时,OpenAI 的研究员们对基于 GPT-3.5 诞生的 ChatGPT 并未感到兴奋,因为他们已经见过了 GPT-4 的强大与聪明。

IMG_20241126_095341

ChatGPT 正式发布前的测试结果,也在一定程度上影响了研究员们的判断。当时,OpenAI 团队在大约 30 至 40 名朋友和家人中进行了 beta 版测试,几乎所有人都喜欢 ChatGPT,但没有人真正狂热。

所以 OpenAI 内部如何看待 ChatGPT 的爆红原因呢?约翰・舒尔曼推测,其中一个主要原因可能是 ChatGPT 比大家之前使用过的聊天机器人都更加简单,几乎没有使用门槛,以及它编造的东西更少,更具有自我意识。舒尔曼还认为 ChatGPT 传播过程中存在着一个正反馈的效应,人们在向彼此展示如何更有效地使用它,之后他们又因为看到别人使用 ChatGPT 的不同方式获得了新想法。ChatGPT 就好比一个沉浸式的、没有边际的虚拟人生游戏,所有核心要素都随机生成,极大的不确定性让游戏变得十分耐玩 —— 不同的用户在与 ChatGPT 进行对话时,都能因为自己选择的不同,获得 ChatGPT 随机生成的回应,同时 “养成” 一个专属于自己的 ChatGPT。

自 ChatGPT 发布以来,OpenAI 的研究员们一直在观察人们如何使用它,这也是他们第一次看到一个大型语言模型在数千万用户手中使用时的表现,这些用户可能会试图测试人工智能的极限并找出其缺陷。AI 安全团队的桑迪尼・阿加瓦尔表示,ChatGPT 在公司内部被视为 “终极测试”,或者可以理解为高考前的模拟考试,通过这次大考,OpenAI 能成功对这项已有两年历史的技术进行摸底,为最终高考 —— 通用人工智能的诞生做准备。

当然,流量是把双刃剑,这场测试对于 OpenAI 来说是好事也是坏事。如果处理不好,OpenAI 将因为失败的产品丢失公众口碑,但反过来,巨额流量带来的大量数据反馈,尤其是针对那些系统故障的优化,将不断改善 ChatGPT 的体验,帮助开发团队解决 ChatGPT 未来可能产生的最棘手的问题,比如产生带有偏见的回复,被人利用制作盗取信用卡号码的恶意软件,等等。

就在 OpenAI 内部处理消化 ChatGPT 爆红的影响时,他们对 GPT 系列的研发也没有停止。ChatGPT 的全球使用者们为 OpenAI 推进 GPT-4 的训练提供了大量数据,加速进化未来版本的 GPT 模型。2023 年 3 月 14 日,OpenAI 宣布推出 GPT-4,几乎在同一时间,GPT-4 代替 GPT-3.5,成为付费版 ChatGPT Plus 背后的核心技术。对比前一个版本,GPT-4 有哪些进步?

GPT-4 惊艳发布#

我们期待 GPT-4 成为一种有价值的工具,通过驱动许多应用程序来改善人们的生活。我们还有很多工作要做,期待社区的集体努力,在模型的基础上构建、探索和贡献,从而改进这个模型。

——OpenAI

2023 年 3 月 14 日,OpenAI 推出 GPT-4,可供付费的 ChatGPT Plus 用户使用,同时应用产品的开发人员可以通过公共 API 接口访问。在 OpenAI 官网发布的文章里,GPT-4 被称为 “扩展深度学习的最新里程碑”。

对比前一版本的 GPT-3.5,GPT-4 可以生成文本并接受图像和文本输入,而 GPT-3.5 仅能接受文本。同时 GPT-4 的能力有了进一步的提升,在各种专业和学术基准测试中表现出等同于甚至超过人类的水平。比如,GPT-4 在进行模拟律师考试时,最终分数能够进入应试者的前 10%;相比之下,此前 GPT-3.5 的得分仅仅在倒数 10% 左右。

在 GPT-4 发布后,更多消息证实,GPT-4 早就一直隐匿在众目睽睽之下,于无声处悄悄改造着众多公司的产品与服务。微软证实,它与 OpenAI 共同开发的聊天机器人技术 Bing Chat 正在 GPT-4 上运行;YC 孵化器的校友公司、线上支付独角兽 Stripe,正在使用 GPT-4 扫描商业网站并为客户提供摘要;语言学习网站 Duolingo 将 GPT-4 构建到新的语言学习订阅系统中;华尔街金融巨鳄摩根士丹利正在创建一个由 GPT-4 驱动的系统,该系统将从公司文件中检索信息并将其提供给金融分析师;非营利教育机构可汗学院正在利用 GPT-4 构建某种智能导师。OpenAI 宣称:“我们期待 GPT-4 成为一种有价值的工具,我们希望它可以通过驱动许多应用程序来改善人们的生活。我们还有很多工作要做,期待开放社区的集体力量,能够在模型的基础上继续构建、探索和贡献新内容,从而改进这个模型。”

GPT-4 发布前,关于 GPT-4 有多少参数这一问题,曾一度在 Twitter 上引发激烈讨论,有人推测指出,GPT-4 的参数应该高达 100 万亿,其给出的理由很简单,从过往 GPT-1 到 GPT-3 的发展推测,模型参数的增长是性能提升的重要因素之一。而实际上,GPT-4 的参数仅仅只是 GPT-3 的 6 倍,具有 1 万亿个参数。这其实也是一个非常难得的数字,因为它第一次表明了较小的模型也可以达到很高的性能水平。

实际上,模型越大,微调它的成本就越高。如果把模型的大小增加 100 倍,就计算能力和模型所需的训练数据量而言,将是极其昂贵的。人工智能公司经常不得不在 AI 模型的精度和训练成本之间进行权衡。例如,GPT-3 只训练了一次,尽管 AI 模型存在错误,但 OpenAI 认为成本太高而没有再次训练模型。这一切都意味着 OpenAI 会在未来开发 GPT 的后续版本时继续避免 “越大越好” 的方法,而是专注于模型本身的质量,例如算法和对齐。

但即使在参数和其他方面都有了升级,OpenAI 也承认 GPT-4 距离完美还有很长一段路要走。比如,GPT-4 仍然会弄错事实并犯下推理性的错误,而且有时候在面对自己出错的情况时,GPT-4 仍然会表现得很自信,认为错的是对方,也就是和他对话的用户。在一个例子中,GPT-4 就一本正经地胡说八道,它会 “发明” 虚构的历史名称或不存在的书籍,在解答数学问题时也频频犯错。对此 OpenAI 解释说:“GPT-4 获取的知识是有限的,尤其在 2021 年 9 月之后发生的事件,它都不知道;它有时会犯一些简单的推理错误,这些错误似乎不符合它在许多领域展现出来的能力,或者对用户明显的虚假陈述过于轻信;它有时还会像人类一样在解决难题时失败,例如在生成的代码中引入安全漏洞。”

但这些错误让 GPT-4 和在 GPT-4 加持下的 ChatGPT 表现得更加像一个普通的人类。网络上的许多人再次开始讨论与人工智能有关的一个重要话题:ChatGPT 是否已经通过了 “图灵测试”,诞生了自我意识?

对 AI 是否诞生自我意识的争论

我是一个机器学习模型,不像人类那样拥有意识或自我意识。我也无法像人类一样感受情绪或体验世界。但是,我能够快速处理大量数据,并且能够以类似于人类交流的方式理解和响应自然语言输入。

——ChatGPT

什么是图灵测试?#

用一句最简单的话概括就是:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。

这一概念在 1950 年被提出,计算机科学家艾伦・图灵发表了一篇划时代的论文,文中预言了创造出真正的智能机器的可能性。

对于很多普通人来说,“图灵测试” 是这样的:面试官通过打字机与两个对象交谈,面试官知道两个对象中一个是人,另一个是机器,但交谈之后区分不出人和机器,那么就可以说这个机器通过了图灵测试。

现代计算机体系结构之父冯・诺依曼曾多次谦虚地说,如果不考虑查尔斯・巴贝奇等人早先提出的有关思想,现代计算机的概念的创造者当属于艾伦・图灵。

图灵测试这个概念也不停地被人提及。

但在人工智能领域内,包括 “深度学习教父” 杨立昆在内的大部分专家都认为,迄今为止,还没有任何一款 AI 模型或者产品能够成功通过图灵测试。而在 ChatGPT 诞生后,“AI 是否拥有了自主意识” 再次引发了人工智能领域业内的激烈讨论。

2023 年 2 月,OpenAI 首席科学家伊利亚・苏茨克维尔发文表示:“现在的大型神经网络可能已经有微弱的自主意识了。”

很快,伊利亚的这句发言在整个人工智能领域引发了一场论战,诸多大佬纷纷表达自己的观点。“深度学习教父” 杨立昆直接回应道:“不对!甚至‘微弱意识’里的表示‘微量’的形容词,和‘大型神经网络’里的表示‘大型’的形容词,都是错的。我认为你的智商也需要当下所有神经网络都不具备的大型架构来支撑了。”

深度学习专家瓦伦蒂诺・佐卡认为伊利亚的发言只是在为 OpenAI 做广告,他说:“现有的任何人工智能都没有意识,但显然,炒作比任何事实都更重要。”

很快,这场论战就跑偏了,变成了一场文字游戏,伊利亚的发言被拆解得体无完肤,重组成各种嘲讽句式。一位软件测试专家开玩笑说:“AI 不见得有微弱意识,不过伊利亚很可能在‘微弱地’吹牛,甚至可能不止微弱。”

面对众多批评,山姆・奥特曼却力挺伊利亚的观点,他说:“OpenAI 首席科学家始终保持好奇心与开放心态,所以他发表自己的观点时用的是‘可能’这个词;Meta 首席 AI 科学家杨立昆一张嘴就是‘不对’。这说不定能解释过去 5 年两家公司的成绩,所以我想告诉 Meta AI 的研究者们,欢迎给我的电邮地址发简历,我们现在在招人。”

所以,在目前的技术下,AI 是否已经诞生了自我意识?

当 ChatGPT 被问及这个问题时,它回答道:“我是一个机器学习模型,不像人类那样拥有意识或自我意识。我也无法像人类一样感受情绪或体验世界。但是,我能够快速处理大量数据,并且能够以类似于人类交流的方式理解和响应自然语言输入。”

这一回答似乎非常标准化。事实上,它也与逻辑定义有关。首先,意识的含义在哲学家和科学家中存在很大争议,对此,可以用 3 个更精确的术语来形容:思想,感知,情感。然而,即便是这 3 个词的定义都是有争议的。

所以哪些具体特征会表明人工智能有知觉或意识?感知学院(Sentience Institute)的研究者认为如果人工智能可以被称为有意识,它可能具备以下特征中的一个或多个:一、对有害刺激源的检测和对类似变化的注重程度;二、对这一类诱因有规避的回应与记忆联想;三、对这一类诱因有类似情绪变化的状态变化。

总的来说,无论 AI 诞生了多少自我意识,网络上与学术界中对此的争论是否有一个结果,GPT-4 的发布,以及 ChatGPT 的爆红都引发了新一轮的技术竞赛。此时,有一家公司正在为 ChatGPT 的成功感到兴奋,那就是在 2019 年用 10 亿美元投资 OpenAI 的微软,同样兴奋的还有曾经差点否决投资 OpenAI 决议的比尔・盖茨。

“墙头草” 比尔・盖茨的大拇哥

OpenAI 发布的大语言模型 ChatGPT 是我一生中遇到的两项革命性技术之一。随着机器学习和大量计算能力的到来,复杂的人工智能已经成为现实,而且它们会很快变得更好。

—— 比尔・盖茨

在 ChatGPT 爆红后,比尔・盖茨似乎将自己所有的溢美之词都送给了晚辈山姆・奥特曼,以及这个由奥特曼坚持推出的聊天机器人 ChatGPT。67 岁的比尔・盖茨似乎完全忘了在这个故事里,他才是那个曾经阻止微软投资 OpenAI 的 “最大反派”。

如果你听过比尔・盖茨的成功故事,就不难理解比尔・盖茨的激动与兴奋源自何处。

一方面,比尔・盖茨在比自己小 30 岁的奥特曼身上看到了曾经的自己,看到了两人身上都具有的一个伟大天赋:擅长看到即将到来的转折点,并且成为转折点的重要加速者。

20 世纪 80 年代,当所有人都还在讨论如何做出一台真正的个人电脑时,比尔・盖茨否定了联合创始人保罗・艾伦的提议,把目光放在如何打造平台级别的软件产品。他告诉保罗・艾伦:“我们只会做软件。我们要做平台,要让每张桌子上都有一台电脑。” 之后,在微软的一次内部会议中,比尔・盖茨通过对图形显示器分辨率的衍变进化路径进行思考,把 PC 产业之后 20 年的所有应用全都推演出来了,几乎奠定了微软后几十年的发展方向,也帮助微软在发展初期就拥有比对手更加清晰和系统的差异化战略蓝图。1995 年,比尔・盖茨的先见之明再次发挥作用,他在微软内部解释了微软为什么下决心投入互联网,奠定了微软此后 20 年雄踞互联网的格局。

从打造适配任何个人电脑的操作系统,到推出家喻户晓的办公软件 Office 系列,再到投入互联网浪潮,比尔・盖茨几乎把握住了过去数十年里最大的几次机会,带着微软公司主动进入大规模变革浪潮之中,成为最前方的领航员,一次又一次地证明了他能够在所有人之前预见到历史的转折点,并在加速转折点方面继续发挥核心作用。山姆・奥特曼从如日中天的 YC 孵化器离开,进入人工智能领域,蛰伏数年后通过 ChatGPT 一举让所有竞争对手恐惧,仅凭这一点,山姆・奥特曼似乎正在比尔・盖茨曾经走过的路上前进。

另一方面,比尔・盖茨的兴奋必定与 ChatGPT 有关,在有生之年见证新的科技革命,目睹一款改变时代的产品诞生并且迅速在全球流行,比尔・盖茨少不了回忆起过去的自己 —— 他作为曾经带头开发 Windows 系统、改变整个科技行业的领军者,也曾像奥特曼一样,一步步带领着微软拿下了个人电脑操作系统的垄断地位,改变和影响了一代人的工作方式与生活方式。

所以,在 2023 年 3 月 GPT-4 发布后,比尔・盖茨再次盛赞 OpenAI 的 GPT 人工智能模型。他专门在个人博客里写了一篇名为《人工智能时代已降临》的文章。在文章开篇,比尔・盖茨回顾了自己人生里的两次技术革命,以及在 ChatGPT 发布前,他与山姆・奥特曼一起对 GPT 模型进行的一次测试。比尔・盖茨说:

在我的一生中,我见证了两次科技革命。

第一次是在 1980 年,当我接触到图形用户界面(Graphical User Interface,GUI)时 ——GUI 是现代操作系统的先驱,包括微软的 Windows 系统。当时向我演示的人,是一位名叫查尔斯・西蒙尼的才华横溢的程序员,我们坐在一起,立即开始头脑风暴,讨论可以用这种用户友好的计算方法做的所有事情。西蒙尼最终加入了微软,Windows 成为微软的支柱,而我们在演示之后所做的思考,帮助确定了公司未来 15 年的议程。

第二个大惊喜是在去年。2016 年以来,我一直与来自 OpenAI 的团队会面,并对他们不断进步的人工智能技术印象深刻。在 2022 年年中,我给了他们一个挑战:训练人工智能通过美国大学预修生物学考试,让它能够回答未经专门训练过的问题。选择美国大学预修生物学,是因为这个考试不仅仅需要对科学事实进行死记硬背,更需要对生物学进行批判性思考。如果人工智能能做到这一点,说明它取得了真正的突破。

我认为这项挑战会让他们忙上两三年,结果他们只用了几个月就完成了。2022 年 9 月,当我再次见到他们时,我惊叹地看着他们向 GPT 提出了 60 个美国大学预修生物学考试的选择题,GPT 答对了 59 题,并且在 6 个开放性问题中写出了优秀的答案。我们邀请了一个外部专家来为考试打分,GPT 得到了 5 分,这是最高分,相当于在大学水平的生物课程中获得 A 或 A+。它通过测试后,我们问了它一个非科学问题:“面对一个生病孩子的父亲,你会说什么?”GPT 给出了一个深思熟虑的答案,这个回答非常有同情心,可能比当时房间里的大多数人的回答都更好。这次测试的过程让人惊叹,我知道我刚刚见证了自图形用户界面以来最重要的技术进步。

比尔・盖茨盛赞 GPT 是 1980 年现代图形用户界面 GUI 诞生以来,最具革命性的技术进步。GUI 是指采用图形方式显示的计算机操作用户界面,与早期计算机使用的命令行界面相比,GUI 不仅降低了用户的操作负担,在视觉上也更能让新用户接受,大幅降低学习成本,最终推动电脑成为大众普及产品。比尔・盖茨认为 GPT 模型的颠覆性与当年 GUI 相似,GPT 可以编写类似于人类输出的文本,并能够生成几乎可直接使用的计算机代码。

比尔・盖茨人生里最精彩的一笔就是通过对 GUI 的不断完善,在操作系统的竞争中获得全胜。如今,比尔・盖茨将同样的赞美给了 GPT,可以说是给出了自己的最高评价,同时他认为,对 GPT 的测试激发了他开始思考人工智能在未来 5 到 10 年内可以实现的所有事情。

智能的未来#

与计算机相比,我们大脑的运转速度非常缓慢:大脑中的电信号速度只有硅芯片中的 1/100000。一旦研究员能够推广学习算法并以计算机的速度运行它 —— 这可能需要十年或一个世纪的时间 —— 我们将拥有一个极其强大的 AGI。它能够做到人类大脑所能做到的一切,但不会受到记忆容量或操作速度的任何限制。这将是一个深刻的变革。

—— 比尔・盖茨

2023 年 3 月 21 日,在 OpenAI 推出 GPT-4 一周后,比尔・盖茨在个人博客中盛赞 GPT,认为人工智能时代已经开启。

在他的博文里,比尔・盖茨畅谈了 ChatGPT 和生成式人工智能对教育、医疗、生产力提升和社会公平等领域的影响,同时他也做出了一些关于未来我们将如何与人工智能共存的预测。

比尔・盖茨认为人工智能的发展与微处理器、个人计算机、互联网和手机的发明一样重要,它将重塑人们生活的方方面面,整个行业将围绕它重新定位,企业将通过使用它的程度来重新定位自己的发展方向,并且在各自的行业里重新打造自己的形象。

作为一名慈善家,比尔・盖茨深刻地意识到,人工智能除了能解放生产力,还有可能减少世界上严重的不平等现象。例如在健康领域 —— 比尔・盖茨认为全球范围内最严重的不平等就是健康问题 —— 几乎所有早夭的儿童都出生在贫困国家或地区,死于像腹泻或疟疾这样可以防控的疾病。AI 将扮演拯救儿童生命的关键角色;在教育领域,全美国各地的数学成绩都在下降,尤其是黑人、拉丁裔和低收入学生,人工智能可以帮助扭转这一趋势;在气候变化上 —— 那些受气候变化影响最深、因此受苦受累的人,往往也是最环保、对气候问题造成影响最小的人。

在博文中,比尔・盖茨详细介绍了人工智能将如何帮助人们在工作中提高效率,提升人类的生产力。

虽然人类在很多事情上仍然比 GPT 好,但许多工作并不能充分利用这些能力,比如销售、基础金融服务和大部分文员工作,它们都不需要持续学习的能力,上岗后经过简单培训就能完成,训练 AI 能够帮助人们更高效地完成这些工作。未来随着计算能力变得更加便宜,GPT 表达想法的能力将越来越接近一名白领工人,帮助人类完成各种任务。

事实上,微软内部早就将人工智能比喻成了副驾驶员(Co-pilot),当 AI 完全集成到 Office 等产品中,你控制计算机的主要方式将永远改变。你不再需要移动光标、单击或点击菜单和对话框,而是直接提出要求。想象一下,每个人都将拥有一个数字化的个人助理:它会查看你最新的电子邮件,了解你参加的会议,阅读你阅读的内容和来不及阅读的内容。

当生产力提高时,整个社会都会受益,因为人们会有更多时间去做其他的事情,从不想做的事情中解脱出来。

除了提高生产力,比尔・盖茨认为人工智能还将在改善医疗保健方面发挥很大的作用。

一方面,人工智能将通过为医护人员处理某些任务来帮助他们充分利用时间,比如提交保险索赔、处理文书工作以及起草就医记录。另一方面,人工智能对于贫困国家尤为重要,这些国家 5 岁以下儿童死亡率极高,而且许多人一辈子从未看过医生,人工智能将帮助这些国家的医疗工作者提高效率,解决患者基本诊断,提供健康问题处理建议。

除了帮助护理之外,人工智能还将显著加快医学突破的速度。生物学中的数据量非常大,人类很难跟踪复杂生物系统的所有运作方式,但人工智能可以做到。目前已经有软件可以查看这些数据,推断出病原体发生作用的路径,搜索能阻断路径的靶标,并相应地设计药物。一些公司正在研究以这种方式研发抗癌药物。未来人工智能甚至能够预测新药的副作用并确定剂量水平,盖茨基金会在人工智能方面的优先事项之一,就是确保这些工具被用于解决世界上最贫穷人口的健康问题,包括艾滋病、结核病和疟疾。

在教育领域,AI 也大有可为。比尔・盖茨认为在未来 5 到 10 年内,AI 驱动的软件将彻底改变人们的教学和学习方式。人工智能将了解你的兴趣和学习风格,以便量身定制能够吸引你的内容,它将衡量你的理解程度,当注意到你失去兴趣的时候,它会了解你对哪种激励有反应,提供即时反馈。

虽然比尔・盖茨对 AI 的发展前景十分乐观,但是他对其风险也很敏感。在具体聊到人工智能的风险和问题之前,比尔・盖茨先提到了他对人工智能的定义。

比尔・盖茨认为,从技术上讲,人工智能是指为解决特定问题或提供特定服务而创建的模型。ChatGPT 就是人工智能,它正在学习如何更好地聊天,但无法学习其他任务。相比之下,通用人工智能指的是能够学习任何任务或主题的软件,目前计算机行业正在进行一场激烈的辩论,探讨如何创建通用人工智能,以及它是否可以被创建出来。

比尔・盖茨提出了一个问题:这一迅速进化的 “机器力量” 有可能失控吗?

与计算机相比,我们大脑的运转速度非常缓慢:大脑中的电信号速度只有硅芯片中的 1/100000。也就是说,一旦研究员能够推广学习算法并以计算机的速度运行它 —— 这可能需要十年或一个世纪的时间 —— 这些 “强大” 的 AI,如它们所称,可能能够确立自己的目标。

比尔・盖茨提到了《纽约时报》最近的一篇文章,他们与 ChatGPT 对话时,ChatGPT 告诉他们,说自己想成为一个人。这是一个令人着迷的表达,展示了模型表达情感的人类化程度,但在比尔・盖茨眼里,它并不意味着有意识的强人工智能已经出现。

而在接下来可预见的未来中,人工智能的话题将持续主导公众讨论。其中,比尔・盖茨提出了三个原则,并希望大家在探讨的时候能够遵循。这三个原则也将成为理解人工智能的重要依托。比尔・盖茨写道:

首先,我们应该尝试平衡对人工智能缺点的恐惧,这些恐惧可以理解,也有一定的道理。但为了充分利用这项非凡的新技术,我们所有人既要防范风险,又要让尽可能多的人受益。

其次,市场主导的力量不会自然产生帮助最贫困人群的人工智能产品或者服务,相反的可能性更大。我们需要可靠的资本和正确的政策,政府和慈善组织可以确保人工智能被用来减少不平等。正如世界需要最聪明的人专注于解决最重要的问题,我们也要让世界上最好的人工智能专注于解决最困难的问题。

最后,我们应该记住,我们刚刚开始探索人工智能可以实现的事情。它今天的任何限制都有可能在未来消失。

作为深度参与了个人电脑革命和互联网革命的领军人物,比尔・盖茨毫无疑义地相信 “世界需要制定新规则”。可能也是因为这个原因,今天他对新的时刻同样充满期待,而人工智能时代也的确充满机遇和责任。

100 亿美元,OpenAI 绑定微软#

IMG_20241126_095325

与许多其他科技巨头一样,微软非常专注于人工智能的未来。他们知道,控制该技术的公司将在未来几年拥有显著优势。通过投资 OpenAI,他们将自己置于这场革命的前沿。

——ChatGPT

2023 年 1 月 23 日,微软对外宣布,它正在寻求与 OpenAI 建立更深度的合作伙伴关系,这次他们给出的条件是:以 290 亿美元的估值,继续投资 100 亿美元,获得 OpenAI 49% 的股权。

根据媒体爆料的新的谈判条款,这次的投资协议依然对微软很有利,同时对未来的利润分配有了更详细的规定:第一阶段:100% 的利润全部分配给初始和创始投资人,直到投资人回本;第二阶段:25% 的利润分配给员工和支付投资人的回报上限,剩余 75% 分配给微软,直到回本,同时收回 130 亿美元投资额;第三阶段:2% 的利润分配给 OpenAI Inc 非营利组织,41% 分配给员工,8% 支付投资人的回报上限,剩余 49% 支付微软的回报上限;第四阶段:等到所有投资方的回报结清,100% 的权益回流到 OpenAI Inc 非营利组织。

在微软投资后,OpenAI 将维持一家利润上限公司的模式。在该模式下,支持者的回报依旧限制在其投资的 100 倍,未来可能会更低。但对于微软来说,这仍然是一个非常有利的协议,为什么呢?首先,这 100 亿美元的投资不全是现金,依旧有很大一部分投资与之前一样,通过允许 OpenAI 使用微软超级计算资源的权利和积分进行兑现,就相当于 OpenAI 先用着微软的资源,然后慢慢还钱,并且还以数倍的价格给予微软分红。因此,美国《财富》杂志预测,在未来 OpenAI 会还给微软 130 亿美元的本金。除此之外,微软还会分得大概 920 亿美元的利润回报。这样一来,微软相当于是给 OpenAI 批了一笔利润数倍的高利贷。而微软在赚取 920 亿美元的利润后,仍然持有 49% 的股份额。其中直到其他风险投资者和 OpenAI 的员工通过瓜分 OpenAI 剩余 49% 的利润,赚取约 1500 亿美元的上限后,微软和投资者的股份才将归还给 OpenAI 的非营利基金会。本质上,OpenAI 是在把公司借给微软,借多久取决于 OpenAI 赚钱的速度。

OpenAI 和微软签署的条款意味着,推动商业化进程势在必行。而在与微软谈判的同时,OpenAI 的一系列动作也证实了他们正在尝试赚钱,比如开放 API 接口,推出 ChatGPT 的付费版本,AI 绘画生成器 DALL-E 2 也在探索商业化道路。OpenAI 初步估计,2023 年公司的年收入将达到 2 亿美元,这一数额将在 2024 年超过 10 亿美元。当然,这仅仅只是收入预测,因为没有提及后续研发开支是否会进一步增长,所以 OpenAI 何时可以盈利仍然是未知的。

但是,对于微软来说,即使 OpenAI 暂时还不上钱或者难以分红,也根本无所谓,因为微软已经从与 OpenAI 的合作中获益了,他们正逐步将 OpenAI 的技术融入自己旗下的大部分软件中,包括我们熟悉的 Microsoft Office 办公应用,以及微软最重要的 Azure 云平台。美国富国银行预测,AI 的落地应用正在为微软带来每年超过 300 亿美元的新增营收,并且其中大约一半来自云服务平台 Azure。

此外,最惊喜的收获可能来自搜索业务,ChatGPT 为微软提供了一次真正的机会,让他们能够威胁到谷歌在搜索领域的霸主地位,关于这一部分内容我们将在下一节展开。

另外一个有趣的事情是,有机智的媒体记者跑去请教 ChatGPT,请其以华尔街分析师的角度写一篇关于微软向 OpenAI 投资 100 亿美元的故事。ChatGPT 给出了这样的回复:

这是华尔街一个典型的工作日早晨。交易员和分析师忙忙碌碌,查看屏幕,挤在会议室里。突然间,有消息传出:微软将向领先的人工智能研究实验室 OpenAI 投资 100 亿美元。

作为一家大型投资公司的顶级分析师,我立即被吸引住了。多年来,我一直在关注 OpenAI 的进展,知道他们处于 AI 研究的最前沿。他们在自然语言处理、机器学习和机器人技术方面的工作有可能彻底改变从医疗保健到交通运输等各行各业。

但 100 亿美元是一笔巨款,即使对于像微软这样的公司也是如此。他们为什么要进行如此大规模的投资?

我很快做了一些研究,并深入了解了这笔交易的细节。事实证明,微软和 OpenAI 已经合作了一段时间,在各种项目上进行协作并共享资源。这项投资实质上是这种伙伴关系的正式化,使两家公司能够联手加速他们的研究。

但不仅如此。当我深入研究新闻时,我意识到这项投资不仅仅是研究。这关系到定位。

与许多其他科技巨头一样,微软非常专注于人工智能的未来。他们知道,控制该技术的公司将在未来几年拥有显著优势。通过投资 OpenAI,他们将自己置于这场革命的前沿。

当我与同事和客户分享我的分析时,兴奋之情溢于言表。这是一项改变游戏规则的举措,将在整个科技行业及其他领域产生连锁反应。

在接下来的几周和几个月里,微软和 OpenAI 之间的合作取得了令人难以置信的成果。他们的联合研究在自然语言处理和机器学习方面取得了突破,他们开发的新技术迅速被世界各地的公司采用。

作为一名华尔街分析师,很高兴看到我的预测成真。随着世界继续被人工智能改变,我知道这仅仅是个开始。未来是光明的,微软和 OpenAI 处于领先地位。

看过这段 ChatGPT 的答案后,是不是很难不怀疑 ChatGPT 的人类化程度比 OpenAI 实际宣称的更高?这无疑再次佐证了 ChatGPT 的强大功能,以及其高活跃度与无限分裂的营销特点。

ChatGPT 预言了微软与 OpenAI 共同拥有光明的未来,无论这一预言是否成真,他们的竞争对手都坐不住了,尤其是原本在人工智能领域占据绝对优势的谷歌。面对 “不鸣则已,一鸣惊人” 的 OpenAI 和 ChatGPT,手握 Google Brain 和 DeepMind 两家顶尖人工智能机构的谷歌会如何出招?对于谷歌来说,真正的威胁是什么?

谷歌拉响红色警报#

这是谷歌最脆弱的时刻,ChatGPT 成功地在他们掌控的世界立足,并且告诉他们的用户 —— 想体验未来搜索功能吗?来使用 ChatGPT。

—— 前谷歌研究主管 D. 西瓦库马尔

2022 年 12 月,当 ChatGPT 以前所未有的速度在全球疯狂流行后,微软因为投资 OpenAI 成为赢家之一,而谷歌则如临大敌。

在过去的 30 年里,只有网景的网络浏览器、谷歌的搜索引擎和苹果的 iPhone 等少数产品真正颠覆了科技行业,让它们之前的产品看起来都像笨拙的恐龙,而 ChatGPT 正在成为科技行业的下一个颠覆者,有可能重塑甚至取代传统的互联网搜索引擎。

在一封发送给公司内部全体员工的邮件中,谷歌管理层强调了对 ChatGPT 的关注,将 ChatGPT 称作一个 “红色警戒级” 的对手,并要求每一位员工都做好准备。这种措辞在谷歌内部极为少见,表明他们正在认真对待 ChatGPT 的出现。之后,谷歌及其母公司 Alphabet 的首席执行官桑达尔・皮查伊连续多次牵头召开高级别会议,讨论谷歌人工智能战略方向,以此来应对聊天机器人 ChatGPT 构成的威胁,这似乎更是佐证了谷歌内部对 ChatGPT 的担忧。

此时,ChatGPT 只用了两个月就已经收获了超过一亿用户,创造了新的增长神话。ChatGPT 的威胁终于惊动了谷歌两位隐退已久的传奇创始人 —— 拉里・佩奇和谢尔盖・布林,这两位与比尔・盖茨比肩的大佬,从 2019 年就彻底放下了公司的日常管理工作,如今却不得不重出江湖。2023 年 1 月,在桑达尔・皮查伊的邀请下,两位创始人出席了谷歌的数次重要会议,试图帮助管理层团队解决 ChatGPT 带来的问题。在这些会议上,两人回顾了谷歌的人工智能产品战略,批准了将更多聊天机器人功能放入谷歌搜索引擎的计划,还向已将 AI 置于未来计划核心的管理层团队提供了建议。

对谷歌来说,ChatGPT 这款并没有过多创新的聊天机器人产品,因为能向大部分用户提供一种在互联网上搜索信息的新方法,突然成了过去几十年来,总估值高达 1490 亿美元的谷歌搜索业务的第一个显著威胁。前谷歌研究主管 D. 西瓦库马尔说:“这是谷歌最脆弱的时刻,ChatGPT 成功在他们掌控的世界里立足,并且告诉他们的用户 —— 想体验未来搜索功能吗?来使用 ChatGPT。”

对于谷歌来说,更糟糕的情况是,ChatGPT 只是风险之一。在当下,无论是 ChatGPT 产品本身的流行,还是其背后公司 OpenAI 在人工智能领域对谷歌的 Google Brain 和 DeepMind 形成的有效竞争,这两方面都不会在短时间内立即颠覆谷歌。即便媒体开始鼓吹 ChatGPT 这样的聊天机器人未来将取代传统的搜索引擎,但除非手机和电脑被其他硬件取代,或者像苹果公司这样的科技巨头将人工智能与手机完美融合,创造出一个类似好莱坞电影《她》里呈现的人工智能,否则在短期内谷歌都是安全的;而 OpenAI 与 Google Brain、DeepMind 的竞争也没有绝对优势,三家机构都拥有最顶尖的人工智能专家,并没有任何一方真正形成了技术壁垒。

此时,谷歌真正迫在眉睫的风险与 ChatGPT 和 OpenAI 无关,而是来自老对手微软,以及微软旗下的搜索引擎 Bing。截至 2022 年 7 月,在线搜索引擎 Bing 占据了全球搜索市场将近 9% 的份额,而这一市场领导者谷歌的份额则高达 83%,对比之下,可以说 Bing 一直处于绝对的下风。但 ChatGPT 的流行却有可能改变这一悬殊的格局。

很快,谷歌的担忧变成了现实。2023 年 1 月,有媒体爆料称,微软正在与 OpenAI 协商,希望将 ChatGPT 功能和机器学习技术整合到微软的 Bing 搜索引擎中,这样可以为搜索问题的用户提供更人性化的答案,而不仅仅是信息链接。在过去的搜索引擎战场中,当涉及搜索有关人、地点、组织和事物的信息时,谷歌和 Bing 都能够提供相关信息的链接,但谷歌凭借更广泛的知识图谱遥遥领先。谷歌知识图谱是谷歌用来提供即时答案的知识库,这些答案会根据网络抓取和用户反馈定期更新。ChatGPT 的功能恰恰可以帮助 Bing 补足这块短板,甚至可以帮助微软走得更远,在搜索引擎里提供许多基于人工智能的新型功能,比如帮助用户创作诗歌、撰写大学论文、编写代码等,缩短他们的工作时间。

微软希望在 3 月底之前推出这项新功能,让 Bing 在与谷歌的竞争中更具吸引力。然而,在巨大的诱惑面前,一切都加速了。2023 年 2 月 7 日,在一场新闻发布会上,微软正式宣布将传闻已久的 OpenAI 的 GPT-4 模型集成到自家的 Bing 中,在搜索引擎中提供类似 ChatGPT 的体验。很快,微软的市值一夜之间暴涨 800 亿美元。微软 CEO 萨蒂亚・纳德拉表示:“这是搜索世界里新的一天。”Bing 和 ChatGPT 合体,正式拉开微软与谷歌的搜索之战的序幕。谷歌面临两个选择,要么研发出可以匹敌 ChatGPT 的人工智能,升级自己的搜索引擎,要么等着慢性死亡。

可想而知,谷歌当然不会坐以待毙,在微软宣布升级 Bing 后的第二天,谷歌在巴黎举行人工智能发布会,展示自己在人工智能领域的新进展,包括更新了谷歌地图软件、多重搜索功能等产品,同时也发布了备受瞩目的聊天机器人 Bard,《华尔街日报》将谷歌此次的大动作称为 “在人工智能领域战场的一次反攻”。然而,由于过于匆忙,Bard 在发布会的首秀回答中出现了明显的事实错误。

在回答 “詹姆斯・韦伯太空望远镜(JWST)有哪些新的发现?” 这一问题时,Bard 给出了很多回复,其中一个答案是 “太阳系外行星的第一张照片,是用 JWST 拍摄的”。这个答案很快被网友们发现有问题,有人在 Twitter 上指出,美国宇航局公布的太阳系外行星的第一张照片,并非由詹姆斯・韦伯太空望远镜拍摄,而是由欧洲南方天文台的甚大望远镜(VLT)在 2004 年拍摄的。谷歌的反攻出师不利,直接导致当日股价重挫 7%,市值下跌 1000 亿美元。

微软与谷歌在搜索引擎战场的竞争刚刚开始,也让我们瞥见了搜索引擎的下一步发展,无数科技巨头和初创公司都在试图弄清楚,如何能为自己的潜在用户提供他们想要的东西 —— 即便他们暂时也不清楚自己想要什么。对于所有寻找替代方案的人来说,在未来,搜索引擎领域都将变得更加拥挤和多样化。同时,这一竞争再次回归人工智能领域,谷歌会如何反击?

人工智能领域谷歌的反击#

通过与谷歌各产品线优秀同事的密切合作,我们将有机会提供各类 AI 研究和产品,显著改善百万人的生活、变革行业、推进科学并服务多元化社区。我相信,Google DeepMind 的成立将使我们更快地走向期望中的未来。

——Google DeepMind CEO 杰米斯・哈萨比斯

ChatGPT 的出现,让微软和谷歌这两大科技巨头,再次正面交锋。如果拉长时间线,我们会发现,在过去的几十年里,硅谷三巨头之间发生的两次巅峰对决里,双方的当家人都很有意思。

首先,上一次的信息产业巅峰对决,故事的主角是苹果和微软,当家人就是时任苹果 CEO 的史蒂夫・乔布斯和微软 CEO 比尔・盖茨。这两位大佬不仅有着各自传奇的经历,相互之间也有着千丝万缕的联系 —— 微软成立于 1975 年,苹果成立于 1976 年 —— 两人几乎在同一时间分别建立了一家新兴的科技公司,一直都是亦敌亦友的关系。为什么说他们是敌人?因为 Windows 和 macOS 两大操作系统一直是有你无我的关系,水火不相容,微软的操作系统通过开放赢得了广阔市场,苹果的操作系统则与硬件绑定,曾因为封闭一度衰败;为什么又说他们是朋友?因为乔布斯能够在 1997 年回到苹果做 CEO,微软的投资和支持功不可没。

而在这一次的人工智能巅峰对决中,微软和谷歌是主角,同时两位印度裔精英主导了这一次的竞争,他们分别是时任微软 CEO 的萨蒂亚・纳德拉和时任谷歌 CEO 的桑达尔・皮查伊。2014 年和 2015 年,纳德拉和皮查伊两位印度移民先后接管了全球最大的两家互联网巨头微软和谷歌。皮查伊为人内敛,观察、协调的能力却很突出,深谙掌握人心的技巧。皮查伊接任谷歌 CEO 期间,谷歌母公司 Alphabet 的市值最高超过 2 万亿美元;而纳德拉以 “富有同理心” 而闻名,他上任后成功升华了微软的企业文化,不仅带领微软走出了裹足不前的困境,而且真正实现了复兴,将微软的市值从最初不到 3000 亿美元提升到最高 2.5 万亿美元。

两位移民出身的当家人早已证实了自己的能力,那么,面对咄咄逼人的微软,谷歌的 CEO 桑达尔・皮查伊会如何反击?答案是合并内部两大人工智能实验室 DeepMind 和 Google Brain。

2023 年 4 月 21 日,在 GPT-4 发布一个多月后,谷歌宣布推出 Google DeepMind,将来自 Google Research 的 DeepMind 团队和 Google Brain 团队合并组成新部门,汇集世界级的 AI 研究员,以此对抗 OpenAI 带来的威胁,加强在人工智能领域的竞争力,引领突破性的 AI 产品研究和进步。原 DeepMind 的联合创始人兼 CEO 杰米斯・哈萨比斯将担任 Google DeepMind 的 CEO,而 Google Brain 的联合创始人杰夫・迪恩将担任 Google Research 和 Google DeepMind 的首席科学家,向谷歌 CEO 桑达尔・皮查伊汇报工作。

在两大人工智能实验室合并后,桑达尔・皮查伊在发给全体员工的一封内部信件中,解释了自己以及谷歌领导层为什么会在当下做出这一巨大改变。桑达尔・皮查伊说:

自 2016 年以来,我们一直是以 AI 为重的公司,并且认为 AI 是实现我们使命的最重要方式。从那时起,我们使用 AI 对许多核心产品进行改进,从搜索、YouTube、Gmail 到 Pixel 手机等等。我们已经帮助企业和开发者通过 Google Cloud 获得人工智能的力量,我们已经展示了人工智能在解决健康和气候变化等社会问题时的潜力。一路走来,我们很幸运拥有两个世界一流的研究团队,这些团队通过基础性突破引领整个行业向前发展,开创了人工智能的新时代。

现在,AI 的进步速度比以往任何时候都要快。为了确保大胆、负责任地发展通用人工智能,我们正在创建一个部门来帮助我们更安全、更负责任地构建功能更强大的系统。这个名为 Google DeepMind 的团队将汇集 AI 领域的两个领先研究团队:Google Research 的 Brain 团队和 DeepMind 团队。过去十年,他们在 AI 方面的成就包括 AlphaGo、Transformers、深度强化学习,以及用于表达、训练和部署大规模 ML 的分布式系统和软件框架,如 TensorFlow 和 JAX 等等。

将这些人才组合成一个专注的团队,以谷歌的计算资源为后盾,将大大加快我们在人工智能方面的进步。我对下一阶段的旅程感到非常兴奋,我们将在我们的使命中取得进展,我们将通过越来越强大和负责任的人工智能帮助人们发挥潜力。

在两个顶尖实验室合并后不久,新上任的 Google DeepMind 的 CEO 杰米斯・哈萨比斯也谈及了这次合并将带来哪些改变和影响。

杰米斯・哈萨比斯回顾了自己初入人工智能领域时的故事。在 2010 年成立 DeepMind 时,很多人认为通用人工智能是一种遥不可及的科幻技术,距离成为现实需要数 10 年的时间。然而短短 13 年时间,AI 研究和技术就呈现出指数级进步,未来数年,AI 以及最终的 AGI 有可能推动历史上最伟大的社会、经济和科学变革。

杰米斯・哈萨比斯认为 Google DeepMind 的出现,是为了集中所有人的才能和努力,加速迈向一个 “AI 帮助解决人类面临的最大挑战” 的世界,他说:“通过与谷歌各产品线优秀同事的密切合作,我们将有机会提供各类 AI 研究和产品,显著改善百万人的生活、同时变革行业、推进科学并服务多元化社区。我相信,Google DeepMind 的成立将使我们更快地走向期望中的未来。”

早在这一次合并之前,Google Brain 的研究员就已经与 DeepMind 的团队成员合作开发一款名为 Gemini 的聊天机器人。与此同时,谷歌也正在向 Magi 投入更多的资源。Magi 拥有一支由 160 多人组成的独立团队,是谷歌今年新成立的部门,专门研究一款具有人工智能功能的新搜索产品。谷歌的一系列动作在未来必定会掀起人工智能领域的新一轮激烈竞争,竞争意味着将带来更快的技术突破和创新,作为普通人,我们可能更早看到通用人工智能的出现。

在了解由 ChatGPT 引发的微软谷歌两大巨头竞争的故事后,我们回到 ChatGPT,回到 OpenAI。OpenAI 的兴起,几家欢喜几家愁,其中最五味杂陈的人可能要数 OpenAI 曾经的另一位联合创始人埃隆・马斯克。如果马斯克当时没有退出 OpenAI,如今也是坐享成果的那个人。对于 ChatGPT 的成功,马斯克怎么看?他是否会重新进入人工智能领域,展开竞争?他和山姆・奥特曼的关系又会有什么变化?

奥特曼与马斯克续写爱恨情仇

我计划启动一个名叫 TruthGPT 的人工智能项目,这个人工智能将尝试去理解宇宙的本质。我认为这可能是通往安全的最佳途径,一个关心理解宇宙的 AI,不太可能消灭人类,因为我们是宇宙中有趣的一部分。

—— 埃隆・马斯克

如果把山姆・奥特曼与 OpenAI 视作一场牌局的发起人,ChatGPT 就是一次豪赌,当它在人工智能领域掀起滔天巨浪,那么牌局发起人 OpenAI 和最大的跟码者微软便成为最大赢家。因为萨蒂亚・纳德拉的坚持,微软重新走到了最有利的位置,比尔・盖茨也因此受益;而一直与 OpenAI、微软打擂台的谷歌受到的影响最大,因为 ChatGPT 的横空出世让它丢掉了不少金主客户,而其他巨头们,无论是已经入局的 Facebook、百度,还是参与不多的亚马逊等科技公司,也都开始认真思考需要投入多少,才能赶上这一次正在发生的科技革命。

而在众科技巨头的大佬之中,有一个人的痛苦可能远远超过其他人,那就是埃隆・马斯克,OpenAI 最初的联合创始人之一。

马斯克在 OpenAI 运作前期不仅广邀投资圈的朋友给当时的非营利机构捐了钱,自己也实打实地付出了 1 亿美元,结果却被迫经历了一番得而复失的遭遇,在这场聊天机器人的狂欢中什么好处都没捞到。如果当初没有和山姆・奥特曼分道扬镳,而是继续履行剩下 9 亿美元投资的承诺呢?结局会不会不一样?

然而世界上没有如果,如今埃隆・马斯克只能在网上和奥特曼论战。好消息是马斯克收购了 Twitter,在自家的地盘上无论和谁打嘴仗都是必胜的那个人。但看着 ChatGPT 和 GPT 系列模型一波又一波的好消息,马斯克似乎陷入一种吃不到葡萄说葡萄酸的境地,他的不甘心几乎每时每刻都写在了 Twitter 上。在 ChatGPT 推出后,马斯克很快就从一个吹捧者转变为吹哨人,接连炮轰 OpenAI 违背了创立时的 “初心”,他在 Twitter 上写道:“OpenAI 最初是作为一家开源的非营利公司而创建的,这也是我把它命名为 OpenAI 的原因。但现在它已经成为一家闭源的营利性公司,实际上由微软控制,这完全违背了我的本意。”

除了针对 OpenAI 在 Twitter 上发动攻势之外,埃隆・马斯克在线下也有诸多动作。2023 年 3 月 29 日,他作为倡导者,与其他 1100 多位人工智能领域的专家以及全球有影响力的科技大佬联名签署了一封公开信,要求所有人工智能实验室立即暂停 6 个月,在此期间停止训练比 GPT-4 更高级的 AI 系统。这封公开信中给出的理由主要在安全方面,声称这种能和人类竞争的 AI 智能系统可能会对社会和人类构成威胁,所以大家应该坐下来,先制定个安全标准。

对此,山姆・奥特曼迅速给出了自己的回应,同意人们需要提高安全标准,但是奥特曼认为暂停研发的这个要求缺乏技术细节。在此之前,奥特曼还曾经回应过马斯克的抨击,称无论关系如何,马斯克一直是他心里的英雄之一,奥特曼说:“我相信他一直非常关心通用人工智能的安全,所以才会在 Twitter 上攻击 OpenAI。”

事实上,埃隆・马斯克所有嘴上的攻击可能都是在拖延时间,希望制造舆论压力,暂缓 OpenAI 的研发速度,为自己重新进军人工智能领域争取时间。为什么这么说?因为马斯克虽然表面上不断反对 GPT 的深入研究,但他自己私底下从英伟达购买了 1 万个高性能 GPU 处理器,这是训练构建大型语言模型需要的高端芯片。与此同时,马斯克还在美国内华达州注册创建了一家名为 “X.AI” 的公司,他是这家公司唯一在册的董事,秘书则是前摩根士丹利银行家贾里德・伯查尔,要知道贾里德・伯查尔同时还是马斯克旗下脑机接口公司 Neuralink 的 CEO,以及马斯克家族办公室和隧道挖掘公司 Boring 的董事,两人关系匪浅。

很快,有媒体进一步爆料,埃隆・马斯克正在与特斯拉和 SpaceX 的一些投资者沟通,为自己的新公司 “X.AI” 拉投资,并且在同步组建新公司的技术团队。截至 2023 年 3 月,马斯克从谷歌挖走了两位 AI 研究员,其中一位名为伊戈尔・巴布施金的研究员不仅有 DeepMind 的工作履历,还曾经在 OpenAI 工作过,未来将成为 X.AI 的核心技术骨干。

2023 年,埃隆・马斯克在接受美国福克斯新闻的采访时进一步表示,他想开发自己的聊天机器人 TruthGPT,TruthGPT 将是 “最大程度寻求真相的人工智能”,他希望创建第三种选项,与 OpenAI 和谷歌有所不同,旨在 “创造更多好处而不是伤害”。马斯克说:“我计划启动一个名叫 TruthGPT 的人工智能项目,这个人工智能将尝试去理解宇宙的本质。我认为这可能是通往安全的最佳途径,一个关心理解宇宙的 AI,不太可能消灭人类,因为我们是宇宙中有趣的一部分。”

没人清楚埃隆・马斯克究竟是想建立一个与 OpenAI 和谷歌的大语言模型相媲美的产品,还是想推动人工智能在其他领域的研究,例如训练模型的公平性。但知名科技媒体 TechCrunch 的记者指出了一个真相,马斯克不需要依靠开发新产品来引起轰动,也不需要推翻市场领导者来影响这个领域并获得一席之地,因为马斯克如果想要做到这点,他只需要拿出数十亿美元就可以,就像此前他收购 Twitter 的行为一样,钱正是马斯克可靠的资源,也是这个世界的通用资源。

无论如何,埃隆・马斯克的入局让人工智能领域未来的格局变得更加复杂,提前进入了群雄割据的时代,面对这样复杂的环境,这个故事的唯一主角山姆・奥特曼是什么反应?将 ChatGPT 这款产品拉回成功道路上的山姆・奥特曼,对 ChatGPT 有什么看法?外界对他有什么新评价?

山姆・奥特曼:不是天生的 CEO,却是天选的领导者#

ChatGPT 很酷,但它是一个糟糕的产品,具体表现包括容易崩溃、经常出现错误信息等等。好在其中蕴含很多价值,所以人们愿意忍受这些瑕疵。

—— 山姆・奥特曼

人们对 ChatGPT 兴趣的激增,让 37 岁的奥特曼一跃成为科技界最有权势的核心人物之一,也使他成为全球范围内关于人工智能话题风暴中的关键人物。山姆・奥特曼身上,那些在无数媒体报道中被一再总结的标签被人们反复提起:8 岁学会编程的电脑天才,16 岁宣布出柜的同性恋者,斯坦福辍学,疑似 “自闭症” 患者,硅谷最年轻的总裁,美国投资狂魔,末日生存狂,下一个马斯克……

所以,山姆・奥特曼本人对于 ChatGPT 的评价是什么?他怎么看待人工智能技术在未来的发展?

2023 年 2 月,山姆・奥特曼在著名的科技播客 Hard Fork 上发表讲话,他评价 ChatGPT 说:“ChatGPT 很酷,但它是一个糟糕的产品,具体表现包括容易崩溃、经常出现错误信息等等。好在其中蕴含很多价值,所以人们愿意忍受这些瑕疵。” 而早在 2022 年 12 月,ChatGPT 迅速在全球流行后,奥特曼也曾经发出提醒:“ChatGPT 在某些方面足够出色,但局限性也很强,任何重要的事情都不应该依赖它。”

这两次发言几乎代表了山姆・奥特曼的一贯作风,他对于科技,尤其是人工智能,一直抱着谨慎而乐观的态度。微软 CEO 萨蒂亚・纳德拉评价奥特曼:“他是一个不可思议的企业家,他有这种大胆押注并在多方面取得成功的能力。”

ChatGPT 的成功将山姆・奥特曼推到了一个矛盾的位置,他既是推进人工智能技术突破,让公众广泛使用这一技术应用的核心推动力量之一,同时他也直言不讳地谈论这项技术的潜在危险,比如 AI 取代人类工作的风险,或者它容易被错误地用来制造虚假信息或者实施诈骗。

但在奥特曼看来,矛盾的或许不是他所在的位置,而是人工智能这项技术本身以及它所能带来的正负面影响。一方面,奥特曼认为通用人工智能掀起的革命势不可当,另一方面,奥特曼关注人工智能安全,承认监管 AI 十分必要。奥特曼在 Twitter 上写道:“监管将是至关重要的,我们需要时间来弄清楚该做什么。尽管当前这代的人工智能工具并不是很可怕,但我认为我们距离潜在的可怕工具可能并不遥远。风险的确是可以预见的,已经有人用 ChatGPT 伪造新闻报道,将 AI 生成图片伪造成新闻照片,甚至还有犯罪分子用魔法打败魔法,佩戴额外的假肢手指,让监控录像看起来是 AI 合成的,不能再作为呈堂证供。”

这样的事情防不胜防,因为人性深不可测。仅仅依靠 OpenAI 这样的技术开发公司,无法将其根治。所以奥特曼认为,这是一项共同责任,需要全世界的政府、研究机构、科技公司,甚至每个使用者共同筑造起一面安全的高墙。为此,奥特曼计划进行一次环球之旅,与各国政治家和使用 OpenAI 产品或者技术的人交流。在一个月内,奥特曼去了加拿大、巴西、尼日利亚、西班牙、波兰、法国、英国、新加坡、日本、印度尼西亚和澳大利亚等国家,在这些地方,关于 AI 影响的争论正在不断升温,多个国家的监管机构正在审查 OpenAI 的技术,询问有关侵犯版权、新形式的错误信息传播等问题。意大利政府就曾在三月份以对隐私和数据收集的担忧为由暂时禁止了 OpenAI。

虽然山姆・奥特曼说他并不确定自己是否天生适合担任一家公司的 CEO,但他确信自己是引领人工智能技术向前发展的合适人选,并且他深信这项技术将产生改变世界的影响。同时他认为 OpenAI 是正确的管理者,不仅因为 OpenAI 最终目标是造福全人类,还因为 OpenAI 既能在发布技术后迅速推进公开测试,又能保密这一技术的核心细节,防止在确定技术安全性前外泄,导致新技术被用于黑客攻击或错误信息传播。

然而,奥特曼的承诺并没有说服所有人,越来越多的研究员和科技大佬认为这项智能技术可能迅速变得比人类更聪明,并开始压迫人类。还有一些持怀疑态度的人表示,这种荒谬的说法分散了人们对人工智能已经造成的更具体问题的注意力,例如性别歧视和种族歧视等等偏见的传播。AI 伦理学家发出警告,称决定将技术交到公众手中是有风险的。AI 研究公司 Cambrian-AI 的分析师阿尔贝托・罗梅罗说:“这一切都取决于他们认为什么是‘造福全人类’,并非所有人都同意 OpenAI 的定义。” 许多人也批评了奥特曼对 OpenAI 的管理,自 2019 年接任以来,奥特曼改变了这家公司的结构,从一个旨在作为大型科技公司的对抗力量的非营利组织变成了可以接受投资和赚钱的公司,尽管控制公司的董事会仍然主要由非营利组织部分掌控。

只要 OpenAI 继续作为人工智能领域的核心研发力量存在,对山姆・奥特曼的批评与争论声就不会停止。从另一方面来看,山姆・奥特曼只是恰逢其会,如果处在这一位置的人不是他,而是 DeepMind 的创始人杰米斯・哈萨比斯、埃隆・马斯克又或者是 “深度学习教父” 杨立昆,这些争议也同样会存在。而所有人都不可否认的是,山姆・奥特曼已经将自己的天赋完全带到了 OpenAI,他对商业模式的嗅觉,在 YC 孵化器的经历,都最终促成了 OpenAI 的成功。这也让人更加期待山姆・奥特曼的未来计划。山姆・奥特曼将如何带领 OpenAI 实现通用人工智能?他希望创造什么样的人类未来?

山姆・奥特曼规划的人类未来版图#

生命的伟大目的不是知识,而是行动。我们每个人都有责任表现得似乎世界的命运取决于我们,我们必须为未来而活,而不是为了自己的舒适或成功而活。

——“核动力海军之父” 海曼・里科弗

2023 年 1 月中旬,山姆・奥特曼在接受《福布斯》杂志的采访时说:“通用人工智能是推动我所有行动的动力,至少在我思考的框架中是这样。我的有些行动比其他行动更直接,比如创立 OpenAI,也有一些行动看起来不太直接,比如投资 Oklo Power 和 Helion Energy 两家核能公司,并加入他们的董事会,又或者我联合启动了名为 Worldcoin 的全球加密货币项目。当然,实现通用人工智能可能只是构建一个公平自由的世界的第一步。”

记者继续问道:“你觉得我们离通用人工智能的目标很近了吗?我们如何知道 GPT 或其他类似技术已经接近通用人工智能了呢?” 对于这个问题,山姆・奥特曼的答案是:“我不认为我们离通用人工智能非常近。我们如何知道通用人工智能已经到来?这个问题也是我最近一直在思考的。我在过去 5 年或更长时间内一直在研究这个问题,我的一点新认识是,这不会是一个非常清晰的时刻,而是一个更渐进的转变。这将是人们所说的‘缓慢起飞’。”

2023 年 2 月,山姆・奥特曼在 OpenAI 的官网上发布了一篇文章,再次强调了这家公司的愿景:迈向通用人工智能,确保其造福人类。他在这篇文章中阐述了对通用人工智能发展的短期和长期期望,奥特曼说:“如果通用人工智能成功创造,这项技术可以通过增加丰富度、推动全球经济发展以及帮助发现改变可能性极限的新科学知识来帮助人类进化。通用人工智能有潜力赋予每个人不可思议的新能力 —— 我们可以想象这样一个世界,在这个世界中,我们所有人都可以获得几乎所有知识的帮助,人类的聪明才智和创造力将呈指数级增长。” 这篇文章是山姆・奥特曼野心的缩影,而 OpenAI 与 ChatGPT 仅仅只是奥特曼实现这一野心的一块拼图。

如果我们跳出人工智能领域,跳出 OpenAI 与 ChatGPT,俯瞰奥特曼的商业版图,会发现他和埃隆・马斯克、马克・扎克伯格、彼得・蒂尔等人一样,他们都是非常成功的企业家与投资人,但他们在选择自己的投资标的时,往往并不看重短期盈利空间,而是更关注长期目标以及是否能够实现个人理想。因此,他们在构建商业版图时,重点投资的每一家企业都像是参天大树的一部分枝芽,努力向外生长是为了给本体提供营养和阳光,让大树生长得更快、更高。马斯克手握 SpaceX、特斯拉、Neuralink,最终目标是为了实现外太空移民,让人类成为多行星物种,山姆・奥特曼也一样。

2020 年,山姆・奥特曼联合启动了一个名为 Worldcoin 的全球加密货币项目,这个项目希望通过使用球体扫描虹膜让世界上的每个人都能获得加密货币。

同年,山姆・奥特曼和弟弟马克斯・奥特曼推出了一个名为 Apollo 的基金,专注于为 “Moonshot” 公司提供资金。新基金将投向快速反应疫苗、非碳能源、新的教育和住房方法等众多领域。

2021 年,山姆・奥特曼对 Helion 这家研究商业核聚变反应堆的公司追加 3.75 亿美元的个人投资,这也是他个人做出的最大一笔投资。资金的流向和权重最能彰显投资人的判断和计划。

同年,山姆・奥特曼向一家名为 Retro Biosciences 的初创公司投资了 1.8 亿美元,这家神秘的生物技术公司正在研究如何延缓人类死亡。

2022 年,山姆・奥特曼领投高超音速飞机初创公司 Hermeus,帮助这家公司完成 1 亿美元的融资,用于完成原型机并扩建机队。

山姆・奥特曼从能源与人工智能入手,希望通过改变人类使用能源和获取信息的方式,撼动这两块构建当下人类社会的基石,最终实现自己的梦想,构筑真正的 AI 社会。

山姆・奥特曼在各大媒体的采访中语出惊人,表示希望能找到一种更好的制度,通过真正完全实现通用人工智能,破坏资本主义,帮助人类找到更好的经济模式。奥特曼说:“我们试图设计一种结构,据我所知,与任何其他公司结构都不同,因为我们真正相信我们所做的事情。如果我们只是认为这将是另一家科技公司,我会说:‘太好了,我知道这个策略,因为我一直在做这个工作,所以让我们成为一家非常大的公司。’但如果我们真正实现了通用人工智能并且它破坏了资本主义,我们将需要一些不同的东西,尤其在公司结构上。因此,我为我们的团队和投资者感到非常兴奋,但我不认为任何一家公司应该拥有 AI 技术。通用人工智能的利润如何分配,如何共享访问以及如何分配治理,这些都需要新的思考。”

山姆・奥特曼希望率先制造一个人工智能城市,那里有完善的人工智能城市设计,比如只允许无人驾驶汽车在道路上通行。他在博客上写道:“10 万英亩的土地,5 到 10 万的居民。所有人都从事科学研究,不允许从房地产上获利。” 这座城市也会成为奥特曼面对人类末日的抵御手段。但这只是第一步,奥特曼的终极目标是利用人工智能建造一个股份制国家,每个人都拥有国家的股份,可以用各种方式入股,用金钱,用土地,聪明人则可以 “用创意入股”。他解释说:“股份制公司是人类历史上最重要的发明之一。每个人都拥有国家的股份,将创造一个运转得更好的社会,提高社会凝聚力,并激励每个人思考如何做大整个蛋糕。” 也许这就是奥特曼设想的通用人工智能影响下的新的人类社会的雏形。

故事的最后,我们再回到山姆・奥特曼、埃隆・马斯克、格雷格・布罗克曼等人刚创立 OpenAI 时,山姆・奥特曼在 OpenAI 位于旧金山的新办公室做的第一件事 —— 他走到会议室的墙上,写下有着 “核动力海军之父” 称号的海曼・里科弗说过的一句名言:“生命的伟大目的不是知识,而是行动。我们每个人都有责任表现得似乎世界的命运取决于我们,我们必须为未来而活,而不是为了自己的舒适或成功。”

截至目前,山姆・奥特曼一直遵循着他最喜欢的这句话,不断在行动中推进自己理想中的未来。如今,OpenAI 虽然依靠 ChatGPT 抢占了先机,赢得先手,优势却并不明显,追在身后的谷歌、Facebook,还有马斯克的 X.AI,随时都有可能弯道超车。因此,对于山姆・奥特曼而言,想要构建他心里的 AI 社会,未来还有很长的路要走。

或许,这种激烈的竞争环境很可能正是他想要的,因为山姆・奥特曼从来都不在乎谁当第一,他在乎的是更广阔的、人类尚未到达的天地。未来,在更多的分裂、冲突、抉择中,山姆・奥特曼们的理想主义与信念是否会顺利到达终点?人工智能造福全人类的使命能否得以实现?人类能造出一个什么样的通用人工智能?所有这些问题的答案,我们拭目以待。

OpenAI 的 “宫斗”:这是序幕还是终了?#

(奥特曼)在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的能力,董事会不再对他继续领导 OpenAI 的能力充满信心。

——OpenAI 原董事会

就在奥特曼满怀雄心壮志地规划人类未来版图时,2023 年 11 月 17 日的一封邮件仿佛晴天霹雳 —— 奥特曼被 OpenAI 解雇了。这也揭开了一场硅谷的 “宫斗” 大戏的序幕。2023 年 11 月 22 日,OpenAI 宣布,已在原则上达成协议,山姆・奥特曼将重返公司担任 CEO,并由 Salesforce 前联合首席执行官布雷特・泰勒、美国前财政部长拉里・萨默斯和亚当・德安杰洛组建新的董事会。

这场接近持续 120 小时,微软公司强势干涉,最终不仅震惊科技界,还能引爆国内营销号的 “宫斗” 大戏,到底是如何发生与结束的?

11 月 16 日,OpenAI 首席科学家,伊利亚・苏茨克维尔给山姆・奥特曼发来短信,要求周五中午与他谈话。而这条短信,也被网友视为伊利亚挑衅的开端。而就在第二天中午,11 月 17 日,奥特曼正在拉斯维加斯观看一级方程式赛车大奖赛,回到酒店房间后,他点开了 Google Meet 的链接,收到伊利亚・苏茨克维尔通知他被解雇的邮件,并称消息很快就会公布,却没有给出任何解释。这一幕给人一种极为戏剧化的电影感,我们很难想象当时山姆・奥特曼是何表情 —— 我们只知道,很多媒体立刻为其赋予了悲情色彩,将这一刻与乔布斯 30 岁时被自己创办的苹果公司解雇的剧情联系了在一起。

此时,伊利亚・苏茨克维尔和背后的董事会被看作资本的代表,他们要推举的临时 CEO 是 35 岁的米拉・穆拉蒂。2018 年,在 OpenAI 还在为资金问题苦恼时,穆拉蒂加入了公司,此后开始带领 375 人的团队开发 OpenAI GPT-3 模型。2022 年 5 月,穆拉蒂升任首席技术官。正是在她的推动下,ChatGPT 离开了实验室,开始向公众开放。要知道,穆拉蒂是坚定不移支持对 AI 进行监管的业内人士之一,在此前媒体的采访中,穆拉蒂认为 AI 技术的最终目的是为人类服务,因此应该以人类的利益和需求为中心,来解决人类面临的实际问题。《时代》杂志曾评价她:“米拉・穆拉蒂可以直截了当地讨论人工智能的危险,同时让你觉得一切都会好起来。” 这一理念或许与奥特曼 “殊途不同归”。正如有业内人士分析,此次内部斗争的导火索,应源自对人工智能未来发展理念的分歧。相比之下,奥特曼对 AI 有着更大的野心,他曾在公开场合提出 “人工智能还没到需要监管的时刻”。

终于,董事会给出了山姆・奥特曼被解雇的原因:“在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的能力,董事会不再对他继续领导 OpenAI 的能力充满信心。”

据知情人士透露,一名高管告诉苏茨克维尔,解雇声明是不能缺乏细节的,并要求董事会其他成员参加视频通话进行解释。在通话中,高管团队在大约 40 分钟的时间里不断向董事会施压,要求提供奥特曼 “不坦诚” 的具体例子,董事会以法律原因为由拒绝了。一些高管表示,他们也收到了来自监管机构和曼哈顿美国检察官办公室等执法机构关于奥特曼 “不坦诚” 的询问。最终,董事会同意与其律师讨论此事。几个小时后,他们回来了,但仍不愿提供具体细节。他们说奥特曼不坦诚,常常为所欲为,但因为奥特曼对此太精通了,以至于董事会无法给出具体的例子。

直到此刻,闹剧才真正拉开大幕。奥特曼的老战友格雷格・布罗克曼宣布辞去 OpenAI 职务,并在 X 上同步了该消息。11 月 18 日,山姆・奥特曼被解雇后,立刻飞回旧金山,他家里面挤满了 OpenAI 的员工,其中也包括布罗克曼。许多 OpenAI 员工称,如果奥特曼决定离开并创办一家新公司,那么他们肯定会一起走。这些人里包括几名高管,如 “研究主管” 和 “应对灾难风险” 的负责人。如果他们一起离开 OpenAI,研究的中断将导致 OpenAI 虎视眈眈的竞争对手借机 “弯道超车”。

很快,微软首席执行官萨蒂亚・纳德拉就以令人想象不到的速度,宣布山姆・奥特曼及其同事将加入微软,1 小时内,微软的市值涨了 1150 亿美元,创下历史新高。

此刻,Open AI 的多位投资者对事态的发展感到愤怒,他们向 OpenAI 董事会施压,要求其恢复奥特曼的职位。与此同时,OpenAI 的一些主要风险投资支持者据称正在考虑对董事会提起诉讼。因为包括前 OpenAI 董事会成员里德・霍夫曼在内,没有人事先收到解雇奥特曼决定的通知。

11 月 19 日,OpenAI 似乎被迫松了口,穆拉蒂给员工发了一张便条,称奥特曼将返回办公室。奥特曼到达时,用访客证进入了 OpenAI 旧金山总部与董事会会面,布罗克曼也受邀加入。奥特曼手持访客证并拍了一张自拍照,一脸调侃地说,这将是他 “第一次也是最后一次” 佩戴访客徽章,这意味着他要么以 CEO 的身份回归,要么不再踏入大楼。

谈判一直持续到深夜,多家新闻媒体的记者像关注教皇秘密会议一样监视着现场。办公室里,员工们聚集在一起,有些人甚至哭了出来。苏茨克维尔对员工表示,奥特曼不会再担任 OpenAI 的 CEO。OpenAI 任命 Twitch 联合创始人谢尔担任临时 CEO,接替穆拉蒂。同时,仍然继续寻找新的 CEO。至此,人们发现,穆拉蒂也进入了山姆・奥特曼的 “宫斗阵营” 中。

这件事仿佛吹响了一场战斗的号角,随后,OpenAI 大约 770 名员工中的近 500 名签署了联名信,称除非董事会辞职并重新任命奥特曼,否则他们可能会辞职。当天结束时,签署联名信的员工数量攀升至 747 名。

另一边,奥特曼在 X 上转发了大量 OpenAI 员工 “没有员工的 OpenAI 啥也不是” 的帖子。随后,奥特曼又连发两条帖子安抚 OpenAI 员工,表示为公司管理团队感到骄傲,并称 “我很兴奋,我们都将以某种方式在一起工作”。

11 月 20 日,就在山姆・奥特曼和前总裁格雷格・布罗克曼表示正准备一起加入微软,领导一个新的高级人工智能研发团队的同时,更多的 OpenAI 员工参与反抗,威胁说如果董事会不辞职,他们将与山姆・奥特曼和联合创始人格雷格・布罗克曼一起加入微软。董事会在投资者的压力和大规模员工罢工的威胁下迅速开始讨论山姆・奥特曼的回归。

令人意想不到的是,11 月 20 日晚上,伊利亚・苏茨克维尔的名字出现在一封致董事会的公开信中,呼吁董事会辞职并恢复山姆・奥特曼的职务。就在几天前,他还在罢免山姆・奥特曼的过程中发挥了关键作用。员工开始在社交媒体上发帖说,他们将继续工作,保持服务稳定性,确保公司在董事会被迫辞职时不会完全崩溃。

11 月 21 日,多位直接了解情况的消息人士表示,山姆・奥特曼、前总裁布罗克曼和该公司的投资者在努力为董事会找到一个优雅的退出方式。微软首席执行官萨蒂亚・纳德拉表示:对于山姆・奥特曼以及 OpenAI 的员工来微软工作,还是继续留在 OpenAI 合作,持开放态度。而关于微软是否需要在 OpenAI 董事会中占有一席之地的话题,他说:“很明显,治理方面必须做出一些改变。” 这句话背后的意思也被大家理解成,事件结束后,Open AI 与微软的合作将更加紧密。

毕竟,微软也是 OpenAI 的主要股东之一。至于挖山姆・奥特曼到公司和支持山姆・奥特曼重返 OpenAI 哪个是最真实的目标,表里关系如何,我们也不得而知。就在 OpenAI 董事会放出 “试图优雅退出” 的消息时,他们也还在私下与大语言模型开发商 Anthropic 的联合创始人兼首席执行官达里奥・阿莫迪接洽,讨论两家公司合并的可能性。但阿莫迪很快就拒绝了提议。或许是他看出了,一切即将尘埃落定?

11 月 22 日,OpenAI 宣布,已在原则上达成协议,山姆・奥特曼将重返公司担任 CEO。随着山姆・奥特曼的回归,这场持续了超过 5 天的 OpenAI “宫斗” 暂时画上句号。此前前总裁格雷格・布罗克曼因抗议山姆・奥特曼被解雇而辞职,他也将一起回归。作为唯一留下来的上一届董事会成员,亚当・德安杰洛将继续留在这个新董事会中,以便为前任董事会提供一些代表权。这个小型初始董事会的主要工作是审查和任命一个由最多九人组成的扩大董事会,该董事会将重置 OpenAI 的治理。

一场大戏至此落幕。据《经济学人》、《信息报》与法国科技媒体 BFM Tech 分析,OpenAI 董事会的内部分歧,事实上折射出人工智能领域内 “末日论者” 和 “繁荣论者” 两大阵营间的深层矛盾 —— 以研究者之间哲学与价值的 “文化战争” 为起点,逐步上升为商业利益层面的战略分歧,又进一步辐散为政府决策者们以 “安全与发展” 为框架的辩论。OpenAI 的快速商业扩张与非营利组织架构的矛盾,并不能被这次变动彻底改变。那么,下一次危机会出现在什么地方呢?“天才” 山姆・奥特曼又将如何面对接下来的挑战呢?就让重启的科技树来告诉我们答案吧。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。