李飞飞:从洗衣工到“AI教母”

如今,随着人工智能技术大爆发,华裔科学家李飞飞的名字越来越多地被人提及。在几乎由男性统治的全球科技界,她无疑是其中最富传奇色彩的一位。她是美国工程院、美国医学院和美国艺术与科学学院的“三院院士”,也是前谷歌副总裁。李飞飞在AI 领域有多重要?之前AI 领域的重点在算法,数据并不受重视,李飞飞是最早意识到数据在人工智能研究中的重要性的科学家之一。她组建了全世界最早、最大的图片识别数据库ImageNet,打开了计算机深度学习的大门,因此李飞飞被称为“AI教母”。然而,成为顶级科学家的她,并非一开始就拿着人生赢家的剧本。李飞飞度过了非常艰难的青少年时期,实现逆袭靠的是一股探索与奋进的心劲儿。

“我把你教得太好了”

李飞飞生于北京,长于成都,父母都是知识分子,爸爸是工程师,妈妈是一名老师。

李飞飞与生俱来的好奇心,某种程度上继承自父亲。父亲天性散漫,据说在她出生的那天,因为一时兴起跑去公园观鸟忘了时间,错过了见证女儿出生的重要时刻,名字中的“飞飞”,就来源于这段经历。

飞飞和父亲没有传统父女间的等级关系,他们之间更像同龄人,父亲对大自然的热爱向飞飞展示了最纯粹的好奇心,这些经历在她心中播下了科学的种子,让她对探索自己视野以外的事物产生了永不满足的渴望。

母亲完全相反,对科学不感兴趣,但热爱文学。她会带着女儿读鲁迅的作品和《道德经》《老人与海》等经典。

因为在期末考试前还痴迷于阅读米兰·昆德拉的《不能承受的生命之轻》,李飞飞被叫了家长。可母亲却将老师的抱怨一句句怼了回去,没有丝毫责怪女儿的意思。回家路上,她对李飞飞说:“我把你教得太好了。”

和母亲期望的不同,李飞飞最爱的不是文学,而是数学。中学接触物理后,物理又成了她最痴迷的科目,连骑自行车转弯时都在思考加速度和角动量的变化。

李飞飞把头发剪得极短,拒绝穿裙子,全身心投入她的兴趣中,尤其是航空航天科学、高超声速飞机的设计,甚至还有不明飞行物等超自然话题……

“真是张好彩票,可惜浪费了”

1992 年,16 岁的李飞飞和父母移民到了美国新泽西州的一个小镇里。对未来的美好幻想,在他们一家踏上美国土地的那一刻立刻破灭了。

首要难题就是语言,父母几乎不懂英语,父亲在一家华人开的店里找到维修相机的工作,每天很晚才下班。母亲在商店找到一份收银员的工作,远离了她热爱的文学。

日子很难挨。一家三口挤在只有一间卧室的公寓里,家具是从路边的垃圾里捡的。为了补贴家用,每一个不上学的日子, 李飞飞都会去打零工。最常见的工作是去中餐馆打杂,从上午11 点工作到晚上11 点,总共12 小时,时薪2 美元。

曾经引以为傲的学业也变成了负担。李飞飞几乎不会说英语,每一节课,无论什么科目,对她而言都是英语课。每天回家做作业,她都要准备两本词典,一本英译中,一本中译英,否则就写不了作业。

自我表达也成了一种奢望。“不会说话”的李飞飞交不到朋友,成绩也一落千丈——考试的时候,很多题目她都看不懂。幸运的是,数学和物理两门课受到的影响很小。学习它们,更多依赖数字、符号和公式。李飞飞对数学和物理的狂热也没有随着移民到美国而改变。

李飞飞曾回忆说,她在很长一段时间里,每天只睡4 小时,但觉得这样的辛苦不算什么,“因为我父母也同样在努力工作”。

好在,辛苦的付出,换来了好的结果。高中毕业时,李飞飞考出了数学满分的成绩,成功申请到了普林斯顿大学的全额奖学金。她的成功,也轰动了整个小镇。然而,李飞飞没有选择医学、金融这种能通向富裕阶层的专业,而是选择了自己痴迷的——物理专业。

“真是张好彩票,可惜浪费了。”邻居们无法理解她的选择。

让机器学会“看”世界

普林斯顿大学对李飞飞来说就是天堂,让她在知识的海洋里不断找寻那颗指引自己的“北极星”,那个可以让她为之痴迷和奋斗的问题。

但她依然很穷,要从洗衣房捡别人扔掉的衣服穿,每个周末,都要回家里的干洗店帮忙。本科毕业时,她明明有机会去华尔街赚钱,或者选择斯坦福和麻省理工这样的顶级名校,但她偏偏选了名气弱一点的加州理工大学,因为这里有她想学的东西。在20 世纪90年代末的计算机热下,一个问题引起了李飞飞的注意:机器可以掌握人类的智慧吗?李飞飞就此关注到了人工智能领域。但当时正值“AI 寒冬”,这个时候入行,显然不是好时机,但李飞飞不在乎这些。

教机器像人一样识别图片中的物体,是人工智能研究领域的一项重大难题。而这也是李飞飞最重要的贡献——创建了数据库ImageNet。人工智能领域的从业者评论,“没有ImageNet,就没有现在的深度学习革命”。

然而起步之初,李飞飞的想法遭到了几乎所有人的反对。但李飞飞确信她正在做一件也许具有历史意义的大事。她确定了一个目标,为每个物品类别搜集1000 张不同的照片:1000 张不同的小提琴照片、1000 张不同的德国牧羊犬照片、1000 张不同的抱枕照片,直到涵盖全部2.2 万个类别,也就是一共需要大约2000 万张图片。

这个工作量太大了。按照既定的速度,ImageNet 完工需要整整19 年。更重要的是,此时,她的“师爷”吉滕德拉也站在反对者的一边,让她深受打击。

“我几乎可以看到我的北极星在逐渐暗淡下来,我的道路又陷入了黑暗之中。一个可怕的想法开始在我心头升起:我承担的风险比我意识到的更大,而现在回头已经为时太晚。”李飞飞回忆。

然而,一切都还没有结束。在一位叫孙民的研究生的建议下,李飞飞知道了亚马逊开发的土耳其机器人。正是这款机器人把起初的大学生标注员队伍变成了一个数千人组成的国际团队。预计完成时间也由19 年变成10年、5 年、2 年,最后不到1 年。

然而,资金需求也逼近团队所能负担的极限,2009 年,李飞飞决定跳槽去斯坦福大学,那里为她的研究提供了新的研究资金。

2009 年6 月,ImageNet的初始版本终于完成:收集了1500 万张图片,涵盖了2.2 万个不同类别。这些图片筛选自近10 亿张候选图片,并由来自167 个国家的4.8 万多名贡献者进行了标注。ImageNet 不仅在规模和多样性上达到了李飞飞多年来梦寐以求的水平,还保持了一致的精确度。

李飞飞的辛勤付出让机器具备像人一样“看”的能力。更重要的是,她用大数据训练多层神经网络的想法,从图像扩展到语音、文字、视频等其他领域,引爆了持续到现在的AI 革命。

面对“AI 是否会取代人类”的担忧,她深信,人作为机器学习和模仿的对象,有机器永远无法替代的能力和价值,“AI可以辅助人们更好地完成工作,但无论我们如何训练机器,它们都无法复制人类的智慧和创造力”。她要竭尽所能保证AI 的胜利不能只是科学的胜利,而必须是人文的胜利,包括她自己在内的科学家有责任将AI 训练为“遵循优良的学术传统,愿意协作,尊重他人的意见与专业的机器”。

给机器呈现整个世界曾经是她的“北极星”,让她为之痴迷并前行,她做到了。现在,她要追寻下一颗“北极星”,就像李飞飞在自传《我看见的世界》中说的:“每一种新的追求,每一个新的痴迷,都悬挂在黑暗的地平线上,闪烁着耀眼的光芒,向不懈追求的人招手致意。”

(摘自“中信出版”微信公众号)