连续三天的诺奖科学奖解读结束之时,我陷入了一段沉思。除了生物奖,物理奖和化学奖都可谓出乎意料,它们都颁给了神经网络和人工智能相关的领域,可以说第一次诺奖闯入了图灵奖的领域了。以至于大家戏称,诺奖评委已经被AI绑架,诺贝尔被图灵附体了。
化学奖出来那天晚上没睡踏实,迷迷糊糊中,总觉得有哪里不对。难道这次诺奖科学奖都发给AI相关,他们自己没琢磨过影响么?他们真的只是迎合时尚,还是他们已经看到了我们尚未看见,或者看见但并未认知的趋势?
有一个学科叫科学学。是研究科学和科学活动的发展规律及其社会功能(影响)的综合性新兴学科。说一个简单的区别,比如我们在中文语境常常把科技联用,其实科学和技术是由紧密联系,但非常不同的两个概念。科学活动是发现,尝试发现在宇宙中已经存在的规律;而技术是发明,确实有可能创造出宇宙中之前不存在的事物。
我们讲到的创新、改进、改良等等,这大部分都是对着技术来讲的。将技术集成并规模、重复运用于实践,我们一般称“工程”。而如果把大量的技术集成并通过大规模组织实施完成的大型、超大型项目,我们一般称为大科学工程,比如曼哈顿原子弹计划,阿波罗登月计划、人类基因组计划、两弹一星和航天计划等。在这个过程中,形成的超级工具,我们一般称大科学装置,比如欧洲的强子对撞机(LHC),美国哈勃、韦布望远镜,LIGO引力波天文台、咱们的天宫、天眼,全球各地的超级计算中心,超级测序中心等等。
这里面就会引出另一个问题,是先有科学,还是先有技术?
这个我们后面再回答,先回到今天的主题,AI算超级工程么?当然算,这一次人工智能的浪潮,正是起源于先进GPU叠加而产生的超级算力。无论是ChatGPT还是Sora,其背后的集群算力推测不低于10000张A100,甚至是H100,而马斯克为旗下初创公司xAI刚刚搭建的孟菲斯超级集群,更是集成了10万张H100,这个超级训练算力中心造价达40亿美金。特斯拉刚举办的“We,robot”发布会提到的自动驾驶就是基于这个中心打造的。
所以,从这个方面看,诺贝尔奖的评委并非被AI绑架,他们已经真切的看到了,一次新的科学范式转移正在发生。现在已经不是AI for Science,所谓AI为了科学,而是实实在在的AI is Science。AI就是科学。
其实人类进入科学革命仅仅500年,可以从1543年哥白尼的《天球运行论》开始算,或者更短一点,从1687年牛顿的《自然哲学的数学原理》开始算,而真正让我们驶入快车道的,则是进入二战之后的80年,让人类第一次开始思考,研究科学的科学,包括科学范式的转化。这部分背景复杂,分枝很多,我主要挑四个关键节点,或者说四本科学学的书籍,来阐述下相关的内容。
第一个关键点,1945年的《科学,无尽的前沿》,是由范内瓦尔·布什递交给当时的美国总统杜鲁门(应罗斯福要求所起草,但罗斯福此时已经去世)的一份报告的名字,是美国科学政策的“开山之作”。
这本书第一次将科学研究做了基础研究和应用研究的划分,即所谓的“科学研究的线性模式”。系统解析了科学对于国家经济与安全、社会福祉以及个人发展的重要意义,并提出了多项重要的科技政策建议。比如强调科学是国家进步和创新的驱动力,比如它着重提出了要重视基础科学研究,包括呼吁给予科研工作者高度的研究自由。同时建议政府应拨款资助科研项目,并设立国家研究基金会等机构来支持科学研究。要知道,在此之前,非军事用途的科研基本上是有钱人(直接下场或间接赞助)的游戏。
其实施结果使得美国迅速摆脱对于欧洲基础研究以及科研人才的依赖,解决了美国科技卡脖子的问题,最终成就了美国今日的科技强国地位,也永久改变了人类科学发展的格局。
第二个关键点,1962年,是美国的托马斯·库恩所写的《科学革命的结构》,从科学史的视角探讨常规科学和科学革命的本质,他主张应赋予科学的历史以一种规范的含义,创立一种牵涉到社会学和社会心理学的科学哲学。基于这种观点,库恩提出了一个以“科学范式”(scientific paradigm)理论为中心的动态科学发展模式:前科学时期——常规科学——反常与危机——科学革命——新的常规科学,也就是我们站在巨人的肩膀上,不断地去颠覆,不断地去证伪,所谓“我爱我师,而我更爱真理”的过程。他很经典的总结就在于,科学的发展不是线性的,而是通过一系列的“科学革命”来实现的,每次革命都会带来新的范式。
我们最近在科技领域经常听到的“第四范式”也正是源自于此。那前三个范式是什么呢?
第一范式,也称为实验科学范式,侧重于观察和实验。比如伽利略的自由落体实验。
第二范式,即理论科学范式,通过构建数学模型来研究自然现象。比如牛顿的经典力学体系。
第三范式,也就是计算科学范式,这个范式研究侧重于通过计算和模拟来理解自然界,例如通过计算机模拟来预测天气变化。
第四范式,即数据密集型科学发现范式,也就是数据驱动范式,它强调数据的收集、处理和分析,通过数据挖掘来发现新的科学规律和知识。与计算技术的发展紧密相关。
第三个关键点:1997年,美国司托克斯所写的《基础科学与技术创新——巴斯德象限》。《巴斯德象限》论述的问题是,在新的世纪,美国的科学应该如何发展。他先分析了《科学——无尽的前沿》的基础和应用研究的线性二分法,并在此基础上提出了一个新的科学研究模型——象限模型。
我们可以看这个直角坐标系,横轴表示研究的动机,好奇心驱动型还是应用驱动型,纵轴表示知识的性质,是否具有基础性和原理性,那么所产生的四个象限就形成了“玻尔象限”(代表好奇心驱动型纯基础研究),“爱迪生象限”(代表为了实践目的应用研究),此外会出现一种新的类型——“巴斯德象限”(代表由解决应用问题产生的基础研究),之所以命名为巴斯德象限,是因为巴斯德在生物学上许多前沿性基础工作的动力是为了解决治病救人的实际难题。另外,还有只是为了获取技巧和经验的“皮特森象限”。当然每一个象限不是相互隔绝的,而是存在着复杂的双向乃至多向的联系。
这本书最后以巴斯德象限为名,可见其代表了这本书的中心思想。相对于布什的线性模型,巴斯德象限模型更准确地反映了知识与应用之间的关系。基础研究与应用研究并非矛盾对立的关系,而是在某种程度上达到统一和融合,为科学研究的发展带来多种可能。
第四个关键点:2016年,还是美国的卡特希·那拉亚那穆提所写的《发明与发现:反思无止境的前沿》。这本书提出了与前作相反的意见,认为基础研究与应用研究的传统分类观阻碍国家的科学与技术进步,导致许多无用的政策建议。他提出研究作为一个整体,是一个不断在发明与发现之间切换的联系过程。而将研究活动划分为“基础研究”和“应用研究”,并且简化为线性联系,割裂了研究的整体性、综合性和相关性,是一种未能正确反映客体的主观判断。
而“布什范式”之所以是主流,从历史上来,它根植于传统认知,即早期西方文化延续下来的偏向科学而非工程的线性逻辑;从现实看,它适应官僚体制。即“二分法”便于官员对项目进行管理和资助,满足政策制定者的主观偏好,并不断强化建立起来的官僚体制。
本书的核心论点在于发明和发现是一个相互关联的有机整体,它们之间可以是循环往复的,发现既有可能产生新的发明,也可能获得新的发现。发明也是同理。
此外人类创新越来越依赖于组织化和大平台,顶尖的武林高手固然关键,但强大的组织和大平台更有利于天才们的发挥。此外,跨学科跨行业的沟通交流,需要从更深层次反思科学和技术政策,都是人类进一步的科学活动中所不可或缺的。
这也我一直讲的,很多时候,技术和工具往往在发现之前而不是之后。(比如先有蒸汽机,后有热力学;先有飞机,后有空气动力学;先有望远镜,后有新天文学;先有显微镜,后有微生物学……)
好了,终于可以总结下,我今天想讲的,第五范式恐怕正在形成。
从有了人类开始,就有了观察,所以第一范式一直伴随人类始终,文艺复兴后催生了第二范式,带动人类进入工业时代,到了计算机和信息时代,第三和第四范式应用而生,而随着算法、算力和数据的并行崛起,人工智能已经成为推动发现和发明的利器,甚至有可能将不依赖于人类智慧独立进展,这就带来了可能的科学革命的“第五范式”。
尽管在这一刻,第五范式尚没有统一的概念,但可以明确的是,它是基于日趋强大的遍历性(ergodicity)人工智能系统,遵循第一性原理的、面对复杂系统中不确定问题的、通过机器自学习、自监督、自迭代而持续涌现的智能,从而大大加速发现和发明的一种范式。它会产生人类所不理解的高维度“暗知识”,在人机结合、或者说碳硅结合中的比例,人类的权重会越发降低。无论这话好不好听,您高不高兴,它就是来了。
400年前,培根讲:知识就是力量;1978年,小平同志讲,科学技术是第一生产力。而今,我们要回答一个问题,如今第一生产力的生产力,或者说“原力”是什么?我们必须承认,这一轮的计算-信息-智能革命就是一场原力的风暴,其核心就是AI。要牢牢把握AI发展的发现-发明-应用的规律,从三支柱看,数据中国从来不缺但需要破除孤岛,算力要靠硬核科技突破,而算法真的需要顶尖人才,特别是天才。如何能够让天才涌现并能够提供适宜生长、且能成长为参天大树的环境,这是要从教育模式到科研体制到产业政策整体反思打造的。认为AI从一开始就必须做应用、盈利赚钱对特定资本、特定公司是无可厚非的,但对一个国家、民族来讲,这种过于“短视”必然使得我们重蹈“卡脖子“覆辙。“他山之石、可以攻玉”,看看刚才提到的4本科学学著作都是美国科学家所著,在感慨之余,我们也当反思,在科学学和科技政策的研判实行上,还有哪些是需要破除藩篱、迎头赶上的。希望每一个人都能明白,我们面临的不是一个周期,而是一个时代,周期还会回归,但时代只会呼啸而过,哪管您懂了还是没懂。
1929年,量子物理学的先驱保罗·狄拉克早在说过:“大部分物理学以及整个化学所需的数学理论的基本定律已完全为人们所知,而困难在于这些定律的精确应用会导致方程太过复杂而无法求解。”人类的大脑,至少在目前的技术框架下,其实是被锁死的。比如我们的算力就是这860亿神经元,输入输出也就是I/O是限速的,群脑无法并联,智力无法遗传,甚至还可能倒退……就算脑机接口突破,每个人出于隐私考虑,也不可能愿意共享所有信息。但今天的超级计算/人工智能,或者终将到来的硅基生命则没有这些条件的限制,正是依靠这样的效率,AlphaFold3在很短的时间内就预测了数亿个蛋白质结构。而此之前,经过几代结构生学家的努力,人类在半个世纪内仅仅积累了二十万个蛋白质的结构。作为深谙演化史的我,一直清楚的知道,掌控地球的从来不是物种,而是智能。人体的血脉(基因组)和菌脉(肠道菌群)都无法简单复制甚至遗传,但文脉可以,也许能够替我们探索星空的注定是“具身智能”(机器人/硅基生命),但也请我们将人类的爱和文明向他们传承,由它们向可触及的无尽前沿传递吧。
过去的500年,是数百万年人类史以来最为璀璨的500年,作为万物灵长的人类,在意识到了地球不是“宇宙几何中心”的真相后,却努力望其成为“宇宙精神中心”。
阿西莫夫在《永恒的终结》中写道:如果人类总是选择最安全最中庸的道路前进,群星就会变成遥不可及的幻梦。我的朋友们,尤其是年轻一代,希望你们都能看到趋势、积极拥抱趋势,最大限度的发挥想象力和创造力,在AI时代屹立潮头,为中国赢得这次科学范式的先机!我和华大也会和你们一起努力,在生命科学和生物技术产业为人类持续作出引领性、奠基性贡献。
邀诸君,与时代,共演化!