大数据与计算模型

Original 李国杰大数据期刊

2024-09-15

本文刊载于《大数据》2024年第1期“战略研究”

李国杰 中国工程院院士，第三世界科学院院士，中国科学院计算技术研究所首席科学家，中国计算机学会名誉理事长。主要从事计算机体系结构、并行算法、人工智能、大数据，计算机网络、信息技术发展战略等方面的研究，发表科学论文150多篇，出版了三本《创新求索录》文集，长期致力于发展曙光高性能计算机产业和CPU等核心技术的自主可控。

^{DOI：10.11959/j.issn.2096-0271.2024017}

李国杰. 大数据与计算模型[J]. 大数据, 2024, 10(1): 9-16.

0 引言

如今，大数据在降温，而大模型还在持续升温，AI for Science的惊艳成果正吸引着人们的眼球。科技界对AI的认识和如何选择AI的技术发展路线还存在不少争议，以下是争议较多的几个问题。

● 以数据为中心，还是以模型为中心；

● 大语言模型（large language model，LLM）能否成为通用智能模型；

● 以模拟人类智能为目标，还是发展可能与人类不同的机器智能；

● 连接主义AI与符号主义AI的结合是否必要和可行；

● 机器有没有理解能力；

● 神经元计算模型是否不同于图灵计算模型。

人工智能还处在“伽利略时代”，或者说“牛顿时代的前夜”，面临着诸多未知和挑战。我们要看到现有技术路径的局限性，不能只追求增量式改进；要提倡百家争鸣，过早地锁定技术路线会阻碍人工智能的发展。本文对与大数据和计算模型有关的一些有争议的话题发表一些看法，旨在抛砖引玉，引起大家讨论。

1 数据的基础作用和发展趋势

1.1 数据是人类认识复杂世界的基本途径

大量的科学和工程实践表明：只要找到足够多具有代表性的样本（数据），就可以运用数据找到一个模型或者一组模型的组合，使得它和真实情况非常接近。在更高质量数据集上训练的模型，可能只需要较少的训练或较少的模型参数。近几年，人工智能的重大突破已经凸显出数据的巨大作用。

客观世界

本质上具有不确定性。

从根本上讲，

解决很多复杂问题的关键

在于消除不确定性，

只能用数据

来消除不确定性。

例如，大气物理学已经有很多理论，有很多精确的偏微分方程，但天气预报的效果始终不尽人意。华为的盘古和DeepMind的Graph Cast，通过理解海量气候数据中的复杂模式来进行预测，不是通过物理方程的计算来预报天气，其预报精度和速度都超过传统的数值天气预报。这一事实表明，数据是人类认识复杂世界的基本途径。

1.2 以数据为中心，还是以模型为中心

在人工智能发展历程中，数据和模型哪一个更重要，这个问题一直存在争议。这两年大语言模型发展势头很猛，争议也更加激烈。对技术发展方向的选择不完全是一种学术判断，甚至代表了一种信仰。

在神经网络模型取得巨大成功的今天，科技界对大模型的前途仍然存在两种针锋相对的预判。

观点

（以OpenAI公司为代表）
只要扩大模型和数据的规模、增加算力，未来的大模型很可能会涌现出目前没有的新功能，呈现更好的通用性。

观点

目前的大语言模型不可能实现通用人工智能，必须研究新的智能模型和通用AI技术。

大语言模型可能不是实现通用人工智能的最佳道路，只是人工智能发展过程中的一个阶段性成果，但它比前两波人工智能采用的技术具有更大的使用价值。大语言模型也不是万能的，尽管其泛化能力超出人们的预期，但本质上还是封闭范围的AI，学到的是互联网上的书本知识，还没有学到与人类实践活动有关的大量隐性知识。

1.3 合成数据将是未来数据的主要来源

数据并不是取之不尽的资源，数据消费的速度远远高于数据自然产生的速度。有预测认为，到2026年文本数据将被训练完，图像数据将在2040年左右用完。自然语言处理将实现从对已有数据的消费（自然语言理解）到全新数据的生产（自然语言生成）的跃迁，这将是一次巨大变革。合成数据将是未来数据的主要来源。

合成数据不可避免地依赖一部分真实数据用于自身的创建。因此，合成数据永远不会完全取代它所依赖的初始数据。合成数据可以用来验证或扩展已知规律，加速科研的进程，但不大可能直接揭示在原始数据集中不存在的全新规律。

2 关于计算模型的历史回顾和思考

2.1 人工智能的突破源于计算模型的改变

问题的复杂性随计算模型的改变而改变。人们常说的NP困难问题是对确定性图灵计算模型而言的。自然语言理解、模式识别等NP困难问题，在大语言模型上能被有效解决，这说明大语言模型对这类问题的求解效率远远高于图灵计算模型。

人工智能的成功本质上不是大算力“出奇迹”，而是改变了计算模型。AI研究的新近发展体现了一种趋势，放弃绝对性，拥抱不确定性，即只求近似解或满足一定精度的解，这或许是这次AI“意外”取得成功的深层原因。

2.2 两种计算模型的历史性竞争

人工智能经历了60多年的发展，曾经两次跌入低谷，目前是兴起的第三次浪潮。波浪式的发展始终围绕符号主义和连接主义的竞争，而背后实际上是图灵机模型和神经网络模型的竞争。从源头上理清神经网络模型的发展脉络，有助于我们了解它的潜力和局限性。

图灵机模型和神经网络模型的竞争，实际上是科学技术发展史上常见的功能主义和结构主义的竞争。蒸汽机、飞机等重大发明都是先实现功能后来才研究发现其结构原理的，计算机和人工智能走的路也一样。几十年来，神经网络模型一直比不过图灵模型，在学术界受到排挤。但有一批学者坚持不懈, 终于让结构主义取得了一次初步胜利，神经网络模型开始显示它的威力。

2.3 大模型的重要标志是机器涌现智能

在AlphaFold2实现蛋白质结构预测和GPT4令人惊奇的功能中，机器猜想都发挥了关键作用，这说明大规模的机器学习神经网络已涌现出某种程度的认知智能，大模型的核心特征是“涌现”功能。大模型是否具有涌现和理解能力，对这个问题学术界还没有形成共识。

LLM所谓的“涌现”行为是度量标准引起的“海市蜃楼”，一旦改变指标进行测试，所谓的“涌现”特性就会消失。

过去的人工智能做不到的事情，今天的大模型可以做到，从宏观上看就是涌现了一些意想不到的新功能，如机器翻译、计算机生成文艺作品、新材料的发现、全自动设计CPU芯片等。

机器理解不同于人的理解。机器翻译可以不懂语义，AI天气预报可以不懂气象理论，这可能是一种新颖的“理解”形式，一种能够实现预测的理解形式。所谓“对齐”和“微调”是人类认知和机器“认知”的接口。即使机器有意识，源头还是人类，应当能找到人类影响机器的接口。因此，我们对机器的认知不必过于恐慌。

2.4 大模型的本质是“压缩”

大语言模型的本质是一个性能强大的近似无损的数据压缩器，即将输入文件的知识“压缩”后，以权重矩阵的形式存储在神经网络模型中。ChatGPT原始训练数据集的大小是900 TB，训练完成后，模型参数文件大约是64 TB，整体的压缩比约为1∶14，而传统语言模型（如Bert、RNN）的压缩比大约是1∶10~1∶8。

组合搜索的关键是压缩搜索空间。为什么搜索空间可以被大幅度地压缩？因为许多理论上的解空间对实际求解没有意义，解分布也不是随机的。必须有效地识别和利用数据中的关键模式和结构，在巨大搜索空间中快速找到最有价值的区域。

2.5 大模型的“幻觉”

LLM的主要功能是预测（猜），不是搜索正确答案。搜索是没有创造性的，猜测可能有创造性，这种猜测可以看成人类智能的补充而不是替代。向LLM提问其实不是人类在测试计算机的智能，而是LLM在测试提问者对机器智能的了解程度，因此，这可以看成一种反向的图灵测试。

OpenAI科学家Andrej Karpathy指出

从某种意义上说，大语言模型的全部工作恰恰就是制造“幻觉”，大模型就是“造梦机”。提问者是否能够让“幻觉”和自己的现实一致，很大程度取决于提问者对产生内容的检查能力。

3 基于大科学模型的智能化科研

3.1 大语言模型的局限

神经网络模型的哲学基础是经验主义，实际上采用的是不完全归纳推理，存在或然性，得出的结论可能存在偏差或错误。经验主义也无法完全解释人类的创造性思维和创新能力。

为了区别于大语言模型，笔者建议发展大科学模型（large science model，LSM)。科研领域对模型的正确性和精度要求较高，模型具有识别自身能力不足的“自知之明”与提高模型准确性同等重要，科研大模型必须找到对付AI“幻觉”的办法。

基于神经网络模型的深度学习方法难以保证高精度。由于神经网络模型满足不了13个“9”的高精确性要求，中科院计算所在全自动设计的CPU芯片“启蒙1号”的研发中，发明了一种新的机器学习模型——二进制推测图（BSD），用来表示电路逻辑。BSD不但能保证精度，而且与大语言模型一样，也具有“涌现”功能。

3.2 智能化科研与传统科研的区别

人工智能不仅应用于基础研究（AI for science，AI4S），还应用于技术研究和工程实施（AI for technology，AI4T）。因此，笔者建议将“第五科研范式”称为“智能化科研”（AI for research，AI4R）。

传统科研的主要方式是求解函数y=f(x)，即通过实验和理论研究先找到反映客观规律的函数f（一般用微分方程的形式表示），或者根据已知的知识编写求解f的程序，再通过输入x求得结果y。但对于复杂或者较为通用的问题，人类还没有获得函数f的确切表达，只能通过已知的输入x和输出y来拟合函数f，这是求函数值的反问题。智能化科研（AI4R）大多是在解决“反问题”。

为特定应用编写计算机程序是可行的，但为一般智能编写计算机程序会引发组合学爆炸。经过几十年努力，现在有了另一种求解途径，即一个基于学习而不是编写计算机程序的替代方案。大模型相当于一种可能具备通用智能的应用程序，这些算法有时会失败，但足以在现实世界中处理一些复杂的问题。

（点击篇末『阅读原文』阅读及下载本文）

联系我们:

Tel:010-53879208

010-53878019

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作：010-53878078

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录，并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号，获取更多内容

继续滑动看下一个

大数据期刊

向上滑动看下一个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

大数据与计算模型

0 引言

1 数据的基础作用和发展趋势

1.1 数据是人类认识复杂世界的基本途径

1.2 以数据为中心，还是以模型为中心

1.3 合成数据将是未来数据的主要来源

2 关于计算模型的历史回顾和思考

2.1 人工智能的突破源于计算模型的改变

2.2 两种计算模型的历史性竞争

2.3 大模型的重要标志是机器涌现智能

2.4 大模型的本质是“压缩”

2.5 大模型的“幻觉”

3 基于大科学模型的智能化科研

3.1 大语言模型的局限

3.2 智能化科研与传统科研的区别

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

生成图片，分享到微信朋友圈

大数据与计算模型

0 引言

1 数据的基础作用和发展趋势

1.1 数据是人类认识复杂世界的基本途径

1.2 以数据为中心，还是以模型为中心

1.3 合成数据将是未来数据的主要来源

2 关于计算模型的历史回顾和思考

2.1 人工智能的突破源于计算模型的改变

2.2 两种计算模型的历史性竞争

2.3 大模型的重要标志是机器涌现智能

2.4 大模型的本质是“压缩”

2.5 大模型的“幻觉”

3 基于大科学模型的智能化科研

3.1 大语言模型的局限

3.2 智能化科研与传统科研的区别

您可能也对以下帖子感兴趣