一个范式了解通用人工智能的进化！神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

Original 王文广 DataFunSummit 2024-01-24

导读本文将分享达观数据在大模型、知识图谱、强化学习等通用人工智能方面的探索与实践。

主要内容包括：

1. 通用人工智能

2. 神经网络大模型

3. 知识图谱

4. 强化学习

5. 算力和数据

6. 拥抱 HAGI

7. QA 环节

分享嘉宾｜王文广达观数据副总裁

编辑整理｜王超

内容校对｜李瑶

出品社区｜DataFun

通用人工智能

首先来介绍一下达观数据。达观数据从2015年至今一直专注于自然语言处理和知识图谱相关的toB的工作，也在致力于大语言模型的研发。

达观数据专注于金融和智能制造两个行业领域的大模型，结合自身积累的NLP和知识图谱技术，期望将更加通用的人工智能运用到金融和智能制造行业中，去更好地服务客户。

ChatGPT的推出，为人工智能带来了巨大的发展，人工智能虽然不能取代人类，但是善用人工智能者必将胜过不善用者。人工智能，或者说科技的每一次发展，其实并不是直接去代替人的工作，但善于使用它，会带来极大的效率提升，而不善用者可能就会落伍了。农业领域也有类似的例子，以前一个农民靠自己来耕田，能种的田是非常少量的，但是如果采用机械化，则可以一个人管理成千上万亩的农场，这就是善用工具者能够取代不善用工具者。

财富杂志中曾提到：”Wherever the end is for companies’usage of ChatGPT and other AI tools is, it is certainly not in sight.“虽然大家对AI工具的未来发展并不确定，但有一点是肯定的，就是人们刚刚开始从AI工具中受益。

谷歌有一句宣传语：“Bard can be an outlet for creativity, and a launchpad for curiosity.”这也说明了AI已经发展成为可以提高我们脑力劳动效率的工具，甚至可以完成一些创造性的工作。

不管是Bard、NewBing、文心一言，还是office的Copilot等等，这些产品都为我们带来了智能的工具。AI现在已经成为一个非常通用的工具，无处不在。

AGI本身又分两类，一类是以人类为中心的人工智能，用AI来服务于人类。另一类就是AI如果成为一个独立的物种，并不以人为中心。

关于强化学习，引起关注的是一个非常劲爆的事件AlphaGo战胜李世石。让我们看到AI的进步可能比我们想象的更快。然而国内关于强化学习的工作还比较有限，这也是为什么现在大家在做ChatGPT类似产品时会比较困难的原因。

关于如何实现通用人工智能，ChatGPT给出的回答如上图所示。主要包括五点：开展全面的研究，发展更高级的机器学习算法，加强计算机视觉和自然语言处理，加强人机交互，以及加强知识表示和推理。

对于同样的问题，NewBing给出了类似的回答，要实现人工智能，首先需要神经网络大模型、知识图谱和强化学习等技术的组合；另外需要借鉴生物和认知科学的原理，来建立自我人格，包括情感、记忆，还有遗忘，因为人是会遗忘的一个生物，但是现在AI还没有去做这个事情，这也是未来需要去学习的一点；最后是利用算法和逻辑系统来帮助我们自我优化，从环境里面去学习。

以人为本的AGI，就是以人类为中心的通用人工智能，是以服务人类为目的的。HAGI研究的，除了如何实现更强大的AGI之外，还包括如何保持AI与人类的价值观一致，这也是OpenAI在做对齐、追究本源的时候所体现出来的。

人本AGI，可以总结为神经网络大模型⊕知识图谱⊕强化学习，这里的加指的是用某种方法进行融合，而如何融合是一个值得探究的问题。

神经网络大模型

ChatGPT以及GPT-4的出现，标志着“语言的通天塔已经建成”。在语言层面上，可以用不同的语言去交流，比如输入中文，可以让它写一篇英文、俄文或者法文的文章。第二阶段，已经加入了视觉理解，当然目前还只是输入。很快，下一步就会加入对声音的理解。人类大脑的输入就是这三种形式：语言、视觉和声音，很快就全部实现了。

有观点认为AGI的发展随着我们的知识耗尽就无法再继续了。但其实并非如此。AGI现在要做的一个很重要的事情就是如何去感知我们的世界，现在我们给它输入的文本、图像、声音，只是在训练它自己的大脑。一旦大脑能够感知外部世界，就可以自由地去探索这个世界，将不再需要人类的帮助。人类感知世界的本质是对时间和空间的感知，人工智能如果自己能够去感知时间和空间，那么它就能构造出自己的整个科学世界。

现在所有的大模型都是基于Transformer的，它是2017年Google在论文《Attention Is All You Need》中提出的一种序列到序列的深度神经网络架构。

在过去五年中，预训练大模型的参数规模经历了“野蛮”增长的过程，也被称为“智能时代的摩尔定律”。未来还会继续增长。

当前，扩散模型对图像生成已经能够做得非常好，只不过需要人的参与。如果只是输入一段文字，直接生成想要的可能不太行，但是可以一步步地去生成，比如可以先生成一个背景，再在背景里面生成一些人，再给这些人换脸、换衣服都可以。在人机交互的情况下，已经能够生成可控的结果。

知识图谱

知识图谱在AGI里面发挥作用的地方就是事实和推理。大模型已经能够胜任大多数的推理，但在某些冷门领域，或是比较长的情况下，就可能会出错。比如让ChatGPT用解方程的方法来解一道小学应用题，它能够正确地列出方程，但解方程的过程就出错了。如果单独把方程给出来，它又能解对两三步，然后到第四步、五步的时候又错了。如果把这个方程错的那步让它重新开始解，它又能解对。这也就说明它现在能做一定的推理，但是比较短。可能不是它本身学会了推理，而是从语言里边抄过来一些相应的推理，如果太长，可能就会出错。说明大模型本身并没有建立起一个完善的科学体系，而只是得到了一些经验。要进一步发展AGI，一定会遇到符号主义或者知识图谱的内容。知识图谱可以为其解决“胡说八道”和长推理的问题。

举个具体的例子，比如我让它推荐首歌，它先给我推荐了一些英语歌，我说我不喜欢英语，它就给我推了中文的歌，但这些歌曲中只有四个是对的，其它六个都有问题，有些是网上不存在的歌曲，歌曲跟歌手关系是错乱的。

我继续说，不要十首，就一首，场景是在河边看柳树的时候，我想听这首歌。它就给我推荐了一首江南，但是歌词又错了。再往下，我说不喜欢林俊杰，我想听一个女歌星唱的歌，它又给我推了一首女歌星的歌，但问题是它说的这句歌词根本不存在。这就看出虽然从语言本身角度来说是没有问题的，但其实事实性是有问题的。

谷歌提出了一个方法，就是在大模型推理生成内容过程中，会去检索事实库，在事实库里面去找到相应的事实凭据给出来，从而更好地确保事实的准确性。事实凭据就是以三元组形式存在的一个知识库。

Microsoft 365 Copilot也是类似的，把生成结果跟数据放在Microsoft Graph里边对数据进行过滤。

文心一言本身就已经非常强调在用知识图谱，也提到了知识内化和知识外用。

强化学习

强化学习在国内的研究较少，在企业里面的应用点也比较少。但OpenAI、DeepMind一直在研究，有着领先优势。

强化学习主要是把外界交互的东西让模型去使用到。RLHF找到了一条适合于人类跟大模型结合在一起的方式，但是强化学本身最重要的点是从外界交互，离开人类依然可以从环境中不断学习、探索。

对于ChatGPT来说，强化学习现在是被局限在人的反馈里。未来当它能够感受时间和空间的时候，就可以自由地去探索世界，构建自己的科学体系了。强化学习本身的逻辑非常简单，最基础的是马尔可夫决策过程（Markov Decision Process, MDP）。ChatGPT中最主要的是奖励预测器，以及强化学习PPO算法。

算力和数据

完成AGI还有很重要的一点是算力。GPT-4与微软一起重构了整个算力基础。这块可能也是国内比较欠缺的点。

数据也是非常庞大的一部分。上图中列出了网上整理出来的一些数据集，可能只是ChatGPT-4训练语料的一部分。纯中文的数据可能比较有限。

拥抱 HAGI

最后进行一下总结。

首先，对所有人的一个挑战就是脑力替代。ChatGPT之前的所有工业化产品，做的都是体力劳动的替代，但接下来的HAGI会为全行业全社会带来脑力劳动的替代，脑力劳动的效率能够得到极大的提升。因为脑力劳动是跟我们人类智能关联在一起的，人类是唯一有智能的生物，因此AGI的发展可能会带来整个社会的重构。

短期来讲，HAGI会在三个方面带来影响。

首先就是算力和数据。AGI的发展对算力的需求永无止境，对国内来讲，这也会是一个非常巨大的市场。数据处理也能够得到一个极大的发展。

其次，就是通用人工智能体，比如ChatGPT、百度文心一言等等。

最后，是千行百业的应用。AGI在每一领域都有相应的应用，在数年后可能会带来完全不同的业态。

在《明日边缘》的世界中，有三种战士：第一种战士是最低级的，每一次战斗都要参与，这种战士数量非常巨大；第二种战士叫阿尔法，战斗量不多，但是能力比较强，而且如果人类拥有他的血液，也会拥有同样的能力；第三种是核心层——欧米伽，它可以控制所有这一切。这与前文提到的三层非常类似，通用人工智能就是一个大脑，它控制所有的一切，而千行百业的应用就类似阿尔法战士，他可以干很多不同的事情，但是如果大脑没了，他也就死机了。这就是未来可能存在的一种智能体的形态。如果欧米伽诞生了他自己的意识，有可能就会形成《明日边缘》中那种人类与欧米伽之间的战斗。

我们要积极拥抱HAGI，因为它能够带来效率的变革。当然，长远来看，我们要教育下一代如何才能够适应AGI驱动的未来。

QA环节

Q1: 大模型和知识图谱的融合是必须的吗，比如说像new bing一样，然后用retrieve的方式去做，效果也很好？

A1: 知识图谱就是谷歌提出来，用来解决数据准确性不高的问题，因为网上检索的网页很多杂七杂八的数据，知识本身不精确的问题。如果觉得检索是需要的，那往后推，一定发现知识图谱也是必须的，它就是简单检索的升级版本。除非完全不需要外挂，因为有另外一个流派，就说完全不需要外挂知识，大模型本身就搞定了，这个另说。如果是这一个派系的，就是用检索方法的话，我觉得往后推，就是知识图谱，知识图谱就谷歌用来解决这个检索效率不高、不准确、不直接的问题的一个成果。再扩充点，就是以人为本的AGI，这个AGI是服务于人类的。这个派系的AGI应该是需要知识图谱的，但如果这个AGI本身说我不服务于人类，就自己独立的，那他可能可以不需要知识图谱，可以就通过自己对外界、对整个宇宙的感知，构建自己的科学体系，那他可以不需要理解现有的人类社会制度，我个人这么认为。所以我觉得只要你认为这个人工智能是服务于人类的，那我觉得是需要的，如果他是自己独立的人格，类似于我那个明日边缘里面阿尔法，那可以不需要。

Q2: 强化学习主要应用在大模型和知识图谱的哪些点上？它们三者之间是怎么去结合融合的啊？

A2: 三者融合，我觉得大家可以看两篇论文，一篇就是OpenAI的InstructGPT的论文，就是他本身讲了如何从人类反馈的强化学习来训练模型，其实就这张图，他用gpt3的一个小版本，6b版本训练奖励预测器，奖励预测器用来预测这种大的模型生成的文本。比如说给你一个提示，你给我生成三个结果，我去判断哪个结果更好，其实就判断答案的rank。Rank只用了6b的这么一个模型来判断，所以效率会相对高点。然后用ppo去更新这个大的模型，就GPT-3.5那个达芬奇模型，更大的模型，因为这整个过程就是类似于AlphaGo的，整个流程跟AlphaGo流程没什么本质区别，就是强化学习。基本原理非常简单，mdp，可以去了解一下。这个原理容易搞懂，但是它使用起来有非常多的trick，咱们中国中药或者中医里边的玄学一样，就是比较玄学，如果没有经验的话，很难搞好这么一个事情。所以刚才讲的过程中就说过一点，国内来说，觉得强化学习这一块才是真正我们遇到的难点，因为这个积累太少，大模型，大家多多少少都知道，只不过可能没那么大，可能只能搞定10B，搞不定1t的，这个也还好，但这块可能积累都很少，还有算力层那块。

Q3: 关于知识更新，大模型训练一次成本很高，是不是有轻量化的方式，或者基于知识图谱去做大模型的知识增强，比如说在预训练的时候，这种效果是不是不如用它来做大模型，直接生成任务上去辅助的效果更好。

A3: 修改本身有两个途径，一个途径就是RLHF人类反馈的强化学习的东西。通过这个机制，给他输入足够多的信息，就可以去更新大模型本身的东西。这里把知识图谱作为一个知识源，相当于给大模型一个比较优质的语料，但避免不了幻觉，还是要胡说八道，因为英文的材料其实非常丰富的，它还是会胡说八道的。一旦遇到稍微冷门一点，他就胡说八道，英文的也是一样的，而不仅仅是中文，英文它也会胡编，包括new bing英文或者是ChatGPT，包括GPT-4的英文都会。另一个是外用，外用知识图谱，所以如果真的要确定的东西，我觉得路径就是那个laMDA所展现出来，就是外用它来确定它是事实。而且一旦你形成了这么一套逻辑之后，可以直接修改图谱内容。知识图谱里面有错，直接改成对的。如果要更新知识，直接往图谱里面插入，它就自动给你找出来，匹配上。我觉得这一套是目前来看比较靠谱的一条路径。

另外一个路径就是可能是得大家一起来探索，就是神经符号学这个东西，但是这其实不是去解决事实性的问题，更多是解决推理的问题，就是那种长程推理的内容，因为神经符号学本身也不是用来解决事实性，它就是解决人类这种推理构建科学体系的一个内容。就从更大的方面角度，因为如果大家对AGI感兴趣，可以看看认知科学、哲学方面的东西，其实很相关，到这一个层面上，已经不全是技术上的一些东西。

Q4: 大模型和知识图谱目前最好的融合有开源的代码和学习供学习吗？

A4: 没有，只有谷歌的几篇论文，谷歌DeepMind在搞，包括new bing应该也在搞这个，但是现在都不开源。现在会比较痛苦，特别是国内来说，现在DeepMind老板哈萨比斯，在年初一二月份的时候，大概中国春节期间，接受一次采访，也在说现在要慢慢的闭源了，就是以后不发paper了，连paper都不发，别说开源了。他的一个逻辑是，有好多人就是就白嫖，他说要杜绝白嫖。然后第二个就是OpenAI，最近就GPT4发布完之后，那个接受采访也是说，为了避免更剧烈的竞争，因为它现在也是要盈利的。第二个就是说这个AGI太强大了，以后如果失控了怎么办？他担心这两点，所以他说以后也不开源了，也不开放了，论文也不写了，可能就是以后什么东西都不说，大家都自己探索。所以这点对未来的我们来说，因为原创性的东西其实不太多。不管是这一次ChatGPT所代表的AGI，它所使用的技术其实没多少了，总共加起来也就不到100篇论文。虽然中国就国内的机构发表了可能有应该二零一七年到现在的话，应该五六年，估计发表一万篇以上吧。这都不包含在里面。所以我们还是需要很多原创性的东西，灌水论文建议大家够了就行，这个也不能说不要，够了就行了。然后更多去思考一些原创性的东西，特别是一堆业内的大佬们，已经不愁也不用评职称了，也不愁这些论文的人，要真正去思考一些真正原创性的东西，不然以后就跟光刻机一样，咱们就白瞎了。

Q5: 大模型强化学习和知识图谱能解决np问题吗？

A5: np问题应该是解决不了的问题，它只能用来做近似，就是就是np问题，如果明确是np问题，应该就是。其实也不能说不能解决的一个问题，np问题，应该是我记得在多项式时间内解决不了的一个问题，那这个问题我觉得应该不是靠现代的，靠强化学习和AI这种的大模型也行，强化型知识库也行，包括神经符号也行，它能够解决它的近似的问题。但它的np本身是一个计算量的问题，计算量的问题，我觉得它是现代这种经典计算机所不能解决的。需要解决这个问题，应该要靠量子计算机，这块是另外一个领域，这个问题我觉得是靠量子计算机来解决，不靠AI，但AI能够解决近似解，就是在特定条件下，能够得到当前需要的最优的问题。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

王文广

达观数据

副总裁

王文广，达观数据副总裁，高级工程师，人工智能标准编制专家，自然语言处理和知识图谱著名专家，《知识图谱：认知智能理论与实战》作者，专注于AI 大工程、知识图谱、认知智能、自然语言处理、图像与语音分析、大数据和图分析等人工智能方向。现在是上海市人工智能标准化技术委员会委员，上海科委评审专家，中文信息学会（CIPS）语言与知识计算专委会委员，中国计算机学会（CCF）高级会员，中国人工智能学会（CAAI）深度学习专委会委员。曾获得多个国际国家级、省部级、地市级奖项，拥有数十项人工智能领域的国家发明专利和会议、期刊学术论文。在达观数据致力于将自然语言处理、知识图谱、计算机视觉和大数据技术产品化，以OCR、文档智能处理、知识图谱、RPA等产品服务于金融、智能制造、贸易、半导体、汽车工业、航空航天、新能源、双碳等领域。

限时免费资料

往期优质文章推荐

往期推荐

蚂蚁金融事理图谱构建及应用

快手3D数字人直播互动解决方案

大语言模型是推荐系统的解决方案吗？

ChatGPT技术的国产化

电子书下载｜自然语言处理专题

数据服务化在京东的实践

云原生实时湖仓系统的一数多擎实践之路-OushuDB

腾讯欧拉t-Metric指标中台实践

关注我们获取更多信息......

继续滑动看下一个

一个范式了解通用人工智能的进化！神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

Original 王文广 DataFunSummit

DataFunSummit

向上滑动看下一个

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

联调局开始降息置业者应否入市

光刻机，官宣了！

湖南省财政厅厅长刘文杰遇害，警方最新通报！

一个范式了解通用人工智能的进化！神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

一个范式了解通用人工智能的进化！神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

您可能也对以下帖子感兴趣

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

联调局开始降息 置业者应否入市

光刻机，官宣了！

湖南省财政厅厅长刘文杰遇害，警方最新通报！

生成图片，分享到微信朋友圈

一个范式了解通用人工智能的进化！神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

一个范式了解通用人工智能的进化！神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

您可能也对以下帖子感兴趣

联调局开始降息置业者应否入市