AI 模型评估指南：人工智能最擅长什么，进化速度有多快？

Original 硅谷科技评论硅谷科技评论

2024-08-23

随着全球顶尖实验室竞相实现通用人工智能（AGI），我们正见证AI在复杂任务上超越人类的惊人成就。

尽管AI在说服力、情感评估和创意产生方面展现了卓越能力，离完全超越人类仍有一段路要走。未来的AGI可能彻底变革多个行业，开启一场前所未有的认知革命。

除了OpenAI之外，全世界许多最重要的人工智能实验室的明确目标是实现通用人工智能（AGI），我们有必要认真思考：我们何时（如果能的话）能够实现AGI（通用智能），即“在所有任务上都比人类表现更好的智能”。

大多数计算机科学家认为实现这种AGI是可能的，但在实现方法和时间表上存在很大的分歧。在2023年对计算机科学家进行的一项调查中，预计实现AGI的平均时间是2047年，但同一调查还指出，到2027年实现AGI的概率为10%。

无论未来如何发展，但目前的现实是，我们还没有一款AI能够比人类更好地完成所有任务，甚至大多数任务。但这并不意味着人工智能在一些极其复杂的工作中没有达到或超越人类的水平。在某些领域中，人工智能的表现惊人，特别是在那些需要同理心和判断力的“人性化”任务中。例如：

如果你与人工智能辩论，他们说服你接受特定观点的可能性比普通人类高出87%。
GPT-4可以帮助人们重新评估人类情绪状况，其效果优于85%的人类，在评估的有效性、新颖性和同理心方面击败了人类。
GPT-4产生的创业想法被专家认为比受过培训的商学院学生的想法更好。
人工智能在32个案例中的28个击败了初级医生，其他4个与人类持平，同时AI在同理心和判断力上获胜。

一、AI基准测试

自从2022年下半年，ChatGPT发布，开启了大模型的军备竞争。两年不到的时间，全球各地成百上千个大模型纷纷面世，宣称取得新的突破。一个现实的问题就是，我们如何知道人工智能真正擅长什么？我们如何知道它的进化速度有多快？

其中一种方法就是对人工智能进行基准测试。这正是OpenAI在发布GPT-4时所做的，展示了GPT-3.5和GPT-4之间的巨大差异。纵轴显示的不是考试成绩，而是被人工智能击败的人类考生的百分比。相当令人印象深刻！

但值得注意的是这种方法也存在缺陷。

首先，这些测试中的一些问题可能包含在AI的训练数据中，这实际上让它能够“提前记住”答案（这一问题称为“过度拟合”overfitting）。

其次，对人工智能进行人类一样的考试难度也比较大。以AI在律师资格考试中得分达到第90百分位为例。一篇新的论文详细研究了这个分数，发现了AI与人类比较时存在的许多问题，并最终得出结论，经过适当的提示，GPT-4总体上应该处于第69百分位（而不是第90百分位），在通过考试的学生中则处于第48百分位。这个成绩仍然非常好，并且能够通过律师资格考试，但并非像媒体报道的那么好。此外，考试成绩仍然是比较单一的衡量标准，我们都知道通过律师资格考试并不代表你是一名优秀的律师。

基准测试的另一个问题是，它们并不能帮助我们理解人工智能是否真正接近AGI。为此，我们需要随着时间推移的基准测试。

人工智能领域有很多基准测试，几乎所有基准测试都集中在编码技能上（因为人工智能实验室里的程序员，更关注AI的编码能力）或是一般知识测试（general knowledge）。

最常见的基准测试是MMLU（Measuring Massive Multitask Language Understanding ），它由约 16,000 个多项选择题组成，涵盖数学、哲学、法律和医学等 57 个学科。它是比较大型语言模型功能最常用的基准之一。MMLU 由一组研究人员于 2020 年发布，其设计比当时的基准（例如 GLUE (2018)）更具挑战性。此外还有10几个基准测试比较常见，具体参见微软亚洲研究院的研究员介绍大模型评测领域的综述文章《A Survey on Evaluation of Large Language Models》。

AI研究员Maxime Labonne提供的这张各大模型在MMLU中的表现图表很重要，我们会发现：

目前有许多大型语言模型（LLMs），您可能听说过 GPT-4、Gemini 和 Claude，但还有大量其他模型，其中大多数是“开放权重”（open weights）模型，这类似于开源。任何人都可以免费下载和使用开放权重模型，比较著名的有中国阿里巴巴推出的 Qwen、法国的 Mixtral 和阿布扎比的 Falcon。目前在开放权重模型领域占据主导地位的是 Meta 的 Llama 3 模型。
我们会发现人工智能的规模定律：人工智能模型越大（意味着需要更多的数据和更长的训练时间），人工智能的表现就越好。随着时间的推移，人工智能模型变得越来越大，性能越来越好，逐步超越业余水平并接近专家水准。
GPT-4 刚问世时表现异常，远远领先于其他模型，但随后出现了另外两个同级别的模型：Gemini Advanced 和 Claude 3 Opus。当然，OpenAI几天前最新发布的 GPT-4o 再次处于行业前列，但这次在文本质量并未取得大的突破，但是在速度和音频/视觉能力等多模态方面取得了重大进展。
由 Google、Anthropic 和 OpenAI 控制的闭源专有模型表现最佳，而开放权重模型则相对落后。不过，Meta 的最大版本开放权重模型 Llama 3 在 MMLU 测试中的得分高达 86%，达到了 GPT-4 的水平。

值得注意的是，现实情况往往更为复杂。AI模型可能会被训练测试中的问题，要么是无意，要么是为了在这些基准测试中获得高分，在国内俗称“刷榜”。此外，MMLU 测试内容非常奇特，而且测试本身未经校准，这意味着我们不知道从 84% 提高到 85% 的正确率是否与从 40% 提高到 41% 一样具有挑战性。

二、AI 进化不止

此外，我们还可以通过查看用于LLM评估的众包开放平台lmsys chatbot arena来评估AI模型。这个网站上，你可以输入提示词并比较两个不同大型语言模型（LLMs）的两个答案。这也是比较模型的一种相当不错的方法，因为它可以通过主观评估“共鸣”（Vibe）来衡量模型在超过一百万次对话中的表现。

该网站使用了最初为国际象棋棋手排名而开发的 ELO 评级系统，根据用户偏好来比较不同语言模型的性能。下图显示了这些模型在胜率方面的表现情况。尽管该测量方法与 MMLU 大不相同，但结果非常相似，据研究，ELO 和 MMLU 之间的相关性非常高（0.89）。

在几天前的GPT-4o发布之际，OpenAI CEO 奥特曼在个人Twitter上，转发公司技术人员对新模型的测试结果就是来自于lmsys chatbot arena。

只要训练大型语言模型的规模律继续保持下去，无论采用什么基准测试和衡量方法，随着时间的推移，人工智能能力的提升非常迅速，我们都会看到大模型都会不断进化，向上和向右移动，接近甚至超越人类的表现。

三、通用AI之路

人工智能在多个基准测试中击败人类的能力不断提升，这表明其具备超越人类的能力，但需要谨慎解读。

人工智能在某些任务上表现出色，而在其他任务上则表现不佳。面对诊断疾病、在辩论中说服人类或解析法律合同等复杂任务，AI的能力可能会迅速提高，达到超越人类的水平。但与之相关的任务，如人类律师和医生执行的某些工作，可能完全超出大型语言模型（LLMs）的能力范围。虽然它在某些任务上超过了人类，但并不意味着它能在所有相关工作上达到人类水平。尽管人工智能和人类可以执行一些类似的任务，但潜在的“认知”过程有根本的不同。

这表明，通用人工智能（AGI）标准——“一台机器可以比人类更好地完成任何任务”——可能会让我们忽视人工智能已经在某些领域超过人类的事实，也可能让我们误以为人类更容易被取代。直到大型语言模型（LLMs）变得更强大之前，在许多情况下，人工智能仍然需要与人类协同工作。因此，我们可能需要将 AGI 的发展分为不同的层次来考虑：

第一级：通用人工智能 (AGI)

能够在任何任务上超越人类的机器。

第二级：弱通用人工智能 (Weak AGI)

在某些特定的工作中，机器能够在其职责范围内的所有任务上超越普通的人类专家。目前没有实际存在的弱通用人工智能系统，但可以关注法律工作、某些类型的教练和客户服务等方面的发展。

第三级：专注人工智能 (Artificial Focused Intelligence)

在某一明确定义的重要且具有智力挑战的任务上，人工智能能够超越普通的人类专家。当人工智能达到这一水平时，人们宁愿咨询人工智能来寻求帮助，而不是随便找一个专家，尽管表现最好的专家仍然优于人工智能。我们很可能已经在医学、写作、法律、教育等多个领域达到了这一水平。问题在于缺乏明确的专业基准和研究，使得我们无法对人工智能与人类的比较进行准确评估。

第四级：协同智能 (Co-Intelligence)

人类与人工智能协同工作时，常常能够超越单独工作的最佳表现。当正确使用时，人工智能是人类的得力工具助手。在ChatGPT面世一年之后，以各类AI工具为代表的协同智能已经普遍存在于今天的各行各业和我们个人的日常生活之中。

最后，即使没有公认的AI评估最佳方法，随着人工智能在特定领域继续超越人类的能力，我们预计会看到从医疗保健、法律到金融等各个行业的重大颠覆。专注人工智能和协同智能系统的兴起会提高人类生产力，甚至改变生产关系，我们可能需要重新评估人类在决策中的作用。尽管通往真正通用人工智能的道路仍不确定，但一场全球范围内，影响全人类的认知革命正在进行。

硅谷科技评论（svtr.ai）AI创投社区覆盖人数超过10W，其中AI从业者超过10000人，大都来自全球科技大厂、顶尖投资机构和高潜创业企业。如果您有兴趣加入，或者成为我们的导师、顾问或是创业合伙人等，欢迎联系凯瑞（pkcapital2023），与一群志同道合的伙伴一起构建。文末扫码访问AI数据库和社群通讯录。

AI周报：

001	002	003	004	005	006	007	008	009	010
011	012	013	014	015	016	017	018	019	020
021	022	023	024	025	026	027	028	029	030
031	032	033	034	035	036	037	038	039	040
041	042	043	044	045	046	047	048	049	050
051	052

AI创投

“AI张雪峰”诞生，北大团队用 AI 重塑教育咨询
1人团队，百万营收的AI套壳
独立创始人的崛起：如何独自创办公司
硅谷的读书人：OpenAI CEO 的阅读清单
性格决定创业成败	顶尖VC投的AI公司
如何寻找创业方向	中美AI创投异同
如何确定CEO的薪水	如何评估AI初创公司
如何分配股权和头衔	海外投资人谈AI新趋势
如何组建和召开董事会	做通才还是专才风投人
如何写商业计划书	红杉资本如何做投资
初创公司估值	如何及早识别独角兽
如何找到创业合伙人	如何避免7大投资陷阱
AI初创公司商业模式	合伙人是怎么炼成的
选择自己的创业导师	Souring的艺术
创始人如何做电梯演讲	精品基金VS超级基金
YC给年轻创始人建议	初创工作室
如何成为亿万富翁	颜值如何影响VC决策
如何做出困难的决定	如何快速解读对方性格
如何在海外启动新产品	硅谷投资人的武器库
如何确认真实投资意愿	VC改变世界？
找这种人实现快速裂变	AI 创投七大新趋势
GTM指南	应该关注哪些AI公司
如何选择VC	Cowboy：AI大势所趋
YC：如何独立思考	SOSV: 从草根到帝国
如何打造AI驱动的公司	风投界的水晶球
不要像投资人那样思考	Coatue：AI革命
全球AI创投生态	全球AI投资机构Top10

AI行业

全球 Gen AI 独角兽大盘点，中国4家大模型上榜
AI+写作	2024福布斯年AI50强
AI+编程，编程大模型	2024年AI指数报告
AI+客服	2024年企业科技30强
AI+法律	2024全球高增长AI50
AI+医疗	2024年C端AI Top50
AI+视频	2023年PH度最佳应用
AI + 3D	2023年AI工具Top50
AI+音乐	2023年AI工具Top10
AI+搜索	生成式 AI 工具排行榜
AI+企服，企业AI	北美科技人才中心地图
AI+浏览器	Gen AI初创地理分布
AI+电商	AI华裔创始人
AI+勘探	巨头的AI战争
AI+教育	AI是否会被垄断
AI+安全	开源AI，开发者工具
AI+设计	AI Agent代理
AI+心理/精神	数学大模型，性价比
AI+消费者科技	海外大模型，LLMOps
AI自动化，服务即软件	AI专利
AI+数据，编排工具	2023年AI总结和展望
AI生产力工具	以色列AI创业地图
AI公司创始人背景	德国AI创业地图
AI域名	欧洲AI创业地图
AI未解之谜	旧金山湾区， AI赢家

AI公司

11x.ai，AI虚拟销售员，半年内突破200万美元

Adobe：从Adobe、Figma、Canva 到 OpenAI

Amazon：人工智能战略

Anthropic：OpenAI"宫斗"背后的公司

Apple：产品收入变迁丨 AI 并购之王

Calendly：日程安排助手，AI效率工具鼻祖

Canva：从Adobe、Figma、Canva 到 OpenAI

Cohere：为企业提供大模型

CoreWeave：GPU租赁独角兽，英伟达的好盟友

DoNotPay：世界首款AI机器人律师

Duolingo：如何改写语言学习

Figma：从Adobe、Figma、Canva 到 OpenAI

Glean：重塑知识工作的未来

Google：谷歌人工智能战略概览

Hugging Face：开源AI的未来‍

Jenni AI：如何通过AI写作实现年入千万

Microsoft：全球市值第一，全年收入拆解

Midjourney：0融资，11人，$1亿收入

Mistral，欧洲大模型，性价比之王

MultiOn，用人工智能代理给软件装上大脑

Neuralink：让失明者重见光明，让瘫患者再次行走，让人类与AI融合永生‍

NVIDIA：收入按产品线拆解丨AI投资策略

OpenAI：人工智能突破的前沿丨员工丨董事会丨营销丨GPT Store丨奥特曼丨马斯克丨地产生意丨微软丨投资丨婚礼丨产品生态丨Thrive Capital

Pika：AI视频的未来

Reddit：奥特曼押注基于兴趣社交的美版“贴吧”

Replicate：1人AI公司背后的幕后英雄

Replite：教马斯克的儿子如何写代码

Perplexity：挑战谷歌，站在AI搜索最前沿

Runway：AI视频的未来

Scale AI：如何成为数字世界的“水源”

Shein：打造下一个“中国首富”

SpaceX：梦想照进现实，人类星际生命的曙光

Stability AI：SD 背后的公司和创始人

Stripe：马斯克和奥特曼押注的支付王者

Superhuman：邮件超人，拥抱 AI

Vannevar Labs：AI+国防，军事人工智能掘金者

Zapier：ChatGPT最受欢迎插件的过去和未来

继续滑动看下一个

硅谷科技评论

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

AI 模型评估指南：人工智能最擅长什么，进化速度有多快？

一、AI基准测试

二、AI 进化不止

三、通用AI之路

初创工作室

Calendly：日程安排助手，AI效率工具鼻祖

Canva：从Adobe、Figma、Canva 到 OpenAI

Cohere：为企业提供大模型

CoreWeave：GPU租赁独角兽，英伟达的好盟友

Duolingo：如何改写语言学习

Glean：重塑知识工作的未来

SpaceX：梦想照进现实，人类星际生命的曙光

Superhuman：邮件超人，拥抱 AI

您可能也对以下帖子感兴趣

001	002	003	004	005	006	007	008	009	010
011	012	013	014	015	016	017	018	019	020
021	022	023	024	025	026	027	028	029	030
031	032	033	034	035	036	037	038	039	040
041	042	043	044	045	046	047	048	049	050
051	052

001	002	003	004	005	006	007	008	009	010
011	012	013	014	015	016	017	018	019	020
021	022	023	024	025	026	027	028	029	030
031	032	033	034	035	036	037	038	039	040
041	042	043	044	045	046	047	048	049	050
051	052

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

AI 模型评估指南：人工智能最擅长什么，进化速度有多快？

一、AI基准测试

二、AI 进化不止

三、通用AI之路

您可能也对以下帖子感兴趣

001	002	003	004	005	006	007	008	009	010
011	012	013	014	015	016	017	018	019	020
021	022	023	024	025	026	027	028	029	030
031	032	033	034	035	036	037	038	039	040
041	042	043	044	045	046	047	048	049	050
051	052