AI 简史:从“机器能不能思考”到每个人都能使用 AI
这篇先用一条普通人能读懂的时间线,梳理人工智能从概念诞生、符号主义、专家系统、机器学习、深度学习,一路走到大模型和生成式 AI 的关键技术与关键人物。
这两年,只要你打开任何一个信息流,基本都绕不开 AI。
有人说 ChatGPT 改变世界,有人说 Agent 会替你干活,有人说普通人再不学就来不及了。听多了以后,很容易有一种感觉:好像 AI 是突然从 2022 年某一天冒出来的,然后所有人都被卷进去了。
我一开始也有这种感觉。
但回头看,AI 不是突然出现的爆款产品,而是一条很长的河。上游有数学、哲学、计算机科学,也有几次过度乐观、几次跌入低谷;中间有一群人不断换方法、换工具、换问题;到了 ChatGPT 之后,这条河才突然冲到了普通人面前。
所以这篇不写成历史考试,也不写成论文综述。我更想像和朋友聊天一样,把这条线先讲清楚:AI 从哪里来,经历过哪些阶段,每个阶段到底在解决什么问题,又有哪些人把它往前推了一步。
如果你暂时不想记那么多人名和年份,也没关系。先抓住一句话:AI 的历史,本质上是机器从“按人写的规则做事”,一步步走向“从数据中学习、连接工具、替人执行任务”的历史。
AI 的历史不是一条“机器越来越像人”的直线,而是几条线不断交汇:人类怎样描述智能,机器怎样表示知识,算法怎样从数据里学习,算力怎样支撑规模,产品又怎样把能力带到普通人手里。
0. 在 AI 有名字之前:人们先问了一个问题#
人工智能这个词还没出现时,人类已经在问一个更基础的问题:机器能不能思考?
1943 年,沃伦·麦卡洛克和沃尔特·皮茨提出了一种用数学逻辑描述神经元的模型。它很粗糙,但重要的是,它让人第一次认真想象:人的神经活动也许可以被抽象成可计算的结构。
1949 年,唐纳德·赫布提出“共同激活的神经元会更容易连接在一起”的思想,后来很多人把它概括成一句话:一起发放的神经元连接在一起。这成为后来理解神经网络学习机制的一个早期启发。
1950 年,艾伦·图灵发表《Computing Machinery and Intelligence》。他没有陷入“机器到底有没有心灵”这种很难证明的问题,而是换了一个更工程化的问法:如果一台机器在对话里能让人分不清它和人类,那我们是否可以说它表现出了智能?
这就是后来常说的图灵测试。
图灵的重要性不只在于提出一个测试,更在于他把一个哲学问题改写成了一个可操作的问题:不要先争论机器有没有灵魂,先看它能不能表现出智能行为。
这一点对后来 AI 影响很大。因为从这里开始,智能不再只是玄学讨论,而开始变成可以被建模、被实现、被测试的工程问题。
1. 1956:人工智能正式有了名字#
1956 年,达特茅斯会议通常被视为人工智能作为一个研究领域的起点。
这场会议的提案由约翰·麦卡锡、马文·明斯基、纳撒尼尔·罗切斯特和克劳德·香农等人发起。提案里使用了“Artificial Intelligence”这个说法,并且提出一个非常大胆的想法:学习、语言、抽象、问题求解等智能特征,原则上都可以被精确描述,然后让机器来模拟。
这个判断现在看起来仍然很激进。
当时的计算机很弱,存储很小,输入输出也很原始。但这群人相信:如果智能可以被分解成符号、规则和推理步骤,那么机器就有机会执行这些步骤。
所以早期 AI 的主线,很大程度上是“符号主义”。
所谓符号主义,可以简单理解成:人先把知识写成规则,机器再按照规则推理。
比如:
- 如果 A 成立,并且 A 推出 B,那么可以得到 B。
- 如果一个病人有某些症状,就可能对应某种疾病。
- 如果棋局出现某种形态,就优先搜索某些走法。
这个阶段的关键人物包括:
- 约翰·麦卡锡:提出 AI 这个名称,也发明了 Lisp 语言,影响了早期 AI 编程。
- 马文·明斯基:推动 AI、认知科学和神经网络早期研究,也长期影响 MIT AI 实验室。
- 艾伦·纽厄尔和赫伯特·西蒙:做出 Logic Theorist、General Problem Solver 等早期程序,试图让机器进行逻辑推理和问题求解。
- 克劳德·香农:信息论奠基人,也较早研究机器下棋问题。
这一阶段的 AI 有很强的理性主义气质:只要把知识和推理过程写清楚,机器就能变聪明。
2. 1960s-1970s:早期乐观撞上现实#
早期 AI 很快做出了一些令人兴奋的演示。
机器能证明一些数学定理,能玩简单游戏,能在受限环境里和人对话。ELIZA 这样的聊天程序虽然很简单,但已经让很多人第一次感受到“机器好像能交流”。
同时,弗兰克·罗森布拉特提出的感知机也让神经网络路线获得过一次早期关注。感知机可以看成一种非常早期的学习机器:它不是完全靠人写规则,而是通过样本调整参数。
但问题很快出现了。
符号主义系统在小世界里表现不错,一旦进入真实世界就很吃力。现实语言有歧义,常识很难写成规则,环境变化太多,机器也缺少足够算力和数据。
神经网络路线也遇到限制。1969 年,明斯基和西摩尔·帕普特出版《Perceptrons》,指出单层感知机能力有限。虽然这本书后来经常被简化成“打击了神经网络”,但更准确地说,它暴露了当时方法、算力和训练技术的不足。
于是,第一次 AI 低谷逐渐出现。
这件事给后来的 AI 留下一个教训:演示效果不等于真实能力,受限问题里的成功不等于开放世界里的成功。
今天看很多 AI 产品时,这个教训仍然有用。
3. 1970s-1980s:专家系统把 AI 带进商业世界#
AI 并没有因为早期受挫就消失。
到了 1970s 和 1980s,一个新的方向变得重要:专家系统。
专家系统的思路很直接:既然通用智能太难,那就先做特定领域里的专家。让人类专家把经验整理成规则库,机器根据规则进行判断和建议。
比如医学诊断、化学分析、计算机配置、企业流程决策。
这个阶段的代表人物之一是爱德华·费根鲍姆。他推动了知识工程和专家系统的发展。系统不一定“像人一样思考”,但只要在某个专业领域能给出有用建议,就有商业价值。
专家系统带来了一轮 AI 商业热潮。
但它的问题也很明显:规则维护成本太高。真实世界一变,规则就要更新;专家经验很多是模糊的,很难完整写成 if-then;系统越来越大之后,互相冲突的规则也越来越难管理。
所以 1980s 后期到 1990s 初,AI 又经历了一次低谷。
这次低谷说明:只靠人工写规则,很难覆盖复杂世界。
AI 需要从“人告诉机器规则”,走向“机器自己从数据里学规律”。
4. 1980s-2000s:机器学习接过主线#
接下来,机器学习逐渐成为主线。
它的核心变化是:人不再试图把所有知识直接写进机器,而是给机器数据和目标,让它自己调整模型。
这个阶段有几条重要分支。
第一条是神经网络重新恢复生命力。
1986 年,大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯发表关于反向传播的论文。反向传播可以粗略理解成:模型做错了,就把错误一层层传回去,调整内部参数,让下次更接近正确答案。
这让多层神经网络的训练变得更实际。
第二条是统计学习。
支持向量机、决策树、随机森林、贝叶斯网络等方法开始广泛使用。弗拉基米尔·瓦普尼克推动了统计学习理论,朱迪亚·珀尔推动了概率图模型和因果推理。
这些方法不像早期符号 AI 那样强调“人类规则”,也不像今天的大模型那样庞大。它们更像一套实用工具箱:分类、预测、排序、识别模式。
第三条是计算机开始在特定任务上超过人类高手。
1997 年,IBM 的 Deep Blue 击败国际象棋世界冠军加里·卡斯帕罗夫。这个事件当时非常出圈,因为它让大众看到:机器在某些明确规则、可搜索的问题上,已经可以超过最强人类。
但 Deep Blue 也不是今天意义上的通用 AI。它更像是专门为国际象棋打造的超级系统,依赖搜索、评估函数、专用硬件和大量工程优化。
这一阶段的关键变化是:AI 从“写规则”转向“学规律”,但它还没有真正进入普通人的日常表达和创作。
5. 2000s-2012:数据、算力和深度学习终于碰到一起#
深度学习不是 2012 年才出现的。神经网络这条线一直有人坚持,代表人物包括杰弗里·辛顿、杨立昆、约书亚·本吉奥等。
但长时间里,它缺少三个条件:足够多的数据、足够强的算力、足够有效的训练技巧。
2000 年后,互联网带来了大量数据,GPU 开始被用于通用计算,大规模数据集也逐渐出现。
其中一个关键节点是 ImageNet。
李飞飞等人推动构建 ImageNet 大规模图像数据集,让计算机视觉有了更标准、更大规模的训练和评测基础。
2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 用深度卷积神经网络 AlexNet 在 ImageNet 竞赛中取得突破性成绩。这件事通常被视为深度学习浪潮的关键引爆点。
为什么重要?
因为它证明了一个方向:当数据足够多、算力足够强、模型足够深时,神经网络可以直接从原始数据中学出很强的表示能力。
普通人可以这样理解:以前机器看图片,很多特征要人先设计;深度学习开始让机器自己从大量样本里学“什么是边缘、纹理、形状、物体”。
这一步把 AI 从手工规则,进一步推向了自动学习。
6. 2012-2017:AI 开始在看、听、下棋上连续突破#
2012 之后,深度学习迅速扩散到计算机视觉、语音识别、机器翻译、推荐系统等领域。
杨立昆长期推动卷积神经网络在图像识别中的应用;辛顿团队推动深度学习在语音和视觉上的突破;本吉奥在表示学习、序列建模等方向影响很大。
这个阶段,AI 的能力越来越像“感知系统”:能看图、能听音、能识别模式。
2014 年,Ian Goodfellow 提出生成对抗网络 GAN。它让“机器生成图像”这件事变得更有想象空间。虽然 GAN 后来在很多场景被扩散模型超过,但它在生成式 AI 的历史里非常重要。
2016 年,DeepMind 的 AlphaGo 击败李世石。
这次和 Deep Blue 不一样。围棋的搜索空间巨大,不能只靠暴力搜索。AlphaGo 结合了深度神经网络、强化学习和树搜索,让机器在一个长期被认为很难攻克的领域取得突破。
Deep Blue 让人看到机器可以在规则明确的棋类里赢人;AlphaGo 让人感到更震撼:机器似乎开始形成超出人类直觉的策略。
这也是很多普通人第一次强烈感觉到:AI 不只是工具,它可能会产生新的“思路”。
7. 2017-2022:Transformer 把语言模型推到新阶段#
2017 年,Google 团队发表《Attention Is All You Need》,提出 Transformer 架构。
这篇论文非常关键。
在此之前,处理语言这类序列数据,常见方法依赖循环神经网络等结构。Transformer 的核心变化,是用注意力机制让模型更好地处理序列中不同位置之间的关系,并且更适合大规模并行训练。
普通人不需要一开始理解全部数学细节,只要先抓住一个直觉:Transformer 让模型在读一句话、一段话、一本书时,可以更有效地判断哪些部分彼此相关。
这为后来的大语言模型铺平了道路。
随后,BERT、GPT、T5 等预训练语言模型不断出现。它们的共同思路是:先在大量文本上学习语言规律,再迁移到问答、翻译、总结、分类等任务上。
2020 年,OpenAI 发布 GPT-3。它让很多人第一次明显感到:只要模型足够大、数据足够多,语言模型不需要为每个任务重新训练,也能通过提示和少量示例完成很多事情。
这就是后来“prompt”变得重要的原因之一。
AI 开始从“一个专门模型做一个专门任务”,走向“一个大模型通过对话或提示处理很多任务”。
8. 2022 以后:GPT 时刻让 AI 走到普通人面前#
2022 年底,ChatGPT 出圈。
它不是第一个大语言模型,也不是第一项 AI 技术突破,但它改变了 AI 和普通人的接触方式。
以前很多 AI 能力藏在搜索、推荐、识别、广告、风控、翻译系统背后,普通人不一定能直接感受到模型本身。
ChatGPT 把入口变成了聊天框。
这件事非常关键。因为聊天框降低了使用门槛:不用写代码,不用理解模型结构,不用先学一堆专业软件,只要会提问,就能开始使用。
这就是我理解的“GPT 时刻”:不是某一个模型突然代表全部未来,而是 AI 第一次以一个人人都能触摸的产品形态,正面站到了大众面前。
从这一刻开始,AI 的叙事从科研圈、工程圈,进入了普通人的工作和生活。
很多人第一次发现:
- 它能解释概念
- 它能写一封邮件
- 它能改一段文案
- 它能总结一篇文章
- 它能帮你写代码
- 它能陪你把一个想法拆成步骤
这不是“人工智能第一次有用”,而是“普通人第一次低成本感知到它有用”。
9. Scaling 共识和百模竞争#
ChatGPT 出圈之后,还有一个变化很重要:scaling 开始被行业广泛视为一条确定性很强的路线。
所谓 scaling,不是简单说“模型越大越好”。更准确地说,是很多人开始相信:在一定范围内,更多算力、更大模型、更多数据、更好的训练方法,确实能持续换来能力提升。
这个判断不是 2022 年才出现。2020 年 OpenAI 的 scaling laws 研究已经把模型规模、数据规模、训练计算量和 loss 之间的关系讲得很清楚。GPT-3 也已经展示了大模型的 few-shot 能力。
但 ChatGPT 之后,这个判断从研究结论变成了商业共识。
于是出现了所谓“百模竞争”。
OpenAI、Anthropic、Google、Meta、xAI,以及国内的百度、阿里、字节、智谱、月之暗面、DeepSeek 等玩家,都开始围绕基础模型展开竞争。
这场竞争有几个维度:
- 谁的模型更强
- 谁的上下文更长
- 谁的推理能力更好
- 谁的成本更低
- 谁的速度更快
- 谁更适合代码、数学、多模态、企业场景
- 谁能把模型能力更稳定地包装成产品
这一阶段很像一次基础设施竞赛。
每家公司都在做自己的“发动机”。模型能力本身变成了核心资产,也变成了所有应用的底座。
但基础模型混战也暴露出一个问题:如果只比模型,普通用户很难长期感知差异。今天 A 模型领先一点,明天 B 模型追上来;今天榜单第一,过几周又被刷新。
所以 AI 很快进入下一阶段:模型不再只是回答问题,而要和传统软件、数据、工具、终端和工作流结合。
10. 从“会回答”到“会连接”:RAG、tool call、MCP、CLI、skill#
大模型本身有几个天然限制。
它训练时学到的知识会过期;它不知道你公司的内部资料;它不能天然访问你的数据库、浏览器、文件系统和业务系统;它也不应该凭空编造事实。
所以 GPT 时刻之后,一个重要方向就是:让大模型连接外部世界。
这就出现了几类关键技术和工程模式。
RAG:把外部知识接进来#
RAG,全称 Retrieval-Augmented Generation,可以理解成“先检索,再生成”。
模型回答问题之前,先从文档库、知识库、网页、数据库里找相关内容,再基于这些内容生成答案。
这解决了两个问题:
- 模型不用把所有知识都记在参数里。
- 回答可以更贴近最新资料和私有资料。
对企业和个人知识库来说,RAG 很重要。因为很多有价值的信息并不在公开训练数据里,而在你自己的文档、项目记录、会议纪要、代码仓库和业务系统里。
Tool calling:让模型调用工具#
Tool calling,也可以叫 function calling,解决的是另一个问题:模型不能只说,它还要能调用外部能力。
比如:
- 查天气
- 查数据库
- 调接口
- 发邮件
- 创建日程
- 执行一段代码
- 调用支付、搜索、地图、CRM 等系统
模型负责理解用户意图、决定什么时候调用工具、生成参数;真正的执行交给外部系统。
这一步非常关键。因为它把 AI 从“会说话的模型”,推进到了“会操作系统能力的中间层”。
MCP:让工具连接变得更标准#
当工具越来越多,一个现实问题就出现了:每个模型、每个应用、每个工具都各接一套接口,会非常混乱。
MCP,也就是 Model Context Protocol,就是试图把模型和外部工具、数据源之间的连接标准化。
你可以把它粗略理解成:给 AI 应用接工具的一种通用插头。
如果这个方向成熟,模型就更容易连接文件、数据库、代码仓库、设计工具、浏览器、企业系统,而不是每个应用都重复造一遍集成。
CLI 和开发环境:让模型进入真实工作台#
对开发者来说,AI 进入 CLI 是另一个重要节点。
聊天窗口适合问问题,但真正开发时,很多动作发生在终端、代码仓库、测试命令、日志、构建脚本和部署流程里。
当 AI 能进入 CLI,它就不只是“给你建议”,而是可以:
- 读代码
- 改文件
- 跑测试
- 看报错
- 修 bug
- 生成提交
- 调整脚本
- 在长任务里持续执行
这也是为什么 Codex CLI、Claude Code 这类工具会重要。它们把模型从聊天框推进到真实开发环境。
Skill:把经验封装成可复用能力#
当 AI 只是每次重新对话,它的使用成本还是很高。
Skill 的意义在于:把一套稳定流程封装起来,让模型下次可以直接按流程做。
比如:
- 怎么生成一篇内容
- 怎么部署一个站点
- 怎么处理图片资产
- 怎么写一份周报
- 怎么审查一段代码
- 怎么把会议纪要变成任务
这类能力一旦封装成 skill,AI 就不只是“聪明”,而是开始“熟练”。
我自己现在越来越关心这一点:未来真正有用的 AI,不只是模型本身,而是模型加上工具、上下文、流程和长期记忆形成的系统。
11. Agent:AI 从助手变成执行者#
当 RAG、tool calling、MCP、CLI、skill 这些东西组合起来,一个更大的方向就出现了:Agent。
Agent 和普通聊天机器人的差别,不是名字更酷,而是职责变了。
聊天机器人主要回答问题;Agent 需要围绕目标持续行动。
一个简单的 Agent 流程大概是:
- 理解目标
- 制定计划
- 调用工具
- 观察结果
- 修正计划
- 继续执行
- 产出结果
- 必要时请求人类确认
这就是从“问答”到“执行”的转变。
早期研究里,ReAct 把 reasoning 和 acting 放在一起讨论;Toolformer 让语言模型学习何时调用 API;Voyager 这类工作则展示了模型如何在环境里积累技能。这些研究和工程实践一起,把 Agent 的想象空间打开了。
到应用层,Manus 这类通用 AI agent 让普通人看到:AI 不只是给你一段答案,它可以帮你做市场调研、整理资料、写代码、生成报告、规划旅行,甚至在云端异步跑任务。
OpenManus、OpenClaw、Hermes Agent 这类开源或自托管 agent 项目,则代表了另一条线:把 agent 放到个人电脑、服务器、消息平台、终端和本地工具链里,让它更接近个人工作系统。
这些产品和项目不一定最后都留下来,名字也会变化。但它们共同说明一件事:AI 正在从“一个应用”变成“一个可以操作应用的层”。
这会带来生产效率的变化。
过去你要自己完成一整串动作:查资料、复制、整理、写初稿、做表格、改格式、发邮件、同步到项目管理工具。
现在更合理的方式可能变成:你定义目标和边界,Agent 拆任务、调用工具、执行中间步骤,你负责判断结果、修正方向、批准关键动作。
这不是完全自动化,也不是人被替代。
更准确地说,是工作分工变了:
- 人负责目标、判断、边界、审美和责任
- AI 负责搜索、生成、执行、整理、检查和重复劳动
这就是我理解的“生产效率爆炸”的来源。
不是因为 AI 每次回答都完美,而是因为大量原本卡在中间环节的操作,开始可以被模型和工具链接起来。
12. 回头看:AI 每一阶段其实都在补一块短板#
把这段历史压缩一下,大概可以这样看:
| 阶段 | 核心问题 | 代表路线 | 代表人物或产品 |
|---|---|---|---|
| 1940s-1956 | 机器能不能表现出智能 | 计算理论、早期神经模型 | 图灵、麦卡洛克、皮茨、赫布 |
| 1956-1970s | 能不能把智能写成规则 | 符号主义、逻辑推理 | 麦卡锡、明斯基、纽厄尔、西蒙 |
| 1970s-1980s | 能不能在专业领域解决问题 | 专家系统、知识工程 | 费根鲍姆、MYCIN、XCON |
| 1980s-2000s | 能不能从数据里学规律 | 机器学习、统计学习、反向传播 | 辛顿、鲁梅尔哈特、瓦普尼克、珀尔 |
| 2012 前后 | 能不能让模型自己学特征 | 深度学习、CNN、GPU、大数据集 | 李飞飞、Krizhevsky、Sutskever、Hinton |
| 2016 前后 | 能不能在复杂决策中超过人类 | 深度强化学习、搜索 | AlphaGo、David Silver、Demis Hassabis |
| 2017-2022 | 能不能用一个模型处理语言任务 | Transformer、大语言模型 | Vaswani 团队、BERT、GPT-3 |
| 2022-2023 | 能不能让普通人直接使用 AI | 对话产品、生成式 AI、多模态 | ChatGPT、Claude、Gemini、Midjourney 等 |
| 2023-2025 | 能不能把模型接入真实数据和工具 | RAG、tool calling、CLI、MCP、skill | LangChain、OpenAI function calling、MCP、Codex CLI、Claude Code 等 |
| 2025 以后 | 能不能围绕目标持续执行任务 | Agent、长任务、个人工作流、自托管执行环境 | Manus、OpenManus、OpenClaw、Hermes Agent 等 |
这条线说明一件事:AI 不是突然爆发的。
它每一次前进,都在补上一块过去缺失的东西:规则不够,就引入学习;数据不够,就建设数据集;算力不够,就利用 GPU;模型不够通用,就做预训练和大模型;入口太难,就做成聊天框和产品。
13. 普通人该怎样理解这段历史#
对普通人来说,了解 AI 简史不是为了背年份和人名。
更重要的是建立几个判断。
第一,AI 经常高估短期,低估长期#
AI 历史上不止一次出现热潮,也不止一次跌入低谷。
每一次热潮里,都会有人觉得通用智能马上来了;每一次低谷里,又会有人觉得这条路走不通。
但长期看,AI 确实一直在积累。算法、数据、硬件、工程、产品,每一层都在往前推。
所以面对今天的 AI 热潮,既不要盲目兴奋,也不要简单否定。
第二,真正改变普通人的,往往不是论文,而是产品入口#
Transformer 很重要,但普通人真正感受到 AI,是因为 ChatGPT 这样的产品把能力变成了可使用的界面。
技术突破如果没有产品形态,影响会停留在专业圈;产品入口如果足够简单,就会把技术带到日常生活。
所以后面看 AI,不只要看模型,还要看它怎样进入真实场景。
第三,AI 的核心变化是从“人写规则”走向“机器学模式”#
早期 AI 试图让人把知识写成规则。
今天的大模型则更像是从海量数据中学会语言、图像、代码和世界知识的统计模式,再通过提示和对话完成任务。
这不代表它真的像人一样理解世界,也不代表它永远可靠。但它确实改变了人和机器协作的方式。
第四,普通人的机会在工作流里#
如果只把 AI 当成一个问答工具,很容易用几次就停。
更重要的是把它接进自己的流程:学习、写作、复盘、做产品、写代码、整理资料、生成素材、检查逻辑。
这也是我后面想继续写的方向:先理解历史,再回到今天,看看普通人怎样把 AI 放进真实生活。
结尾:先把河流看清楚,再决定怎么下水#
如果你读到这里,已经不需要记住所有名字。
AI 简史不是一串冷冰冰的年份。
它更像是一条不断改道的河:有时靠逻辑规则推进,有时靠专家知识推进,有时靠统计学习推进,有时靠神经网络、数据、算力和大模型一起推进。
今天我们站在这条河边,看到的是最热闹的一段:聊天机器人、文生图、AI 视频、Agent、自动化工作流。
但如果不知道上游发生过什么,就很容易被当下的浪花吓到,或者被短期热点牵着走。
所以这个专栏的第一步,我想先把大线索搭起来。
后面再一篇一篇往下拆:图灵测试到底重要在哪,达特茅斯会议为什么给 AI 命名,专家系统为什么兴起又衰落,深度学习为什么爆发,Transformer 为什么成为今天大模型的底座,ChatGPT 又为什么真正让 AI 出圈。
先看清楚历史,再谈怎么使用。
这是普通人进入 AI 洪流时,比较稳的一种开始方式。
参考资料#
- Alan Turing, Computing Machinery and Intelligence
- John McCarthy 等, A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence
- David Rumelhart、Geoffrey Hinton、Ronald Williams, Learning representations by back-propagating errors
- Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton, ImageNet Classification with Deep Convolutional Neural Networks
- David Silver 等, Mastering the game of Go with deep neural networks and tree search
- Ashish Vaswani 等, Attention Is All You Need
- Tom Brown 等, Language Models are Few-Shot Learners
- Jared Kaplan 等, Scaling Laws for Neural Language Models
- Patrick Lewis 等, Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- Shunyu Yao 等, ReAct: Synergizing Reasoning and Acting in Language Models
- Timo Schick 等, Toolformer: Language Models Can Teach Themselves to Use Tools
- Anthropic, Model Context Protocol
- OpenAI, Function calling / tool calling