2018年到2025年标志着人工智能史上最具转型意义的时代——人工智能在此期间从功能强大但用途专一的工具演进为能够与人类协同理解、推理和创作的通用智能系统。这场变革起初伴随着Transformer架构和基础模型的低调问世,却因ChatGPT的爆炸式采用而震撼全球。
2018: 基础模型出现 GPT-1 (2018 年 6 月): OpenAI 的第一个生成式预训练 Transformer,拥有 1.17 亿参数和 12 个 transformer 层。在 BookCorpus(7,000 本书)上无监督预训练,然后进行监督微调。在 12 项 NLP 任务中的 9 项达到了当时最先进水平,展示了 NLP 的迁移学习。
BERT (2018 年 10 月): 谷歌的双向编码器表示 Transformer,拥有 3.4 亿参数。掩码语言建模和下一句预测用于预训练。与 GPT 的从左到右不同,实现双向上下文理解。在 11 项 NLP 任务上达到最先进水平,成为最具影响力的 NLP 模型。
AlphaFold 1 (2018 年 12 月): DeepMind 的第一个版本赢得了 CASP13 蛋白质折叠竞赛。使用深度学习进行氨基酸之间的距离预测、多序列比对和结构优化的梯度下降。比以前的方法提高了 25%。
2019: 扩展与能力 GPT-2 (2019 年 2 月): OpenAI 的 15 亿参数模型,在 40GB 文本(800 万网页)上训练。最初由于滥用担忧(虚假新闻、垃圾邮件、冒充)而未发布。展示了涌现能力:翻译、摘要、问答,无需特定训练。分阶段发布:124M(2 月)、355M(5 月)、774M(8 月)、1.5B(11 月)。第一个被认为"过于危险"而不能完全发布的 AI 模型。
BERT 变体: RoBERTa(Facebook)、ALBERT(谷歌)、DistilBERT(Hugging Face)改进了原版。微软的 Turing-NLG 达到 170 亿参数。竞争推动了快速发展。
2020: GPT-3 时刻 GPT-3 (2020 年 6 月): OpenAI 的 1750 亿参数模型,比 GPT-2 大 100 倍。架构:96 个 transformer 层,每层 96 个注意力头,12,288 维嵌入。训练:来自 Common Crawl、WebText、书籍、维基百科的 3000 亿 token。计算成本 460 万美元。能力:无需微调的少样本学习、多种语言编程、创意写作、逻辑推理和基本算术。API 访问模式而非开放发布,启动了 AI 即服务行业。
AlphaFold 2 (2020 年 11 月): 革命性的蛋白质结构预测,达到 92.4 的中位 GDT 得分(90+被认为已解决)。架构:带有 MSA 和对表示注意力的 Evoformer、迭代循环和端到端可微分。可以在数小时内预测结构,而实验需要数月/年。2021 年 7 月开源,数据库包含 350,000+结构,到 2022 年扩展到 2 亿。对药物发现、酶设计和基础生物学研究的影响。
2021: 商业化与竞争 DALL-E 1 (2021 年 1 月): OpenAI 的 120 亿参数文本到图像模型,使用离散 VAE 和自回归 transformer。可以从文本描述生成新颖图像,展示创造力和概念组合。
Anthropic 成立 (2021 年 3 月): 由前 OpenAI 研究副总裁达里奥·阿莫代及团队创立。A 轮融资 1.24 亿美元,专注 AI 安全研究。开发了更安全系统的宪法 AI。
GitHub Copilot (2021 年 6 月): 使用 OpenAI Codex(GPT-3 变体)的 AI 编程伙伴。在公共 GitHub 仓库上训练,从注释和函数名生成代码。到 2023 年,Copilot 用户编写的代码中 40%由 Copilot 生成。引发版权和归属担忧。
Codex (2021 年 8 月): OpenAI 的代码生成模型,为 Copilot 提供支持。120 亿参数,在 159GB Python 代码上微调。可以解决 28.8%的 HumanEval 问题,革新了编程。
2022: ChatGPT 革命 Stable Diffusion (2022 年 8 月 22 日): Stability AI 的开源图像生成,使用潜在扩散。将图像压缩到潜在空间以提高效率,实现消费级 GPU 使用。CreativeML Open RAIL-M 许可允许商业使用。产生了工具、微调和应用的生态系统。
ChatGPT 发布 (2022 年 11 月 30 日): OpenAI 的对话式 AI,使用带有人类反馈强化学习(RLHF)的 GPT-3.5。关键创新:遵循指令、拒绝有害请求、承认错误和对话记忆。5 天内达到 100 万用户,2 个月内达到 1 亿。史上增长最快的消费应用。引发全球 AI 意识、企业采用和教育转型。微软在 2023 年 1 月投资 100 亿美元。
2023: 竞争加剧 GPT-4 (2023 年 3 月 14 日): 处理文本和图像的多模态模型。传言采用专家混合架构,1.76 万亿参数。能力:律师考试 90 百分位,LSAT 88 百分位,SAT 阅读 99 百分位。上下文窗口:8K token(后来 32K,然后 128K)。比 GPT-3.5 减少 40%幻觉。为 ChatGPT Plus、微软 Copilot 和企业应用提供支持。
Claude 系列 (2023 年 3 月): Anthropic 的宪法 AI 模型。Claude 1:100K token 上下文,专注有用性和无害性。Claude 2(7 月):200K 上下文,改进编码和推理。Claude 3 家族(2024 年 3 月):Haiku(快速)、Sonnet(平衡)、Opus(强大),具有视觉能力。
LLaMA 开源 (2023 年 2 月/7 月): Meta 的基础模型民主化 AI。LLaMA 1:7B-65B 参数,在线泄露。LLaMA 2:7B-70B,带商业许可。实现设备端 AI、私有部署和研究。产生了数千个微调版本(Alpaca、Vicuna、WizardLM)。
监管响应: 欧盟 AI 法案 2024 年 3 月批准(世界首个全面 AI 法律)。美国第 14110 号行政命令 2023 年 10 月(基于原则的方法)。中国生成式 AI 临时措施。通过 G7、联合国讨论的全球合作。
2024: 多模态与推理 Sora 预览 (2024 年 2 月 15 日): OpenAI 的文本到视频生成,创建 60 秒高清视频。扩散 transformer 架构,带有时空补丁。理解物理、物体持久性和电影摄影。有限发布给创作者和安全研究员。
Claude 3 发布 (2024 年 3 月 4 日): Anthropic 的多模态家族在基准测试中超越 GPT-4。Opus:复杂推理和分析。Sonnet:平衡速度/能力。Haiku:超快响应。全部具有视觉理解。
GPT-4o (2024 年 5 月 13 日): 原生处理文本、视觉和音频的全模态。实时语音对话,232 毫秒响应时间。免费层访问民主化先进 AI。语音情感表达,多语言卓越。
AlphaFold 3 (2024 年 5 月 8 日): 预测蛋白质之外的完整分子相互作用。DNA、RNA、配体、翻译后修饰。药物-靶点相互作用预测提高 50%。为研究人员提供免费 AlphaFold 服务器。
诺贝尔奖 (2024 年 10 月): 化学奖授予哈萨比斯/江珀对 AlphaFold 的贡献。物理奖授予辛顿/霍普菲尔德对神经网络的贡献。首次诺贝尔奖对 AI 科学影响的认可。
2025: 推理革命 计算机使用 AI (2025 年 2 月): Anthropic 的 Claude 3.5 Sonnet 控制桌面。截图 → 理解 → 操作(点击、输入、滚动)。实现复杂多步自动化。人机交互的新范式。
GPT-5/微软集成 (2025 年 2 月 27 日): 增强推理和扩展上下文。通过微软 Copilot 免费,混合路由提高效率。改进编程、数学推理和事实准确性。
Claude 4 系列 (2025 年 5 月-8 月): Opus 4 和 Sonnet 4,用户可选择推理深度。快速直觉响应或深思熟虑分析。Opus 4.1:增强复杂项目处理。Anthropic 安全量表第 3 级。
