1980年代见证了人工智能从实验室好奇心向重塑各行各业的实用技术的转变起点。在汲取了人工智能寒冬期的深刻教训后,研究者们转向更为聚焦的研究路径,构建了储存人类知识的专家系统以及具备数据学习能力的神经网络。
现代AI革命 (1980-2018): 从专家系统到深度学习
1980年代: 神经网络复兴 神经认知机 (1980): 福岛邦彦受到Hubel和Wiesel猫视觉皮层研究启发的自组织神经网络。引入了用于特征提取的卷积层(S细胞)和用于位置不变性的池化层(C细胞)。架构:交替的S和C层,分辨率递减,特征递增。能够识别手写数字,尽管有位移、旋转和变形。现代CNN的直接前驱,尽管逐层训练而不使用反向传播。
霍普菲尔德网络 (1982): 约翰·霍普菲尔德展示了神经网络可以使用能量函数作为联想记忆。网络收敛到存储模式,展示了内容寻址记忆。能量函数:E = -½ΣΣwij×si×sj,其中状态最小化能量。在优化问题(旅行商)和模式补全中的应用。
反向传播普及 (1986): 大卫·鲁梅尔哈特、杰弗里·辛顿、罗纳德·威廉姆斯在《自然》杂志发表《通过反向传播错误学习表示》。虽然算法较早存在(韦尔博斯1974年,帕克1985年),但这篇论文使其被广泛理解。关键洞察:链式法则高效地通过多层计算梯度。实现了深度网络训练,解决了难倒感知器的XOR问题。在AI寒冬后重振了神经网络研究。
连接主义运动 (1986): 鲁梅尔哈特、麦克莱兰和PDP小组的《并行分布式处理》卷本提出心智作为分布式表示的并行处理。挑战符号AI范式,强调学习胜过编程,亚符号胜过符号处理。
1990年代: 统计方法与实际应用 TD-Gammon (1992): 杰拉尔德·特萨罗的西洋双陆棋程序,使用时间差分强化学习和神经网络。通过自对弈达到世界冠军水平,无需人类知识。展示了强化学习在复杂领域的威力。
支持向量机实用化 (1995): 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克使SVM通过软间隔分类器和核技巧实用化。在深度学习之前主导机器学习,提供理论保证并在有限数据下工作良好。
深蓝胜利 (1997年5月11日): IBM的国际象棋计算机在纽约六局比赛中以3.5-2.5击败世界冠军加里·卡斯帕罗夫。硬件:30节点RS/6000集群,配备480个定制VLSI国际象棋芯片,每秒评估2亿个位置。软件:广泛的开局库、残局数据库、由特级大师调整的复杂评估函数。意义:在锦标赛条件下首次击败在位世界冠军,展示暴力搜索可以达到特级大师水平。卡斯帕罗夫指控IBM作弊(无根据),比赛被全世界数百万人观看。
LSTM网络 (1997): 塞普·霍赫赖特和约根·施密德胡贝尔用长短期记忆解决了梯度消失问题。架构包括记忆细胞、输入/输出/遗忘门,实现长期依赖学习。在Transformer之前成为序列数据的主导架构。
2000年代: 大数据与统计学习 随机森林 (2001): 利奥·布雷曼将装袋与决策树中的随机特征选择相结合。每棵树在自举样本上训练,在每个分割处使用随机特征子集。减少过拟合同时保持可解释性。成为最成功的经典ML算法之一。
条件随机场 (2001): 约翰·拉弗蒂、安德鲁·麦卡勒姆、费尔南多·佩雷拉为序列标记创建判别模型。在许多NLP任务中优于HMM,成为命名实体识别和词性标注的标准。
深度信念网络 (2006): 杰弗里·辛顿的《深度信念网的快速学习算法》显示深度网络可以通过限制玻尔兹曼机的逐层无监督预训练followed by微调来训练。这一突破结束了第二次AI寒冬并启动了深度学习革命。
ImageNet创建 (2007-2009): 普林斯顿/斯坦福的李飞飞及团队创建了大规模视觉数据集。21,841个类别中的14,197,122张图像,按照WordNet层次结构组织。2010年起每年的ImageNet大规模视觉识别挑战(ILSVRC),1,000个类别。实现了训练和基准测试深度学习模型,展示了大规模数据的重要性。
谷歌大脑项目 (2011): 由吴恩达和杰夫·迪恩与格雷格·科拉多创立。构建了训练大规模神经网络的分布式系统。著名的"猫神经元"实验:对YouTube视频的无监督学习发现了猫检测器,无需标签。展示了规模化深度学习,导致谷歌的AI转型。
2012: 深度学习突破 AlexNet革命: 亚历克斯·克里热夫斯基、伊利亚·苏茨凯弗、杰弗里·辛顿以15.3%的top-5错误率赢得ImageNet 2012(亚军26.2%)。架构:8层(5个卷积,3个全连接),6000万参数,ReLU激活函数(比sigmoid更快),dropout正规化,数据增强,GPU训练(两个GTX 580 GPU)。使用带动量的SGD训练6天。这10.8%的改进震惊了计算机视觉社区,展示了深度学习的优越性并启动了现代AI革命。每家主要科技公司都开始了深度学习研究。
2013-2017: 深度学习主导 Word2Vec (2013): 托马斯·米科洛夫使用skip-gram和CBOW模型的高效词嵌入。显示向量空间中捕获的语义关系(king - man + woman = queen)。通过提供密集词表示革新了NLP。
生成对抗网络 (2014): 伊恩·古德费洛在蒙特利尔酒吧获得灵感后发明了GAN。两个网络竞争:生成器创建假数据,判别器区分真假。实现逼真图像生成、风格转换和创意AI应用。
ResNet (2015): 何恺明的残差网络使用跳跃连接解决梯度消失,以152层赢得ImageNet。错误率3.57%,超越人类表现。显示可以训练非常深的网络。
AlphaGo胜利 (2016年3月): DeepMind的围棋程序在首尔以4-1击败李世石。结合深度神经网络(策略和价值网络)与蒙特卡洛树搜索。在160,000个专家对局上训练,然后自对弈强化学习。第2局第37手被解说员称为"神之一手"。2.8亿人观看,展示了AI掌握直觉策略游戏。
Transformer架构 (2017年6月): 谷歌的Vaswani等人发表《注意力就是你所需要的一切》。用自注意力机制替代递归:Attention(Q,K,V) = softmax(QK^T/√d)V。多头注意力、位置编码、层归一化。实现了并行化和更长的上下文理解。成为所有现代语言模型(BERT、GPT、T5)的基础。
