logo蛋烘糕.

不写博客的工程师不是好的搬砖工🧱

AI 技术演进与核心算法实战 | 第一篇:从规则到概率:AI 技术的三次范式转移

Cover Image for AI 技术演进与核心算法实战 | 第一篇:从规则到概率:AI 技术的三次范式转移
蛋烘糕
蛋烘糕

万物皆数,从规则的牢笼走向概率的自由。

在直接上手写 Agent 代码之前,我们必须先花点时间把底层的 AI 原理、算法逻辑和演进脉络彻底吃透。只有知其然更知其所以然,才能在后续的工程实践中游刃有余,避免成为只会调 API 的“API Caller”。

本篇是《AI 技术演进与核心算法实战:从原理到 Agent》全景系列的第一篇,隶属于【第一模块:基石篇 —— 数学直觉与模型原理】。我们将一起溯源 AI 的发展简史,理清技术演进脉络,理解 AI 到底是如何从刻板的规则走向智能的“思考”的。

1. 符号主义时代:基于规则的专家系统

早期的人工智能探索主要集中在符号主义(Symbolism)。这一流派认为,人类的认知可以被还原为对符号的逻辑运算。如果能把人类的知识抽象为一条条“规则”,机器就能像专家一样解决问题。

这就是专家系统(Expert Systems)的由来。它的核心逻辑非常简单粗暴:基于布尔逻辑的 If-Then(如果-那么)。

知识库 (Knowledge Base) If-Then 规则与领域事实 推理机 (Inference Engine) 逻辑匹配、演绎推理 输入 (症状) 输出 (诊断) 查询规则 返回匹配

专家系统通常由两部分组成:知识库(存满人类总结的规则)推理机(负责执行规则匹配)

# 一个极简的“医疗诊断”专家系统(伪代码演示)
def diagnose(symptoms):
    if "发热" in symptoms and "咳嗽" in symptoms:
        if "呼吸困难" in symptoms:
            return "疑似肺炎,请立即就医!"
        else:
            return "可能是普通感冒或流感。"
    elif "头痛" in symptoms:
        return "可能是偏头痛或疲劳导致。"
    else:
        return "症状不明确,建议咨询真实医生。"

为什么符号主义最终走向了没落?

尽管专家系统在特定领域(如早期的医疗诊断 MYCIN、化学分析 DENDRAL)取得了一些成功,但它遇到了一个无法逾越的瓶颈:现实世界的模糊性与组合爆炸

  • 组合爆炸:如果一个系统只有 10 个布尔变量,那就有 210=10242^{10} = 1024 种组合;如果是 100 个变量呢?人类根本无法穷举和手动编写所有的 If-Then 规则。
  • 特征难以提取(莫拉维克悖论):如何用语言描述一张猫的照片?“如果有两只尖耳朵、四条腿、有尾巴……”那如果是一只折耳猫呢?如果猫被遮挡了呢?高层逻辑推理对人类很难,但对机器很容易;而视觉感知对人类很容易,对机器却极难用规则定义。
  • 缺乏泛化能力:遇到规则库中没有的情况,系统会直接崩溃,无法举一反三。

符号主义的失败,让人们意识到:智能不能被简单地“编程”出来,必须让机器学会自己从数据中“学习”。

2. 连接主义崛起:神经网络与深度学习

当符号主义陷入低谷时,连接主义(Connectionism)迎来了春天。连接主义不再试图教机器具体的规则,而是模仿人类大脑的神经元结构,让机器通过大量数据自己寻找规律。

这就是人工神经网络(Artificial Neural Networks, ANN)的起点。

从感知机(Perceptron)到深度学习

感知机是最基础的神经网络单元。它的逻辑非常直观:接收多个输入(xx),分别乘以代表重要性的权重(ww),加上一个阈值偏置(bb),最后通过一个激活函数(Activation Function)决定是否“激活”。数学公式表达为:y=σ(iwixi+b)y = \sigma(\sum_i w_i x_i + b)

输入层 (Input) 隐藏层 (Hidden Layers) 输出层 (Output) x1 x2 x3 y1 y2 反向传播 (BP) 算法通过梯度下降不断调整神经元之间的连接权重

随着算力的提升和数据的爆发,单层感知机进化成了拥有多个隐藏层的深度神经网络(Deep Learning)。此时,反向传播算法(Backpropagation, BP)成为了网络学习的灵魂。机器就像一个蒙着眼睛下山的人,通过计算误差梯度,不断调整网络中数以亿计的权重,直到走到误差最小的“谷底”。

在这一时期,两大明星算法脱颖而出,彻底解决了感知问题:

  1. CNN(卷积神经网络):解决了图像识别问题。它通过“局部感受野”和“权值共享”,就像人类拿着放大镜看画一样,逐层提取图像的边缘、纹理,最后组合成高级的物体特征(如猫的耳朵)。
  2. RNN(循环神经网络)与 LSTM:解决了序列问题(如语音、文本)。它通过隐藏状态(Hidden State)将上一个时刻的信息传递到当前时刻,使网络拥有了类似人类的“记忆”。

连接主义的本质是概率与拟合。我们不再告诉机器什么是猫,而是给它看一百万张猫的照片,让它通过反向传播算法不断调整权重,最终拟合出一个能够以极高概率认出猫的高维数学空间特征边界

3. 生成式革命:Transformer 架构的诞生

深度学习虽然强大,但 RNN 在处理长文本时存在致命的缺陷:

  1. 遗忘问题:无论句子多长,RNN 都必须把它压缩成一个固定长度的向量,这就导致“读到句尾,忘了句首”。
  2. 无法并行:RNN 必须按顺序一个词一个词地处理,算力再强也无法同时计算,导致训练效率极低。

直到 2017 年,Google 提出了一篇名为《Attention Is All You Need》的划时代论文,Transformer 架构横空出世,开启了 AI 的第三次范式转移。

为何“注意力机制”让机器理解了语言?

Transformer 抛弃了 RNN 的顺序处理机制,引入了自注意力机制(Self-Attention)

自注意力机制的直觉非常简单:当我们理解一句话时,句子里的每个词对我们理解当前词的贡献是不同的。它通过 Q(Query)、K(Key)、V(Value)的矩阵运算,巧妙地解决了这个问题。

你可以把它想象成在图书馆找书:

  • Q (Query / 查询):我想找一本关于“量子力学”的书。
  • K (Key / 键):图书馆里每本书的书名和标签。
  • V (Value / 值):这本书里的实际内容。
Q (Query) 我想找什么 K (Key) 我有什么特征 V (Value) 我的实际内容 MatMul Softmax 注意力分数 MatMul Output 上下文加权表示

计算过程就是用当前词的 QQ 去和句子里所有词的 KK 进行点积(MatMul),点积越大说明两个词的语义关联度越高。经过 Softmax 转换为百分比(注意力分数)后,再乘以对应的 VV。这样一来,每个词在处理时,都“融汇”了整句话中其他重要词的语义。

这种机制不仅彻底解决了长距离依赖问题,还完美支持并行计算,使得模型可以无限堆叠参数,迎来了大模型时代的“Scaling Law(缩放定律)”。

4. 关键转折:从“判别式 AI”到“生成式 AI”

Transformer 的诞生,标志着 AI 技术发生了一个本质的跨越:从判别式 AI 走向生成式 AI

  • 判别式 AI(Discriminative AI):核心任务是分类或预测(如分辨猫和狗,预测房价)。它的本质是在高维空间中画一条边界线,区分不同的数据分布。
  • 生成式 AI(Generative AI):核心任务是创造(写诗、写代码、生成图像)。它是通过学习海量数据的联合概率分布,不断预测下一个概率最高的 Token(Next Token Prediction)。

正是这种看似简单的“文字接龙”游戏(Next Token Prediction),当模型参数量突破百亿,训练数据涵盖人类几乎所有高质量文本时,奇迹般地涌现出了推理(Reasoning)逻辑链零样本学习能力,诞生了今天我们看到的 ChatGPT。

5. 三次范式转移的演进全景

为了更直观地理解这三次范式转移,我们可以看下面这张演进时间轴与对比图谱。

AI 技术演进时间轴

timeline
    title AI 核心算法与范式演进时间轴
    1950s - 1980s : 符号主义 : 专家系统 / If-Then 规则
    1980s - 2010s : 连接主义萌芽 : 感知机 / BP算法
    2012 : 深度学习爆发 : AlexNet (CNN) 统治计算机视觉
    2014 : 序列模型时代 : Seq2Seq / RNN / LSTM
    2017 : 架构革命 : Transformer 论文发布 (Attention Is All You Need)
    2018 - 2020 : 预训练模型 : BERT (双向) / GPT-1,2,3 (单向自回归)
    2022 : 生成式大爆发 : ChatGPT 诞生 / 大语言模型时代
    2024+ : Agent 与具身智能 : LLM as OS / 自动规划与执行

三大范式核心对比

对比维度 符号主义时代 (专家系统) 连接主义时代 (判别式 AI) 生成式革命 (生成式 AI)
核心逻辑 基于明确的逻辑规则推理 拟合数据分布,寻找特征边界 学习联合概率分布,生成新数据
代表算法 决策树、知识图谱 CNN、RNN、SVM、随机森林 Transformer、Diffusion、GAN
擅长领域 确定性逻辑、规则明确的任务 图像分类、语音识别、预测 文本生成、代码编写、多模态创造
主要瓶颈 无法处理模糊性,知识难以穷举 依赖大量标注数据,缺乏逻辑推理能力 幻觉问题,知识更新困难
数据需求 人类专家手工录入规则 大量人工标注数据 (Supervised) 海量无标注数据自监督学习 (Self-Supervised)
本质特征 演绎法 (Deduction) 归纳法 (Induction) 概率生成与涌现 (Emergence)

结语:一切皆概率

回顾 AI 的发展史,我们可以清晰地看到一条主线:人类放弃了教机器“规则”,转而教机器理解“概率”。

从最早的 If-Then 牢笼,到神经网络的非线性拟合,再到 Transformer 暴力的概率预测,智能的火花在海量数据与算力的碰撞中逐渐绽放。正如我们现在所看到的,世界本不完美且充满模糊性,基于概率的模型显然比基于绝对规则的模型更适合理解这个世界。

下一篇,我们将深入“Token 的奥秘”,拆解文字是如何变成数字的,并带你手写一个 BPE 分词器,一窥大语言模型处理文本的第一步。敬请期待《Token 的奥秘:BPE 分词算法详解与词汇表构建实战》。


📚 参考文献与延伸阅读

  1. Attention Is All You Need (Vaswani et al., 2017) - 提出了划时代的 Transformer 架构,Self-Attention 机制的起源,彻底改变了自然语言处理领域的格局。
  2. Deep Learning (LeCun, Bengio, & Hinton, 2015, Nature) - 深度学习三大巨头合著的经典综述,全面总结了连接主义在图像识别和语音识别等感知领域的成功。
  3. Language Models are Few-Shot Learners (Brown et al., 2020) - OpenAI 关于 GPT-3 的经典论文,展示了生成式 AI 随着规模扩大涌现出的惊人推理能力(In-Context Learning)。
  4. Learning representations by back-propagating errors (Rumelhart, Hinton, & Williams, 1986) - 奠定多层神经网络反向传播算法(Backpropagation)基础的里程碑著作。
  5. Artificial Intelligence: A Modern Approach (Stuart Russell & Peter Norvig) - 经典的 AI 教材,书中详细探讨了早期符号主义、专家系统以及逻辑推理的局限性。

下一篇预告: Token 的奥秘:BPE 分词算法详解与词汇表构建实战

博客日历
2026年03月
SuMoTuWeThFrSa
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
01
02
03
04
05
06
07
08
09
10
11
更多
--
--
--