引言
在传统的编程范式中,我们输入数据和规则,通过计算机得到答案。而机器学习(Machine Learning)则不同,我们向计算机输入数据和答案(即最终的结果),让计算机自己去发现其中的学习模型、发现规律,从而构建能够进行预测的数学模型。简而言之,机器学习是一门研究如何让计算机从数据中自动获取规律,并利用这些规律来预测未知、辅助决策的科学。
机器学习是一门交叉学科,根据不同的视角可以被划分为多种范式,如:
从统计推断的哲学思想划分,机器学习模型可以划分为:频率学派与贝叶斯学派。前者认为模型的参数是固定但未知的“常数”,学习的过程就是通过优化方法寻找这个最优值;而后者则认为参数本身服从某种分布,学习的过程是在观察数据后,对先验信念进行更新。
若从建模的最终目标划分,算法模型又可分为判别式模型与生成式模型。判别式模型关注的是寻找不同类别之间的决策边界,直接学习如何划分数据;而生成式模型则试图理解数据本身的产生过程,通过学习联合分布来间接进行预测。
按统计推断划分
频率学派
核心思想
频率派(Frequentist)将概率解释为事件在长期重复试验中发生的频率。在这一框架下,模型参数 $ \theta $ 被视为一个确定的未知常量,虽然我们不知道它的具体值,但它本身并不具有随机性。我们只能通过观测数据来估计这个常量的值。
最大似然估计
给定观测数据集 $ X $,所有样本的联合概率为:
$$ p(X|\theta) = \prod_{i=1}^N p(x_i|\theta) $$
这个联合概率被称为似然函数(Likelihood Function),它衡量了在特定参数 $ \theta $ 下观测到当前数据的可能性。频率派的估计方法就是寻找能使似然函数最大化的参数值,即最大似然估计(Maximum Likelihood Estimation, MLE):
$$ \theta_{MLE} = \arg\max_{\theta} p(X|\theta) = \arg\max_{\theta} \sum_{i=1}^N \log p(x_i|\theta) $$
由于对数函数是单调递增的,且能将连乘转化为连加便于计算,实际中通常使用对数似然。
频率派与机器学习
频率派的思想深刻影响了统计机器学习的发展。许多经典算法都可以从MLE的角度理解:
- 线性回归:假设误差服从高斯分布时,MLE等价于最小二乘法
- 逻辑回归:直接对条件概率 $ p(y|x) $ 进行MLE估计
- 支持向量机:可以看作是在特定损失函数下的频率派方法
频率派方法的优势在于其理论简洁性、计算效率高,且在大样本条件下具有良好的渐近性质。然而,它也存在明显的局限性:无法融入先验知识,在小样本情况下容易过拟合,且只能给出点估计而非分布估计。
频率学派的参数估计
| 方法 | 全称 | 核心思想 | 适用场景 |
|---|---|---|---|
| MLE | 最大似然估计 | $\hat{\theta}_{MLE} = \arg\max P(D \mid \theta)$ 寻找使观测数据出现概率最大的参数 | 最通用。大样本下具有渐近正态性、一致性。对模型假设敏感。 |
| MM | 矩估计法 | 令样本矩等于总体矩:$E[X^k] = \frac{1}{n}\sum X_i^k$ | 简单快速,不需要知道分布的具体形式。但在小样本下往往不是有效估计量。 |
| LSE | 最小二乘估计 | $\min \sum (y_i - \hat{y}_i)^2$ 最小化残差平方和 | 线性回归。不需要概率分布假设(若误差服从正态分布,则等价于 MLE)。 |
| GMM | 广义矩估计 | 利用过定矩条件(矩条件多于参数),最小化二次型距离 | 经济计量学常用。解决了内生性问题,且不需要对误差分布做强假设。 |
| M-估计 | 稳健估计 | 替换平方损失函数为更抗噪的 $\rho$ 函数(如 Huber 损失) | 数据有异常值(Outliers)时。比 MLE 更鲁棒。 |
| EM | 期望极大算法 | 交替进行 E-step(求期望)和 M-step(极大化似然) | 含有隐变量(Latent variables)的概率模型,如 GMM 聚类、HMM。 |
贝叶斯学派
核心思想
贝叶斯派(Bayesian)将概率解释为对事件发生的不确定性的度量,这种不确定性可以是主观的信念。在这一框架下,参数 $ \theta $ 被视为一个随机变量,服从某个先验分布 $ p(\theta) $,这个先验分布反映了我们在看到数据之前对参数的认知。
贝叶斯定理与后验分布
当我们观测到数据 $ X $ 后,根据贝叶斯定理,我们可以更新对参数的认知,得到后验分布(Posterior Distribution):
$$ p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)} = \frac{p(X|\theta) \cdot p(\theta)}{\int p(X|\theta) \cdot p(\theta) \, d\theta} $$
其中:
- $ p(X|\theta) $ 是似然函数,与频率派中的定义相同
- $ p(\theta) $ 是先验分布,体现了我们对参数的主观先验知识
- $ p(X) = \int p(X|\theta)p(\theta)d\theta $ 是边缘似然,也称为证据(Evidence),作为归一化常数确保后验概率之和为1
最大后验估计
虽然贝叶斯派的完整结果是整个后验分布,但在实际应用中有时也需要一个点估计。这时可以采用最大后验估计(Maximum A Posteriori, MAP):
$$ \theta_{MAP} = \arg\max_{\theta} p(\theta|X) = \arg\max_{\theta} p(X|\theta) \cdot p(\theta) \tag{4} $$
MAP估计巧妙地结合了似然函数和先验信息。从优化的角度看,先验分布起到了正则化的作用:例如,高斯先验对应L2正则化,拉普拉斯先验对应L1正则化。
贝叶斯预测
贝叶斯方法真正的优势在于其能够进行概率预测。当我们得到后验分布后,对于新样本 $ x_{new} $ 的预测分布可以通过对参数空间进行积分得到:
$$ p(x_{new}|X) = \int p(x_{new}|\theta) \cdot p(\theta|X) \, d\theta \tag{5} $$
这个过程被称为贝叶斯模型平均(Bayesian Model Averaging)。与频率派只使用单一最优参数不同,贝叶斯方法考虑了所有可能的参数值,并依据后验概率进行加权平均,从而自然地体现了模型的不确定性。
贝叶斯派与机器学习
贝叶斯派思想催生了**概率图模型(Probabilistic Graphical Models)**这一重要领域,包括:
- 朴素贝叶斯分类器:最简单的贝叶斯模型,假设特征条件独立
- 高斯过程:非参数贝叶斯方法,用于回归和分类
- 贝叶斯神经网络:为神经网络权重赋予先验分布
贝叶斯方法的优势在于:能够自然地融合先验知识、防止过拟合、提供不确定性估计、适用于小样本学习。但同时也面临挑战:后验分布的计算通常涉及高维积分,难以解析求解,需要借助近似方法如马尔可夫链蒙特卡洛(MCMC)、变分推断等。
贝叶斯学派的参数估计
| 方法 | 核心思想 | 输出形式 | 特点 |
|---|---|---|---|
| MAP | 最大后验估计 $\arg\max P(D \mid \theta) P(\theta)$ | 点估计 (单个数值) | 相当于 MLE + 先验。在线性回归中增加高斯先验即等价于 L2 正则化 (Ridge)。 |
| 贝叶斯推断 | 计算完整的后验分布 $P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{\int P(D \mid \theta) P(\theta) d\theta}$ | 后验分布 | 提供不确定性度量(均值、方差)。当先验是共轭先验时有解析解。 |
| MCMC | 马尔可夫链蒙特卡洛采样 (如 Gibbs 采样) | 采样样本点集 | 通过随机采样模拟复杂的后验分布。万能但慢,适用于高维复杂模型。 |
| 变分推断 (VI) | 将推断问题转化为优化问题 寻找一个简单分布 $q(\theta)$ 最小化 $KL(q \| p$ | 近似解析分布 | 牺牲了一定精度换取速度。是大规模深度贝叶斯学习(如 VAE)的核心。 |
频率派与贝叶斯派对比
尽管存在哲学分歧,两大学派在方法论上有着深刻的联系:
- MLE与MAP的关系:当先验分布为均匀分布时,MAP估计退化为MLE估计
- 正则化视角:MLE + 正则化项 等价于 MAP(特定先验)
- 大样本一致性:当样本量趋于无穷时,后验分布会集中在MLE估计附近,贝叶斯估计渐近等价于频率派估计
现代机器学习中,两大学派的界限正变得越来越模糊。研究者们开始汲取两者的优势:
- 贝叶斯深度学习:将贝叶斯思想引入深度神经网络,解决过拟合和不确定性估计问题
- 集成学习:结合多个模型的思想与贝叶斯模型平均有异曲同工之妙
- 概率编程:提供灵活的框架来表达和求解概率模型
- 变分自编码器(VAE):巧妙结合了深度学习与变分推断
应用场景选择
在实际问题中,选择哪种方法取决于具体需求:
- 数据量巨大:频率派方法通常计算更高效
- 小样本或零样本学习:贝叶斯方法可以利用先验知识
- 需要不确定性估计:贝叶斯方法自然提供
- 模型解释性要求高:简单频率派模型更易解释
- 计算资源有限:频率派方法通常更友好
按建模目标划分
判别式
- 直接对后验概率
P(y | x)进行建模。 - 关注点:直接学习决策边界,即不同类别之间的界限。
- 例子:逻辑回归、神经网络、支持向量机。
- 比喻:学会直接区分狗和猫的图片(只看区别)。
生成式
- 间接地对似然 (Likelihood)
P(x | y)和先验 (Prior)P(y)进行建模。 - 关注点:为每个类别单独建模其特征的分布。“生成式”是因为一旦学到了
P(x | y),就可以为任何类别y生成新的样本x。 - 步骤:
- 为每个类别
y假设一个特征分布模型(例如高斯分布)。 - 从训练数据中估计每个类别分布的参数(如均值、方差)。
- 利用贝叶斯定理,将学到的
P(x | y)和P(y)转换为最终用于分类的P(y | x)。
- 为每个类别
- 比喻:分别学习“狗看起来是什么样”和“猫看起来是什么样”的完整模型,然后对于一个新动物,看它更符合哪个模型。
判别式与生成式的模型对比
判别模型 和 生成模型 的根本区别在于它们解决问题的思路和关注点不同。
判别模型 致力于 “找到区别”。
- 思路:直接学习不同类别数据之间的决策边界,而不关心单个类别本身的具体样貌。
- 目标:回答“它更像是猫还是狗?”
- 好比:一个裁判,他不需要会画画,只需要掌握一个关键标准(比如身长)来快速区分两者。
生成模型 致力于 “理解本质”。
- 思路:分别学习每一类数据(如猫、狗)的整体特征和内部结构,为每个类别建立一个完整的“概念模型”。
- 目标:回答“猫/狗长什么样子?”
- 好比:一个艺术家,他需要透彻地了解猫和狗的骨骼、肌肉、毛发等所有细节,才能把它们画出来。
| 特征 | 判别模型(Discriminative) | 生成模型(Generative) |
|---|---|---|
| 核心思想 | 学习类别之间的边界,找到“差异”。 | 学习数据本身的分布,理解每一类的“本质”。 |
| 解决的问题 | 这是X还是Y | 什么是X |
| 学习内容 | 条件概率p(y|x) (x是数据特征,y是数据标签) | 联合概率p(x,y)、分布p(x)(无监督的情况) |
| 能力 | 主要用于分类和回归,无法生成新数据。 | 既可以进行分类,也可以生成新的数据(如画一只猫)。 |
| 类比 | 只学会一个投机取巧的判别技巧(如比身长)。 | 学完后对猫狗有直观认知,能画出它们。 |
| 常见算法 | 逻辑回归、支持向量机、决策树、CRF、神经网络 | 朴素贝叶斯、高斯混合、隐马尔可夫模型、VAF、生成对抗网络 |
判别模型因为只专注于区分,因此不具备生成能力;而生成模型因为学会了数据的“本质”,所以具备生成新数据的能力。
ChatGPT、Midjourney这类能创作内容(生成文本、图像)的模型,其核心都是生成模型。而许多用于图像分类、垃圾邮件过滤等任务的模型,则更多是判别模型。
生成与判别式模型的选择
- 当数据量较少或对数据分布有较强先验知识时,生成学习方法可能更有效。
- 适用于数据生成、缺失值处理;
- 在小样本下可能比判别模型(如逻辑回归)更鲁棒。
- 当数据量充足且计算资源有限时,判别学习方法可能更合适。
按学习目标划分
回归(Regression)
- 回归旨在建立输入特征与连续型输出变量之间的映射关系,回归任务的目标是预测一个连续的数值输出 $y \in \mathbb{R}$,
- 核心思想:找到一条曲线/超平面,使预测值 $\hat{y}$ 尽可能接近真实值 $y$,最小化预测误差: $ \min_\theta \sum_{i=1}^N (y_i - \hat{y}_i)^2 $
- 应用场景:预测房价、售额预测、股票价格等。
常见的回归算法:
- 线性回归:最简单的回归模型,假设输入与输出呈线性关系
- 岭回归/Lasso:在线性回归基础上加入L2/L1正则化,防止过拟合
- 决策树回归:通过树结构分段拟合数据
- 随机森林回归:集成多棵决策树,降低方差
- 梯度提升回归(GBDT、XGBoost):通过迭代优化残差
- 支持向量回归(SVR):利用核方法处理非线性关系
- 神经网络:能够拟合任意复杂的非线性函数
分类(Classification)
- 目标是预测离散的类别标签(Y)。
- 例如:判断邮件是否为垃圾邮件(类别:垃圾邮件/非垃圾邮件)、识别图像中的物体类别(类别:猫/狗/车等)。
预测离散类别标签。根据类别数量可分为:
- 二分类: 只有两个类别,例如垃圾邮件分类。
- 多分类:包含多个类别,例如手写数字识别(0-9)。
- 多标签分类:一个样本可能属于多个类别
目标
给定输入特征向量 $\mathbf{x} \in \mathbb{R}^d$,分类问题的目标是预测其所属的离散类别标签 $y \in \{1, 2, ..., K\}$。
从概率视角看,我们需要计算后验概率(posterior probability):
$$
P(y = k \mid \mathbf{x}), \quad k = 1,2,...,K
$$
所有分类模型最终都采用最大后验决策规则(MAP decision rule)进行预测:
$$
\hat{y} = \arg\max_{k} P(y = k \mid \mathbf{x})
$$
即选择使后验概率最大的类别作为预测结果。
建模
判别式学习建模(Discriminative)
- 直接建模 $P(y|\mathbf{x})$
- 关注决策边界,不关心数据本身的分布
生成式学习建模(Generative)
- 间接建模:先学习联合分布 $ P(\mathbf{x}, y) = P(y)P(\mathbf{x}|y) $
- 通过贝叶斯定理计算后验:$ P(y|\mathbf{x}) = \frac{P(y)P(\mathbf{x}|y)}{\sum_{k=1}^K P(y=k)P(\mathbf{x}|y=k)} $
参数估计
无论采用判别式还是生成式方法,模型都包含需要从数据中学习的参数 $\theta$。参数估计主要有两种方法:
频率派的最大似然估计(MLE)
将参数视为确定的未知常量,寻找使训练数据似然函数最大化的参数值:
$$
\theta_{MLE} = \arg\max_\theta \prod_{i=1}^N P(y_i|\mathbf{x}_i, \theta)
$$
等价于最小化经验风险。
贝叶斯派的最大后验估计(MAP)
将参数视为随机变量,在MLE的基础上引入了参数的先验分布$p(\theta)$,通过贝叶斯定理求使后验概率最大的参数值:
$$
\theta_{MAP} = \arg\max_\theta \prod_{i=1}^N P(y_i|\mathbf{x}_i, \theta) \cdot p(\theta)
$$
- 正则化效应:先验分布 $p(\theta)$ 等价于对参数施加约束,防止过拟合
- 高斯先验 $p(\theta) \sim \mathcal{N}(0, \sigma^2)$ ↔ L2 正则化
- 拉普拉斯先验 $p(\theta) \sim \text{Laplace}(0, b)$ ↔ L1 正则化
- 在数据稀缺时,先验知识可提供更稳健的估计
- 当先验为均匀分布时,MAP 退化为 MLE
完整流程
- 训练阶段:使用MLE或MAP估计模型参数 $\hat{\theta}$
- 预测阶段:对于新样本 $\mathbf{x}_{new}$,计算后验概率:$P(y=k|\mathbf{x}_{new}, \hat{\theta})$
- 决策阶段:应用最大后验决策规则:$\hat{y} = \arg\max_k P(y=k|\mathbf{x}_{new}, \hat{\theta})$
聚类(Clustering)
聚类是一种无监督学习任务,目标是将未标注的样本划分为若干个簇(cluster),使得同一簇内的样本尽可能相似,不同簇间的样本尽可能不同。
给定数据集 $\{\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_N\}$,聚类算法旨在找到一种划分 $C = \{C_1, C_2, ..., C_K\}$,使得:
- 簇内相似度最大化:$\max \sum_{k=1}^K \sum_{\mathbf{x}_i \in C_k} \text{sim}(\mathbf{x}_i, \mu_k)$
- 簇间相似度最小化:$\min \sum_{k \lt j} \text{sim}(\mu_k, \mu_j)$,其中 $\mu_k$ 是第 $k$ 个簇的中心(或代表点),$\text{sim}(\cdot)$ 是相似度度量。
降维(Dimensionality Reduction)
降维是将高维数据映射到低维空间的过程,同时尽可能保留原始数据的重要结构信息。它是无监督学习的重要分支,也是数据预处理的关键步骤。
给定高维数据 $\{\mathbf{x}_i \in \mathbb{R}^D\}_{i=1}^N$,降维算法寻找映射 $f: \mathbb{R}^D \rightarrow \mathbb{R}^d$,其中 $d \ll D$,使得:
$$\mathbf{z}_i = f(\mathbf{x}_i) \in \mathbb{R}^d$$
且 $\{\mathbf{z}_i\}$ 尽可能保留 $\{\mathbf{x}_i\}$ 的重要结构信息。
需要降维的场景:
- 维度灾难(Curse of Dimensionality):随着维度增加,数据变得稀疏,距离度量失效,模型复杂度指数级增长
- 可视化需求:人类只能理解2D或3D空间,降维使高维数据可视化成为可能
- 计算效率:减少特征数量,降低模型训练和预测的时间复杂度
- 去噪:丢弃不重要的维度,保留主要信号
- 特征提取:从原始特征中构造更有代表性的新特征
排序(Ranking)
排序任务的目标是学习一个排序函数,能够根据输入特征对项目集合进行排序,使得相关性高的项目排在前面。排序问题是信息检索和推荐系统的核心。
排序的应用场景:
- 搜索引擎:根据用户查询对网页进行排序
- 推荐系统:为用户推荐最感兴趣的商品、视频、音乐
- 问答系统:对候选答案按相关性排序
- 广告点击率预测:排序广告以提高点击率
- 社交媒体:排序信息流中的帖子
结语
机器学习的发展,本质上是在表示、评估与优化这三个核心要素上的持续演进:选择何种方式表示数据与模型,如何定义优劣,以及通过何种策略寻找最优解。
深度学习的崛起摒弃了人工特征工程,通过分层抽象自动从原始数据中提取层次化特征,使得模型能够感知高维空间中的复杂结构。然而,强大的表示能力也伴随着挑战——海量参数需要海量数据,黑箱特性损害了可解释性。
强化学习的复兴则拓展了学习的范式。它不再满足于拟合静态数据,而是在与环境的交互中通过试错学习最优策略,将机器学习从模式识别推向序贯决策。这种范式更接近生物学习的本质,在机器人、博弈、控制等领域展现出独特价值。
然而,技术的飞速发展机器学习仍面临多方面的挑战:
- 数据效率:人类可以从少量样本中学习,而当前模型仍然依赖海量数据。如何让机器学习像人类一样“举一反三”,仍是未解难题。
- 鲁棒性与泛化:分布外泛化、对抗样本、虚假相关——模型在实验室环境外的表现往往不尽如人意。
- 可解释性与可信赖:随着模型进入医疗、金融、司法等高风险领域,黑箱决策的风险日益凸显。
- 价值对齐:当模型越来越强大,如何确保其目标与人类价值观一致,成为关乎未来的重要课题。
- 计算效率与可持续性:大模型的训练消耗惊人,如何在性能与能耗之间取得平衡,既是技术问题,也是环境问题。
常见模型划分一览表
| 算法模型 | 频率派 | 贝叶斯派 | 判别式 | 生成式 | 参数估计/核心准则 |
|---|---|---|---|---|---|
| 线性回归 | 是 | 是 (贝叶斯线性回归) | 是 | 否 | 最小二乘 (OLS) / MLE |
| 逻辑回归 | 是 | 是 (拉普拉斯近似等) | 是 | 否 | 极大似然估计 (MLE) |
| 决策树/随机森林/提升树 | 是 | 否 | 是 | 否 | 信息增益 / 基尼系数 / MSE |
| SVM | 是 | 否 | 是 | 否 | 合页损失 + 正则化 (对偶优化) |
| PCA (主成分分析) | 是 | 是 (Probabilistic PCA) | 不适用 | 是 (概率视角下) | 方差最大化 / 投影误差最小化 |
| LDA (线性判别分析) | 是 | 否 | 否 | 是 | Fisher 准则 / 类内类间散度 |
| 高斯判别分析 (GDA) | 是 | 是 | 否 | 是 | 联合概率 $P(x,y)$ 建模 |
| 高斯过程 (GP) | 否 | 是 | 是 | 否 | 核函数 + 边际似然最大化 |
| 高斯混合模型 (GMM) | 是 | 是 (贝叶斯 GMM) | 否 | 是 | EM 算法 |
| 朴素贝叶斯 | 是 | 是 | 否 | 是 | MAP (带平滑) / MLE |
| 贝叶斯网络 | 否 | 是 | 否 | 是 | 结构学习 + 条件概率表 |
| 隐马尔可夫 (HMM) | 是 | 是 (变分推断) | 否 | 是 | EM 算法 |
| 条件随机场 (CRF) | 是 | 否 | 是 | 否 | 极大似然 (梯度上升) |
| 感知机 | 是 | 否 | 是 | 否 | 随机梯度下降 (SGD) |
| 深度神经网络 (DNN) | 是 | 是 (BNN) | 是 | 视模型而定 | 反向传播 (BP) + 优化器 |