机器学习导论

引言

在传统的编程范式中，我们输入数据和规则，通过计算机得到答案。而机器学习（Machine Learning）则不同，我们向计算机输入数据和答案（即最终的结果），让计算机自己去发现其中的学习模型、发现规律，从而构建能够进行预测的数学模型。简而言之，机器学习是一门研究如何让计算机从数据中自动获取规律，并利用这些规律来预测未知、辅助决策的科学。

机器学习是一门交叉学科，根据不同的视角可以被划分为多种范式，如：

从统计推断的哲学思想划分，机器学习模型可以划分为：频率学派与贝叶斯学派。前者认为模型的参数是固定但未知的“常数”，学习的过程就是通过优化方法寻找这个最优值；而后者则认为参数本身服从某种分布，学习的过程是在观察数据后，对先验信念进行更新。

若从建模的最终目标划分，算法模型又可分为判别式模型与生成式模型。判别式模型关注的是寻找不同类别之间的决策边界，直接学习如何划分数据；而生成式模型则试图理解数据本身的产生过程，通过学习联合分布来间接进行预测。

按统计推断划分

频率学派

核心思想

频率派（Frequentist）将概率解释为事件在长期重复试验中发生的频率。在这一框架下，模型参数 $ \theta $ 被视为一个确定的未知常量，虽然我们不知道它的具体值，但它本身并不具有随机性。我们只能通过观测数据来估计这个常量的值。

最大似然估计

给定观测数据集 $ X $，所有样本的联合概率为：

$$ p(X|\theta) = \prod_{i=1}^N p(x_i|\theta) $$

这个联合概率被称为似然函数（Likelihood Function），它衡量了在特定参数 $ \theta $ 下观测到当前数据的可能性。频率派的估计方法就是寻找能使似然函数最大化的参数值，即最大似然估计（Maximum Likelihood Estimation, MLE）：

$$ \theta_{MLE} = \arg\max_{\theta} p(X|\theta) = \arg\max_{\theta} \sum_{i=1}^N \log p(x_i|\theta) $$

由于对数函数是单调递增的，且能将连乘转化为连加便于计算，实际中通常使用对数似然。

频率派与机器学习

频率派的思想深刻影响了统计机器学习的发展。许多经典算法都可以从MLE的角度理解：

线性回归：假设误差服从高斯分布时，MLE等价于最小二乘法
逻辑回归：直接对条件概率 $ p(y|x) $ 进行MLE估计
支持向量机：可以看作是在特定损失函数下的频率派方法

频率派方法的优势在于其理论简洁性、计算效率高，且在大样本条件下具有良好的渐近性质。然而，它也存在明显的局限性：无法融入先验知识，在小样本情况下容易过拟合，且只能给出点估计而非分布估计。

频率学派的参数估计

方法	全称	核心思想	适用场景
MLE	最大似然估计	$\hat{\theta}_{MLE} = \arg\max P(D \mid \theta)$ 寻找使观测数据出现概率最大的参数	最通用。大样本下具有渐近正态性、一致性。对模型假设敏感。
MM	矩估计法	令样本矩等于总体矩：$E[X^k] = \frac{1}{n}\sum X_i^k$	简单快速，不需要知道分布的具体形式。但在小样本下往往不是有效估计量。
LSE	最小二乘估计	$\min \sum (y_i - \hat{y}_i)^2$ 最小化残差平方和	线性回归。不需要概率分布假设（若误差服从正态分布，则等价于 MLE）。
GMM	广义矩估计	利用过定矩条件（矩条件多于参数），最小化二次型距离	经济计量学常用。解决了内生性问题，且不需要对误差分布做强假设。
M-估计	稳健估计	替换平方损失函数为更抗噪的 $\rho$ 函数（如 Huber 损失）	数据有异常值（Outliers）时。比 MLE 更鲁棒。
EM	期望极大算法	交替进行 E-step（求期望）和 M-step（极大化似然）	含有隐变量（Latent variables）的概率模型，如 GMM 聚类、HMM。

贝叶斯学派

核心思想

贝叶斯派（Bayesian）将概率解释为对事件发生的不确定性的度量，这种不确定性可以是主观的信念。在这一框架下，参数 $ \theta $ 被视为一个随机变量，服从某个先验分布 $ p(\theta) $，这个先验分布反映了我们在看到数据之前对参数的认知。

贝叶斯定理与后验分布

当我们观测到数据 $ X $ 后，根据贝叶斯定理，我们可以更新对参数的认知，得到后验分布（Posterior Distribution）：

$$ p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)} = \frac{p(X|\theta) \cdot p(\theta)}{\int p(X|\theta) \cdot p(\theta) \, d\theta} $$

其中：

$ p(X|\theta) $ 是似然函数，与频率派中的定义相同
$ p(\theta) $ 是先验分布，体现了我们对参数的主观先验知识
$ p(X) = \int p(X|\theta)p(\theta)d\theta $ 是边缘似然，也称为证据（Evidence），作为归一化常数确保后验概率之和为1

最大后验估计

虽然贝叶斯派的完整结果是整个后验分布，但在实际应用中有时也需要一个点估计。这时可以采用最大后验估计（Maximum A Posteriori, MAP）：

$$ \theta_{MAP} = \arg\max_{\theta} p(\theta|X) = \arg\max_{\theta} p(X|\theta) \cdot p(\theta) \tag{4} $$

MAP估计巧妙地结合了似然函数和先验信息。从优化的角度看，先验分布起到了正则化的作用：例如，高斯先验对应L2正则化，拉普拉斯先验对应L1正则化。

贝叶斯预测

贝叶斯方法真正的优势在于其能够进行概率预测。当我们得到后验分布后，对于新样本 $ x_{new} $ 的预测分布可以通过对参数空间进行积分得到：

$$ p(x_{new}|X) = \int p(x_{new}|\theta) \cdot p(\theta|X) \, d\theta \tag{5} $$

这个过程被称为贝叶斯模型平均（Bayesian Model Averaging）。与频率派只使用单一最优参数不同，贝叶斯方法考虑了所有可能的参数值，并依据后验概率进行加权平均，从而自然地体现了模型的不确定性。

贝叶斯派与机器学习

贝叶斯派思想催生了**概率图模型（Probabilistic Graphical Models）**这一重要领域，包括：

朴素贝叶斯分类器：最简单的贝叶斯模型，假设特征条件独立
高斯过程：非参数贝叶斯方法，用于回归和分类
贝叶斯神经网络：为神经网络权重赋予先验分布

贝叶斯方法的优势在于：能够自然地融合先验知识、防止过拟合、提供不确定性估计、适用于小样本学习。但同时也面临挑战：后验分布的计算通常涉及高维积分，难以解析求解，需要借助近似方法如马尔可夫链蒙特卡洛（MCMC）、变分推断等。

贝叶斯学派的参数估计

方法	核心思想	输出形式	特点
MAP	最大后验估计 $\arg\max P(D \mid \theta) P(\theta)$	点估计 (单个数值)	相当于 MLE + 先验。在线性回归中增加高斯先验即等价于 L2 正则化 (Ridge)。
贝叶斯推断	计算完整的后验分布 $P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{\int P(D \mid \theta) P(\theta) d\theta}$	后验分布	提供不确定性度量（均值、方差）。当先验是共轭先验时有解析解。
MCMC	马尔可夫链蒙特卡洛采样 (如 Gibbs 采样)	采样样本点集	通过随机采样模拟复杂的后验分布。万能但慢，适用于高维复杂模型。
变分推断 (VI)	将推断问题转化为优化问题寻找一个简单分布 $q(\theta)$ 最小化 $KL(q \\| p$	近似解析分布	牺牲了一定精度换取速度。是大规模深度贝叶斯学习（如 VAE）的核心。

频率派与贝叶斯派对比

尽管存在哲学分歧，两大学派在方法论上有着深刻的联系：

MLE与MAP的关系：当先验分布为均匀分布时，MAP估计退化为MLE估计
正则化视角：MLE + 正则化项等价于 MAP（特定先验）
大样本一致性：当样本量趋于无穷时，后验分布会集中在MLE估计附近，贝叶斯估计渐近等价于频率派估计

现代机器学习中，两大学派的界限正变得越来越模糊。研究者们开始汲取两者的优势：

贝叶斯深度学习：将贝叶斯思想引入深度神经网络，解决过拟合和不确定性估计问题
集成学习：结合多个模型的思想与贝叶斯模型平均有异曲同工之妙
概率编程：提供灵活的框架来表达和求解概率模型
变分自编码器（VAE）：巧妙结合了深度学习与变分推断

应用场景选择

在实际问题中，选择哪种方法取决于具体需求：

数据量巨大：频率派方法通常计算更高效
小样本或零样本学习：贝叶斯方法可以利用先验知识
需要不确定性估计：贝叶斯方法自然提供
模型解释性要求高：简单频率派模型更易解释
计算资源有限：频率派方法通常更友好

按建模目标划分

判别式

直接对后验概率 P(y | x) 进行建模。
关注点：直接学习决策边界，即不同类别之间的界限。
例子：逻辑回归、神经网络、支持向量机。
比喻：学会直接区分狗和猫的图片（只看区别）。

生成式

间接地对似然 (Likelihood) P(x | y) 和先验 (Prior) P(y) 进行建模。
关注点：为每个类别单独建模其特征的分布。“生成式”是因为一旦学到了 P(x | y)，就可以为任何类别 y 生成新的样本 x。
步骤：
1. 为每个类别 y 假设一个特征分布模型（例如高斯分布）。
2. 从训练数据中估计每个类别分布的参数（如均值、方差）。
3. 利用贝叶斯定理，将学到的 P(x | y) 和 P(y) 转换为最终用于分类的 P(y | x)。
比喻：分别学习“狗看起来是什么样”和“猫看起来是什么样”的完整模型，然后对于一个新动物，看它更符合哪个模型。

判别式与生成式的模型对比

判别模型 和 生成模型 的根本区别在于它们解决问题的思路和关注点不同。

判别模型 致力于 “找到区别”。
- 思路：直接学习不同类别数据之间的决策边界，而不关心单个类别本身的具体样貌。
- 目标：回答“它更像是猫还是狗？”
- 好比：一个裁判，他不需要会画画，只需要掌握一个关键标准（比如身长）来快速区分两者。
生成模型 致力于 “理解本质”。
- 思路：分别学习每一类数据（如猫、狗）的整体特征和内部结构，为每个类别建立一个完整的“概念模型”。
- 目标：回答“猫/狗长什么样子？”
- 好比：一个艺术家，他需要透彻地了解猫和狗的骨骼、肌肉、毛发等所有细节，才能把它们画出来。

特征	判别模型（Discriminative）	生成模型（Generative）
核心思想	学习类别之间的边界，找到“差异”。	学习数据本身的分布，理解每一类的“本质”。
解决的问题	这是X还是Y	什么是X
学习内容	条件概率p(y\|x) （x是数据特征，y是数据标签）	联合概率p(x,y)、分布p(x)（无监督的情况）
能力	主要用于分类和回归，无法生成新数据。	既可以进行分类，也可以生成新的数据（如画一只猫）。
类比	只学会一个投机取巧的判别技巧（如比身长）。	学完后对猫狗有直观认知，能画出它们。
常见算法	逻辑回归、支持向量机、决策树、CRF、神经网络	朴素贝叶斯、高斯混合、隐马尔可夫模型、VAF、生成对抗网络

判别模型因为只专注于区分，因此不具备生成能力；而生成模型因为学会了数据的“本质”，所以具备生成新数据的能力。

ChatGPT、Midjourney这类能创作内容（生成文本、图像）的模型，其核心都是生成模型。而许多用于图像分类、垃圾邮件过滤等任务的模型，则更多是判别模型。

生成与判别式模型的选择

当数据量较少或对数据分布有较强先验知识时，生成学习方法可能更有效。
- 适用于数据生成、缺失值处理；
- 在小样本下可能比判别模型（如逻辑回归）更鲁棒。
当数据量充足且计算资源有限时，判别学习方法可能更合适。

按学习目标划分

回归（Regression）

回归旨在建立输入特征与连续型输出变量之间的映射关系，回归任务的目标是预测一个连续的数值输出 $y \in \mathbb{R}$，
核心思想：找到一条曲线/超平面，使预测值 $\hat{y}$ 尽可能接近真实值 $y$，最小化预测误差: $ \min_\theta \sum_{i=1}^N (y_i - \hat{y}_i)^2 $
应用场景：预测房价、售额预测、股票价格等。

常见的回归算法:

线性回归：最简单的回归模型，假设输入与输出呈线性关系
岭回归/Lasso：在线性回归基础上加入L2/L1正则化，防止过拟合
决策树回归：通过树结构分段拟合数据
随机森林回归：集成多棵决策树，降低方差
梯度提升回归（GBDT、XGBoost）：通过迭代优化残差
支持向量回归（SVR）：利用核方法处理非线性关系
神经网络：能够拟合任意复杂的非线性函数

分类（Classification）

目标是预测离散的类别标签（Y）。
例如：判断邮件是否为垃圾邮件（类别：垃圾邮件/非垃圾邮件）、识别图像中的物体类别（类别：猫/狗/车等）。

预测离散类别标签。根据类别数量可分为：

二分类：只有两个类别，例如垃圾邮件分类。
多分类：包含多个类别，例如手写数字识别（0-9）。
多标签分类：一个样本可能属于多个类别

目标

给定输入特征向量 $\mathbf{x} \in \mathbb{R}^d$，分类问题的目标是预测其所属的离散类别标签 $y \in \{1, 2, ..., K\}$。

从概率视角看，我们需要计算后验概率（posterior probability）：
$$ P(y = k \mid \mathbf{x}), \quad k = 1,2,...,K $$

所有分类模型最终都采用最大后验决策规则（MAP decision rule）进行预测：
$$ \hat{y} = \arg\max_{k} P(y = k \mid \mathbf{x}) $$
即选择使后验概率最大的类别作为预测结果。

建模

判别式学习建模（Discriminative）

直接建模 $P(y|\mathbf{x})$
关注决策边界，不关心数据本身的分布

生成式学习建模（Generative）

间接建模：先学习联合分布 $ P(\mathbf{x}, y) = P(y)P(\mathbf{x}|y) $
通过贝叶斯定理计算后验：$ P(y|\mathbf{x}) = \frac{P(y)P(\mathbf{x}|y)}{\sum_{k=1}^K P(y=k)P(\mathbf{x}|y=k)} $

参数估计

无论采用判别式还是生成式方法，模型都包含需要从数据中学习的参数 $\theta$。参数估计主要有两种方法：

频率派的最大似然估计（MLE）

将参数视为确定的未知常量，寻找使训练数据似然函数最大化的参数值：
$$ \theta_{MLE} = \arg\max_\theta \prod_{i=1}^N P(y_i|\mathbf{x}_i, \theta) $$
等价于最小化经验风险。

贝叶斯派的最大后验估计（MAP）

将参数视为随机变量，在MLE的基础上引入了参数的先验分布$p(\theta)$，通过贝叶斯定理求使后验概率最大的参数值：
$$ \theta_{MAP} = \arg\max_\theta \prod_{i=1}^N P(y_i|\mathbf{x}_i, \theta) \cdot p(\theta) $$

正则化效应：先验分布 $p(\theta)$ 等价于对参数施加约束，防止过拟合
- 高斯先验 $p(\theta) \sim \mathcal{N}(0, \sigma^2)$ ↔ L2 正则化
- 拉普拉斯先验 $p(\theta) \sim \text{Laplace}(0, b)$ ↔ L1 正则化
在数据稀缺时，先验知识可提供更稳健的估计
当先验为均匀分布时，MAP 退化为 MLE

完整流程

训练阶段：使用MLE或MAP估计模型参数 $\hat{\theta}$
预测阶段：对于新样本 $\mathbf{x}_{new}$，计算后验概率：$P(y=k|\mathbf{x}_{new}, \hat{\theta})$
决策阶段：应用最大后验决策规则：$\hat{y} = \arg\max_k P(y=k|\mathbf{x}_{new}, \hat{\theta})$

聚类（Clustering）

聚类是一种无监督学习任务，目标是将未标注的样本划分为若干个簇（cluster），使得同一簇内的样本尽可能相似，不同簇间的样本尽可能不同。

给定数据集 $\{\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_N\}$，聚类算法旨在找到一种划分 $C = \{C_1, C_2, ..., C_K\}$，使得：

簇内相似度最大化：$\max \sum_{k=1}^K \sum_{\mathbf{x}_i \in C_k} \text{sim}(\mathbf{x}_i, \mu_k)$
簇间相似度最小化：$\min \sum_{k \lt j} \text{sim}(\mu_k, \mu_j)$，其中 $\mu_k$ 是第 $k$ 个簇的中心（或代表点），$\text{sim}(\cdot)$ 是相似度度量。

降维（Dimensionality Reduction）

降维是将高维数据映射到低维空间的过程，同时尽可能保留原始数据的重要结构信息。它是无监督学习的重要分支，也是数据预处理的关键步骤。

给定高维数据 $\{\mathbf{x}_i \in \mathbb{R}^D\}_{i=1}^N$，降维算法寻找映射 $f: \mathbb{R}^D \rightarrow \mathbb{R}^d$，其中 $d \ll D$，使得：
$$\mathbf{z}_i = f(\mathbf{x}_i) \in \mathbb{R}^d$$
且 $\{\mathbf{z}_i\}$ 尽可能保留 $\{\mathbf{x}_i\}$ 的重要结构信息。

需要降维的场景:

维度灾难（Curse of Dimensionality）：随着维度增加，数据变得稀疏，距离度量失效，模型复杂度指数级增长
可视化需求：人类只能理解2D或3D空间，降维使高维数据可视化成为可能
计算效率：减少特征数量，降低模型训练和预测的时间复杂度
去噪：丢弃不重要的维度，保留主要信号
特征提取：从原始特征中构造更有代表性的新特征

排序（Ranking）

排序任务的目标是学习一个排序函数，能够根据输入特征对项目集合进行排序，使得相关性高的项目排在前面。排序问题是信息检索和推荐系统的核心。

排序的应用场景:

搜索引擎：根据用户查询对网页进行排序
推荐系统：为用户推荐最感兴趣的商品、视频、音乐
问答系统：对候选答案按相关性排序
广告点击率预测：排序广告以提高点击率
社交媒体：排序信息流中的帖子

结语

机器学习的发展，本质上是在表示、评估与优化这三个核心要素上的持续演进：选择何种方式表示数据与模型，如何定义优劣，以及通过何种策略寻找最优解。

深度学习的崛起摒弃了人工特征工程，通过分层抽象自动从原始数据中提取层次化特征，使得模型能够感知高维空间中的复杂结构。然而，强大的表示能力也伴随着挑战——海量参数需要海量数据，黑箱特性损害了可解释性。

强化学习的复兴则拓展了学习的范式。它不再满足于拟合静态数据，而是在与环境的交互中通过试错学习最优策略，将机器学习从模式识别推向序贯决策。这种范式更接近生物学习的本质，在机器人、博弈、控制等领域展现出独特价值。

然而，技术的飞速发展机器学习仍面临多方面的挑战：

数据效率：人类可以从少量样本中学习，而当前模型仍然依赖海量数据。如何让机器学习像人类一样“举一反三”，仍是未解难题。
鲁棒性与泛化：分布外泛化、对抗样本、虚假相关——模型在实验室环境外的表现往往不尽如人意。
可解释性与可信赖：随着模型进入医疗、金融、司法等高风险领域，黑箱决策的风险日益凸显。
价值对齐：当模型越来越强大，如何确保其目标与人类价值观一致，成为关乎未来的重要课题。
计算效率与可持续性：大模型的训练消耗惊人，如何在性能与能耗之间取得平衡，既是技术问题，也是环境问题。

常见模型划分一览表

算法模型	频率派	贝叶斯派	判别式	生成式	参数估计/核心准则
线性回归	是	是 (贝叶斯线性回归)	是	否	最小二乘 (OLS) / MLE
逻辑回归	是	是 (拉普拉斯近似等)	是	否	极大似然估计 (MLE)
决策树/随机森林/提升树	是	否	是	否	信息增益 / 基尼系数 / MSE
SVM	是	否	是	否	合页损失 + 正则化 (对偶优化)
PCA (主成分分析)	是	是 (Probabilistic PCA)	不适用	是 (概率视角下)	方差最大化 / 投影误差最小化
LDA (线性判别分析)	是	否	否	是	Fisher 准则 / 类内类间散度
高斯判别分析 (GDA)	是	是	否	是	联合概率 $P(x,y)$ 建模
高斯过程 (GP)	否	是	是	否	核函数 + 边际似然最大化
高斯混合模型 (GMM)	是	是 (贝叶斯 GMM)	否	是	EM 算法
朴素贝叶斯	是	是	否	是	MAP (带平滑) / MLE
贝叶斯网络	否	是	否	是	结构学习 + 条件概率表
隐马尔可夫 (HMM)	是	是 (变分推断)	否	是	EM 算法
条件随机场 (CRF)	是	否	是	否	极大似然 (梯度上升)
感知机	是	否	是	否	随机梯度下降 (SGD)
深度神经网络 (DNN)	是	是 (BNN)	是	视模型而定	反向传播 (BP) + 优化器

本文链接： https://www.hicode365.com/cuidh5iGsdDS3Iq6RawHOWB5J

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

hicodeAlgorithms Engineer

Open shared and free