机器学习导论

引言

在传统的编程范式中,我们输入数据和规则,通过计算机得到答案。而机器学习(Machine Learning)则不同,我们向计算机输入数据和答案(即最终的结果),让计算机自己去发现其中的学习模型、发现规律,从而构建能够进行预测的数学模型。简而言之,机器学习是一门研究如何让计算机从数据中自动获取规律,并利用这些规律来预测未知、辅助决策的科学。

机器学习是一门交叉学科,根据不同的视角可以被划分为多种范式,如:

统计推断的哲学思想划分,机器学习模型可以划分为:频率学派与贝叶斯学派。前者认为模型的参数是固定但未知的“常数”,学习的过程就是通过优化方法寻找这个最优值;而后者则认为参数本身服从某种分布,学习的过程是在观察数据后,对先验信念进行更新。

若从建模的最终目标划分,算法模型又可分为判别式模型与生成式模型。判别式模型关注的是寻找不同类别之间的决策边界,直接学习如何划分数据;而生成式模型则试图理解数据本身的产生过程,通过学习联合分布来间接进行预测。

按统计推断划分

频率学派

核心思想

频率派(Frequentist)将概率解释为事件在长期重复试验中发生的频率。在这一框架下,模型参数 $ \theta $ 被视为一个确定的未知常量,虽然我们不知道它的具体值,但它本身并不具有随机性。我们只能通过观测数据来估计这个常量的值。

最大似然估计

给定观测数据集 $ X $,所有样本的联合概率为:

$$ p(X|\theta) = \prod_{i=1}^N p(x_i|\theta) $$

这个联合概率被称为似然函数(Likelihood Function),它衡量了在特定参数 $ \theta $ 下观测到当前数据的可能性。频率派的估计方法就是寻找能使似然函数最大化的参数值,即最大似然估计(Maximum Likelihood Estimation, MLE):

$$ \theta_{MLE} = \arg\max_{\theta} p(X|\theta) = \arg\max_{\theta} \sum_{i=1}^N \log p(x_i|\theta) $$

由于对数函数是单调递增的,且能将连乘转化为连加便于计算,实际中通常使用对数似然。

频率派与机器学习

频率派的思想深刻影响了统计机器学习的发展。许多经典算法都可以从MLE的角度理解:

  • 线性回归:假设误差服从高斯分布时,MLE等价于最小二乘法
  • 逻辑回归:直接对条件概率 $ p(y|x) $ 进行MLE估计
  • 支持向量机:可以看作是在特定损失函数下的频率派方法

频率派方法的优势在于其理论简洁性、计算效率高,且在大样本条件下具有良好的渐近性质。然而,它也存在明显的局限性:无法融入先验知识,在小样本情况下容易过拟合,且只能给出点估计而非分布估计。


频率学派的参数估计

方法 全称 核心思想 适用场景
MLE 最大似然估计 $\hat{\theta}_{MLE} = \arg\max P(D \mid \theta)$ 寻找使观测数据出现概率最大的参数 最通用。大样本下具有渐近正态性、一致性。对模型假设敏感。
MM 矩估计法 令样本矩等于总体矩:$E[X^k] = \frac{1}{n}\sum X_i^k$ 简单快速,不需要知道分布的具体形式。但在小样本下往往不是有效估计量。
LSE 最小二乘估计 $\min \sum (y_i - \hat{y}_i)^2$ 最小化残差平方和 线性回归。不需要概率分布假设(若误差服从正态分布,则等价于 MLE)。
GMM 广义矩估计 利用过定矩条件(矩条件多于参数),最小化二次型距离 经济计量学常用。解决了内生性问题,且不需要对误差分布做强假设。
M-估计 稳健估计 替换平方损失函数为更抗噪的 $\rho$ 函数(如 Huber 损失) 数据有异常值(Outliers)时。比 MLE 更鲁棒。
EM 期望极大算法 交替进行 E-step(求期望)和 M-step(极大化似然) 含有隐变量(Latent variables)的概率模型,如 GMM 聚类、HMM。

贝叶斯学派

核心思想

贝叶斯派(Bayesian)将概率解释为对事件发生的不确定性的度量,这种不确定性可以是主观的信念。在这一框架下,参数 $ \theta $ 被视为一个随机变量,服从某个先验分布 $ p(\theta) $,这个先验分布反映了我们在看到数据之前对参数的认知。

贝叶斯定理与后验分布

当我们观测到数据 $ X $ 后,根据贝叶斯定理,我们可以更新对参数的认知,得到后验分布(Posterior Distribution):

$$ p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)} = \frac{p(X|\theta) \cdot p(\theta)}{\int p(X|\theta) \cdot p(\theta) \, d\theta} $$

其中:

  • $ p(X|\theta) $ 是似然函数,与频率派中的定义相同
  • $ p(\theta) $ 是先验分布,体现了我们对参数的主观先验知识
  • $ p(X) = \int p(X|\theta)p(\theta)d\theta $ 是边缘似然,也称为证据(Evidence),作为归一化常数确保后验概率之和为1

最大后验估计

虽然贝叶斯派的完整结果是整个后验分布,但在实际应用中有时也需要一个点估计。这时可以采用最大后验估计(Maximum A Posteriori, MAP):

$$ \theta_{MAP} = \arg\max_{\theta} p(\theta|X) = \arg\max_{\theta} p(X|\theta) \cdot p(\theta) \tag{4} $$

MAP估计巧妙地结合了似然函数和先验信息。从优化的角度看,先验分布起到了正则化的作用:例如,高斯先验对应L2正则化,拉普拉斯先验对应L1正则化。

贝叶斯预测

贝叶斯方法真正的优势在于其能够进行概率预测。当我们得到后验分布后,对于新样本 $ x_{new} $ 的预测分布可以通过对参数空间进行积分得到:

$$ p(x_{new}|X) = \int p(x_{new}|\theta) \cdot p(\theta|X) \, d\theta \tag{5} $$

这个过程被称为贝叶斯模型平均(Bayesian Model Averaging)。与频率派只使用单一最优参数不同,贝叶斯方法考虑了所有可能的参数值,并依据后验概率进行加权平均,从而自然地体现了模型的不确定性。

贝叶斯派与机器学习

贝叶斯派思想催生了**概率图模型(Probabilistic Graphical Models)**这一重要领域,包括:

  • 朴素贝叶斯分类器:最简单的贝叶斯模型,假设特征条件独立
  • 高斯过程:非参数贝叶斯方法,用于回归和分类
  • 贝叶斯神经网络:为神经网络权重赋予先验分布

贝叶斯方法的优势在于:能够自然地融合先验知识、防止过拟合、提供不确定性估计、适用于小样本学习。但同时也面临挑战:后验分布的计算通常涉及高维积分,难以解析求解,需要借助近似方法如马尔可夫链蒙特卡洛(MCMC)、变分推断等。

贝叶斯学派的参数估计

方法 核心思想 输出形式 特点
MAP 最大后验估计 $\arg\max P(D \mid \theta) P(\theta)$ 点估计 (单个数值) 相当于 MLE + 先验。在线性回归中增加高斯先验即等价于 L2 正则化 (Ridge)
贝叶斯推断 计算完整的后验分布 $P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{\int P(D \mid \theta) P(\theta) d\theta}$ 后验分布 提供不确定性度量(均值、方差)。当先验是共轭先验时有解析解。
MCMC 马尔可夫链蒙特卡洛采样 (如 Gibbs 采样) 采样样本点集 通过随机采样模拟复杂的后验分布。万能但慢,适用于高维复杂模型。
变分推断 (VI) 将推断问题转化为优化问题 寻找一个简单分布 $q(\theta)$ 最小化 $KL(q \| p$ 近似解析分布 牺牲了一定精度换取速度。是大规模深度贝叶斯学习(如 VAE)的核心。

频率派与贝叶斯派对比

尽管存在哲学分歧,两大学派在方法论上有着深刻的联系:

  • MLE与MAP的关系:当先验分布为均匀分布时,MAP估计退化为MLE估计
  • 正则化视角:MLE + 正则化项 等价于 MAP(特定先验)
  • 大样本一致性:当样本量趋于无穷时,后验分布会集中在MLE估计附近,贝叶斯估计渐近等价于频率派估计

现代机器学习中,两大学派的界限正变得越来越模糊。研究者们开始汲取两者的优势:

  • 贝叶斯深度学习:将贝叶斯思想引入深度神经网络,解决过拟合和不确定性估计问题
  • 集成学习:结合多个模型的思想与贝叶斯模型平均有异曲同工之妙
  • 概率编程:提供灵活的框架来表达和求解概率模型
  • 变分自编码器(VAE):巧妙结合了深度学习与变分推断

应用场景选择

在实际问题中,选择哪种方法取决于具体需求:

  • 数据量巨大:频率派方法通常计算更高效
  • 小样本或零样本学习:贝叶斯方法可以利用先验知识
  • 需要不确定性估计:贝叶斯方法自然提供
  • 模型解释性要求高:简单频率派模型更易解释
  • 计算资源有限:频率派方法通常更友好

按建模目标划分

判别式

  • 直接对后验概率 P(y | x) 进行建模。
  • 关注点:直接学习决策边界,即不同类别之间的界限。
  • 例子:逻辑回归、神经网络、支持向量机。
  • 比喻:学会直接区分狗和猫的图片(只看区别)。

生成式

  • 间接地对似然 (Likelihood) P(x | y)先验 (Prior) P(y) 进行建模。
  • 关注点:为每个类别单独建模其特征的分布。“生成式”是因为一旦学到了 P(x | y),就可以为任何类别 y 生成新的样本 x
  • 步骤
    1. 为每个类别 y 假设一个特征分布模型(例如高斯分布)。
    2. 从训练数据中估计每个类别分布的参数(如均值、方差)。
    3. 利用贝叶斯定理,将学到的 P(x | y)P(y) 转换为最终用于分类的 P(y | x)
  • 比喻:分别学习“狗看起来是什么样”和“猫看起来是什么样”的完整模型,然后对于一个新动物,看它更符合哪个模型。

判别式与生成式的模型对比

判别模型生成模型 的根本区别在于它们解决问题的思路和关注点不同。

  • 判别模型 致力于 “找到区别”

    • 思路:直接学习不同类别数据之间的决策边界,而不关心单个类别本身的具体样貌。
    • 目标:回答“它更像是猫还是狗?
    • 好比:一个裁判,他不需要会画画,只需要掌握一个关键标准(比如身长)来快速区分两者。
  • 生成模型 致力于 “理解本质”

    • 思路:分别学习每一类数据(如猫、狗)的整体特征和内部结构,为每个类别建立一个完整的“概念模型”。
    • 目标:回答“猫/狗长什么样子?
    • 好比:一个艺术家,他需要透彻地了解猫和狗的骨骼、肌肉、毛发等所有细节,才能把它们画出来。
特征 判别模型(Discriminative) 生成模型(Generative)
核心思想 学习类别之间的边界,找到“差异”。 学习数据本身的分布,理解每一类的“本质”。
解决的问题 这是X还是Y 什么是X
学习内容 条件概率p(y|x) (x是数据特征,y是数据标签) 联合概率p(x,y)、分布p(x)(无监督的情况)
能力 主要用于分类和回归,无法生成新数据。 既可以进行分类,也可以生成新的数据(如画一只猫)。
类比 只学会一个投机取巧的判别技巧(如比身长)。 学完后对猫狗有直观认知,能画出它们。
常见算法 逻辑回归、支持向量机、决策树、CRF、神经网络 朴素贝叶斯、高斯混合、隐马尔可夫模型、VAF、生成对抗网络

判别模型因为只专注于区分,因此不具备生成能力;而生成模型因为学会了数据的“本质”,所以具备生成新数据的能力。

ChatGPT、Midjourney这类能创作内容(生成文本、图像)的模型,其核心都是生成模型。而许多用于图像分类、垃圾邮件过滤等任务的模型,则更多是判别模型

生成与判别式模型的选择

  • 当数据量较少或对数据分布有较强先验知识时,生成学习方法可能更有效。
    • 适用于数据生成、缺失值处理;
    • 在小样本下可能比判别模型(如逻辑回归)更鲁棒。
  • 当数据量充足且计算资源有限时,判别学习方法可能更合适。

按学习目标划分

回归(Regression)

  • 回归旨在建立输入特征与连续型输出变量之间的映射关系,回归任务的目标是预测一个连续的数值输出 $y \in \mathbb{R}$,
  • 核心思想:找到一条曲线/超平面,使预测值 $\hat{y}$ 尽可能接近真实值 $y$,最小化预测误差: $ \min_\theta \sum_{i=1}^N (y_i - \hat{y}_i)^2 $
  • 应用场景:预测房价、售额预测、股票价格等。

常见的回归算法:

  • 线性回归:最简单的回归模型,假设输入与输出呈线性关系
  • 岭回归/Lasso:在线性回归基础上加入L2/L1正则化,防止过拟合
  • 决策树回归:通过树结构分段拟合数据
  • 随机森林回归:集成多棵决策树,降低方差
  • 梯度提升回归(GBDT、XGBoost):通过迭代优化残差
  • 支持向量回归(SVR):利用核方法处理非线性关系
  • 神经网络:能够拟合任意复杂的非线性函数

分类(Classification)

  • 目标是预测离散的类别标签(Y)。
  • 例如:判断邮件是否为垃圾邮件(类别:垃圾邮件/非垃圾邮件)、识别图像中的物体类别(类别:猫/狗/车等)。

预测离散类别标签。根据类别数量可分为:

  • 二分类: 只有两个类别,例如垃圾邮件分类。
  • 多分类:包含多个类别,例如手写数字识别(0-9)。
  • 多标签分类:一个样本可能属于多个类别

目标

给定输入特征向量 $\mathbf{x} \in \mathbb{R}^d$,分类问题的目标是预测其所属的离散类别标签 $y \in \{1, 2, ..., K\}$。

从概率视角看,我们需要计算后验概率(posterior probability):
$$ P(y = k \mid \mathbf{x}), \quad k = 1,2,...,K $$

所有分类模型最终都采用最大后验决策规则(MAP decision rule)进行预测:
$$ \hat{y} = \arg\max_{k} P(y = k \mid \mathbf{x}) $$
即选择使后验概率最大的类别作为预测结果。

建模

判别式学习建模(Discriminative)

  • 直接建模 $P(y|\mathbf{x})$
  • 关注决策边界,不关心数据本身的分布

生成式学习建模(Generative)

  • 间接建模:先学习联合分布 $ P(\mathbf{x}, y) = P(y)P(\mathbf{x}|y) $
  • 通过贝叶斯定理计算后验:$ P(y|\mathbf{x}) = \frac{P(y)P(\mathbf{x}|y)}{\sum_{k=1}^K P(y=k)P(\mathbf{x}|y=k)} $

参数估计

无论采用判别式还是生成式方法,模型都包含需要从数据中学习的参数 $\theta$。参数估计主要有两种方法:

频率派的最大似然估计(MLE)

​ 将参数视为确定的未知常量,寻找使训练数据似然函数最大化的参数值:
$$ \theta_{MLE} = \arg\max_\theta \prod_{i=1}^N P(y_i|\mathbf{x}_i, \theta) $$
​ 等价于最小化经验风险。

贝叶斯派的最大后验估计(MAP)

​ 将参数视为随机变量,在MLE的基础上引入了参数的先验分布$p(\theta)$,通过贝叶斯定理求使后验概率最大的参数值:
$$ \theta_{MAP} = \arg\max_\theta \prod_{i=1}^N P(y_i|\mathbf{x}_i, \theta) \cdot p(\theta) $$

  • 正则化效应:先验分布 $p(\theta)$ 等价于对参数施加约束,防止过拟合
    • 高斯先验 $p(\theta) \sim \mathcal{N}(0, \sigma^2)$ ↔ L2 正则化
    • 拉普拉斯先验 $p(\theta) \sim \text{Laplace}(0, b)$ ↔ L1 正则化
  • 在数据稀缺时,先验知识可提供更稳健的估计
  • 当先验为均匀分布时,MAP 退化为 MLE

完整流程

  1. 训练阶段:使用MLE或MAP估计模型参数 $\hat{\theta}$
  2. 预测阶段:对于新样本 $\mathbf{x}_{new}$,计算后验概率:$P(y=k|\mathbf{x}_{new}, \hat{\theta})$
  3. 决策阶段:应用最大后验决策规则:$\hat{y} = \arg\max_k P(y=k|\mathbf{x}_{new}, \hat{\theta})$

聚类(Clustering)

聚类是一种无监督学习任务,目标是将未标注的样本划分为若干个(cluster),使得同一簇内的样本尽可能相似,不同簇间的样本尽可能不同。

给定数据集 $\{\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_N\}$,聚类算法旨在找到一种划分 $C = \{C_1, C_2, ..., C_K\}$,使得:

  • 簇内相似度最大化:$\max \sum_{k=1}^K \sum_{\mathbf{x}_i \in C_k} \text{sim}(\mathbf{x}_i, \mu_k)$
  • 簇间相似度最小化:$\min \sum_{k \lt j} \text{sim}(\mu_k, \mu_j)$,其中 $\mu_k$ 是第 $k$ 个簇的中心(或代表点),$\text{sim}(\cdot)$ 是相似度度量。

降维(Dimensionality Reduction)

降维是将高维数据映射到低维空间的过程,同时尽可能保留原始数据的重要结构信息。它是无监督学习的重要分支,也是数据预处理的关键步骤。

给定高维数据 $\{\mathbf{x}_i \in \mathbb{R}^D\}_{i=1}^N$,降维算法寻找映射 $f: \mathbb{R}^D \rightarrow \mathbb{R}^d$,其中 $d \ll D$,使得:
$$\mathbf{z}_i = f(\mathbf{x}_i) \in \mathbb{R}^d$$
且 $\{\mathbf{z}_i\}$ 尽可能保留 $\{\mathbf{x}_i\}$ 的重要结构信息。

需要降维的场景:

  • 维度灾难(Curse of Dimensionality):随着维度增加,数据变得稀疏,距离度量失效,模型复杂度指数级增长
  • 可视化需求:人类只能理解2D或3D空间,降维使高维数据可视化成为可能
  • 计算效率:减少特征数量,降低模型训练和预测的时间复杂度
  • 去噪:丢弃不重要的维度,保留主要信号
  • 特征提取:从原始特征中构造更有代表性的新特征

排序(Ranking)

排序任务的目标是学习一个排序函数,能够根据输入特征对项目集合进行排序,使得相关性高的项目排在前面。排序问题是信息检索和推荐系统的核心。

排序的应用场景:

  • 搜索引擎:根据用户查询对网页进行排序
  • 推荐系统:为用户推荐最感兴趣的商品、视频、音乐
  • 问答系统:对候选答案按相关性排序
  • 广告点击率预测:排序广告以提高点击率
  • 社交媒体:排序信息流中的帖子

结语

机器学习的发展,本质上是在表示、评估与优化这三个核心要素上的持续演进:选择何种方式表示数据与模型,如何定义优劣,以及通过何种策略寻找最优解。

深度学习的崛起摒弃了人工特征工程,通过分层抽象自动从原始数据中提取层次化特征,使得模型能够感知高维空间中的复杂结构。然而,强大的表示能力也伴随着挑战——海量参数需要海量数据,黑箱特性损害了可解释性。

强化学习的复兴则拓展了学习的范式。它不再满足于拟合静态数据,而是在与环境的交互中通过试错学习最优策略,将机器学习从模式识别推向序贯决策。这种范式更接近生物学习的本质,在机器人、博弈、控制等领域展现出独特价值。

然而,技术的飞速发展机器学习仍面临多方面的挑战:

  • 数据效率:人类可以从少量样本中学习,而当前模型仍然依赖海量数据。如何让机器学习像人类一样“举一反三”,仍是未解难题。
  • 鲁棒性与泛化:分布外泛化、对抗样本、虚假相关——模型在实验室环境外的表现往往不尽如人意。
  • 可解释性与可信赖:随着模型进入医疗、金融、司法等高风险领域,黑箱决策的风险日益凸显。
  • 价值对齐:当模型越来越强大,如何确保其目标与人类价值观一致,成为关乎未来的重要课题。
  • 计算效率与可持续性:大模型的训练消耗惊人,如何在性能与能耗之间取得平衡,既是技术问题,也是环境问题。

常见模型划分一览表

算法模型 频率派 贝叶斯派 判别式 生成式 参数估计/核心准则
线性回归 是 (贝叶斯线性回归) 最小二乘 (OLS) / MLE
逻辑回归 是 (拉普拉斯近似等) 极大似然估计 (MLE)
决策树/随机森林/提升树 信息增益 / 基尼系数 / MSE
SVM 合页损失 + 正则化 (对偶优化)
PCA (主成分分析) 是 (Probabilistic PCA) 不适用 是 (概率视角下) 方差最大化 / 投影误差最小化
LDA (线性判别分析) Fisher 准则 / 类内类间散度
高斯判别分析 (GDA) 联合概率 $P(x,y)$ 建模
高斯过程 (GP) 核函数 + 边际似然最大化
高斯混合模型 (GMM) 是 (贝叶斯 GMM) EM 算法
朴素贝叶斯 MAP (带平滑) / MLE
贝叶斯网络 结构学习 + 条件概率表
隐马尔可夫 (HMM) 是 (变分推断) EM 算法
条件随机场 (CRF) 极大似然 (梯度上升)
感知机 随机梯度下降 (SGD)
深度神经网络 (DNN) 是 (BNN) 视模型而定 反向传播 (BP) + 优化器