Huber损失函数（Smooth L1 Loss）

Posted Jun 20, 2025 Updated Jun 21, 2025

By Haoxiang Lu

11 min read

English

在机器学习的回归任务中，我们总是在寻找一个完美的损失函数来指导模型学习。最常见的两个选择是均方误差（MSE, L2 Loss）和平均绝对误差（MAE, L1 Loss）。但它们就像硬币的两面，各有优劣：

MSE 对误差进行平方，这使得它在最优点附近梯度平滑，收敛稳定。但缺点也源于此，当遇到异常值（Outlier）时，一个巨大的误差会被平方，产生一个极大的损失值，从而“绑架”整个模型，使其偏离正常数据的趋势。
MAE 对所有误差都一视同仁，只取绝对值。这让它对异常值天生不敏感，非常“稳健”（Robust）。但它在误差为零的点导数不连续，这给梯度下降带来了麻烦——在最优点附近，梯度值忽正忽负，可能导致优化过程像“荡秋千”一样，难以精确收敛到最小值。

有没有办法能集两家之长，既能稳健地处理异常值，又能在最优点附近平滑地优化呢？这就是我们今天要深入探讨的主角——Huber损失函数（Huber Loss），它也常被称为平滑L1损失（Smooth L1 Loss）。

Huber损失函数定义

简单来说，Huber损失函数是一个“两面派”：

当误差很小的时候，它表现得像MSE；当误差很大的时候，它又切换成了MAE的模式。

这个“很大”和“很小”的界限，由一个我们自己设定的超参数 $\delta$ 来决定。

假设预测值为 $\hat{y}$，真实值为 $y$，那么误差就是 $e = y - \hat{y}$。Huber损失 $L_{\delta}(e)$ 的计算方式如下：

\[\begin{equation} L_\delta(e)= \begin{cases}\frac{1}{2} e^2, & \text{ if } |e| \le \delta \\ \delta\left(|e|-\frac{1}{2} \delta\right), & \text{ if } |e| > \delta\end{cases} \end{equation}\]

当误差的绝对值 $\lvert e \rvert$ 小于等于 $\delta$ 时：损失函数就是 $\frac{1}{2}e^2$。这正是MSE的形式。在这个区间内，我们认为误差是”正常的”，使用二次惩罚可以让模型在接近最优解时进行更精细的调整。
当误差的绝对值 $\lvert e \rvert$ 大于 $\delta$ 时：损失函数变为 $\delta(\lvert e \rvert - \frac{1}{2}\delta)$。这是一个线性函数，其增长方式和MAE类似。这意味着，当误差大到被判定为”异常值”时，我们只给予它线性的惩罚，避免其对总损失产生不成比例的巨大影响。

最巧妙的是，这个函数在分界点 $e = \pm\delta$ 处，不仅函数值是连续的，其导数也是连续的。这解决了MAE在零点不可导的问题，保证了基于梯度的优化算法可以顺畅运行。

超参数 $\delta$：异常值的“仲裁者”

$\delta$ 的选择至关重要，它直接定义了模型如何看待误差：哪些是需要精确拟合的“噪音”，哪些是需要容忍的“异常值”。

当 $\delta \to 0$，任何微小的误差都会被认为是“大误差”，Huber损失的行为就无限趋近于MAE。
当 $\delta \to \infty$，几乎所有误差都会被认为是“小误差”，Huber损失的行为就无限趋近于MSE。

在实践中，$\delta$ 的最佳值通常通过交叉验证来确定。不过，Huber本人在其原始论文中给出了一个经典的建议值 $\delta = 1.345\sigma$（其中 $\sigma$ 是标准差）。对于标准正态分布的数据，取 $\delta=1.345$ 能让模型在保持对异常值稳健的同时，其统计效率仍能达到MSE在理想（无异常值）情况下的95%。这是一个非常有用的经验起点。

我们为什么需要Huber损失？

兼具MSE和MAE的优点：
- 对异常值稳健：继承了MAE的特性，当误差超过 $\delta$ 后，损失呈线性增长，有效抑制了异常值对模型训练的过度影响。
- 在最优解附近稳定收敛：继承了MSE的特性，当误差小于 $\delta$ 时，损失是平滑的二次函数，梯度会随着误差减小而减小，有助于模型更精确地收敛到最小值，避免了MAE在最优解附近的梯度震荡问题。
理论背景：应对重尾分布 为什么我们如此关心异常值？在统计学中，很多真实世界的数据分布并非理想的高斯分布。它们可能是重尾（Heavy-tailed）分布，意味着数据点有更大的概率出现在远离均值的地方。这些“远方”的数据点，就是我们常说的“分布性异常值”（distributional outliers）。对于这类数据，使用对异常值敏感的MSE会导致模型严重失真，而Huber损失正是为这种情况设计的稳健估计方法。

Huber损失的优缺点

优点：

增强了对离群点的鲁棒性，解决了MSE对异常值敏感的问题。
解决了MAE在最优解附近优化不稳定的问题，使得训练过程更平滑。
收敛速度通常快于MAE，因为它在误差较小时利用了MSE的二次下降特性。

缺点：

引入了一个额外的超参数 $\delta$，需要我们通过交叉验证等方法进行调节，增加了一定的调参工作量。

Huber损失的代码实现

NumPy 实现

  
import numpy as np

def huber_loss(y_true, y_pred, delta=1.0):
    """
    计算Huber Loss
    y_true: 真实值
    y_pred: 预测值
    delta: 切换MSE和MAE行为的阈值
    """
    diff = np.abs(y_true - y_pred)
    
    # 使用np.where进行条件判断和计算
    loss = np.where(diff < delta, 0.5 * diff**2, delta * (diff - 0.5 * delta))
    
    return np.mean(loss)

# 示例
y_true = np.array([1.0, 2.0, 3.0, 10.0]) # 最后一个是异常值
y_pred = np.array([1.1, 2.2, 2.9, 5.0])

loss_val = huber_loss(y_true, y_pred, delta=1.0)
print(f"Huber Loss: {loss_val}")

Scikit-learn 实现

scikit-learn提供了基于Huber损失的回归模型HuberRegressor，专为处理含有异常值的数据集设计：

  
from sklearn.linear_model import HuberRegressor
import numpy as np

# 准备数据
X = np.array([[1], [2], [3], [4]])
y = np.array([1, 2, 3, 10])  # 最后一个是异常值

# 创建并训练HuberRegressor模型
huber = HuberRegressor(epsilon=1.35)  # epsilon相当于delta参数
huber.fit(X, y)

# 预测
y_pred = huber.predict(X)
print("预测值:", y_pred)
print("模型系数:", huber.coef_)
print("模型截距:", huber.intercept_)

HuberRegressor的重要参数：

epsilon：类似于我们讨论的δ参数，决定了MSE和MAE行为的切换点
alpha：正则化参数，控制L2正则化的强度
max_iter：最大迭代次数
tol：收敛容差

PyTorch 实现

  
import torch
import torch.nn as nn

# 模拟真实值和预测值
y_true = torch.tensor([1.5, 2.0, 3.0])
y_pred = torch.tensor([1.0, 2.5, 2.5])

# 定义 Huber 损失
loss_fn = nn.HuberLoss(reduction='mean')

loss = loss_fn(y_pred, y_true)
print(f"Huber Loss: {loss.item()}")

参数说明：reduction='mean'

'none'：返回每个样本的 loss，不进行汇总；
'mean'：返回所有 loss 的平均值（默认）；
'sum'：返回所有 loss 的总和。

结论

Huber损失函数是机器学习工具箱中一把名副其实的“瑞士军刀”。它通过一个巧妙的分段设计，在MSE的平滑优化和MAE的稳健性之间取得了完美的平衡。虽然它引入了额外的超参数 $\delta$，但在处理充满噪声和异常值的真实世界数据时，这份小小的调参代价往往能换来模型性能质的飞跃。

Deep Learning, LossFunction

This post is licensed under CC BY 4.0 by the author.