大部分机器学习算法都有超参数(必须在学习算法外设定),我们将探讨如何使用额外的数据设置超参数。机器学习本质上属于应用统计学,更多地关注与如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间,因此我们会探讨两种统计学的主要方法:频率派估计和贝叶斯推断。大多数深度学习算法都是基于被称为随机梯度下降得算法求解的。
5.1 学习算法
Mitchell 对“学习”提供了一个简洁的定义:“对于某类任务 \(T\) 和性能度量 \(P\),一个计算机程序被认为可以从经验 \(E\) 中学习是指,通过经验 \(E\) 改进后,它在任务 \(T\) 上由性能度量 \(P\) 衡量的性能有所提升。”
5.1.1 任务 \(T\)
通常机器学习任务定义为机器学习系统应该如何处理样本(example)。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。
我们通常会将样本表示成一个向量 \(\boldsymbol x\in\mathbb{R}^n\),其中向量的每一个元素 \(x_i\) 是一个特征。
机器学习可以解决很多类型的任务。一些非常常见的机器学习任务列举如下:
- 分类
- 输入缺失分类
- 回归
- 转录
- 机器翻译
- 结构化输出
- 异常检测
- 合成和采样
- 缺失值填补
- 去噪
- 密度估计或概率质量函数估计