机器学习算法(原书第2版)
上QQ阅读APP看书,第一时间看更新

2.6 本章小结

本章介绍了机器学习的一些主要概念。从一些基本的数学定义开始,清晰介绍了数据格式、标准和函数类型。在所有其他章节中将采用这些定义,而这些定义在相关的出版物中也是最普遍的。本章还讨论了scikit-learn如何应用于多类策略问题,以及一个策略何时比另一个更可取。

接着本章介绍了关于可学习性的基本概念。试图回答的主要问题是:如何决定一个问题能否通过算法进行学习,以及能够达到的最大精度是多少。PAC学习是一个通用而强大的定义,可以在定义算法的边界时采用。事实上,PAC可学习的问题不仅可以通过合适的算法来管理,而且还足够快到在多项式时间内计算。本章还介绍了一些常见的统计学习概念,特别是MAP和最大似然学习方法。前者试图选择最大化后验概率的假设,而后者则用似然寻找最符合数据的假设。这种策略广泛应用于很多机器学习问题,因为它不受先验概率的影响,并且在许多不同的情况中很容易实现。在此内容之后,还给出了作为能量函数的损失函数的物理解释。训练算法的目标是尝试找到全局最小点,这对应于误差表面中最深的山谷。在本章末尾,简要介绍了信息论,以及如何从信息增益和熵的角度重新解释我们的问题。每个机器学习方法都应该尽量减少从预测开始和恢复原始(希望)结果所需的信息量。

第3章将讨论特征工程的基础概念,这是机器学习最重要的,也是机器学习的第一步。我们将展示如何管理不同类型的数据(数值和类别)以及如何在没有大量信息损失的情况下减少维度。