第一篇 监督学习

第一章 统计学习及监督学习概论

1.1 统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习,也就是我们俗称的机器学习

统计学习的特点

  1. 以计算机及网络为平台
  2. 以数据为研究对象,是数据驱动的学科
  3. 以对数据进行预测与分析为目的
  4. 以方法为中心,构建模型并应用模型进行预测与分析
  5. 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科

定义

如果一个系统能够通过执行某个过程改进它的性能,这就是学习 – 赫尔伯特·西蒙

方法

从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。

三要素

模型、策略和算法。

实现步骤

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

统计学习的重要性的体现

  1. 统计学习方法是处理海量数据的有效方法;
  2. 统计学习是计算机智能化的有效手段;
  3. 统计学习是计算机科学发展的一个重要组成部分。

1.2 统计学习的分类

1.2.1 基本分类

  1. 监督学习:从标注数据中学习预测模型的机器学习问题

    1. 输入空间、特征空间与输出空间

      1. 输入与输出所有可能的取值的集合分别称为输入空间与输出空间

      2. 每个具体的输入是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间

      3. 输入变量习惯写作X,输出变量习惯写作Y,其取值分别写作x和y

      4. 输入实例x的特征向量记作:

        x=(x(1),x2,x(i),…x(n))x=(x^{(1)},x^{2},x^{(i)},…x^{(n)}) x=(x(1),x2,x(i),...x(n))

      5. 监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入与输出对组成,训练集通常表示为:

        T={(x1,y1),(x2,y2),…,(xN,yN)}T=\{(x1,y1),(x2,y2),…,(xN,yN)\} T={(x1,y1),(x2,y2),...,(xN,yN)}

      6. 测试数据也由输入与输出对组成

    2. 假设空间

      1. 监督学习的目的在于学习一个由输入到输出的映射,这一应设有模型来表示
      2. 模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
  2. 无监督学习:从无标注数据中学习预测模型的机器学习问题

    1. 无监督学习的输入空间等与监督学习相似,不再赘述
  3. 强化学习:智能系统在与环境的连续互动中,学习最优行为策略的机器学习问题

    1. 假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
    2. 强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,r,γ)组成。
      1. S是有限状态的集合
      2. A是有限动作的集合
      3. P是状态转移概率函数
      4. r是奖励函数
      5. γ是衰减函数
  4. 半监督学习与主动学习

    1. 半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题,通常有少量标注数据大量未标注数据。
    2. 主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。

1.2.2 按模型分类