模式识别与机器学习复习 | 第1讲

c4fx · 收录于 2023-11-30 22:38:41 · source URL

零、本节目标

在这里插入图片描述

一、基本概念
概念

样本:所研究对象的一个个体。

样本集:若干样本的集合。

类或类别:在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。

特征:指用于表征样本的观测,通常是数值表示的某些量化特征。

已知样本:事先知道类别标号的样本。

未知样本:类别标号未知但特征已知的样本。

模式:可以看作对象组成成分或影响因素间存在的规律性关系,或者是因素间存在确定性或随机性规律的对象、过程或事件的集合。

模式识别:对模式的区分和认识,把对象根据特征归到若干类别中适当的一类。

实例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、基本流程(考了)

一个模式识别系统的4个主要部分:原始数据的获取和预处理、特征提取与选择、分类或聚类、后处理。

处理监督模式识别问题的一般步骤

在这里插入图片描述

分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。

原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。

特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。

分类器设计:选择一定的分类器方法,用已知样本进行分类器训练。

分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测预处理和特征提取与选择,用所设计的分类器进行分类。必要时根据领域知识进行进一步的后处理。

处理监督模式识别问题的一般步骤

在这里插入图片描述

分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。

原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。

特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。

聚类分析:选择一定的非监督模式识别方法,用样本进行聚类分析。

结果解释:考查聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。

三、主要方法(机制、对比)
机制

基于知识的方法:主要是指以专家系统为代表的方法。其基本思想是:根据人们已知的(从专家那里收集整理的)关于研究对象的知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,对未知样本通过这些知识推理决策其类别。

基于数据的方法:收集一定数量的已知样本,用这些样本作为训练集来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类。

对比

在这里插入图片描述在这里插入图片描述

四、监督学习和非监督学习(区别,考了)

在这里插入图片描述