资源行业动态监督学习概况

监督学习概况

2019-11-02 | |  69 |   0

原标题:监督学习介绍

来源:CSDN博客       链接:https://blog.csdn.net/weixin_41438466/article/details/88791525

          

什么是监督学习

利用一组已知类别的样本调整算法的参数,使其达到所要求的性能的过程。也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

特征工程——特征很重要

在机器学习过程中特征比算法还要重要,有句名言说道:输入算法的是垃圾,那么算法输出的也是垃圾。

Ross Girshick《richfeature hierarchies for accurate object detection and semantic segmentation》

一定要注意特征的质量远比数量重要
1)特征过多的缺陷
增加了算法的复杂性和运行时间
简单的模型更具有鲁棒性
有用的维度少的时候可解释性更强
获取特征的两种方法
1)特征选取
从d的特征中选择k个,将其余的(d-k)个舍去
具体算法
①向前选择
初始特征集是一个空集,然后依次往特征集中添加一个特征
②向后选择
初始特征集包含所有的特征,然后从中依次删除一个特征
2)特征提取
将d个特征经过一定的运算之后得到k个特征,比如将两个特征进行相加得到一个新的特征
具体算法
①主成分分析(PCA)
②线性判别分析(LDA)
特征工程——贵在实践
在实践中,特征工程是一个具有艺术气息的工作,很多时候需要一些专门知识,很多时候靠不断的实践。在此过程中我们需要不断的总结经验,分析形成一套自己的体系

实例——分类和回归

简要介绍预测建模
预测建模可以描述为从输入变量(x)到输出变量(y)逼近映射函数(f)的数学问题。这称为函数逼近问题。
建模算法的工作是在我们可以提供可用的时间和资源的情况下,找到最好的映射函数。

分类预测模型

分类预测建模是将映射函数(f)从输入变量(x)逼近到离散输出变量(y)的任务。
输出变量通常称为标签或类别。映射函数预测给定观测值的类或类别。

例如,文本电子邮件可以分为两类:“垃圾邮件”和“非垃圾邮件”。

分类问题要求将实例分为两个或多个类中的一个。
分类可以有实值或离散的输入变量。
两类问题通常被称为二类或二元分类问题。
多于两个类别的问题通常被称为多类别分类问题。
一个例子被指派多个类的问题被称为多标签分类问题。
分类模型通常将连续值预测为属于每个输出类别的给定示例的概率。 概率可以被解释为属于每个类别的给定例子的可能性或置信度。 可以通过选择具有最高概率的类别标签将预测概率转换为类别值。
例如,特定的文本电子邮件可能被指定为“垃圾邮件”的概率为0.1,“非垃圾邮件”的概率为0.9。 通过选择“非垃圾邮件”标签,我们可以将这些概率转换为类标签,因为它具有最高的预测可能性。
评估分类预测模型的技巧有很多种方法,但最常见的方法是计算分类准确度。
分类准确率是所有预测中正确分类的百分比。
例如,如果一个分类预测模型做了5个预测,其中3个是正确的,2个是不正确的,那么基于这些预测的模型的分类准确性将是:

accuracy = correct predictions / total predictions * 100
    accuracy = 3 / 5 * 100
    accuracy = 60%123

能够学习分类预测模型的算法被称为分类算法。

回归预测建模

回归预测建模是将输入变量(X)映射到连续输出变量(y)的映射函数(f)的任务。
连续输出变量是一个实数值,例如整数或浮点值。 这些往往是数量,如金额和大小。
例如,一所房子可能会以特定的美元价值出售,可能在$ 100,000到$ 200,000的范围内。

回归问题需要预测数量。
回归可以具有实值或离散的输入变量。
多输入变量的问题通常称为多元回归问题。
输入变量按时间排序的回归问题称为时间序列预测问题。
由于回归预测模型预测一个数量,所以该模型的技巧必须作为这些预测中的一个误差来报告。
估计回归预测模型的技巧有许多方法,但最常见的可能是计算均方根误差(RMSE)。
例如,如果一个回归预测模型做了2个预测,其中1.5的期望值是1.0,另一个是3.3,期望值是3.0,那么RMSE是:

RMSE = sqrt(average(error^2))
    RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)
    RMSE = sqrt((0.25 + 0.09) / 2)
    RMSE = sqrt(0.17)
    RMSE = 0.41212345

RMSE的一个优点是错误分数的单位与预测值的单位相同。
能够学习回归预测模型的算法被称为回归算法。
注意:线性回归和逻辑回归,因为线性回归是一种回归算法,而逻辑回归是一种分类算法

分类与回归的区别
分类预测建模问题不同于回归预测建模问题。
分类是预测离散类标签的任务。
回归是预测连续数量的任务

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:监督学习

下一篇:机器学习:非监督学习

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 机器学习中的线性...

    机器学习中的线性回归是一种来源于经典统计学的有...

  • 基于Spark的数据分...

    Spark是在借鉴了MapReduce之上发展而来的,继承了...