机器学习基本概念

概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等金门学科。研究计算机怎样模拟或实现人类的学习形为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能。
学科定位:人工智能(Artifical Intelligence,AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
定义:探究和研发一系列算法来如何使计算机不需要通过外部明显的指示,而自己可以通过数据来学习,建模,并且利用建好的模型和新的输入来预测的一门学科。
学习:针对经验E(experience)和一系列任务T(tasks)和一定的表现的衡量P,如果随着经验的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。
         例子:下棋,语音识别,自定驾驶汽车等
深度学习:深度学习是基于机器学习延伸出来的一个新领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。
深度学习什么时间段发展起来的?
其概念由著名科学家Geoffrey Hinton等人在2006年和2007年在《Sciences》等上发表的文章被提出和兴起。
机器学习的应用
    语音识别
    自动驾驶
    语言翻译
    计算机视觉
    推荐系统
    无人机
    识别垃圾邮件
    人脸识别
概念学习
定义:概念学习是指从有关某个布尔函数的输入输出训练中推断出该布尔函数
基本概念:训练集 测试集 特征值 监督学习 非监督学习 半监督学习 分类 回归
例子:学习“享受运动”这一概念
   小明进行水上运动,是否享受运动取决于很多因素,如下表格:
样例
天气
温度
湿度
风力
水温
预报
享受运动
第1天
普通
一样
第2天
一样
第3天
变化
第4天
变化
概念定义在实例(instance)集合之上,这个集合表示为X.(X:所有可能的日子,每个日子的值由天气,温度,湿度,风力,水温,预报6个属性表示)
待学习的概念或目标函数成为目标概念(target concept),记做c。
c(x) = 1,当享受运动时,c(x)=0 当不享受运动时,c(x)也可以叫做y
x:每一个实例
X:样例,所有实例的集合
学习目标:f: X – > Y
训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集
测试集(testing set/data)/测试样例(testing examples):用来专门进行测试 已经学习好的模型或者算法的数据集
特征向量(features/feature vector):特征值的集合,通常用一个向量来表示,附属于一个实例
标记(label):c(x),实例类别的标记
正例(positive example):结果为true的实例
反例(negative example):结果为false的实例
例子:研究美国硅谷的房价
影响房价的两个重要因素:面积(平方米),学区-评分(1-10)
样例
面积(平方米)
学区(1-10)
房价(1000$)
1
100
8
1000
2
120
9
1300
3
60
6
800
4
80
9
1100
5
95
5
8500
分类(classificationi):目标标记为类别型数据(享受运动的例子属于分类类型)
回归(regression):目标标记为连续性数值(例子中房价的数值变动属于回归类型)
例子:研究肿瘤良性,恶性于尺寸,颜色的关系
  特征值:肿瘤尺寸,颜色
  标记:良性/恶性
有监督学习(supervised learning):训练集有类别标记
无监督学习(unsupervised learning):无类别标记
半监督学习(semi-supervised learning):有类别标记的训练集+无类别标记训练集
机器学习步骤
 1.把数据拆分为训练集和测试集
 2.把训练集的特征向量来训练算法
 3.把学习来的算法运用在测试集上来评估算法,可能要涉及到调整参数(paramerter tuning),用集验证(validation set)

About the Author

1 thought on “机器学习基本概念

发表评论

电子邮件地址不会被公开。 必填项已用*标注