2014年7月31日星期四

统计机器学习

机器学习是一个交叉学科,相关的知识包括:数值优化,数值线性代数,统计和概率论。个人感觉最容易与机器学习的方法相似的恐怕就是统计,
两个不同的学科有着相同的目的:从大量的数据之中学习到有价值的信息,而且现在流行的机器学习方法都是基于统计的。

从任务来看:对统计来说主要的任务包括估计(Estimation),假设检验(Hypothesis Testing),预测(Prediction)。估计包括点估计和区间估计两种不同的任务。
假设检验的目的是为了对参数做出判断,即参数是否属于某个特定的集合。预测是根据已有的数据建立统计模型,然后对未知的情况做出预测,当然对于做出的预测
同样可以给出置信区间。

最基本的机器学习任务包括有监督学习、无监督学习。另外根据Murphy的说法,另外还包括一类Reinforcement Learning。有监督学习根据输出的不同,可以分为
分类(Classification)、回归(Regression)和排序(Ordinal Regression)三种,明显的和统计的预测产生了交集。无监督学习的主要目的机器学习也包含CRF这种序列模型,在统计
中称之为图模型(Graphical Model)。

从方法上来看:机器学习的主要功能就是根据数据确定目标模型的参数,在获得参数后即可使用这些统计模型。为了获得这些参数,机器学习使用数值优化方法对
目标函数进行优化,而这些目标函数有可能就是似然函数(比如最大熵方法)。同样贝叶斯方法在统计学习中也被大量的使用。


没有评论:

发表评论