栏目分类:
子分类:
返回
文库吧用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
文库吧 > IT > 软件开发 > 后端开发 > Python

机器学习为什么很少用假设检验

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

机器学习为什么很少用假设检验

参数估计和假设检验是推断统计的两个组成部分,也是统计学的核心内容。他们都是利用样本对总体进行某种推断但推断的角度不同,而正是角度不同,使得他在观察性研究和实验性研究以及预测评价方面有着截然不同的应用。

参数估计讨论的是用样本统计量去估计总体参数的方法。总体参数在估计前是未知的。判断估计量到底是好是坏,可以大致有三个方面,无偏性、有效性、一致性。无偏性主要是因为现实情况下样本是复杂的,并不一定和总体完全一致,除非在大的样本条件下,但是大样本本身对资源和信息以及精力上要求过多,所以要做的其实是选择最具代表性的量来研究,在高中物理中我们都做过实验,测量加速度的时候,我们对于加速度的求法,用的就是多次测量取平均值,那是因为当多次重复时,平均值往往接近或者等于真值。但我们知道,接近并不一定等于,之间还是有距离,所以无偏估计量是存在多个的,如何在多个里面寻找最好的一个呢?可以任意取其中两个,找到一个比所有离真值最近的一个就是最好的,究竟多小才算近呢?我们可以做平均绝对离差,也可以用方差和标准差衡量,之所以我们用方差衡量,那是因为方差的数学特性较好,求导数求积分等运算都较为方便,而且可以取消正负值的影响,避免正负值相互抵消影响真实结果。一致性也即一致相合性。由大数定律可以知道,任何一个随机变量序列,当样本量趋向于无穷时,该变量序列趋向于某一个随机变量,即依概率收敛于某一个随机变量。在大样本下一般符合渐进有效的量可以近似认为是一个比较好的统计量。

假设检验中,则是先对总体参数的值提出一个假设,然后利用样本信息去检验这个假设是否成立,一般过程如下:

确定要检验的总体参数

提出原假设,提出备择假设

根据样本量和已知的关于总体的信息建立合适的统计量,确定显著性水平α

根据α确定拒绝域,假如统计量落入拒绝域,则拒绝原假设,接受备择假设,反之,则并不代表能接受原假设,需要进一步调整,再做出判断。

假设检验,运用的是小概率原理,即正常情况下小概率事件并不会发生,但是当出现小概率事件时,一定是出了什么问题,因而拒绝原本的假设,重新确立标准,这一点在质量检测和医药检测方面应用广泛。

综上,讲完了参数估计和假设检验的有关知识以后,我们会发现,参数估计是我们对总体并没有一个经验的认知,而我们要做的就是找到这个结果,因此更注意结果和预测效果,这一点在机器学习上,我们常常会做交叉验证,用的优化目标函数要不就是离差平方和,要不就是平均绝对离差。二者都是旨在减少预测结果与真值之间的误差,提高误差精度,在这个过程中参数估计的无偏性,有效性,一致性给了我们判断的标准,使得我们朝着最终目标越来越近。

但是在金融,经济学,生物医药,质检方面,由于有长期的数据积淀以及经验判断,所以我们要做的不仅仅是预测了,因为大多数案例已经告诉我们将会引发什么结果,我们想知道的是,引发这些结果的是什么原因,以及该怎么调整来导向一个更为合理的结果。我们根据实践经验,大致做出一个结果,然后利用假设检验反复地去验证这一结果的正确与否。判断正确与否有四种可能情况:

原假设为真 ,我们接受(正确决策)

原假设为真,我们拒绝(弃真错误也即第一类错误α)

原假设为假,我们拒绝(正确决策)

原假设为假,我们接受(取伪错误即第二类错误β)

因为α类相对于β类错误更容易辨析,因此我们大多数情况下只考虑α类错误。

总之,参数估计和假设检验分别是从两点不同的方面对数据进行推断,因为机器学习和传统的统计方法,侧重点是不相同的,机器学习往往要的是效果,至于其中因果关系相关关系并不那么重要,因此一般而言机器学习很少进行假设检验;相反,一些注重过程性检验的一些应用常常就需要假设检验来控制整个过程。

我的理解可能有限,但是希望在这里的表述能够帮助到你们

转载请注明:文章转载自 www.wk8.com.cn
本文地址:https://www.wk8.com.cn/it/1037793.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 wk8.com.cn

ICP备案号:晋ICP备2021003244-6号