加入收藏 | 设为首页 | 会员中心 | 我要投稿 保山站长网 (https://www.0875zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据科学家必备的5种离群点/异常检测措施

发布时间:2021-06-04 17:33:50 所属栏目:大数据 来源:互联网
导读:在统计学中,离群值是不属于某个总体的数据点,它是一种与其他值相差甚远的异常观察,是一种与其他结构良好的数据不同的观察值。 例如,您可以清楚地看到列表中的异常值:[20,24,22,19,29,184300,30,18]。当观察值只是一组数字并且是一维时,很容易识别它,
在统计学中,离群值是不属于某个总体的数据点,它是一种与其他值相差甚远的异常观察,是一种与其他结构良好的数据不同的观察值。
例如,您可以清楚地看到列表中的异常值:[20,24,22,19,29,184300,30,18]。当观察值只是一组数字并且是一维时,很容易识别它,但是当你有数千个观察值或多维值时,你需要更聪明的方法来检测这些值。这就是本文将要介绍的内容。
为什么我们关心异常?
离群点的检测是数据挖掘的核心问题之一。数据的不断扩展和持续增长以及物联网设备的普及,使我们重新思考我们处理异常的方式,以及通过观察这些异常情况可以构建的用例。
我们现在有智能手表和腕带,可以每隔几分钟检测我们的心跳。检测心跳数据中的异常有助于预测心脏病。交通模式的异常有助于预测事故。它还可以用来识别网络基础设施和服务器之间的通信瓶颈。因此,建立在检测异常之上的用例和解决方案是无限的。
我们需要检测异常的另一个原因是,在为机器学习模型准备数据集时,检测所有异常值非常重要,要么去掉它们,要么分析它们,以了解为什么会有异常。
现在,让我们从最简单的方法开始探索5种常见的异常检测方法。
方法1 - 标准差:
在统计学中,如果一个数据分布近似正态分布,那么大约68%的数据值在平均值的一个标准差内,约95%在两个标准差内,约99.7%在三个标准差内。
 
因此,如果有任何数据点超过标准偏差的3倍,那么这些点很可能是异常或异常值。
让我们看看代码。
 
此代码的输出是一个值大于80小于-40的值的列表。请注意,我传递的数据集是一维数据集。现在,让我们探索多维数据集的更高级方法。

(编辑:保山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读