day1数据预处理


缺失值处理

1.删除法:适用于缺失值占比少的

2.插补法

①用众数,平均值和中值,视函数图像而定

②回归法

③极大似然估计:

(1)根据总体的分布,建立似然函数 imgimg

(2) 当 L 关于 imgimg)可微时,(由微积分求极值的原理)可由方程组imgimg)定出imgimg,称以上方程组为似然方程.因为 L 与 imgimg)有相同的极大值点,所以imgimg)也可由方程组imgimg定出 imgimg),称以上方程组为对数似然方程;imgimg)就是所求参数imgimg)的极大似然估计量。当总体是离散型的,将上面的概率密度函数imgimg),换成它的分布律imgimg

这样看起来似乎有些抽象,那可以看看下面那个例子。通俗理解请点击这里

imgimg

可以看到,这里的p就是参数,而这个似然函数其实是概率函数,如果求导便会发现P(H,T,p)是随着p的增大而增大。

在一般情况下,计算参数可以用期望最大值来计算。

import math
w = 2.0/3  #最大概率
h = 49  #正面次数
t = 31  #反面次数  

数据变换

将不同的数据转换成同一个标准和规格是十分重要的

标准化

离差标准化:

imgimg

缺陷:当有新数据加入时,可能导致max和min的变化,需要重新定义

z-score 标准化(zero-meannormalization)

而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化;也是SPSS中最为常用的标准化方法,也叫标准差标准化,变成均值为0,方差为1imgimg

  • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。\
  • spss默认的标准化方法就是z-score标准化。
  • 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。

步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

归一化方法

imgimg

离散化

将连续的数据分成若干段。

语义转换

用整数数据来替换字符串的数据

数据统计

在matlab中,标准差:std(x) 方差:var(x) 极差:range(x)

偏度统计数据分布偏斜方向和程度的度量,$v_i$>0为右偏态,$v_i$<0是左偏态

定义:

其中imgimg 分别表示二阶和三阶中心矩imgimg

峰度:衡量偏离正态分布的尺度,正态分布的峰度为3,若比3大,这说明有沉重的尾巴

在matlab中,偏度:skewness(x) 峰度:kurtosis(x)

分布统计

分布函数:随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。

设X为连续型随机变量,其密度函数为imgimg),则有imgimg

数据可视化

参考链接:

https://www.jianshu.com/p/fa73a07cd750

百度百科


文章作者: 古客
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 古客 !
评论
 本篇
day1数据预处理 day1数据预处理
缺失值处理1.删除法:适用于缺失值占比少的 2.插补法 ①用众数,平均值和中值,视函数图像而定 ②回归法 ③极大似然估计: (1)根据总体的分布,建立似然函数 img (2) 当 L 关于 img)可微时,(由微积分求极值的原理)可由方程组
2020-07-13 古客
下一篇 
Latex简单入门 Latex简单入门
概述久闻Latex排版功能的强大和优雅,这次就来学习一下Latex在数学公式方面的运用。 1.1.2.3.4.5.参考链接: document.querySelectorAll('.github-emoji')
2020-07-12 古客