- 1、查看是否有缺失值
- 2、选择删除行
- 3、选择删除列
- 4、使用字符串代替缺失值
- 5、前一个数据代替
- 6、后一个数据代替
- 7、平均值代替
当数据中存在缺失值时,可以用其他数值代替缺失值,这里主要用到了Dataframe.fillna()方法。具体的用法如下 1、查看是否有缺失值
首先加载数据,并进行显示数据透视表:
import pandas as pd data = pd.read_csv("dirty_beer_last.csv") data1 = pd.pivot_table(data,values=['ibu'],index=['style'],columns=['city']) data1.head()
结果显示:
查看是否有空值:
data1.isnull()
结果显示
将含有空值的行删除:
data1.dropna(axis=0)
结果表明每一行都含有空值
data1.dropna(axis=1)
每一列中也都含有空值。
但这种情况不多见,因为我们通常会选择用列来表示一个变量或指标,因此一般不会因为有几个缺失值就删除一个变量或指标。
data1.fillna('missing')
将空值使用missing字符串替换
5、前一个数据代替data1.fillna(method='pad')6、后一个数据代替
data1.fillna(method='bfill',limit = 1)
用limit = 1限制每列可以替代NaN的数目,上面限制每列只能替代一个NaN值。
data1.fillna(data1.mean())
这里选择使用均值替代,当然也可以用其他的描述性统计量来替代空值。
关于缺失值的函数使用就到这里了,希望小张同学的这篇博客能帮到各位小伙伴!!!