dropna()是 pandas 库中的一个函数,用于删除 DataFrame 中的缺失值。在数据分析和数据清洗中,缺失值通常需要被处理。使用 可以将缺失值所在的行或列从 DataFrame 中删除,以便进行进一步的数据分析。dropna()
下面是 函数的一些用法:dropna()
1. 删除含有缺失值的行或列
删除含有缺失值的行: 或df.dropna(axis=0)df.dropna()
删除含有缺失值的列:df.dropna(axis=1)
其中, 表示按行删除, 表示按列删除。如果不指定 参数,则默认删除含有缺失值的行。axis=0axis=1axis
2. 指定删除的阈值
可以使用 参数来指定保留数据的最小非缺失值数量,若某一行或列中非缺失值数量小于该阈值,则该行或列将被删除。thresh
按行删除,保留至少 3 个非缺失值的行:df.dropna(thresh=3)
按列删除,保留至少 2 个非缺失值的列:df.dropna(axis=1, thresh=2)
3. 指定删除的位置
可以使用 参数来指定删除缺失值的位置,以及要考虑的列。subset
删除 “age” 列中缺失值的行:df.dropna(subset=['age'])
删除 “age” 和 “gender” 列中缺失值的行:df.dropna(subset=['age', 'gender'])
4. 填充缺失值
除了删除缺失值,还可以使用 函数来填充缺失值。函数可以用指定的值填充缺失值,例如:fillna()fillna()
使用 0 填充缺失值:df.fillna(0)
使用平均值填充缺失值:df.fillna(df.mean())
以上是 函数的一些常用用法,可以根据具体的需求选择使用。