第四章 数据清洗#

数据清洗(data cleaning)是数据分析的重要步骤,其主要目标是将混杂的数据清洗为可以被直接分析的数据,一般需要将数据转化为数据框(data frame)的样式。

本章将以推特文本的清洗作为例子,介绍数据清洗的基本逻辑。

  • 介绍通过按行或块的方式对大规模数据进行预处理

  • 清洗错误行和列

  • 提取所要分析的内容

  • 使用Pandas进行数据清洗