第四章 数据清洗#
数据清洗(data cleaning)是数据分析的重要步骤,其主要目标是将混杂的数据清洗为可以被直接分析的数据,一般需要将数据转化为数据框(data frame)的样式。
本章将以推特文本的清洗作为例子,介绍数据清洗的基本逻辑。
介绍通过按行或块的方式对大规模数据进行预处理
清洗错误行和列
提取所要分析的内容
使用Pandas进行数据清洗
数据清洗(data cleaning)是数据分析的重要步骤,其主要目标是将混杂的数据清洗为可以被直接分析的数据,一般需要将数据转化为数据框(data frame)的样式。
本章将以推特文本的清洗作为例子,介绍数据清洗的基本逻辑。
介绍通过按行或块的方式对大规模数据进行预处理
清洗错误行和列
提取所要分析的内容
使用Pandas进行数据清洗