一行代码弄懂数据，pandas最佳搭档就是ta了

Original EarlGrey 编程派 2020-09-13

点击上方蓝字，每天一起学 Python，文末领送书福利

文 | Lukas Frei

译 | EarlGrey

引言

在第一次导入新数据集时，我们首先要做的是了解数据。这包括确定特定预测变量的范围，识别每个预测变量的数据类型以及计算每个预测变量的缺失值的数量或百分比等步骤。这一步通常被称为探索性数据分析（EDA，exploratory data analysis）。

pandas库提供了许多非常有用的功能来帮助我们完成EDA。但是，在能够应用这些功能之前，通常我们必须先使用更普遍的功能，如 df.describe()。不过这些函数提供的功能仍是有限的，并且不同新数据集的初步EDA工作流，大多数情况下是非常相似。

作为一个特别不喜欢重复性任务的人，我最近在寻找合适的工具，幸运地发现了 pandas-profiling。它没有一次只给用户提供一种输出，而是快速生成一个内容异常丰富的HTML文件，其中包含有进行更具体的数据分析前可能需要了解的大部分内容。

接下来，我将向您介绍在Titanic数据集中应用pandas-profiling。

更快完成 EDA

由于数据类型丰富、缺失值较多，我选择在泰坦尼克号数据集上应用pandas-profiling。在我看来，pandas-profiling尤其适合当数据尚未清理并仍需要进一步个性化调整的数据集。为了更好完成精细调整，你需要知道从哪里开始，以及重点要关注什么。这是pandas-profiling的用武之地。

首先，让我们导入数据，并使用pandas来检索一些描述性统计信息：

# 导入相关包
import pandas as pd
import pandas_profiling
import numpy as np
# 导入数据
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# 描述性统计信息
df.describe()

上述代码执行后，会产生如下输出：

虽然上面的输出包含大量信息，但它并没有告诉您可能感兴趣的所有内容。例如，你知道了数据框有891行。如果要验证，则必须添加另一行代码以确定数据框的长度。虽然这些计算并不是非常耗时，但一次又一次地重复这些计算确实占用了时间，而您本可以用在清理数据上。

概览

现在，让我们使用pandas-profiling做同样的事情：

pandas_profiling.ProfileReport(df)

运行这行代码将创建数据集的HTML EDA报告。运行代码后，结果将直接内联在 notebook 中; 但是，你也可以选择将EDA报告另存为HTML文件，以便共享。

EDA报告的第一部分，是概述部分，提供了数据的基本信息（观察数量，变量数量等）。它还会输出一个警告列表，告诉你在何处仔细检查数据，并重点清理哪些数据。

概览部分

单变量 EDA

概述之后，EDA报告为您提供有关每个特定变量的洞察。其中还包括描述每个变量分布的可视化小图：

数字变量 'Age' 的输出

如上所示，pandas-profiling为您提供了一些有用的指标，例如缺失值的百分比和数量，以及我们之前看到的描述性统计数据。由于'Age'是一个数字变量，使用直方图可视化其分布告诉我们，这个变量似乎是向右偏的。

类型变量的输出，与数字变量仅有很小的变化：

类型变量 'Sex' 的输出

pandas-profiling并不计算均值、最小值和最大值，而是计算分类变量的类计数。由于'Sex'是一个二元变量，我们只找到两个不同的计数。

你可能想知道pandas-profiling究竟是如何计算它的输出的。幸运的是，我们可以在[GitHub]上找到源代码。由于我喜欢在代码中制作不必要的黑盒，我下面将快速深入研究数字变量的源代码：

def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name)

虽然这可能看起来像一个巨大的代码块，但它实际上很容易理解。Pandas-profiling的源代码中引入了另一个确定每个变量类型的函数。如果变量被识别为数字变量，上面的函数将产生之前显示的输出。此函数使用的是基本的pandas Series 操作，例如series.mean()，并将结果存储在 stats 字典中。图表则是使用matplotlib的matplotlib.pyplot.hist函数的改编版本生成的，目的是为了能够处理各种类型的数据集。

结论

总而言之，pandas-profiling提供了一些有用的功能，特别是你的主要目标是快速理解您数据或以可视格式与他人分享EDA。当然，它并没有让EDA变得自动化，深入的个性化调整，仍必须要手动完成。

项目地址：https://github.com/pandas-profiling

文末送书活动

活动规则大家请一定要查看，点击这篇推文哦：从今天起，每天至少送大家一本书

这篇推文的福利赠书是：《Python 数据科学入门》，送给本篇文章点赞最多、且符合活动要求的精选留言者。

最新赠书名单：将在留言区公布，请联系加我好友（微信号：codingpython）领取奖励哈~

回复下方「关键词」，获取优质资源

回复关键词「 pybook03」，立即获取主页君与小伙伴一起翻译的《Think Python 2e》电子版

回复关键词「书单02」，立即获取主页君整理的 10 本 Python 入门书的电子版

回复关键词「book 数字」，将数字替换成 0 及以上数字，有惊喜好礼哦~

推荐阅读

题图：pexels，CC0 授权。

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言