python中pandas_profiling怎么用

小編給大家分享一下python中pandas_profiling怎么用，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

公司主營業務：成都網站設計、做網站、移動網站開發等業務。幫助企業客戶真正實現互聯網宣傳，提高企業的競爭能力。成都創新互聯是一支青春激揚、勤奮敬業、活力青春激揚、勤奮敬業、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業文化，感謝他們對我們的高要求，感謝他們從不同領域給我們帶來的挑戰，讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。成都創新互聯推出循化免費做網站回饋大家。

分析報告全貌

什么是探索性數據分析

熟悉pandas的童鞋估計都知道pandas的describe()和info()函數，用來查看數據的整體情況，比如平均值、標準差之類，就是所謂的探索性數據分析-EDA。

pandas_profiling簡介

如果你想更方便快捷地了解數據的全貌，泣血推薦一個python庫：pandas_profiling，這個庫只需要一行代碼就可以生成數據EDA報告。

pandas_profiling基于pandas的DataFrame數據類型，可以簡單快速地進行探索性數據分析。

對于數據集的每一列，pandas_profiling會提供以下統計信息：

1、概要：數據類型，唯一值，缺失值，內存大小
2、分位數統計：最小值、最大值、中位數、Q1、Q3、最大值，值域，四分位

3、描述性統計：均值、眾數、標準差、絕對中位差、變異系數、峰值、偏度系數

4、最頻繁出現的值，直方圖/柱狀圖

5、相關性分析可視化：突出強相關的變量，Spearman, Pearson矩陣相關性色階圖

并且這個報告可以導出為HTML，非常方便查看。

pandas_profiling安裝

安裝pandas_profiling可以使用pip、conda或者下載文件安裝，非常方便。

我這里使用pip方式，在命令行輸入：

pip install pandas-profiling

本文在Jupyter notebook中進行代碼實驗。

pandas_profiling使用方法

1、加載數據集

我這里用經典的泰坦尼克數據集：

# 導入相關庫import seaborn as snsimport pandas as pdimport pandas_profiling as ppimport matplotlib.pyplot as plt# 加載泰坦尼克數據集data = sns.load_dataset('titanic')data.head()

輸出：

python中pandas_profiling怎么用