データフレームの概要理解する “df_overview” スクリプトを紹介します。

参照したWebページ
「データセットを理解するためのスクリプト4選」
so-wi.com - May, 2023

スクリプトの内容

1
2
3
4
5
6
7
8
9
10
# 必要なモジュールをインポート
import numpy as np
import pandas as pd

# DataFrame 要約 列番号、列名、ユニーク変数数、データタイプ、NaN の個数
pd.options.display.max_rows = 220
## Check for unique values of categorical variables
df_overview = pd.DataFrame([[i, len(df[i].unique()), df[i].dtypes, df[i].isnull().sum()] for i in df.columns], 
                          columns=['Feature', 'Unique Values', 'dtypes', 'NaN'])
df_overview

結果

image

データフレームのインデックス番号、インデックス名を指定してその行を削除する

1
2
3
4
5
# データフレームの2行目にもタイトルの残骸があり、その行は無効なの
# 行を指定して削除する
# index[0] はデータフレームとしては最初の行だが、無効なため削除する

df = df.drop(df.index[[0]])