pythonのpandasライブラリの紹介
今日は、pythonライブラリのpandasの紹介です,
pandasを使ったpythonのファイル読み込み・書き込み(特にcsv等)は,とっても簡単.
以下にサンプルを使って紹介します.
import pandas as pd
# 単純にcsvファイルを読み込む時(headerなくデータだけ並んでる時)
df = pd.read_csv("data.csv",header=None)# headerに名前をつける時
df = pd.read_csv("data.csv",header=None, names=('a','b','c'))# tsvデータを開く時はdelimiterを指定
df = pd.read_csv('data.tsv', delimiter='\t')
簡単ですね.
ちなみに,読み込んだデータはDataFrameという形式になっています.
ので,検索や列の取得などいろいろ楽にできます.
データから条件を指定して値を抽出したい時
# 0と一致しているものを抽出
data = df[df['a'] == '0']# 正規表現で数字のものを抽出
data = df[df['a'].str.contains('\d')]# NaNを除去したい時
data = df.fropna()# 列を指定して除去することも可能
data = df.dropna(subset=['a', 'b'])# 列の結合(df2というコピーを作って統合する場合)
df2 = df.copy(deep==True)
data = pd.concat([df1,df2])# 行列の転置もできます
data = df.T
なお,読み込んだデータの各列の型が知りたい時には,headerの情報を取得して,以下のように記載すると取得できます.
# データの型(数字か文字列かなど)が知りたい時
df['a'].dtype
以上.
続きはまた紹介します.