夢に向かって、好奇心を持ち、疑問を持ち続ける。それが努力。

趣味でロボット職人を目指す自称AI研究者のメモです。

pythonのpandasライブラリの紹介

今日は、pythonライブラリのpandasの紹介です,

pandasを使ったpythonのファイル読み込み・書き込み(特にcsv等)は,とっても簡単.

以下にサンプルを使って紹介します.

import pandas as pd
# 単純にcsvファイルを読み込む時(headerなくデータだけ並んでる時)
df = pd.read_csv("data.csv",header=None)

# headerに名前をつける時
df = pd.read_csv("data.csv",header=None, names=('a','b','c'))

# tsvデータを開く時はdelimiterを指定
df = pd.read_csv('data.tsv', delimiter='\t')

# pandasで書き出す時
df.to_csv('out.csv')

簡単ですね.
ちなみに,読み込んだデータはDataFrameという形式になっています.

ので,検索や列の取得などいろいろ楽にできます.

データから条件を指定して値を抽出したい時

# 0と一致しているものを抽出
data = df[df['a'] == '0']

# 正規表現で数字のものを抽出
data = df[df['a'].str.contains('\d')]

# NaNを除去したい時
data = df.fropna()

# 列を指定して除去することも可能
data = df.dropna(subset=['a', 'b'])

# 列の結合(df2というコピーを作って統合する場合)
df2 = df.copy(deep==True)
data = pd.concat([df1,df2])

# 行列の転置もできます
data = df.T


なお,読み込んだデータの各列の型が知りたい時には,headerの情報を取得して,以下のように記載すると取得できます.

# データの型(数字か文字列かなど)が知りたい時
df['a'].dtype


以上.

続きはまた紹介します.