夢に向かって、好奇心を持ち、疑問を持ち続ける。それが努力。

趣味でロボット職人を目指す自称AI研究者のメモです。

googleのword2vecを使ってみる(on Mac)

word2vecって良くきくので,昨年googleが公開したword2vecを使ってみたいと思います.

インストールは簡単

git clone https://github.com/svn2github/word2vec.git

でgitから取ってくるだけ.

cd word2vec でディレクトリに入り,
make が通れば完了.

私の環境では(特にmacでは)
malloc.hがないと怒られたので.

#include <malloc.h>

を全て

#include <stdlib.h>

に変更.

無事にコンパイルが通りました.

あとは,

./demo-word.sh

を実行して,単語を入力すればデモの試し成功!

と思ったら,
wgetコマンドがなくてtrain用データのインストールが失敗していた.

gzip: can't stat: text8.gz (text8.gz.gz): No such file or directory

ので,demo-word.shの中でwgetコマンドを curl -o に変更.

curl http://mattmahoney.net/dc/text8.zip -o text8.gz

さらに,
ERROR: training data file not found!

と怒られたが,
http://mattmahoney.net/dc/text8.zipがうまく保存できていなかったり
パスの指定が誤ってたりすると,解凍に失敗するので,
上記エラーがでたときは,保存データの容量等でうまく保存できているか確認すると良さそうです.


ロードと学習が成功すれば,次回以降は,毎回学習する必要はないので,

./distance vectors.bin

だけで使えます.

以上!


<参考>
malloc.hについては以下のページにお世話になりました.感謝!
http://blog.tottokug.com/entry/2014/04/17/160603