googleのword2vecを使ってみる(on Mac)
word2vecって良くきくので,昨年googleが公開したword2vecを使ってみたいと思います.
インストールは簡単
git clone https://github.com/svn2github/word2vec.git
でgitから取ってくるだけ.
cd word2vec でディレクトリに入り,
make が通れば完了.
私の環境では(特にmacでは)
malloc.hがないと怒られたので.
#include <malloc.h>
を全て
#include <stdlib.h>
に変更.
無事にコンパイルが通りました.
あとは,
./demo-word.sh
を実行して,単語を入力すればデモの試し成功!
と思ったら,
wgetコマンドがなくてtrain用データのインストールが失敗していた.
gzip: can't stat: text8.gz (text8.gz.gz): No such file or directory
ので,demo-word.shの中でwgetコマンドを curl -o に変更.
curl http://mattmahoney.net/dc/text8.zip -o text8.gz
さらに,
ERROR: training data file not found!
と怒られたが,
http://mattmahoney.net/dc/text8.zipがうまく保存できていなかったり
パスの指定が誤ってたりすると,解凍に失敗するので,
上記エラーがでたときは,保存データの容量等でうまく保存できているか確認すると良さそうです.
ロードと学習が成功すれば,次回以降は,毎回学習する必要はないので,
./distance vectors.bin
だけで使えます.
以上!
<参考>
malloc.hについては以下のページにお世話になりました.感謝!
http://blog.tottokug.com/entry/2014/04/17/160603