2013年09月03日

日本語の文書にmahoutのクラスタリングをかけてみた

blogramランキング参加中!

Mahoutイン・アクション

新品価格
¥4,200から
(2013/9/3 22:32時点)



ふふふ、世間のみんなは気づいていまい。
マスタカはクラスタリングの魔術を使うことで
サービスの品質を爆上げしようと思っていたるのである

(´・ェ・)そう、この機能平凡だけど絶対ほしがってる!
(´・ェ・)おれも欲しい!

べ、べつに
マスタカはデートサイエンティストになりたいとか、
そういうわけなんだからね!


以下、日本語の文書をクラスタリングしてみた

mahoutのbinのやつでコマンドを以下の順番で叩いていく

1.seqdirectory
2.seq2sparse
3.canopy
4.kmeans

これでクラスタリングした。
初回だからってこともあり
あんまり良い感じにクラスタリングできてなかったので
チューニングかなと思ったら原因は以下だった。

ためしにトークンの中身見てみる
./bin/mahout seqdumper -i /hogehoge/vectors/tokenized-documents/part-m-00000 -o result

中身
Key: /1: Value: [職, 場, マ, ス, タ, カ, 鍋, ド, ラ, ク, エ, 冬, に, お, 鍋, の, ふ, た, を, も, っ, て, 叫, ぶ, お, >鍋, の, ふ, た]




(´・ェ・)うひょー


この日本語の切り方はダメだろう
というわけでluceneを勉強すればもうちょっとうまくいきそうですねって感じ。

続く
タグ:mahout clustering
posted by マスタカ at 22:33 | Comment(0) | TrackBack(0) | プログラミング | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。