
![]() | 新品価格 |
ふふふ、世間のみんなは気づいていまい。
マスタカはクラスタリングの魔術を使うことで
サービスの品質を爆上げしようと思っていたるのである
(´・ェ・)そう、この機能平凡だけど絶対ほしがってる!
(´・ェ・)おれも欲しい!
べ、べつに
マスタカはデートサイエンティストになりたいとか、
そういうわけなんだからね!
以下、日本語の文書をクラスタリングしてみた
mahoutのbinのやつでコマンドを以下の順番で叩いていく
1.seqdirectory
2.seq2sparse
3.canopy
4.kmeans
これでクラスタリングした。
初回だからってこともあり
あんまり良い感じにクラスタリングできてなかったので
チューニングかなと思ったら原因は以下だった。
ためしにトークンの中身見てみる
./bin/mahout seqdumper -i /hogehoge/vectors/tokenized-documents/part-m-00000 -o result
中身
Key: /1: Value: [職, 場, マ, ス, タ, カ, 鍋, ド, ラ, ク, エ, 冬, に, お, 鍋, の, ふ, た, を, も, っ, て, 叫, ぶ, お, >鍋, の, ふ, た]
(´・ェ・)うひょー
この日本語の切り方はダメだろう
というわけでluceneを勉強すればもうちょっとうまくいきそうですねって感じ。
続く
タグ:mahout clustering



