mike-neckのブログ

JavaかJavaFXかJavaEE(なんかJava8が多め)

JJUG ナイト・セミナー「機械学習・自然言語処理特集!」に行ってきた #jjug

お疲れ様です、みけです。













































































































































































































































































表題の通り、JJUG ナイト・セミナー「機械学習・自然言語処理特集!」に行ってきました。

あまり機械学習とは縁が遠いので「ふ~ん」くらいにしかなりませんでしたが、簡単なメモです。

Java でカジュアルにはじめる機械学習

@komiya_atsushiさんによるJavaでの機械学習の入門の案内。

車輪の再発明はやめて、既存ライブラリーを使おうということで紹介されてたライブラリーがこちら。

で、機械学習のテストを書くのは非常に辛いらしいのですが、

ということだそうです。

なんでJava機械学習するのかということですが、システム化するときに便利だからということで、もしpythonでシステムを作っているんならpythonでやればいいんじゃないですかねということだそうです。

なお、小宮さんによる説明してきたエントリーが既に公開されています。

#JJUG ナイトセミナー「機械学習・自然言語処理特集!」で Java でカジュアルに機械学習する話をしてきました

Spark/MLlibではじめるスケーラブルな機械学習

ND社の猿田さんによるSpark/MLlibの簡単な説明。

実演で回帰分析をしていたのですが、Mahoutで回帰分析を10回くらいすると数分では終わらなかったのが、Spark/MLlibで回帰分析をすると数十秒で終わりました。

結論、Spark/MLlib速い。

で、そんなSpark/MLlibですが、

また、Sparkのいいところは、インタラクティブなシェルがあるので、そこで少しずつ試しながら実行できるので、パラメーターのチューニングやアルゴリズムの選定が楽にできるとのこと。

Luceneと日本語の検索

@johtaniさんによるLucene/elasticsearchの説明。

見たことある資料だと思ったら、某社で僕の後ろで作ってた資料でした。

なお、elasticsearchがLuceneをベースに作られていることをこの勉強会で知ったのは秘密です。

大谷さんはLuceneで動かす用の形態素解析器であるlucene-gosenのメンテナーもやっていて、最近コードベースをgithubに移行したらしいのですが、lucene-gosenはmaven central上では公開されていないそうです。で、その理由が

で、その代々引き継がれてきたjarというのがjisx-0213-1.0.jarというjarのようです

jisx-0213 jarでググって出てくるのが、Itadakiというプロジェクトの中のJISX0213というサブプロジェクトで、これではないかと思うのですが、これもmaven centralに載っていないようですね…しかも、この中にGoSenというサブプロジェクトあるし…


というわけで、あまり参考にはならないと思いますが、現場からは以上です。