人工無脳作成関連情報
【形態素解析】
人工無脳と言えば、まずは形態素解析からということで、主にMecabに関する情報をまとめています。
- LinuxにMecabとmecab-rubyをインストールする
- Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル
- さくらのレンタルサーバでMecabを使用する
- Mecab、mecab-ruby、NAIST辞書のインストール手順等
- MeCabのコマンドライン引数一覧とその実行例
- MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧
- はてなキーワードからMecCab辞書を生成する(Ruby版)
- はてなキーワードのワード一覧から、ユーザ辞書を生成します。
- 日本テレビ東京で学ぶMecabのコスト計算
- 日本テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説しています。
- IPA、NAIST、UniDic、JUMANの辞書実演比較
- 複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください。
- Java製形態素解析エンジン「Igo」を試してみる
- Igoのインストールと軽く使ってみた感想などを。
- IgoのLucene用Analyzerを使ってみた
- Igoを使ったLucene用のAnalyzerが公開されてたので使ってみた。
- Java製形態素解析ライブラリ「lucene-gosen」を試してみる
- 辞書内包でLuceneでもSolrでも使える便利なライブラリ。
【Wikipedia】
人工無脳と言えば、言語データが命ということで、Wikipediaの情報利用方法についてまとめています。
- Wikipediaから得られるデータファイル一覧
- Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明。
- Wikipediaデータ利用参考サイトリンク集
- コンテンツを作る際に目を通した参考サイトへのリンク集。
- WikipediaをSolrで検索できるようにする
- Solrサーバを立ててWikipediaのデータを登録する。
【役に立ちそうなロジック】
クラスタリングをする際や編集距離などいろいろ。
- JavaScriptでK平均法の実演
- K平均法でクラスタリングされていく過程をJavaScriptで書いてみた。
- JavaScriptでレーベンシュタイン距離の実演
- レーベンシュタイン距離が辿る編集過程をJavascriptで実演してみた。
【役に立ちそうな情報】
言語情報を収集する際に使用できそうなリンク集。
- フリーのIME・ATOKユーザ辞書リンク集
- 対象を絞ったIME辞書は良い教師になってくれるかもしれないので。
- Unicodeの文字ブロックについて
- 対象文字列が平仮名かカタカナか漢字かなどを判定する。サンプルコードはJavaを使用。
- Nutch調査録
- オープンソースのWeb検索システムでクローラ機能を持ってる、Nutchについて