Wikipediaデータ利用参考サイトリンク集
【データインポート】
Wikipediaのデータをダウンロード、インポートする関係のコンテンツ。
- 本家ダウンロードサイト
- Wikipediaの本文やページタイトルを含んだ情報をダウンロードできます。形式はSQLのダンプファイルやXMLです。
- http://download.wikimedia.org/jawiki/latest/
- 本家データ構造説明ページ
- ダウンロードした情報を格納するテーブルの構成を説明する。
- http://www.mediawiki.org/wiki/Category:MediaWiki_database_tables/ja
- データベースダウンロード(Wikipediaの記事)
- Wikipediaに書かれているダウンロードデータの取り扱いにに関する説明ページ。
- http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89
- Wikipediaデータの利用方法について(www.cdl.im.dendai.ac.jp)
- importDump.phpを使用したデータのインポート手順を解説しています。
- http://www.cdl.im.dendai.ac.jp/~arai/wiki/wiki.cgi?page=Wikipedia%A5%C7%A1%BC%A5%BF%A4%CE%CD%F8%CD%D1%CA%FD%CB%A1%A4%CB%A4%C4%A4%A4%A4%C6
- wikipediaのダウンロード&データベースにインポート(プログラマになりたい)
- jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。
- http://d.hatena.ne.jp/dkfj/20070902/1188730207
- WikipediaのデータをImportする(まげわっぱてっく)
- jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。
- http://magewhopper.blog81.fc2.com/blog-entry-5.html
【データ利用】
実際に取得したデータを使用している方々のコンテンツ。
- TDU_CDL_mori_index
- Hadoop使ってMapReduceでWikipediaのデータを取り扱っている人のページ。
- http://www.cdl.im.dendai.ac.jp/~mori/index.html
- TFIDFを使ってwikipediaの各キーワードの特徴量を抽出(のんびり読書日記)
- tf-idfでpages-articles.xml.bz2の内容を解析して、特徴語を出しています。perlのソースも載っています。
- http://d.hatena.ne.jp/mjmania/20090205/1233766538
- WP2TXT 0.3.0 公開(yohasebe.com)
- Wikipediaのデータをプレーンテキストに変換し、一定のサイズに分割するアプリケーション。
- http://www.yohasebe.com/2009/5/19/wp2txt-030-released/
- 上位下位関係抽出ツール: Hyponymy extraction tool
- Wikipediaのデータから言葉の上位下位を抽出するRubyのソース。箇条書きなどのルールがありそうな場所から取得するようです。
- http://nlpwww.nict.go.jp/hyponymy/index.html
- wikipedia-fpw(Kazuhiro's blog)
- FreePWINGを利用してJIS X 4081形式に変換する手順が書いてあります。これを使ってザウルスでWikipediaが見れるようにしている人もいるようです。
- http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
- Wikipediaマイニングによるシソーラス辞書の構築手法(情報検索)
- Wikipediaのデータからシソーラス辞書を構築した際の手法・結果などが書かれた論文。
- http://ci.nii.ac.jp/naid/110004822978