webigatorはウェブ上のテキスト情報を集約し、フィルタリングするツールです。 東日本大震災後、ネット上に流れていたデータをまとめる取り組みの経験が開発のきっかけになっています。 ツールは具体的に、テキストデータ(例えばTwitterのツイート)に対してキーワード検索を行い、機械学習の技術を用いて更にその検索結果から無関係の情報を取り除く仕組みになっています。 複数のユーザが同時に使えるWebサイトの形になっており、共同作業で有用な情報のリストを作ることができます。 以下の文献は細かくデザインと評価実験について記述しています:
A Framework and Tool for Collaborative Extraction of Reliable Information
Graham Neubig, Shinsuke Mori, Masahiro Mizkami. Workshop on Language Processing and Crisis Information (LPCI). 2013.
ソースコード: @github
webigatorはEclipse Public License v 1.0に従ってオープンソースで公開しています。
デモはリンク先で運営中です(たぶん…):webigator demo.
現在作成中。とりあえずできている発表資料をアップしておきます。
以下の説明はサーバを自分で立ち上げる人のためのもので、既に動いているサーバを使う人はこのセクションを飛ばしても大丈夫です。
プログラムはLinuxで動作確認をしています。MacやCygwinなどでも動く可能性は高いです。割と多くのライブラリに依存しています。Ubuntuでインストールをする前に、まずサーバーが依存するライブラリ(BoostとXML-RPC)をインストールします:
sudo apt-get install libboost-all-dev libxmlrpc-c3-dev
また、Perlのクライアントが依存するXML::RPCもインストールします。
cpan XML::RPC
その次、サーバーをビルドします:
autoreconf -i ./configure make
これがうまく行けば:
src/bin/webigator --help
でヘルプを表示することができます。うまく行かない可能性が高いので、その場合はご連絡を下さい。
説明は作成中…
webigatorについての質問、連絡などはいつでもwebigator-usersグループへ投稿してください。もしくは、neubigアットgmail.comへの連絡も歓迎します。
以下のリストは改良点です: