by Graham Neubig (2/15/2012), English
このデータはWikipediaから取り出した文の中で、別の日本語のテキストに現れるn-gram をうまくカバーする文を順番に並べたものです。文の順番はまず、シードコーパスに最も 頻繁に現れるn-gram(n=1~4)を含むものを先に出力しています。複数の文がこのn-gramを 含む場合、さらに他のまだカバーされていないn-gramを多く含むものを選んでいます。
データは3つのファイルに分かれています:
それ だけ の こと で は あ り ま せ ん か 。 し な く て も い い 、 と い う もの で は な い と 思 い ま す 。 地下 鉄 システム の 整備 に よ っ て これ ら の 問題 が 解決 する こと が 期待 さ れ て い る 。
Chose の, covered 45 unique, 640870 (5.49748522669331%) valid n-grams Chose 、, covered 116 unique, 1298170 (11.1359096177641%) valid n-grams Chose に, covered 192 unique, 2112392 (18.1204359901152%) valid n-grams
データはWikipediaから得られたものであり、Creative Commons Attribution Share-Alike Licenseにより再配布可能です。