日本語バランス文

by Graham Neubig (2/15/2012), English

このデータはWikipediaから取り出した文の中で、別の日本語のテキストに現れるn-gram をうまくカバーする文を順番に並べたものです。文の順番はまず、シードコーパスに最も 頻繁に現れるn-gram(n=1~4)を含むものを先に出力しています。複数の文がこのn-gramを 含む場合、さらに他のまだカバーされていないn-gramを多く含むものを選んでいます。

ダウンロード 閲覧

データは3つのファイルに分かれています:

ライセンス

データはWikipediaから得られたものであり、Creative Commons Attribution Share-Alike Licenseにより再配布可能です。