KyTeaには4つの入力・出力フォーマットがあります。 学習時、解析時にフォーマットを指定できます。
従来の単語分割と同じように、単語境界を空白で示します。 読み推定を行う時に、単語の読みを「/」の後に付与します。
コーパス/こーぱす の/の 文/ぶん で/で す/す 。/。
部分的アノテーションでは、「単語境界あり」を表す「|」、「単語境界なし」を表す「-」、「単語境界の有無が未知」を表す「 」(空白)の3通りのタグがあります。 読み推定を行う時に、単語の読みを「/」の後に付与します。
コ-ー-パ-ス/こーぱす|の/の|文/ぶん|で/で|す/す|。/。 境-界|未 知 の 文|で す 。
解析時の入力として、一般的にアノテーションなしの生のテキストを利用します。
コーパスの文です。
KyTeaは信頼度を出力することができます。 SVMを用いたモデルでは、信頼度はSVM平面からのマージンを表します。 ロジスティック回帰を用いたモデルでは、信頼度は答えの確率を表します。 SVMでもロジスティック回帰でも、未知語の読みの信頼度は確率になっています。 信頼度付き出力は入力1行に付き3行を出力します。
コーパス/こーぱす の/の 文/ぶん&もん&ふみ で/で す/す 。/。 3.18908 1.7448 3.91682 2.57838 2.23258 1.28151 2.6298 1.98738 100 100 0.309393&-1.36203e-17&-0.348795 100 100 100
KyTeaホームに戻る
Last Modified: 2010-5-11 by neubig