KyTeaの結果分析

KyTeaに戻る

バージョン0.2.0から、KyTeaの解析結果がなぜそうなったのかを分析できるようになりました。 しかし、結果を分析する前にKyTeaの働きを把握していなければならないので、このページの続きを読む前にまずKyTeaの単語分割・読み推定のページを読んでください。

では、KyTeaが解析誤りをしてしまったとしましょう。例えば、この文で「党内」を2つの単語に分割してほしかったのに、1つの単語になっています:

$ kytea
$ 民主党内の保守派
民主/みんしゅ 党内/とうない の/の 保守/ほしゅ 派/は

この結果を分析するために、KyTeaをもう一回動かして、今回は「-debug 2」のオプションを指定します。これによって、単語分割や読み推定の判断に貢献した素性とその重みが出力されます。

$ kytea
$ 民主党内の保守派
WB 1 (民主): D0I2=1.17385 X1主=-0.148052 T1KKK=0.124833 X2党=0.118182 X0民主=0.0995188 T0KKK=0.0936877 D4R1=-0.0651905 D0R1=-0.0507923 T2KK=-0.0465374 D3I2=-0.0414231 T0KK=0.0321902 T2K=-0.0285143 T3K=-0.0260331 D3R1=0.0209904 D3L1=0.0151808 T1K=-0.0132829 T0K=-0.00677783 D4L1=0.00657395 D0L1=-0.00558881 T1KK=-0.000365658 BIAS=0 --- TOTAL=1.25245
…
WB 3 (党内): D0I2=1.17385 X0党=-0.380375 X1内の=-0.345203 T0KKH=0.344339 T-1KK=-0.215887 T-1K=-0.199744 T-1KKK=-0.150186 T-2KKK=0.149819 T2HK=-0.116214 T-2KK=0.0979653 D4R1=-0.0651905 D0R1=-0.0507923 T1KHK=0.0500478 T2H=-0.0474248 X-1主=-0.0461335 X1内=-0.0438923 T1KH=-0.038262 T0KK=0.0321902 T-2K=0.026408 T3K=-0.0260331 X3保=-0.0182091 X2の=0.0168658 T1K=-0.0132829 T0K=-0.00677783 D4L1=0.00657395 D0L1=-0.00558881 X0党内=-0.00256318 X-2民=0.00125031 BIAS=0 --- TOTAL=0.127554
…
PE 5 (派->は/ぱ): BIAS=0.975138 --- TOTAL=0.975138
民主/みんしゅ 党内/とうない の/の 保守/ほしゅ 派/は

ちょっとテキストが多いですが、「WB 3 (党内)」のところに絞りましょう。 ここでは「WB 3」は文の中の3番目の単語境界という意味で、「(党内)」は「党」と「内」の間にある単語境界についての素性を表示しているという意味です。 KyTeaの単語分割・読み推定に書いてある通り、KyTeaは文字n-gram、文字種n-gram、辞書単語の3種類の素性を考慮しています。 以下の図は「党内」の場合に発火している素性を示します。

1つずつ見ていくと、各素性名は以下の意味を表しています。

では、「党内」の単語境界判断に貢献した素性を見ていきましょう。 ここでは、最終的なTOTALが正の値になっていれば、「分割境界が存在しない」、負になっていれば「分割境界が存在する」という意味です。 また、素性は重みの絶対値を用いて降順に並べてあるので、最も重要な素性が先に来ます。

次は?

では、KyTeaの結果を分析したが、この分析の結果をどうやって使えるかが気になりますが、自分のモデルを作っている場合、どのような誤りが起こっているかが把握できたらどのようなデータを追加したら結果がよくなるというのも分かります。 例えば、辞書単語素性が発火しないところを中心に誤りが起こっているのであれば、未知語の辞書追加を中心にデータを追加したら結果がよくなるのが分かります。 逆に、上記の例と同じように、単語が辞書に入っているのに関わらず誤りが起こっている場合は、解析信頼度が低いところを中心に部分的アノテーションコーパスを作ると良いでしょう。 最後に、明らかに直感に反する素性が学習されていることが分かれば、その判例になるようなデータをコーパスに追加すれば結果がよくなるかもしれません。

KyTeaに戻る
Last Modified: 2010-12-26 by neubig