KyTeaの単語分割・読み推定

KyTeaホームに戻る

このページはKyTeaの単語分割・読み推定で用いられる学習法や特徴量を説明します。

単語分割

単語分割はポイントワイズで行われます。 すなわち、各文字間に単語境界が存在するかどうかを個別に判定し、他の境界の判定を情報として利用しません。 この手法を採用することにより、部分的にアノテーションされたコーパスを使っても効率的な学習ができます。

ポイントワイズ分割判定

各文字間の周りの情報を特徴量とし、この特徴量を用いて線形分類器を学習し、学習された重みで新しいデータを解析します。 単語分割に用いられる特徴量は文字n-gram、文字種n-gram、単語情報の3種類があります。

文字n-gram

文字n-gramは判定点の周りの文字を特徴量として利用する。 これに関わる設定として、n-gram長の上限で「-charn」と、利用する文字の窓幅「-charw」があります。 以下の図は-charn=3,-charw=2の場合の一例を示す。

単語分割のn-gram特徴量

文字種n-gram

文字自体のn-gramに加え、文字の種類のn-gram情報も用います。 文字種は「漢字」「カタカナ」「ひらがな」「ローマ字」「数字」「その他」に分かれます。 文字n-gramと同じように、n-gram長の上限「-typen」と窓幅「-typew」を指定することができます。

辞書単語

最後に、辞書に含まれている単語が判定点を開始点とする単語があるかどうかを表す特徴量(R)、辞書に含まれている単語が判定点を終了点とする単語があるかどうかを表す特徴量(L)、境界自体が単語に含まれているかを表す特徴量(I)があります。 それぞれの辞書単語特徴量は単語の長さによって区別されます。 例えば、分割境界を終了点とする4文字の単語が存在する場合、この事実を表す特徴量は「L4」となります。 また、「-dicn」は辞書単語の長さの上限を指定し、-dicn=4の場合では単語の長さが5以上であっても「L4」「R4」「I4」となります。 以下の図は辞書単語の一例です:

単語分割の辞書単語特徴量

読み推定

単語境界の推定が終わってから読み推定が行われます。 読み推定は単語分割と同じくポイントワイズで行われ、各単語の読みは他の単語の読みを参考にせずに推定します。 単語の種類によって読みが以下のように推定されます:

KyTeaホームに戻る
Last Modified: 2010-5-12 by neubig