制約つき解析
制約つき解析(部分解析)とは
入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、それを満たすように解析することを云います。
たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。 このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。
入力書式
制約つき解析の入力は茶筌の標準の出力と同じようなフォーマットであたえます。(\t はタブを表します)
ただし、読み、基本形の情報は無視されます。
にわ\tニワ\tにわ\tUNSPEC に はにわ\tハニワ\tはにわ\t名詞-一般 にわとり\tニワトリ\tにわとり\tUNSPEC がいる。 EOS
各行をセグメントと呼び、一つのセグメントは
- 形態素指定
- 文断片
- 文末
- 注釈
のいづれかになります。
形態素指定
そのセグメントが(それ以上分割されない)一つの形態素であることを示します。
形態素指定のセグメントは4カラム目以降に品詞情報を持ちます。品詞情報の書式も茶筌の標準の出力と同じです。
品詞情報の代わりに「UNSPEC」と書くと、セグメントの見出し語で辞書を検索し、該当する語が解析結果となります。辞書にない語はそのまま未知語となります。
文断片
品詞情報がないセグメントは文断片を表します。
このセグメント内では、制約のない場合と同様に解析されます。ただし、形態素がセグメントをまたぐような解析候補は生成されません。
文末
「EOS」「BOS/EOS」「文末」で始まる行、あるいは改行しか含まない行は文末です。
注釈
品詞情報のカラムを「ANNO」とすると、そのセグメントは注釈になります。
注釈は出力には表示されますが、解析には使われません。表示は chasenrc に従います。
キーワード:[制約] [部分解析]
参照:[制約つき解析]