新規作成  編集  差分  FrontPage  ページ一覧  検索  更新履歴  編集履歴  管理

ChaSen's Wiki - 辞書定義ファイルのフォーマット 差分

  • 最後の更新で追加された行はこのように表示します。
  • 最後の更新で削除された行はこのように表示します。

辞書定義ファイルのフォーマットは以下のようになっています。(正確な定義は IPADIC のマニュアルを参照してください) 

(品詞 (<品詞情報>)) ((見出し語 (<見出し語> <形態素生起コスト>))
 (読み <読み情報>) (発音 <発音情報>) (活用型 <活用型情報>) (活用形 <活用形情報>) (原形 <原形情報>) (付加情報 <付加情報>) (複合語 <複合語情報>)) (読み <読み情報>) (発音 <発音情報>) (活用型 <活用型情報>) (活用形 <活用形情報>) (原形 <原形情報>) (付加情報 <付加情報>) (複合語 <複合語情報>))
*例 (品詞 (名詞 一般)) ((見出し語 (お正月 3641)) (読み オショウガツ) (発音 オショー ガツ)) !!例 (品詞 (名詞 一般)) ((見出し語 (お正月 3641)) (読み オショウガツ) (発音 オショーガツ))
(品詞 (動詞 自立)) ((見出し語 (あきらめる 2377)) (読み アキラメル) (活用型 一段 )) (品詞 (動詞 自立)) ((見出し語 (あきらめる 2377)) (読み アキラメル) (活用型 一段))
(品詞 (名詞 一般)) ((見出し語 (天文学 3556)) (読み テンモンガク)
(複合語
((品詞 (名詞 一般)) (見出し語 天文) (読み テンモン))
((品詞 (名詞 接尾 一般)) (見出し語 学) (読み ガク)) ))

!各フィールドの解説
!!品詞情報
品詞名を指定します。階層は空白で区切ります。grammar.cha に書かれたもののみを受け付けます。

!!見出し語
登録したい語を入力テキストに出現する表記で書きます。

活用語は基本形だけを書けばすべての活用形が登録されます。

!!形態素生起コスト
この数値が小さいほど出現しやすい語になります。

ユーザーが形態素を追加するときは、近い頻度を持つ形態素のコストを目安にします。追加した語が解析に使われないときは形態素コストを小さくしてみるといいでしょう。

!!読み情報
読みを指定します。見出し語をカナ書きしたものになります。

!!発音情報
発音を指定します。読みとは違い、発音通りの表記です。
読みで「ヂ」「ヅ」「オウ」などとなっている場合でも、発音では「ジ」「ズ」「オー」と表記します。

!!活用型情報
活用型を指定します。ctypes.cha に書かれたもののみを受け付けます。

!!活用形情報
活用形を指定します。cforms.cha に書かれたもののみを受け付けます。

複合語情報で構成語を記述するときと、活用形指定機能以外では使いません。

!!原形情報
見出し語の原形(基本形)を指定します。日本語の場合、通常、活用形指定機能以外ではつかいません。

!!付加情報(意味情報)
自由記述領域です。

!!複合語情報
見出し語が複合語であるとき、その構成語について記述します。

茶筌内部の解析では見出し語を一語としてあつかいますが、出力では構成語のならびとすることができます。複合語/構成語の切り替えは -O オプションで指定します。
たとえば、上の「天文学」の例では次のように出力されます。

天文 テンモン 天文 名詞-一般
学 ガク 学 名詞-接尾-一般


!活用形指定機能
通常、辞書には基本形のみを書きますが、この機能を使うと特定の活用形だけを登録することができます。

(品詞 (動詞 自立)) ((見出し語 (すい 2000)) (原形 すむ) (読み スイ) (発音 スイ) (活用型 五段・マ行) (活用形 連用形) (付加情報 イ音便A;すいません)) (品詞 (動詞 自立)) ((見出し語 (すい 2000)) (原形 すむ) (読み スイ) (発音 スイ) (活用型 五段・マ行) (活用形 連用形) (付加情報 イ音便A;すいません))
この場合、マ行五段「すむ」のうち、連用形としての「すい」だけが登録されます。
また、この例のように、見出し語の活用語尾が cforms.cha にないものでもかまいません。

この機能をつかうときは原形情報を指定する必要があります。