新規作成  編集  差分  FrontPage  ページ一覧  検索  更新履歴  編集履歴  管理

ChaSen's Wiki - FAQ 差分

  • 最後の更新で追加された行はこのように表示します。
  • 最後の更新で削除された行はこのように表示します。

!WinCha (茶筌 Ver. 2.1 for Windows) がインストールできません。 
cha21244.exe ではなく [[cha21244sp5.exe|http://chasen.aist-nara.ac.jp/stable/chasen/win/cha21244sp5.exe]] を使ってください。

それでもだめなときは Administrator 権限でインストールするとうまくいくかもしれません。
メーリングリストでの[[過去の議論|http://chasen.aist-nara.ac.jp/ml/chasen-users/]]もご覧ください。

!UTF-8 は使えますか?
使えます。*.cha と *.dic を UTF-8 に変換して以下のようにすると UTF-8 の辞書ができます。

$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic

chasenrc で変換した文法ファイルと辞書を指定し、
茶筌本体にも UTF-8 で処理するようオプションを指定します。

$ chasen -i w UTF8.txt

必要に応じて chasenrc も UTF-8 に変更してください。 !libchasen をリンクしようとすると「Undefined Symbol "cerr"」みたいなエラーがでる
libchasen は一部 C++ のコードを含んでいます。そのためリンクするときは C++ 用のリンカを使うか、C++ の標準ライブラリ(libstdc++ など)をリンクするようにしてください。

!半角文字が未知語になります
IPADIC には半角文字は登録されていません。あらかじめ入力文を全角文字に変換するか、辞書に半角文字のエントリを追加してください。

!"["(ASCII文字)が単語の最小単位になりません
茶筌は日本語文字列を解析する際、連続するASCII文字を単語の最小単位とするため、単語 "[" を登録しても "[" で区切られません。

chasenrc ファイル(/usr/local/share/chasen/dic/ipadic/chasenrc など) に以下の行を追加すると、単語区切りが英語にある程度適したものになり、 [Unicode が [ と Unicode に区切られるようになります。

(言語 "je")

ただしこの場合、未知語の品詞が「未知語」ではなく「UNKNOWN」と出力されますのでご注意下さい。

!「茶筌」という名前の由来は?
開発拠点である奈良先端科学技術大学院大学のある奈良県生駒市高山町が、日本有数の茶筌の産地であることから、この名前がつけられました。

ちなみに、よく間違われますが漢字表記は「茶'''筅'''」ではなく「茶'''筌'''」です。
MS-IME などで「筌」の字が出なくてこまったときは、ローマ字表記の「ChaSen」でどうぞ。