形態素解析システム 茶筌 version 2.2 公開のお知らせです. ====================================================================== 公開のお知らせ 形態素解析システム 茶筌 version 2.2.0 「茶筌 version 2.1 for Windows」 IPA品詞体系日本語辞書 ipadic-2.4.0 ====================================================================== 日本語形態素解析システム「茶筌 version 2.02」を昨年12月に公開しまし たが、今回「茶筌 version 2.2」の正式版を公開することになりました。 あわせて、IPA品詞体系に基づく日本語辞書の新しいパージョンを公開します。 「茶筌」は、奈良先端科学技術大学院大学松本研究室で作成したフリーの日本 語形態素解析システムです。利用に関する制限はありませんが、著作権は奈良 先端大にあります。マニュアルの付録の著作権と使用に関する項目を参照くだ さい。 前回公開の茶筌2.0から茶筌2.2.0への主な拡張点は次の通りです。 ---------------------------------------------------------------------- chasen 2.2.0 (2000/12/6) ---------------------------------------------------------------------- [機能拡張・修正] ・全角アルファベットが連続する最長文字列を単語の最小単位とした。これに より、例えば「MTV」が「M-TV」のような2単語ではなく1語の未知語 として解析されるようになった。 ・chadic.int のフォーマットを変更し、解析速度を高速化した。今までの辞書 を利用するには make で辞書を再作成する必要がある。 ・chasenrc の「注釈」で、品詞のみではなく、品詞あるいはフォーマット文 字列を指定できるようにした。 ・-Oc, -Os で複合語/構成語での出力を切り替えられるようにした。 ・autoconf+automake+libtool を導入し、./configure; make でコンパイル するようにした。またインストール先のディレクトリを変更した。 ・bi-gram 版のサポートをやめ、variable-gram 版のみコンパイル可能とした。 ・コマンドモードの #i の出力を日本語(2バイト文字)から英語に変更した。 ・茶筌ライブラリのヘッダファイルを chalib.h から chasen.h に変更した。 [不具合修正] ・ChaSenクライアントを使って、末尾が改行でないファイルを解析すると, サーバに接続したまま切断しなくなる不具合を修正. ・-j で8192文字のASCII文字列を解析すると SIGSEGV が発生する不具合を修正。 ・EUCの3バイト文字(0x8f 0xXX 0xXX)を含む文の解析結果がおかしくなる不具 合を修正。未知語としての対応のみで、*.dic の単語には使用できない. ・連結品詞と注釈の両方を設定しているときに解析が異常になる不具合を修正。 ・Makefile の CHASEN の値を変更するとインストールに失敗する不具合を修正。 ・ChaSen.pm の使用方法の記述の誤りを修正。 ・その他、細かい変更や不具合を修正。 ---------------------------------------------------------------------- 添付の日本語辞書(ipadic2.4)の品詞体系は、情報処理振興事業協会(IPA)で設 定されたIPA品詞体系(THiMCO97)に基づいて一部修正を加えました。 今回公開のIPA品詞体系日本語辞書 ipadic2.4 は、昨年12月公開の ipadic2.1 に対して、以下の点が修正されています。 ---------------------------------------------------------------------- ipadic 2.4.0 (2000/12/6) ---------------------------------------------------------------------- ・「助詞」の下位分類に「間投助詞」を追加 ・「形容詞・イ段」活用の「文語基本形」を「し」から「*」に変更。 ・「名詞-接尾-一般」から、人名に付くものを 「名詞-接尾-人名」として、 地名に付くものを「名詞-接尾-地域」として分離。 ・複合語のエントリを追加 ・アルファベットのみからなる語を復活 ・「形容詞・エエ型」を廃止。「ええ」「いい」の活用型を「不変化型」に変更。 ---------------------------------------------------------------------- また、現在作業中の内容として次のようなものがあり、近々公開の予定です。 ・英語辞書の公開: Penn TreeBank および Oxford Advanced Learners Dictionary of Contemporary English の見出しを取得し、Penn TreeBank II tagged corpus によってコスト学習を行った辞書を作成している。著作権上の許可 が得られ次第、公開の予定。 ・形態素解析結果の表示・修正用GUI "VisualMorphs": 以前より公開している「美茶」と同等のシステムであるが、Javaで書かれて おり、Unix 以外にも Windows など様々な OS 上の Java VM で動作する。 「茶筌」以外の形態素解析エンジンとの接続も可能である。(現時点で 「JUMAN 3.61」及び「MOZ」に対応) ・学習プログラムの公開: 品詞タグ付コーパスから単語および連接コストを学習するプログラムを公開 する予定。 ・古文辞書の公開: 古典対照語い表(宮島達夫他)、源氏物語等から得られた語彙とコストを利用 した辞書を作成している。準備ができ次第公開する。 --------------------------------------------------------------- 茶筌に関する情報は次のURLで公開しており、システムの入手も同ページから 可能です。 URL: http://chasen.aist-nara.ac.jp/ 御意見,御質問がありましたら chasen@cl.aist-nara.ac.jp までお願いし ます. 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 松本研究室 茶筌管理開発担当者集団