Ko-BaKo/Jの特徴

日本語解析は、さまざまな処理から成っています。そのため、テキストを解析するシステムを構築するには、いくつかの前処理を組み合わせる必要があります。

Ko-BaKo/Jは、テキスト解析に必要な前処理をパッケージングしたものです。

ビジネス、研究それぞれにおいて、言語解析、意味解析、マイニング、検索など幅広い分野でご利用いただけます。

Wordの文書をそのまま解析できる

文切りツールを用いて、テキスト文書、Word、HTML、Excel、PowerPointからテキスト部分を取り出し、 1文単位に整えることで、スムーズに形態素解析・構文解析処理することができます。

Ko-BaKo/Jの辞書の特徴

現代語や固有名詞を強化した大規模辞書(約150万語)を搭載しています。

意味情報として、AKO(A-Kind-Of;意味分類)、THISA(IS-A関係;該当語の上位語、仲間)、THPOF(Part-Of関係;該当語を部分する用語)、THVAL(該当語の属性値)を 持っているので単語の意味情報を利用したテキスト解析も可能です。 またTHISA、THPOF、THVALはユーザ自身が定義することが可能なので独自のシソーラスを構築することができます。

Ko-BaKo/Jを利用したツールの例

Ko-BaKo/Jの内部辞書では、単語に意味情報が付与されています。

このツールでは、一箇所に集められたメールを解析し、時間・場所・人名の意味情報が ふられている単語を抜き出すことができます。 また、辞書データベース追加・修正機能をもちいて、新たな意味属性を定義し、 その意味属性に単語を追加することで、該当語をテキストから抜き出すことができます。

辞書のカスタマイズ例

特定の語集団に検索用に分類属性を与えることができます。 検索・抽出ツールの紹介のなかで、一例を示しています。

Ko-BaKo/Jを用いたシステム開発

Ko-BaKo/Jを組み込んだシステム開発、辞書のカスタマイズなどをお手伝いいたします。