単語インデックス方式とは、インデクサが持つ単語辞書を元に、文章を単語に切り分けて行うインデックス方式であり、多くの検索エンジンに採用されています。文章を単語に切り分けてインデックスすることで、個々の単語の位置が正確にわかるデータを作ることができるほか、個々の単語が持つ意味をデータに付与することができるため、文章の内容をふまえた検索処理を実現することができます。

自然言語処理と分かち書き

分かち書きとは、単語ごとに空白や区切り文字を入れて文章を書いて行く文章記述方法です。そのように記述していくことで、プログラムを用いて簡単に、文章を個々の単語に分解することができます。 英文をはじめヨーロッパ言語の大半は、はじめから単語と単語の間に空白や区切り文字を置いて記述されています。例えば、”This is a pen.”のように、個々の単語は空白によって区切られます。一方で日本語の記述では単語と単語が空白なく繋がるため、分かち書きをもとにした文章の処理は、プログラムで日本語の自然言語を扱う上で最も基礎的な技術です。 日本語は言葉が連続して記述される「べた書き」の文章です。そのため、分かち書きのような単純な処理で単語に分解することができません。そのため日本語の解析においては、はじめに形態素解析などの前処理をとおして、文章を「分かち書き」した状態にしてから処理を行います。

自然文を単語に切り分ける形態素解析

形態素解析とは、辞書をもとに自然文を解析して、品詞ごとの単語に切り分ける技術です。日本語のように「分かち書き」されていない文章は、形態素解析を行うことで「分かち書き」された英語圏の文書と同様のプロセシングを行うことができます。 形態素解析は、日本語のドキュメントを処理する上で、内容をふまえた検索結果を実現するために欠かせない技術です。形態素解析を行い、文章を個々の単語に切り分ることで、はじめて文章中で個々の単語がどのように扱われているのかを解析することができます。ただし形態素解析の結果は辞書に依存するため一様ではありません。 そのため、確実に文意を反映した検索を実現することは、日本語ではまだ難しい状態にあります。

「形態素」とは語のなかで変化しない言葉の最小単位

形態素解析の「形態素」とは、言葉のなかで変化しない最小単位を指します。形態素は単語に近いものですが、日本語では語尾の変化があることから、実際にはより細かく分類されます。例えば、「来られないようだが」は次のように形態素に分けられます。
「来られないようだが」の形態素解析
形態素 読み 基本形 品詞の種類 活用形 接続形
来る 動詞-自立 カ変・来ル 未然レル接続
られ ラレ られる 動詞-接尾 一段 未然ナイ接続
ない ナイ ない 助動詞 特殊・ナイ 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
助動詞 特殊・ダ 基本形
助詞-接続助詞

単語の集合としてのインデックス

単語インデックス方式では、形態素に分解された単語を元に、文書全体で使用された単語の総数や、個々の単語が出現した箇所出現率、単語の並び順や単語同士の位置関係などを数値化して転置ファイルとし、インデックスに格納します。このような処理を行っておくことで、検索精度と検索速度を向上させることが可能になります。