現在位置: メイン > 検索エンジンの仕組みと基礎知識クエリープロセシングクエリ >

形態素解析

形態素解析とは、辞書をもとに検索キーワードの内容を解析し、個々の単語として切り分ける技術です。

自然文を個別のキーワードに切り分ける形態素解析

形態素解析とは、辞書をもとに検索キーワードの内容を解析し、個々の単語として切り分ける技術です。検索エンジンは複数の単語からなる複合語や文章が検索キーワードとして入力された場合、それを構成する個々の単語によるAND検索を行います。このとき、英語のように個々の単語が空白文字で分ち書きされていない日本語では、入力された複合語を形態素解析によって単語1つ1つまで分解する必要があります。

完全一致型の検索システムの場合には形態素解析は必ずしも必要ありませんが、自然文検索が可能なタイプの検索システムにとっては必要不可欠な技術です。そのため、現在インターネット上で公開されているほとんどのロボット型検索エンジンは、このタイプでのクエリ処理を行っています。

複合語を構成する個々の単語によるAND検索が基本

前出のように、複数の単語からなる複合語や文章が検索キーワードとして入力された場合、形態素解析によって個々の単語に分解された後、それらをキーワードとするAND検索を行うものとしてクエリ処理されます。例えば、Googleで「東京格安料理」と入力してみましょう。検索結果で表示されるWebページのほとんど全てに「東京格安料理」という文字列は含まれていません。これは、形態素解析の結果、「東京」「格安」「料理」という個別の単語に切り分けられ、それぞれのキーワードでのAND検索が行われているためです。

形態素解析により文意を理解した検索が可能

形態素解析は、自然文で入力された検索語句の文意を理解した検索処理を行うために欠かせない処理です。例えばGoogleで、「東京の格安料理」と入力すると、先ほどの「東京格安料理」とは異なり、完全一致するページしか表示されません(該当するページがないかもしれません)。これは、形態素解析の結果から検索エンジンが「東京の格安料理」を1つの意味あるフレーズとして理解して検索したためです。このように、形態素解析は全文検索を単なる単語の一致ではなく、意味ある語句の一致として行うために欠かせない技術です。

Googleで「東京の格安料理」の検索結果をみてみましょう。個々の単語を分けずに、1つのフレーズとして検索することがわかります。

コンテンツのメニュー
広告



このサイトについて・リンクについて  無料ツール  Search Engine SPAM  住太陽のブログ  注目情報のFeed  新着情報のFeed  フィードメーター