ブログ

熟語やフレーズなど複数の単語の組み合わせで検索を行う場合、それらに含まれる単語の近接度や出現する順番が重要な意味を持つことがあります。現在の検索エンジンでは近接度や出現順は自動で重み付けがされますが、検索者がそれらを重視するクエリを送ることもできます。

→ 続きを読む

あいまい検索とは、入力された検索キーワードが正確でなくても、ユーザーの要求を予想して適切な語句を探す検索方式で、表記の揺れや類義語・同義語を補完します。またスペル補正はユーザーの入力ミスを指摘し、より精度の高い検索を提供します。

→ 続きを読む

AND, OR, NOT に代表されるブール演算は2つ以上のデータの比較を行うもので、プログラム理論の中で、最も基本的なアルゴリズムの1つです。そのため、検索エンジンのようなデータベースにとっても条件処理の基礎となっています。またこれら以外の特殊な検索式も存在します。

→ 続きを読む

インデクサの役割とは、その後の様々な処理を容易にし、高度な検索処理を可能にするための作業を行うことです。インデクサはデータに中間処理を施し、プログラムの処理速度を高め、データベース量を節約します。

→ 続きを読む

単語インデックス方式とは、インデクサが持つ単語辞書を元に、文章を単語に切り分けて行うインデックス方式であり、多くの検索エンジンに採用されています。文章を単語に切り分けてインデックスすることで、個々の単語の位置が正確にわかるデータを作ることができるほか、個々の単語が持つ意味をデータに付与することができるため、文章の内容をふまえた検索処理を実現することができます。

→ 続きを読む

構文解析とは、ページの文意を考慮したプログラム処理を可能にするため、文法に基づいて文章を解析することです。また構文解析の前に、そのWebページの記述に使われている文字コードを確定させる作業も行います。

→ 続きを読む

ウェブ上の情報は常に変化しているため、検索エンジンは常に、インデックスの情報を新しく書き換えていく必要があります。現在の主な検索エンジンは、逐次更新と一括更新を併用したインデックスアップデートを行うことで、情報の新鮮度を保っています。

→ 続きを読む

ウェブ上を自動的に巡回し、Webページの内容を収集していくプログラム、クローラー(スパイダー、ボット、ロボットとも言います)の働きと、主なUA名について説明します。

→ 続きを読む

クローラーは負荷を低減・分散するために数多くの技術を使用しています。このうち通信負荷を減らすhttp getと、分散処理を行うことで巡回効率を向上する分散型ロボットについて説明します。

→ 続きを読む