HTML解析とは、クローラーがWWW上を巡回する方法を決定するために行う、Webページのドキュメントに対する解析作業です。検索エンジンのクローラーは、ユーザーに申請されたWebページだけをクローリングするわけではありません。Webページのドキュメントに記載されるリンク情報を手がかりに、 WWW上の様々なWebページをたどっていきます。検索エンジンはそのために、HTML文法に基づいてドキュメントの内容を解析し、その中のハイパーリンクの内容を解析することで、次にクローリングすべきWebページのURIを取得します。
収集URIのリンク解析
リンク解析とは、クローラーが次に巡回すべきURIを取得するために、Webページ内のリンクの内容を解析することです。 続きを読む
HTMLパース
HMLパースとは、パーサーを用いて、HTMLの文法規則に基づいてWebページの内容を解析することです。 続きを読む
HTMLパース
HMLパースとは、パーサーを用いて、HTMLの文法規則に基づいてWebページの内容を解析することです。 続きを読む

