ページ解析とは、Webページのドキュメントの内容をプログラムが正しく処理できるように、ファイルの構造や素性を明かにする作業です。本来、Webページのドキュメントは、コンピュータにとって単なる文字の羅列にしか過ぎません。それをプログラム処理することで、はじめて意味あるドキュメントとして処理することができます。そのため、ドキュメントが電子ファイルとしてどのような性質を持ち、内容的にどのような構造を持っているのかをあらかじめ調べるページ解析は、その後のプログラム処理を正しく行っていくために重要な作業です。
構文解析
構文解析とは、ページの文意を考慮したプログラム処理を可能にするため、文法に基づいて文章を解析することです。 続きを読む
メタデータ
メタデータとは、データを分類処理しやすくするため、生データに対して付与する、データの素性を定義する情報です。 続きを読む
文字コードの処理
文字コードの処理とは、電子ファイルが扱う様々な文字コードの中で、そのWebページの記述に使われているものを確定させる作業です。 続きを読む

