13.3 htmllib -- HTML 文書の解析器

このモジュールでは、ハイパーテキスト記述言語 (HTML, HyperText Mark-up Language) 形式で書式化されたテキストファイルを解析するための基盤として 役立つクラスを定義しています。このクラスは I/O と直接的には接続 されません -- このクラスにはメソッドを介して文字列形式の入力を 提供する必要があり、出力を生成するには ``フォーマッタ (formatter)'' オブジェクトのメソッドを何度か呼び出さなくてはなりません。

HTMLParser クラスは、機能を追加するために他のクラスの基底クラス として利用するように設計されており、ほとんどのメソッドが拡張したり 上書きしたりできるようになっています。 さらにこのクラスは sgmllib モジュール で定義されている SGMLParser クラスから導出されており、その機能 を拡張しています。HTMLParser の実装は、RFC 1866 で解説されている HTML 2.0 記述言語をサポートします。 formatter では 2 つのフォーマッタ オブジェクト実装が提供されています; フォーマッタのインタフェースに ついての情報は formatter モジュールのドキュメントを参照 してください。

以下は sgmllib.SGMLParser で定義されているインタフェースの 概要です:

このモジュールではクラスを一つだけ定義しています:

class HTMLParser( formatter)
基底となる HTML パーザクラスです。HTML 2.0 仕様 (RFC 1866) が要求 している全てのエンティティ名をサポートしています。このクラスでは また、 HTML 2.0 の全てのタグ要素と HTML 3.0 および 3.2 の多くの タグ要素に対するハンドラを定義しています。

参考資料:

formatterモジュール:
抽象化された書式イベントの流れを writer オブジェクト上の特定の出力イベントに変換するための インターフェース。.
HTMLParserモジュール:
HTML パーザのひとつです。やや低いレベル でしか入力を扱えませんが、XHTML を扱うことができるように設計 されています。``広く知られている HTML (HTML as deployed)'' では 使われておらずかつ XHTML では正しくないとされる SGML 構文のいくつか は実装されていません。.
htmlentitydefsモジュール:
HTML 2.0 エンティティに対する置換 テキストの定義。.
sgmllibモジュール:
HTMLParser の基底クラス。.



ご意見やご指摘をお寄せになりたい方は、 このドキュメントについて... をご覧ください。