Python は様々な構造化データマークアップ形式を扱うための、様々な モジュールをサポートしています。これらは 標準化一般マークアップ言語 (SGML) およびハイパーテキストマークアップ 言語 (HTML)、そして可拡張性マークアップ言語 (XML) を扱うための いくつかのインタフェースからなります。
注意すべき重要な点として、xml パッケージは少なくとも一つの SAX に対応した XML パーザが利用可能でなければなりません。 Python 2.3 からは Expat パーザが Python に取り込まれているので、 xml.parsers.expat モジュールは常に利用できます。 また、PyXML 追加パッケージ についても知りたいと思うかもしれません; このパッケージは Python 用の拡張された XML ライブラリセットを提供します。
xml.dom および xml.sax パッケージのドキュメントは Python による DOM および SAX インタフェースへのバインディングに 関する定義です。
HTMLParser | HTML と XHTML を扱えるシンプルなパーザ。 | |
sgmllib | HTML を解析するのに必要な機能だけを備えた SGML パーザ。 | |
htmllib | HTML 文書の解析器。 | |
htmlentitydefs | HTML 一般エンティティの定義。 | |
xml.parsers.expat | Expat による、検証を行わない XML パーザへのインタフェース | |
xml.dom | Python のための文書オブジェクトモデル API。 | |
xml.dom.minidom | 軽量な文書オブジェクトモデルの実装。 | |
xml.dom.pulldom | SAX イベントからの部分的な DOM ツリー構築のサポート。 | |
xml.sax | SAX2 基底クラスと有用な関数のパッケージ | |
xml.sax.handler | SAX イベント・ハンドラの基底クラス | |
xml.sax.saxutils | SAX とともに使う有用な関数とクラスです。 | |
xml.sax.xmlreader | SAX 準拠の XML パーサが実装すべきインターフェースです。 | |
xmllib | XML ドキュメントのパーサ。 |
参考: