4.2.1 正規表現のシンタックス

正規表現(すなわち RE)は、それとマッチする文字列の集合を指定します；このモジュールの関数によって、特別な文字列が与えられた正規表現とマッチするかどうか（あるいは与えられた正規表現が特別な文字列とマッチするかどうか、これは結局同じことになりますが）を検査できます。

正規表現は、連結して新しい正規表現を作ることができます；もし A と B が、ともに正規表現であれば、 AB も正規表現です。一般的には、もし文字列 p が A とマッチし、別の文字列 q が B とマッチすれば、文字列 pqは AB にマッチします。ただし、この状況が成り立つのは A や B が優先度の低い演算や A と B との間の境界条件、あるいは番号付けされたグループ参照を含まない場合だけです。かくして、ここで述べるような、より簡単でプリミティブな正規表現から、複雑な正規表現を容易に構築することができます、正規表現に関する理論と実装の詳細については、上記の Friedl 本か、コンパイラー構造に関する大抵の教科書を調べて下さい。

以下で正規表現の形式に関する簡単な説明をしておきます。より詳細な情報やよりやさしい説明に関しては、http://www.python.org/doc/howto/からアクセスできる正規表現ハウツウを調べて下さい。

正規表現には、特殊文字と通常文字の両方を含めることができます。 "A"、 "a"、あるいは "0"のような殆どの通常文字は、もっとも簡単な正規表現です；それらは、単純にそれら自身とマッチします。通常文字を連結することもできますので、 last は文字列 'last'とマッチします。(このセクションの残りでは、RE を普通引用符なしで この特殊な形式で書き、マッチされる文字列は、'単一引用符内'に書きます。)

"|" や "("のようないくつかの文字は特殊文字です。特殊文字は通常文字クラスを表すか、あるいは通常文字に関する正規表現がどのように解釈されるかに影響します。

特殊文字は：

"."

(ドット。) デフォールトのモードでは、これは改行以外の任意の文字とマッチします。もしDOTALL フラグが指定されていれば、これは、改行も含むすべての文字とマッチします。

"^"

(キャレット。) 文字列の先頭とマッチし、MULTILINE モードでは、各改行の直後とマッチします。

"$"

文字列の末尾、あるいは文字列の末尾の改行の直前とマッチします。 fooは、'foo' と'foobar' の両方とマッチし、一方、正規表現 foo$は、'foo' だけとマッチします。もっと興味深いことは、'foo1\nfoo2\n' で foo.$を検索すると、普通は 'foo2' とマッチするのですが、 MULTILINEモードでは 'foo1' とマッチします。

"*"

結果の RE は、前にある RE を、0 回以上できるだけ多く繰り返したものとマッチするようになります。ab* は、 'a'、'ab'、あるいは 'a' に任意個数の'b' を続けたものとマッチします。

"+"

結果の RE は、前にある RE を、1 回以上繰り返したものとマッチするようになります。ab+ は、'a' に非ゼロ個の 'b' が続いたものとマッチします；これは、'a' だけとはマッチしません。

"?"

結果の RE は、前にある RE を、0 回か 1回繰り返したものとマッチするようになります。 ab? は、'a' あるいは 'ab' とマッチします。

*?, +?, ??

"*"、 "+"、および "?" 修飾子は、すべて 欲張り(greedy)です；それらはできるだけ多くのテキストとマッチします。時にはこの動作が望ましくない場合があります；もし RE <.*> を、 '<H1>title</H1>'とマッチさせると、これは、全文字列とマッチし、 '<H1>'だけとはマッチしません。"?"を修飾子の後に追加すると、 控え目な(non-greedy) あるいは最小風のマッチをするようになります；できるだけ 少ない 文字とマッチします。前の式で .*?を使うと、 '<H1>' だけとマッチします。

{m}

前にある RE の m 回の正確なコピーとマッチすべきであることを指定します；マッチ回数が少なければ、RE 全体ではマッチしません。例えば、 a{6} は、正確に 6個の "a" 文字とマッチしますが、 5個ではマッチしません。

{m,n}

結果の RE は、前にある RE を、 m回からn 回まで繰り返したもので、できるだけ多く繰り返したものとマッチするように、マッチします。例えば、a{3,5}は、3個から 5個の "a" 文字とマッチします。 mを省略するとマッチ回数の下限として0を指定した事になり、 n を省略することは、上限が無限であることを指定します； a{4,}b は aaaabや、千個の "a" 文字に bが続いたものとマッチしますが、aaabとはマッチしません。コンマは省略できません、そうでないと修飾子が上で述べた形式と混同されてしまうからです。

{m,n}?

結果の RE は、前にある RE の m回からn 回まで繰り返したもので、できるだけ少なく 繰り返したものとマッチするように、マッチします。これは、前の修飾子の控え目バージョンです。例えば、 6文字文字列 'aaaaaa'では、a{3,5} は、5個の "a" 文字とマッチしますが、a{3,5}? は3個の文字とマッチするだけです。

"\"

特殊文字をエスケープする( "*"や "?"等のような文字とのマッチをできるようにする)か、あるいは、特殊シーケンスの合図です; 特殊シーケンスは後で議論します。

もしパターンを表現するのに raw string を使用していないのであれば、 Python も、バックスラッシュを文字列リテラルでのエスケープシーケンスとして使っていることを覚えていて下さい；もしエスケープシーケンスを Python の構文解析器が認識して処理しなければ、そのバックスラッシュとそれに続く文字は、結果の文字列にそのまま含まれます。しかし、もし Python が結果のシーケンスを認識するのであれば、バックスラッシュを 2回繰り返さなければいけません。このことは複雑で理解しにくいので、最も簡単な表現以外は、すべて raw string を使うことをぜひ勧めます。

[]

文字の集合を指定するのに使用します。文字は個々にリストするか、文字の範囲を、2つの文字と"-"でそれらを分離して指定することができます。特殊文字は集合内では有効ではありません。例えば、[akm$]は、文字 "a"、"k"、 "m"、あるいは "$"のどれかとマッチします； [a-z] は、任意の小文字と、[a-zA-Z0-9] は、任意の文字や数字とマッチします。 (以下で定義する) \w や\Sのような文字クラスも、範囲に含めることができます。もし文字集合に "]" や "-" を含めたいのなら、その前にバックスラッシュを付けるか、それを最初の文字として指定します。たとえば、パターン []] は ']' とマッチします。

範囲内にない文字とは、その集合の補集合をとることでマッチすることができます。これは、集合の最初の文字として "^" を含めることで表すことができます；他の場所にある "^"は、単純に "^"文字とマッチするだけです。例えば、 [^5] は、 "5"以外の任意の文字とマッチし、 [^^] は、 "^" 以外の任意の文字とマッチします。

"|"

A|B は、ここで A と B は任意の RE ですが、 A か B のどちらかとマッチする正規表現を作成します。任意個数の RE を、こういう風に "|" で分離することができます。これはグループ (以下参照) 内部でも同様に使えます。検査対象文字列をスキャンする中で、 "|" で分離された RE は左から右への順に検査されます。一つでも完全にマッチしたパターンがあれば、そのパターン枝が受理されます。このことは、もし A がマッチすれば、たとえB によるマッチが全体としてより長いマッチになったとしても、B を決して検査しないことを意味します。言いかえると、"|" 演算子は決して貪欲 (greedy) ではありません。文字通りの "|"とマッチするには、\| を使うか、あるいはそれを [|] のように文字クラス内に入れます。

(...)

丸括弧の中にどのような正規表現があってもマッチし、またグループの先頭と末尾を表します；グループの中身は、マッチが実行された後に検索され、後述する \number 特殊シーケンス付きの文字列内で、後でマッチされます。文字通りの "(" や ")"とマッチするには、 $ あるいは $ を使うか、それらを文字クラス内に入れます： [(] [)]。

(?...)

これは拡張記法です( "(" に続く"?"は他には意味がありません)。 "?"の後の最初の文字が、この構造の意味とこれ以上のシンタックスがどういうものであるかを決定します。拡張記法は普通新しいグループを作成しません； (?P<name>...)がこの規則の唯一の例外です。以下に現在サポートされている拡張記法を示します。

(?iLmsux)

( 集合 "i"、"L"、 "m"、 "s"、"u"、"x" から1文字以上)。グループは空文字列ともマッチします；文字は、正規表現全体の対応するフラグ (re.I、 re.L、 re.M、 re.S、 re.U、 re.X ) を設定します。これはもしflag 引数をcompile() 関数に渡さずに、そのフラグを正規表現の一部として含めたいならば役に立ちます。

(?x) フラグは、式が構文解析される方法を変更することに注意して下さい。これは式文字列内の最初か、あるいは1つ以上の空白文字の後で使うべきです。もしこのフラグの前に非空白文字があると、その結果は未定義です。

(?:...)

正規表現の丸括弧の非グループ化バージョンです。どのような正規表現が丸括弧内にあってもマッチしますが、グループによってマッチされたサブ文字列は、マッチを実行したあと検索されることも、あるいは後でパターンで参照されることも できません。

(?P<name>...)

正規表現の丸括弧と同様ですが、グループによってマッチされたサブ文字列は、記号グループ名 nameを介してアクセスできます。グループ名は、正しい Python 識別子でなければならず、各グループ名は、正規表現内で一度だけ定義されなければなりません。記号グループは、グループに名前が付けられていない場合のように、番号付けされたグループでもあります。そこで上の例で 'id'という名前がついたグループは、番号グループ 1 として参照することもできます。

たとえば、もしパターンが (?P<id>[a-zA-Z_]\w*)であれば、このグループは、マッチオブジェクトのメソッドへの引数に、 m.group('id') あるいは m.end('id')のような名前で、またパターンテキスト内(例えば、 (?P=id)) や置換テキスト内( \g<id>のように) で名前で参照することができます。

(?P=name)

前に name と名前付けされたグループにマッチした、いかなるテキストにもマッチします。

(?#...)

コメントです；括弧の内容は単純に無視されます。

(?=...)

もし ...が次に続くものとマッチすればマッチしますが、文字列をまったく消費しません。これは先読みアサーション(lookahead assertion)と呼ばれます。例えば、Isaac (?=Asimov) は、'Isaac 'に 'Asimov'が続く場合だけ、'Isaac 'とマッチします。

(?!...)

もし ... が次に続くものとマッチしなければマッチします。これは否定先読みアサーション(negative lookahead assertion)です。例えば、 Isaac (?!Asimov)は、'Isaac ' に 'Asimov'が続かない場合のみマッチします。

(?<=...)

もし文字列内の現在位置の前に、現在位置で終わる ... とのマッチがあれば、マッチします。これは 肯定後読みアサーション(positive lookbehind assertion)と呼ばれます。 (?<=abc)def は、"abcdef" にマッチを見つけます、というのは後読みが3文字をバックアップして、含まれているパターンとマッチするかどうか検査するからです。含まれるパターンは、固定長の文字列にのみマッチしなければなりません、ということは、 abc や a|b は許されますが、 a* や a{3,4} は許されないことを意味します。肯定後読みアサーションで始まるパターンは、検索される文字列の先頭とは決してマッチしないことに注意して下さい；多分、match() 関数よりは search()関数を使いたいでしょう：

>>> import re
>>> m = re.search('(?<=abc)def', 'abcdef')
>>> m.group(0)
'def'

この例ではハイフンに続く単語を探します：

>>> m = re.search('(?<=-)\w+', 'spam-egg')
>>> m.group(0)
'egg'

(?<!...)

もし文字列内の現在位置の前に ...とのマッチがないならば、マッチします。これは 否定後読みアサーション(negative lookbehind assertion)と呼ばれます。肯定後読みアサーションと同様に、含まれるパターンは固定長さの文字列だけにマッチしなければいけません。否定後読みアサーションで始まるパターンは、検索される文字列の先頭とマッチすることができます。

特殊シーケンスは "\" と以下のリストにある文字から構成されます。もしリストにあるのが通常文字でないならば、結果の RE は 2番目の文字とマッチします。例えば、 \$ は文字 "$"とマッチします。

\number: 同じ番号のグループの中身とマッチします。グループは1から始まる番号をつけられます。例えば、 (.+) \1 は、'the the' あるいは '55 55'とマッチしますが、 'the end'とはマッチしません(グループの後のスペースに注意して下さい)。この特殊シーケンスは最初の 99 グループのうちの一つとマッチするのに使うことができるだけです。もし numberの最初の桁が 0 である、すなわち numberが 3 桁の8進数であれば、それはグループのマッチとは解釈されず、 8進数値 number を持つ文字として解釈されます。文字クラスの "["と "]"の中の数値エスケープは、文字として扱われます。
\A: 文字列の先頭だけにマッチします。
\b: 空文字列とマッチしますが、単語の先頭か末尾の時だけです。単語は英数字あるいは下線文字の並んだものとして定義されていますので、単語の末尾は空白あるいは非英数字、非下線文字によって表されます。 \b は、\w と \Wの間の境界として定義されているので、英数字であると見なされる文字の正確な集合は、UNICODEとLOCALEフラグの値に依存することに注意して下さい。文字の範囲の中では、\b は、 Python の文字列リテラルと互換性を持たせるために、後退(backspace)文字を表します。
\B: 空文字列とマッチしますが、それが単語の先頭あるいは末尾にない時だけです。これは \bのちょうど反対ですので、 LOCALE とUNICODEの設定にも影響されます。
\d: 任意の十進数とマッチします；これは集合 [0-9] と同じ意味です。
\D: 任意の非数字文字とマッチします；これは集合 [^0-9]と同じ意味です。
\s: 任意の空白文字とマッチします；これは集合 [ \t\n\r\f\v]と同じ意味です。
\S: 任意の非空白文字とマッチします；これは集合 [^ \t\n\r\f\v] と同じ意味です。
\w: LOCALE とUNICODE フラグが指定されていない時は、任意の英数文字および下線とマッチします；これは、集合 [a-zA-Z0-9_]と同じ意味です。LOCALEが設定されていると、集合 [0-9_] プラス現在のロケール用に英数字として定義されている任意の文字とマッチします。もし UNICODE が設定されていれば、文字 [0-9_] プラス Unicode 文字特性データベースで英数字として分類されているものとマッチします。
\W: LOCALEと UNICODE フラグが指定されていない時、任意の非英数文字とマッチします；これは集合 [^a-zA-Z0-9_]と同じ意味です。 LOCALEが指定されていると、集合 [0-9_]になく、現在のロケールで英数字として定義されていない任意の文字とマッチします。もし UNICODEがセットされていれば、これは [0-9_] および Unicode 文字特性データベースで英数字として表されている文字以外のものとマッチします。
\Z: 文字列の末尾とのみマッチします。

Python 文字列リテラルによってサポートされている標準エスケープのほとんども、正規表現パーザに認識されます：

\a      \b      \f      \n
\r      \t      \v      \x
\\

8進エスケープは制限された形式で含まれています：もし第1桁が 0 であるか、もし8進3桁であれば、それは8進エスケープとみなされます。そうでなければ、それはグループ参照です。

ご意見やご指摘をお寄せになりたい方は、 このドキュメントについて... をご覧ください。