4.4 `difflib` -- 差異の計算を助ける

バージョン 2.1 で新たに追加された仕様です。

class SequenceMatcher: 柔軟性のあるクラスで、ハッシュ化できる要素の連続であれば、どんな型のものであっても比較可能です。基礎的なアルゴリズムは可塑的なものであり、1980年代の後半に発表されたRatcliffとObershelp によるアルゴリズム、大げさに名づけられた``ゲシュタルトパターンマッチング''よりはもう少し良さそうなものです。その考え方は、 ``junk''要素を含まない最も長いマッチ列を探すことです（Ratcliffと Obershelpのアルゴリズムではjunkを示しません）。このアイデアは、下位のマッチ列から左または右に伸びる列の断片に対して再帰的にあてはまります。これは小さな文字列に対して効率良いものではありませんが、人間の目からみて「良く見える」ようにマッチする傾向があります。
タイミング: 基本的なRatcliff-Obershelpアルゴリズムは、予想の3乗、最悪の場合でも2乗となります。SequenceMatcher オブジェクトは、最悪のケースに比べて4倍、予想される挙動は、シーケンスの中にどのくらいの要素があるのか（最良なのは一列の場合）、というややこしい状況に依存しています。

class Differ

テキスト行からなるシーケンスを比較するクラスです。人が読むことのできる差異を作成します。DifferクラスはSequenceMatcher クラスを利用します。これらは、列からなるシーケンスを比較し、 (ほぼ) 同一の列内の文字を比較します。

Differクラスによる差異の各行は、2文字のコードではじめられます。

コード	意味
`'- '`	列は文字列1にのみ存在する
`'+ '`	列は文字列2にのみ存在する
`' '`	列は両方の文字列で同一
`'? '`	列は入力文字列のどちらにも存在しない

'? 'で始まる列は線内の差異に注意を向けようとします。その差異は、入力されたシーケンスのどちらにも存在しません。シーケンスがタブ文字を含むとき、これらのラインは判別しづらいものになることがあります。

class HtmlDiff

このクラスは、二つのテキストを左右に並べて比較表示し、行間あるいは行内の変更点を強調表示するような HTML テーブル (またはテーブルの入った完全な HTML ファイル) を生成するために使います。テーブルは完全差分モード、コンテキスト差分モードのいずれでも生成できます。

このクラスのコンストラクタは以下のようになっています:

__init__( [tabsize][, wrapcolumn][, linejunk][, charjunk])

HtmlDiff のインスタンスを初期化します。

tabsize はオプションのキーワード引数で、タブストップ幅を指定します。デフォルトは 8 です。

wrapcolumn はオプションのキーワード引数で、テキストを折り返すカラム幅を指定します。デフォルトは None で折り返しを行いません。

linejunk および charjunk はオプションのキーワード引数で、 ndiff() (HtmlDiff はこの関数を使って左右のテキストの差分を HTML で生成します) に渡されます。それぞれの引数のデフォルト値および説明は ndiff() のドキュメントを参照してください。

以下のメソッドが public になっています:

make_file( fromlines, tolines[, fromdesc][, todesc][, context][, numlines])

fromlines と tolines (いずれも文字列のリスト) を比較し、行間または行内の変更点が強調表示された行差分の入った表を持つ完全な HTML ファイルを文字列で返します。

fromdesc および todesc はオプションのキーワード引数で、差分表示テーブルにおけるそれぞれ差分元、差分先ファイルのカラムのヘッダになる文字列を指定します (いずれもデフォルト値は空文字列です)。

context および numlines はともにオプションのキーワード引数です。contest を True にするとコンテキスト差分を表示し、デフォルトの False にすると完全なファイル差分を表示します。numlines のデフォルト値は 5 で、 context が True の場合、 numlines は強調部分の前後にあるコンテキスト行の数を制御します。context が False の場合、numlines は "next" と書かれたハイパーリンクをたどった時に到達する場所が次の変更部分より何行前にあるかを制御します (値をゼロにした場合、"next" ハイパーリンクを辿ると変更部分の強調表示がブラウザの最上部に表示されるようになります)。

make_table( fromlines, tolines[, fromdesc][, todesc][, context][, numlines]): fromlines と tolines (いずれも文字列のリスト) を比較し、行間または行内の変更点が強調表示された行差分の入った完全な HTML テーブルを文字列で返します。
このメソッドの引数は、make_file() メソッドの引数と同じです。

Tools/scripts/diff.py はこのクラスへのコマンドラインフロントエンドで、使い方を学ぶ上で格好の例題が入っています。

バージョン 2.4 で新たに追加された仕様です。

context_diff( a, b[, fromfile][, tofile][, fromfiledate][, tofiledate][, n][, lineterm])

a と b (文字列のリスト) を比較し、差異 (差異のある行を生成するジェネレータ) を、diff のコンテクスト形式で返します。

コンテクスト形式は、変更があった行に前後数行を加えてある、コンパクトな表現方法です。変更箇所は、変更前/変更後に分けて表します。コンテクスト（変更箇所前後の行）の行数は n で指定し、デフォルト値は 3 です。

デフォルトでは、diff の制御行 (*** や --- を含む行) の最後には、改行文字が付加されます。この場合、入出力共、行末に改行文字を持つので、file.readlines() で得た入力から生成した差異を、 file.writelines() に渡す場合に便利です。行末に改行文字を持たない入力に対しては、出力でも改行文字を付加しないように lineterm 引数に "" を渡してください。

diff コンテクスト形式は、通常、ヘッダにファイル名と変更時刻を持っています。この情報は、文字列 fromfile、tofile、fromfiledate、 tofiledate で指定できます。変更時刻の書式は、通常、 time.ctime() の戻り値と同じものを使います。指定しなかった場合のデフォルト値は、空文字列です。

Tools/scripts/diff.py は、この関数のコマンドラインのフロントエンド（インターフェイス）になっています。

バージョン 2.3 で新たに追加された仕様です。

get_close_matches( word, possibilities[, n][, cutoff])

最も「十分」なマッチのリストを返します。wordは、なるべくマッチして欲しい（一般的には文字列の）シーケンスです。 possibilitiesはwordにマッチさせる（一般的には文字列）シーケンスのリストです。

オプションの引数n（デフォルトでは3）はメソッドの返すマッチの最大数です。n は 0 より大きくなければなりません。

オプションの引数 cutoff （デフォルトでは 0.6）は、 [0, 1]の間となるfloatの値です。可能性として、少なくとも word が無視されたのと同様の数値にはなりません。

可能性のある、（少なくとも n に比べて）最もよいマッチはリストによって返され、同一性を表す数値に応じて最も近いものから順に格納されます。

>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])
['apple', 'ape']
>>> import keyword
>>> get_close_matches('wheel', keyword.kwlist)
['while']
>>> get_close_matches('apple', keyword.kwlist)
[]
>>> get_close_matches('accept', keyword.kwlist)
['except']

ndiff( a, b[, linejunk[, charjunk]])

a と b （文字列からなるリスト）を比較し、Differ オブジェクト形式の差異（解析器は差異のある列）を返します。

オプションのパラメータ linejunk と charjunk は、filter 機能のためのキーワードです（使わないときは空にする）。

linejunk: string型の引数ひとつを受け取る関数で、文字列が junkか否かによってtrueを（違うときにはtrueを）返します。Python 2.3以降、デフォルトでは（None）になります。それまでは、モジュールレべルの関数IS_LINE_JUNK()であり、それは少なくともひとつのシャープ記号（"#"）をのぞく、可視のキャラクタを含まない行をフィルタリングします。 Python 2.3では、下位にあるSequenceMatcherクラスが、雑音となるくらい頻繁に登場する列であるか否かを、動的に分析します。これは、バージョン2.3以前でのデフォルト値よりうまく動作します。

charjunk: 長さ1の文字を受け取る関数です。デフォルトでは、モジュールレべルの関数 IS_CHARACTER_JUNK()であり、これは空白文字列（空白またはタブ、注：改行文字をこれに含めるのは悪いアイデア！）をフィルタリングします。

Tools/scripts/ndiff.py は、この関数のコマンドラインのフロントエンド（インターフェイス）です。

>>> diff = ndiff('one\ntwo\nthree\n'.splitlines(1),
...              'ore\ntree\nemu\n'.splitlines(1))
>>> print ''.join(diff),
- one
?  ^
+ ore
?  ^
- two
- three
?  -
+ tree
+ emu

restore( sequence, which)

差異を生成したシーケンスのひとつを返します。

与えられるsequenceは Differ.compare() または ndiff()によって生成され、ファイル1または2（引数 whichで指定される）によって元の列に復元され、行頭のプレフィクスが取りのぞかれます。

例:

>>> diff = ndiff('one\ntwo\nthree\n'.splitlines(1),
...              'ore\ntree\nemu\n'.splitlines(1))
>>> diff = list(diff) # materialize the generated delta into a list
>>> print ''.join(restore(diff, 1)),
one
two
three
>>> print ''.join(restore(diff, 2)),
ore
tree
emu

unified_diff( a, b[, fromfile][, tofile][, fromfiledate][, tofiledate][, n][, lineterm])

a と b (共に文字列のリスト) を比較し、diff の unified 形式で、差異 (差分行を生成するジェネレータ) を返します。

unified 形式は変更があった行に前後数行を加えた、コンパクトな表現方法です。変更箇所は (変更前/変更後を分離したブロックではなく) インライン・スタイルで表されます。コンテクスト（変更箇所前後の行）の行数は、n で指定し、デフォルト値は 3 です。

デフォルトでは、diff の制御行 (---、+++、@@ を含む行) は行末で改行します。この場合、入出力共、行末に改行文字を持つので、 file.readlines() で得た入力を処理して生成した差異を、 file.writelines() に渡す場合に便利です。

行末に改行文字を持たない入力には、出力も同じように改行なしになるように、lineterm 引数を "" にセットしてください

diff コンテクスト形式は、通常、ヘッダにファイル名と変更時刻を持っています。この情報は、文字列 fromfile、tofile、 fromfiledate、tofiledate で指定できます。変更時刻の書式は、通常、time.ctime() の戻り値と同じものを使います。指定しなかった場合のデフォルト値は、空文字列です。

Tools/scripts/diff.py は、この関数のコマンドラインのフロントエンド（インターフェイス）です。

バージョン 2.3 で新たに追加された仕様です。

IS_LINE_JUNK( line): 無視できる列のときtrueを返します。列 line が空白、または "#"" ひとつのときには無視できます。それ以外の時には無視できません。ndiff() の引数linkjunkとしてデフォルトで使用されます。 ndiff()のlinejunkはPython 2.3以前のものです。

IS_CHARACTER_JUNK( ch): 無視できる文字のときtrueを返します。文字 ch が空白、またはタブ文字のときには無視できます。それ以外の時には無視できません。 ndiff() の引数charjunkとしてデフォルトで使用されます。

参考:

Pattern Matching: The Gestalt Approach （パターンマッチング: 全体アプローチ）: John W. Ratcliff と D. E. Metzener による同一性アルゴリズムに関する議論。 Dr. Dobb's Journal 1988年7月号掲載。

ご意見やご指摘をお寄せになりたい方は、 このドキュメントについて... をご覧ください。

4.4 difflib -- 差異の計算を助ける

4.4 `difflib` -- 差異の計算を助ける