Python轮子：计算差异的辅助工具~difflib

发表于2025年3月10日2025年3月10日作者桔子菌

内容目录

应用场景
安装或导入
基本用法
高级功能
总结

原文链接：http://www.juzicode.com/python-module-difflib

difflib 是 Python 标准库中用于比较序列（如字符串、列表等）差异的模块。它提供了多种差异比较算法，能够生成人类可读的差异报告，适用于文本比对、版本控制、代码审查等场景。

应用场景

difflib 在以下场景中表现突出：

文本比对：比较两个文本文件的差异
版本控制：生成版本间的差异报告
代码审查：比较代码修改前后的变化
数据清洗：检测数据集中的不一致性

安装或导入

difflib 是 Python 标准库的一部分，无需额外安装，直接导入即可使用：

import difflib

基本用法

difflib 的基本用法涵盖了常见的文本比较需求，例如生成差异报告、查找相似字符串等。以下示例展示了如何通过 difflib 比较文本、查找差异并生成可读性强的输出。

1. 比较字符串差异

比较两个字符串的差异，并生成人类可读的差异报告。

#juzicode.com/VX公众号:juzicode
import difflib

text1 = "Hello, world!"
text2 = "Hello, Python!"
diff = difflib.ndiff(text1.splitlines(), text2.splitlines())
print('\n'.join(diff))

2. 生成 HTML 差异报告

生成 HTML 格式的差异报告，适合在网页中展示。

#juzicode.com/VX公众号:juzicode
import difflib

text1 = "Hello, world!"
text2 = "Hello, Python!"
diff = difflib.HtmlDiff().make_file(text1.splitlines(), text2.splitlines())
with open("diff.html", "w") as f:
    f.write(diff)

3. 查找相似字符串

从一组字符串中查找与目标字符串最相似的字符串。

#juzicode.com/VX公众号:juzicode
import difflib

words = ["apple", "banana", "orange", "grape"]
target = "aple"
match = difflib.get_close_matches(target, words)
print(match)  # 输出: ['apple']

4. 比较文件差异

比较两个文件的差异，并生成统一的差异报告。

#juzicode.com/VX公众号:juzicode
import difflib

with open("file1.txt") as f1, open("file2.txt") as f2:
    diff = difflib.unified_diff(
        f1.readlines(), f2.readlines(),
        fromfile="file1.txt", tofile="file2.txt"
    )
    print(''.join(diff))

5. 生成上下文差异报告

生成上下文格式的差异报告，适合代码审查。

#juzicode.com/VX公众号:juzicode
import difflib

text1 = "Hello, world!"
text2 = "Hello, Python!"
diff = difflib.context_diff(text1.splitlines(), text2.splitlines())
print('\n'.join(diff))

6. 计算字符串相似度

计算两个字符串的相似度，返回一个介于 0 和 1 之间的值。

#juzicode.com/VX公众号:juzicode
import difflib

text1 = "Hello, world!"
text2 = "Hello, Python!"
similarity = difflib.SequenceMatcher(None, text1, text2).ratio()
print(similarity)  # 输出: 0.769

高级功能

difflib 的高级功能包括更复杂的文本比较需求，例如处理大型文件、自定义比较算法以及与其他工具结合使用。以下示例展示了如何利用 difflib 实现更灵活的文本比较操作，适用于生成复杂的差异报告或处理特定格式的文本。

1. 处理大型文件

逐行比较大型文件，避免内存占用过高。

#juzicode.com/VX公众号:juzicode
import difflib

def file_diff(file1, file2):
    with open(file1) as f1, open(file2) as f2:
        diff = difflib.unified_diff(
            f1.readlines(), f2.readlines(),
            fromfile=file1, tofile=file2
        )
        print(''.join(diff))

file_diff("large_file1.txt", "large_file2.txt")

2. 结合正则表达式

结合正则表达式处理特定格式的文本差异。

#juzicode.com/VX公众号:juzicode
import difflib
import re

text1 = "Hello, 123!"
text2 = "Hello, 456!"
cleaned_text1 = re.sub(r'\d+', 'NUM', text1)
cleaned_text2 = re.sub(r'\d+', 'NUM', text2)
diff = difflib.ndiff(cleaned_text1.splitlines(), cleaned_text2.splitlines())
print('\n'.join(diff))

3. 生成 Markdown 差异报告

生成 Markdown 格式的差异报告，适合在文档中展示。

#juzicode.com/VX公众号:juzicode
import difflib

def markdown_diff(text1, text2):
    diff = difflib.unified_diff(text1.splitlines(), text2.splitlines())
    return "```diff\n" + '\n'.join(diff) + "\n```"

text1 = "Hello, world!"
text2 = "Hello, Python!"
print(markdown_diff(text1, text2))

4. 比较 JSON 数据

比较两个 JSON 数据的差异，并生成差异报告。

#juzicode.com/VX公众号:juzicode
import difflib
import json

json1 = '{"name": "Alice", "age": 30}'
json2 = '{"name": "Bob", "age": 25}'
diff = difflib.unified_diff(json1.splitlines(), json2.splitlines())
print('\n'.join(diff))

5. 生成代码差异报告

生成代码文件的差异报告，适合代码审查。

#juzicode.com/VX公众号:juzicode
import difflib

def code_diff(file1, file2):
    with open(file1) as f1, open(file2) as f2:
        diff = difflib.unified_diff(
            f1.readlines(), f2.readlines(),
            fromfile=file1, tofile=file2
        )
        print(''.join(diff))

code_diff("code1.py", "code2.py")

总结

difflib 是 Python 中处理文本差异的利器，其核心优势包括：

支持多种差异比较算法
生成人类可读的差异报告
与标准库无缝集成
适用于多种文本比较场景

无论是简单的文本比对，还是复杂的代码审查，difflib 都能提供高效的解决方案。对于需要频繁处理文本差异的开发者，difflib 是一个不可或缺的工具。

2026年 7月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31