Linux文本处理三剑客：grep、sed与awk全解析

目录#

Linux文本处理三剑客简介
grep：文本搜索利器
- 2.1 基础语法与核心功能
- 2.2 常用选项与示例
- 2.3 正则表达式在grep中的应用
- 2.4 最佳实践
sed：流式文本编辑器
- 3.1 基础语法与工作原理
- 3.2 核心命令与示例
- 3.3 高级编辑技巧
- 3.4 最佳实践
awk：结构化数据处理引擎
- 4.1 基础语法与工作流程
- 4.2 核心变量与函数
- 4.3 常见场景示例
- 4.4 最佳实践
三剑客协同作战：组合使用技巧
参考资料

1. Linux文本处理三剑客简介#

“三剑客”并非独立工具，而是各司其职、互补协同的组合：

grep（Global Regular Expression Print）：基于正则表达式搜索文本，输出匹配的行。核心能力是“精准定位”。
sed（Stream Editor）：流式文本编辑器，通过脚本命令对文本进行替换、删除、插入等操作。核心能力是“批量修改”。
awk：处理结构化文本（如表格、日志），支持按列、按条件提取数据，并进行统计分析。核心能力是“数据提取与计算”。

三者的典型协作流程：先用grep筛选目标行，再用sed清洗或修改文本，最后用awk统计或格式化输出。

2. grep：文本搜索利器#

2.1 基础语法与核心功能#

grep的基本作用是在文件或标准输入中搜索符合正则表达式的文本行，并输出匹配结果。其基础语法为：

grep [选项] 模式 [文件...]

核心功能：模式匹配（支持基本正则表达式BRE，加-E选项支持扩展正则表达式ERE）。
输入来源：可直接指定文件，或通过管道（|）接收其他命令的输出。

2.2 常用选项与示例#

2.2.1 基础搜索选项#

选项	作用	示例
`-i`	忽略大小写	`grep -i "error" app.log`（匹配Error/ERROR/error）
`-v`	反向匹配（输出不匹配的行）	`grep -v "^#" config.conf`（过滤注释行）
`-n`	显示匹配行的行号	`grep -n "timeout" nginx.conf`
`-c`	统计匹配行数	`grep -c "404" access.log`（统计404错误数量）
`-r`/`-R`	递归搜索目录下的所有文件	`grep -r "password" /etc/`（搜索/etc下含password的文件）
`-l`	仅输出包含匹配内容的文件名	`grep -rl "root" /home/`（找出/home下含root的文件）
`-A n`/`-B n`/`-C n`	显示匹配行的后n行/前n行/前后n行	`grep -A 3 "error" app.log`（显示错误行及后3行）

2.2.2 正则表达式增强选项#

-E：启用扩展正则表达式（支持+、?、|等元字符，无需转义）。
示例：匹配以info或warn开头的行：
```
grep -E "^(info|warn)" app.log
```
-F：将模式视为固定字符串（禁用正则表达式，适合搜索含特殊字符的文本）。
示例：搜索包含[ERROR]的行（[ ]在正则中是特殊字符，用-F避免转义）：
```
grep -F "[ERROR]" app.log
```

2.3 正则表达式在grep中的应用#

正则表达式是grep的核心，以下是常用元字符及示例：

元字符	含义	示例	匹配结果
`^`	行首	`^hello`	以hello开头的行
`$`	行尾	`world$`	以world结尾的行
`.`	任意单个字符	`h.t`	hat、h1t、h@t等
`*`	前一个字符出现0次或多次	`a*b`	b、ab、aab等
`+`（需`-E`）	前一个字符出现1次或多次	`a+b`（`grep -E`）	ab、aab等（不匹配b）
`?`（需`-E`）	前一个字符出现0次或1次	`colou?r`（`grep -E`）	color、colour
`[]`	字符集	`[0-9]`	单个数字；`[a-zA-Z]`单个字母
`[^]`	排除字符集	`[^0-9]`	非数字字符
`\|`（需`-E`）	逻辑或	`cat\|dog`（`grep -E`）	包含cat或dog的行

2.4 最佳实践#

优先使用单引号包裹模式：避免shell对特殊字符（如$、*）进行解析。
错误示例：grep $USER file（ $USER会被shell替换为当前用户名）。正确示例：`grep '$ USER' file（搜索字符串$USER`）。
递归搜索时限制文件类型：结合--include/--exclude选项提升效率。
```
grep -r --include="*.log" "error" /var/log/  # 仅搜索.log文件
```
大文件搜索用--line-buffered：实时输出匹配结果（如监控日志）。
```
tail -f app.log | grep --line-buffered "error"
```

3. sed：流式文本编辑器#

3.1 基础语法与工作原理#

sed是“流式编辑器”，它按行读取输入文本，根据脚本命令对每行进行处理，并输出结果（默认不修改原文件）。基础语法：

sed [选项] '命令' [文件...]

工作流程：读取一行 → 执行命令 → 输出结果 → 处理下一行（循环直至文件结束）。
核心优势：支持批量修改、无交互操作，适合处理大文件（无需加载整个文件到内存）。

3.2 核心命令与示例#

3.2.1 替换命令（s）#

最常用命令，格式：s/原字符串/新字符串/[选项]。

选项	作用	示例
`g`	全局替换（默认只替换每行第一个匹配）	`sed 's/old/new/g' file`（替换所有old为new）
`i`	忽略大小写	`sed 's/error/ERROR/i' file`
`n`	替换第n个匹配（n为数字）	`sed 's/ab/AB/2' file`（替换每行第2个ab为AB）
`p`	输出替换后的行（需配合`-n`选项）	`sed -n 's/hello/HELLO/p' file`（只输出被替换的行）

示例：将配置文件中所有port=8080替换为port=80：

sed 's/port=8080/port=80/g' config.conf

3.2.2 删除命令（d）#

格式：[行范围]d，删除指定行。

删除第5行：sed '5d' file
删除空行：sed '/^$/d' file（^$匹配空行）
删除包含error的行：sed '/error/d' file
删除10-20行：sed '10,20d' file

3.2.3 插入/追加命令（i/a）#

i：在指定行前插入文本；a：在指定行后追加文本。
格式：[行号]i/追加文本/ 或 [模式]a/追加文本/。

示例：在config.conf的[server]行后追加timeout=300：

sed '/\[server\]/a timeout=300' config.conf

3.2.4 原地修改文件（-i）#

默认sed输出到标准输出，使用-i选项可直接修改原文件（强烈建议先备份）：

sed -i.bak 's/old/new/g' file  # 修改file，同时生成file.bak备份

3.3 高级编辑技巧#

3.3.1 多命令组合（-e）#

用-e选项执行多个命令：

sed -e 's/old/new/g' -e '/^#/d' file  # 先替换，再删除注释行

3.3.2 引用外部变量#

若需在sed命令中使用shell变量，需用双引号包裹命令（注意转义特殊字符）：

name="Alice"
sed "s/USER/$name/g" template.txt  # 将template.txt中的USER替换为Alice

3.4 最佳实践#

修改前先测试：用sed命令时，先不加-i选项查看输出是否符合预期，确认后再添加-i。
必须备份文件：使用-i时，建议添加备份后缀（如-i.bak），避免误操作无法恢复。
复杂逻辑用脚本文件：将sed命令写入.sed文件，通过-f选项执行（适合多行命令）：
```
# script.sed
s/old/new/g
/error/d
```
执行：sed -f script.sed file

4. awk：结构化数据处理引擎#

4.1 基础语法与工作流程#

awk是处理结构化文本（如CSV、日志、表格）的强大工具，支持按列提取、条件过滤、数学计算等。基础语法：

awk '模式 {动作}' [文件...]

工作流程：
1. BEGIN块：处理文件前执行（如初始化变量、打印表头）。
2. 主处理块：按行处理文件，对符合“模式”的行执行“动作”。
3. END块：处理完所有行后执行（如输出统计结果）。

4.2 核心变量与函数#

4.2.1 内置变量#

变量	含义
`$0`	整行文本
`$n`	第n列（默认以空格/制表符为分隔符，可通过`-F`指定分隔符）
`NF`	当前行的列数（`$NF`表示最后一列）
`NR`	当前行号（从1开始）
`FS`	输入字段分隔符（默认空格，等价于`-F`选项）
`OFS`	输出字段分隔符（默认空格）

4.2.2 常用函数#

函数	作用	示例
`print`	输出内容	`print $1, $3`（输出第1列和第3列，用OFS分隔）
`printf`	格式化输出	`printf "Name: %s, Age: %d\n", $1, $2`
`substr(s, i, n)`	截取字符串s从i位置开始的n个字符	`substr($0, 1, 5)`（取前5个字符）
`split(s, arr, sep)`	按sep分割字符串s到数组arr	`split($2, date, "-")`（按-分割第2列到date数组）
`sum`/`avg`	统计计算（需手动累加）	`total += $3; END {print total}`（累加第3列并输出总和）

4.3 常见场景示例#

4.3.1 提取列数据#

示例：从passwd文件中提取用户名和登录shell（以:为分隔符）：

awk -F: '{print $1, $7}' /etc/passwd

4.3.2 条件过滤与统计#

示例：统计access.log中状态码为200的请求数，并计算平均响应时间（假设第9列为状态码，第10列为响应时间）：

awk '$9 == 200 {count++; sum += $10} END {print "Count:", count, "Avg time:", sum/count}' access.log

4.3.3 格式化输出#

示例：将CSV文件（name,age,city）转换为表格格式：

awk -F ',' 'BEGIN {print "Name\tAge\tCity"; print "----------------"} {printf "%-10s %-4d %s\n", $1, $2, $3}' data.csv

4.4 最佳实践#

明确字段分隔符：用-F指定分隔符（如-F ','处理CSV，-F '[[:space:]]+'处理多空格分隔）。
使用BEGIN块初始化：在BEGIN中设置FS、OFS或打印表头，提升可读性。
注释复杂逻辑：对多行awk脚本，用#添加注释（需将脚本保存为文件，通过awk -f script.awk执行）。
处理大文件时避免低效操作：如避免在循环中使用split等耗时函数，优先用内置变量。

5. 三剑客协同作战：组合使用技巧#

三剑客的真正威力在于组合使用，通过管道（|）串联，实现复杂文本处理流程。以下是典型场景：

场景1：日志分析#

需求：从nginx.log中找出所有404错误，提取IP和URL，并统计每个IP的错误次数。

# 步骤1：grep筛选404行 → 步骤2：awk提取IP（$1）和URL（$7）→ 步骤3：统计IP出现次数
grep " 404 " nginx.log | awk '{print $1, $7}' | awk '{count[$1]++} END {for(ip in count) print ip, count[ip]}'

场景2：配置文件批量修改#

需求：将/etc/nginx/conf.d/下所有.conf文件中的listen 80替换为listen 8080，并备份原文件。

# 步骤1：find找出目标文件 → 步骤2：xargs传递给sed进行原地替换
find /etc/nginx/conf.d/ -name "*.conf" | xargs sed -i.bak 's/listen 80/listen 8080/g'

场景3：数据清洗与统计#

需求：从CSV文件中过滤掉空行和标题行，提取数值列并计算总和。

# 步骤1：grep过滤非空行 → 步骤2：sed删除标题行 → 步骤3：awk累加第3列
grep -v "^$" data.csv | sed '1d' | awk -F ',' '{sum += $3} END {print "Total:", sum}'

6. 参考资料#

官方文档：
经典书籍：
- 《Sed & Awk》（Dale Dougherty 著）
- 《Linux命令行与shell脚本编程大全》（第3版）
在线资源：
- Regex101（正则表达式测试工具）
- Awk教程（基础语法与示例）

通过本文的学习，相信你已掌握Linux文本处理三剑客的核心用法。实际应用中，多练习“grep筛选→sed修改→awk统计”的组合流程，能极大提升文本处理效率。记住：工具的威力不仅在于单个功能，更在于协同配合！