什么是正则表达式
正则表达式是一种用于匹配一组字符串中字符组合的模式。 它使用单个字符来描述,匹配一系列符合某个句法规则的字符串。它可以用来验证输入格式,搜索替换文本等
正则表达式字符
其他字符
除此之外还有 \d表示所有数字,\w表示所有字符等。但是实测bash不支持这些表达式,只能用[list]这种形式。所以本文不再提及。这也是bash和其他编程语言的区别。在这里踩过坑。
示例
给定一个包含电话号码列表(一行一个电话号码)的文本文件 file.txt,写一个单行 bash 脚本输出所有有效的电话号码。
你可以假设一个有效的电话号码必须满足以下两种格式: (xxx) xxx-xxxx 或 xxx-xxx-xxxx。(x 表示一个数字)
你也可以假设每行前后没有多余的空格字符。
假设 file.txt 内容如下:
987-123-4567
123 456 7890
(123) 456-7890
你的脚本应当输出下列有效的电话号码:
987-123-4567
(123) 456-7890
分析:
这里的号码是由数字,-,空格,还有()组成的。首先要注意的坑是"()"在正则里由特殊含义,所以要进行转义。另外这边有两个匹配条件,只要一个成立就是所有都成立,所以需要用或 “|”.
第一个条件:
[0-9]{3}-[0-9]{3}-[0-9]{4}
第二个条件:
\([0-9]{3}\) [0-9]{3}-[0-9]{4}
用"|"组合
[0-9]{3}-[0-9]{3}-[0-9]{4}|\([0-9]{3}\) [0-9]{3}-[0-9]{4}
注意:|前后不能有空格,否则会被当成子表达式的一部分进行匹配。这边踩过坑
验证:
mycontent.txt
987-123-4567
123 456 7890
(123) 456-7890
This is a line
cat mycontent.t[0-9]{3}-[0-9]{3}-[0-9]{4}|\([0-9]{3}\) [0-9]{3}-[0-9]{4}"]{3}-[0-9]{4}"
输出
实用工具
最后给个在线的正则匹配验证的网址,可以边写边验证。
https://regex101.com/