rexian

咨询电话:023-6276-4481

热门文章

联系方式

电 话:023-6276-4481

邮箱:broiling@qq.com

地址:重庆市南岸区亚太商谷6幢25-2

当前位置:网站首页 > 技术文章 > .net中的正则表达式使用高级技巧

.net中的正则表达式使用高级技巧

编辑:T.T 发表时间:2017-07-20 08:39:12
T.T

1、高级技巧1

替换

Regex类有一个静态的Replace方法,其实例也有一个Replace方法,这个方法很强大,因为它可以传入一个delegate,这样,你可以自定义每次捕获匹配时,如何处理捕获的内容。 

        public static void Main()
        
{    
            
string s = "1 12 3 5";
            s 
= Regex.Replace(s,@"\d+",new MatchEvaluator(CorrectString),RegexOptions.Compiled|RegexOptions.IgnoreCase);
            Console.WriteLine(s);
            Console.ReadLine();
        }

        
private static string CorrectString(Match match)
        
{
            
string matchValue = match.Value;
            
if(matchValue.Length == 1)
                matchValue 
= "0" + matchValue;
            
return matchValue;
        }

以上这段代码说明了如果使用delegate MatchEvaluator来处理正则的Match结果,该代码返回"01 12 03 05"。Replace方法除了使用delegate来处理捕获的Match,还可以用字符串来替换Match的结果,而用字符串来替换Match结果除了把Match结果静态的替换成一个固定的文本外,还可以使用以下语法来更方便的实现你需要的功能:


$number

把匹配的第number组替换成替换表达式,还有这句话怎么写也表达不清楚意思,还是来个例子吧:


        public static void Main()
        
{    
            
string s = "1 12 3 5";
            s 
= Regex.Replace(s,@"(\d+)(?#这个是注释)","0$1",RegexOptions.Compiled|RegexOptions.IgnoreCase);
            Console.WriteLine(s);
            Console.ReadLine();
        }

这段代码返回的是 “01 012 03 05”

就是说,对组一的每个匹配结果都用"0$1"这个表达式来替换,"0$1"中"$1"由组1匹配的结果代入

${name}

把匹配的组名为"name"的组替换成表达式,

上例的Regex expression改成@"(?<name>\d+)(?#这个是注释)"后面的替换式改为"0${name}"结果是一样的

$$  

做$的转义符,如上例表达式改成@"(?<name>\d+)(?#这个是注释)"和"$$${name}",则结果为"$1 $12 $3 $5"

$&

替换整个匹配

$`

替换匹配前的字符

$'

替换匹配后的字符

$+

替换最后匹配的组

$_

替换整个字符串

后面的选项,大家自己写个例子体味一下。

*注,上例中的(?#这个是注释)说明了正则的内联注释语法为(?#)



表达项选项

正则表达式选项RegexOptions有如下一下选项,详细说明请参考联机帮助


RegexOptions枚举值

内联标志

简单说明

ExplicitCapture

n

只有定义了命名或编号的组才捕获

IgnoreCase

i

不区分大小写

IgnorePatternWhitespace

x

消除模式中的非转义空白并启用由 # 标记的注释。

MultiLine

m

多行模式,其原理是修改了^和$的含义

SingleLine

s

单行模式,和MultiLine相对应

这里我提到内联标志,是因为相对于用RegexOptions在new Regex时定义Regex表达式的全局选项来说,内联标志可以更小粒度(以组为单位)的定义匹配选项,从而更方便表达我们的思想

语法是这样的:(?i:expression)为定义一个选项,(?-i:expression)为删除一个选项,(?i-s:expression)则定义i,删除s,是的,我们可以一次定义很多个选项。这样,通过内联选项,你就可以在一个Regex中定义一个组为匹分大小写的,一个组不匹分大小写的,是不是很方便呢?


2、高级技巧2

组的概念

一个正则表达式匹配结果可以分成多个部分,这就是组(Group)的目的。能够灵活的使用组后,你会发现Regex真是很方便,也很强大。

先举个例子  

        public static void Main()
        
{    
            
string s = "2005-2-21";
            Regex reg 
= new Regex(@"(?<y>\d{4})-(?<m>\d{1,2})-(?<d>\d{1,2})",RegexOptions.Compiled);
            Match match 
= reg.Match(s);
            
int year =  int.Parse(match.Groups["y"].Value);
            
int month = int.Parse(match.Groups["m"].Value);
            
int day = int .Parse(match.Groups["d"].Value);
            DateTime time 
= new DateTime(year,month,day);
            Console.WriteLine(time);
            Console.ReadLine();
        }

以上的例子通过组来实现分析一个字符串,并把其转化为一个DateTime实例,当然,这个功能用DateTime.Parse方法就能很方便的实现。

在这个例子中,我把一次Match结果用(?<name>)的方式分成三个组"y","m","d"分别代表年、月、日。

现在我们已经有了组的概念了,再来看如何分组,很简单的,除了上在的办法,我们可以用一对括号就定义出一个组,比如上例可以改成  

        public static void Main()
        
{    
            
string s = "2005-2-21";
            Regex reg 
= new Regex(@"(\d{4})-(\d{1,2})-(\d{1,2})",RegexOptions.Compiled);
            Match match 
= reg.Match(s);
            
int year =  int.Parse(match.Groups[1].Value);
            
int month = int.Parse(match.Groups[2].Value);
            
int day = int .Parse(match.Groups[3].Value);
            DateTime time 
= new DateTime(year,month,day);
            Console.WriteLine(time);
            Console.ReadLine();
        }


从上例可以看出,第一个括号对包涵的组被自动编号为1,后面的括号依次编号为2、3…… 

        public static void Main()
        
{    
            
string s = "2005-2-21";
            Regex reg 
= new Regex(@"(?<2>\d{4})-(?<1>\d{1,2})-(?<3>\d{1,2})",RegexOptions.Compiled);
            Match match 
= reg.Match(s);
            
int year =  int.Parse(match.Groups[2].Value);
            
int month = int.Parse(match.Groups[1].Value);
            
int day = int .Parse(match.Groups[3].Value);
            DateTime time 
= new DateTime(year,month,day);
            Console.WriteLine(time);
            Console.ReadLine();
        }

再看上例,我们用(?<数字>)的方式手工给每个括号对的组编号,(注意我定义1和2的位置时不是从左到右定义的)

通过以上三例,我们知道了给Regex定义Group的三种办法以及相应的引用组匹配结果的方式。

然后,关于组定义,还有两点请注意: 
1、因为括号用于定义组了,所以如果要匹配"("和")",请使用"\("和"\)"(关于所有特殊字符的定义,请查看相关Regex expression帮助文档)。 
2、如果定义Regex时,使用了ExplicitCapture选项,则第二个例子不会成功,因为此选项要求显式定义了编号或名字的组才捕获并保存结果,如果你没有定义ExplicitCapture选项,而有时又定义了类式于(A|B)这样的部分在表达式,而这个(A|B)你又并不想捕获结果,那么可以使用“不捕获的组”语法,即定义成(?:)的方式,针对于(A|B),你可以这样来定义以达到不捕获并保存它到Group集合中的目的--(?:A|B)。 


3、高级技巧3


反向引用

反向引用,指把匹配出来的组引用到表达式本身其它地方,比如,在匹配HTML的标记时,我们匹配出一个<a>,我们要把匹配出来的a引用出来,用来找到</a>,这个时候就要用到反向引用。
语法 
    a、反向引用编号的组,语法为\number
    b、反向引用命名的组,语法为\k<name>
举例 
    a、匹配成对的HTML标签

@"<(?<tag>[^\s>]+)[^>]*>.*</\k<tag>>"        

    b、匹配两个两个重叠出现的字符  

        public static void Main()
        
{    
            
string s = "aabbc11asd";
            Regex reg 
= new Regex(@"(\w)\1");
            MatchCollection matches 
= reg.Matches(s);
            
foreach(Match m in matches)
                Console.WriteLine(m.Value);
            Console.ReadLine();
        }
      

返回结果为aa bb 11 

辅助匹配组

以下几种组结构,括号中的Pattern都不作为匹配结果的一部分进行保存
    1、正声明(?=)
    涵义:括号中的模式必须出现在声明右侧,但不作为匹配的一部分


        public static void Main()
        
{    
            
string s = "C#.net,VB.net,PHP,Java,JScript.net";
            Regex reg 
= new Regex(@"[\w\#]+(?=\.net)",RegexOptions.Compiled);
            MatchCollection mc 
= reg.Matches(s);
            
foreach(Match m in mc)