新闻动态   News
搜索   Search
你的位置:首页 > 新闻动态 > 公司新闻

java 正则表达式用法解析

2013/8/22 15:17:43      点击:

java.util.regex 包中一共有两个类,一个接口,一个异常

在java中使用正则表达式的顺序如下:

  1. String mat = "([\\s\\S]+?)(\\s)?"//定义正则表达式字符串  
  2. Pattern p = Pattern.compile(mat); //正则表达式字符串需要编译为Pattern对象才能使用  
  3. Matcher m = p.matcher(content);   //采用pattern的matcher方法去匹配待匹配内容 结果装入Matcher对象  

字符串content 中可能有多个内容与之匹配,所以m中存储的是匹配序列

Matcher对象中 m.find()

  1. while(m.find()) {  
  2.     System.out.println(m.group());  
  3. }  

通过以上方法可以遍历所有匹配结果 类似于数据库操作中rs.next()的用法

捎带解释一下 String 的trim( )方法,该方法目的使将指定字符串中的首尾空格去掉,对于正则表达式的匹配结果好多时候要用这个方法

以下内容转载自http://winter8.iteye.com/blog/1463244 解释了 matcher中group的用法 写的很不错,一下子就明白了

 原来,group是针对()来说的,group(0)就是指的整个串,group(1) 指的是第一个括号里的东西,group(2)指的第二个括号里的东西。 
最近学习正则表达式,发现Java中的一些术语与其他地方描述的有所差异。比如Java正则表达式中的“组”概念与《正则表达式必知必会》一书中讲述的“子表达式”其实是一样的,只是表述不同而已。由此也引发了使用JavaAPI时对group(int group)、start(int group)、end(int group)不是太理解。在阅读了关于正则表达式问题:有谁用过Matcher类的group()方法没有 之后彻底明白,并写了一个小程序测试。 

程序如下 

Java代码  收藏代码
  1. package cn.mingyuan.regexp.singlecharacter;  
  2.   
  3. import java.util.regex.Matcher;  
  4. import java.util.regex.Pattern;  
  5.   
  6. public class GroupIndexAndStartEndIndexTest {  
  7.   
  8. /** 
  9. * @param args 
  10. */  
  11. public static void main(String[] args) {  
  12.    // TODO Auto-generated method stub  
  13.    String str = "Hello,World! in Java.";  
  14.    Pattern pattern = Pattern.compile("W(or)(ld!)");  
  15.    Matcher matcher = pattern.matcher(str);  
  16.    while(matcher.find()){  
  17.     System.out.println("Group 0:"+matcher.group(0));//得到第0组——整个匹配  
  18.     System.out.println("Group 1:"+matcher.group(1));//得到第一组匹配——与(or)匹配的  
  19.     System.out.println("Group 2:"+matcher.group(2));//得到第二组匹配——与(ld!)匹配的,组也就是子表达式  
  20.     System.out.println("Start 0:"+matcher.start(0)+" End 0:"+matcher.end(0));//总匹配的索引  
  21.     System.out.println("Start 1:"+matcher.start(1)+" End 1:"+matcher.end(1));//第一组匹配的索引  
  22.     System.out.println("Start 2:"+matcher.start(2)+" End 2:"+matcher.end(2));//第二组匹配的索引  
  23.     System.out.println(str.substring(matcher.start(0),matcher.end(1)));//从总匹配开始索引到第1组匹配的结束索引之间子串——Wor  
  24.    }  
  25. }  
  26.   
  27. }  

程序的运行结果为: 
Java代码  收藏代码
  1. Group 0:World!  
  2. Group 1:or  
  3. Group 2:ld!  
  4. Start 0:6 End 0:12  
  5. Start 1:7 End 1:9  
  6. Start 2:9 End 2:12  
  7. Wor  

总结:其实group(),start(),end()所带的参数i就是正则表达式中的子表达式索引(第几个子表达式),由于刚开始对Java正则表达式中的组的概念不清晰,导致理解困难。当将“组”的概念与“子表达式”对应起来之后,理解matcher的group,start,end就完全没有障碍了。