java正则表达式提取url

dikar

浏览: 2081707 次
性别:
来自: 杭州

最近访客更多访客>>

junoy

sky3063

hzw1199

sagadan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JAVA

正则表达式 Java Google LISP 网络应用

最近做一个项目需要修改用户提交文本中的url。其实不管是这个应用还是其他的应用，都有需要用到正则表达式的地方，因为程序里的数据大部分都是字符类型，最终用户看到的也都是字符类型（不是简单的理解为String，你一个110你也未必知道是int类型，从网络过来的还都是字符），所以这个世界的数据都是表格式的（LISP）表格中都是字符类型的。ok不乱扯了这只是我的理解。

先来看代码好了。

import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 
 * @author dikar
 * 比较简陋的提取url
 * 真的很丑陋，都怪自己正则没学好，正则里多次匹配忘了怎么写了，要不很好搞定，哎
 * 提取完的url保存在SET里
 * 可以针对这个做新的处理
 * 大家可以看下好的爬虫是如何提取url的，待有时间分析下
 *
 */
public class TestString {
   
  /**多次使用的话不需要重新编译正则表达式了，对于频繁调用能提高效率*/
  public static   final String patternString1="[^\\s]*((<\\s*[aA]\\s+(href\\s*=[^>]+\\s*)>)(.*)</[aA]>).*";
  public static   final String patternString2=".*(<\\s*[aA]\\s+(href\\s*=[^>]+\\s*)>(.*)</[aA]>).*";
  public static   final String patternString3=".*href\\s*=\\s*(\"|'|)http://.*";

  public static    Pattern pattern1 =Pattern.compile(patternString1,Pattern.DOTALL);
  public static    Pattern pattern2 =Pattern.compile(patternString2,Pattern.DOTALL);
  public static    Pattern pattern3 =Pattern.compile(patternString3,Pattern.DOTALL);

 
	/**
	 * @param args
	 */
	public static void main(String[] args) {
		
    /**测试的数据*/
    String ss="这是测试<a href=http://www.google.cn>www.google.cn</a>真的是测试了";
    
    /**保存提取出来的url,用set从某种程度去重，只是字面上，至于语义那就要需要考虑很多了*/
    Set<String> set=new HashSet<String>();
   
    /**解析url并保存在set里*/
    parseUrl(set,ss);
    
    /**针对解析出来的url做处理*/
    System.out.println(replaceHtml(set,ss));
   
	}  
	
	/**给每个url加上target属性*/
	
	public static String replaceHtml(Set<String> set,String var)
	{
		 String result=null;
		 /**最好不要对参数修改*/
		 result=var;
		 Iterator<String> ite=set.iterator();
		 while(ite.hasNext())
		 {
		    	String url=ite.next();
		    	if(url!=null)
		    	{
		    		result=result.replaceAll(url,url+"  target=\"_blank\"");
		    		
		    	}
		 }
		 
		return result;
		
		
	}
	public static void parseUrl(Set<String> set,String var)
	{
		Matcher matcher=null;
		String result=null;
		
		
		//假设最短的a标签链接为 <a href=http://www.a.cn></a>则计算他的长度为28
		if(var!=null  && var.length()>28)
		{
		     matcher=pattern3.matcher(var);
		     //确定句子里包含有链接
			if(matcher!=null && matcher.matches())
			{
				matcher=pattern1.matcher(var);
				String aString=null;
				String bString=null;
				
				while(matcher!=null && matcher.find())
				{
					if(matcher.groupCount()>3)
					{
					  bString=matcher.group(matcher.groupCount()-3);//这个group包含所有符合正则的字符串
					  aString=matcher.group(matcher.groupCount()-2);//这个group包含url的html标签
					  String url1=matcher.group(matcher.groupCount()-1);//最后一个group就是url
					  set.add(url1);//将找到的url保存起来
					  bString=bString.replaceAll(aString, "");//去掉已经找到的url的html标签
					}
					
				}
				if(bString!=null)
				{
					parseUrl(set,bString);//继续循环提取下一个url
				}
				
			}
		}
		
	}

}

一定要好好学习下正则了，，去偷学点爬虫的抓取知识（聚类好高深）

补充下新学到的懒惰匹配，简单易懂

import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class TestReg {

	
	 /**多次使用的使用不需要重新编译正则表达式了，对于频繁调用能提高效率
	  * 
	  *
	  * */
	  public static   final String patternString1="<[aA]\\s*(href=[^>]+)>(.*?)</[aA]>";
	 
	 
	  public static    Pattern pattern1 =Pattern.compile(patternString1,Pattern.DOTALL);
	
	
	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		
		 /**测试的数据*/
	    String ss="这是测试<a href=http://www.ba*****idu.cn>www.goog[]e.cn</a>真的是测试我试下<A href='http://www.google.cn'>www.google.cn</a>了";
     
	    parseUrl(null,ss);
	}
	
	public static void parseUrl(Set<String> set,String var)
	{
		Matcher matcher=null;
		String result=null;
		
	
				matcher=pattern1.matcher(var);
			
				while(matcher!=null && matcher.find())
				{
					int a=matcher.groupCount();
					while((a--)>0)
					{
						System.out.println(matcher.group(a));
					}
				 
					
				}
			
			
		
	}

}

分享到：

端口分配 | 如何学习(转载)

2009-03-08 19:01
浏览 19356
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java正则表达式提取url

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java正则表达式提取url

评论

发表评论

相关推荐

groovy shell 安全

eclipse 插件

java method signature

eclipse显示GC的按钮

好用的maven插件收集

查看JVM Flags

开源的好用JVM问题排查工具

java ocr

eclipse ast

正则生成器

Kilim

IO Design Patterns Reactor VS Proactor

antlr

java singalException

log4j Category.callAppenders Block

Troubleshooting JDK

JavaOne 2011 Content Catalog

JavaOne 2012 Content Catalog

Memory usage of Java

GC roots

最近访客更多访客>>