`
chenpenghui
  • 浏览: 37695 次
  • 性别: Icon_minigender_1
  • 来自: 台州
社区版块
存档分类
最新评论

HtmlPaser与StringEscapeUtils共舞抓取网页

    博客分类:
  • JAVA
阅读更多

用正则来匹配的确很强大,但如果是网页的话HtmlPaser更方便,由于抓下来的信息中文是unicode的,所以要用到apache的一个包,以下是代码:

import java.net.URL;
import org.apache.commons.lang3.StringEscapeUtils;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;




public class GetURLText {
	public void getText() throws Exception {
		String urlString="http://localhost:8080/TestXFace/TestHtmlPaser/ABC.jsp";
		URL url = new URL(urlString);
		Parser parser = new Parser(url.openConnection());
		parser.setEncoding("UTF-8");
		NodeFilter nodeFilter = new NodeClassFilter(TableTag.class);
		NodeList nodeList = parser.parse(nodeFilter);//得到table标签里所有的信息
		System.out.println(nodeList);
		for(int i=0;i<nodeList.size();i++){
			TableTag tableTag = (TableTag) nodeList.elementAt(i);
			TableRow[] rows = tableTag.getRows();
			for(TableRow row:rows){
			System.out.println("<tr>  :"+ row.toPlainTextString());
				TableColumn[] tableColumns = row.getColumns();
				for(TableColumn tableColumn :tableColumns){
					String string = tableColumn.toPlainTextString();
					string = StringEscapeUtils.escapeHtml3(string);//unicode2String 
					System.out.println("<td>  :"+string+"</td>");//得到<td>标签里的内容
				}
			}
		}
	}
	public static void main(String[] args) throws Exception {
		GetURLText getURLText = new GetURLText();
		getURLText.getText();
	}
}
 

 

分享到:
评论

相关推荐

    org.apache.commons.lang.StringEscapeUtils

    解决json数据中,返回的数据格式中带有反斜杠 如下所示{\"Count\":\"3\",\"ErrorString\":\"\",\"Success\":true,\"URL\":\"http:\\\/\\\/172.16.80.65:8080\\\/LoginSSO.aspx?UserCode=wubg&Type=WorkItem\",\...

    消除斜杠commons-lang3-3.12.0工具类.zip

    StringEscapeUtils方法消除json反斜杠

    commons-lang3-3.4jar.rar

    commons-lang3-3.4jar 包括org.apache.commons.lang.StringEscapeUtils类。

    escape.sql

    escape.sql

    org.apache.commons包

    org.apache.commons 的 jar 包 12313213215646546521大夫撒旦法的得分的斯蒂芬斯蒂芬

    处理SQL语句commons-lang-2.6.jar

    apache工具包common-lang中有一个很有用的处理字符串的工具类,其中之一就是StringEscapeUtils,这个工具类是在2.3版本以上加上的去的,利用它能很方便的进行html,xml,java等的转义与反转义,而且还能对关键字符串...

    commons-lang3-3.6.jar

    String str = "&ldquo;...String convStr = StringEscapeUtils.unescapeHtml(str);//apache的jar包:commons-lang-*.jar可以将html转换的符号转换过来(网上抄来的) Sysout(convStr);//“!@#¥%……&——+”

    commons-lang3-3.1_jar

    commons-lang3-3.1_jar jar包官方下载的,亲测可用。import org.apache.commons.lang3.StringEscapeUtils;

    commons-lang3-3.8.1.rar

    解决脚本攻击xss可用到此资源,利用org.apache.commons.lang3.StringEscapeUtils这个类对输入的参数进行html转义

    org.apache.commons.lang jar包下载(commons-lang3-3.1.jar)

    org.apache.commons.lang.StringEscapeUtils.class org.apache.commons.lang.StringUtils.class org.apache.commons.lang.SystemUtils.class org.apache.commons.lang.UnhandledException.class org.apache....

    org.apache.commons.lang包

    Apache Commons Lang资源包,下载解压缩后,可获得api文档,源码,jar包,用于开发

    在Java中轻松将HTML格式文本转换为纯文本(保留换行)

    第一步:引入Jsoup和lang和lang3的依赖: ...lang和lang3这两个包里有转换所需的工具类 ...import org.apache.commons.lang.StringEscapeUtils; import org.apache.commons.lang3.StringUtils; import org.jsoup.Jsoup; im

    commons-lang3-3.4.rar

    commons-lang3-3.4.rar,包括org.apache.commons.lang.StringEscapeUtils类。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

    graffias:Graffias是受Graffiti启发的Groovy的Web框架

    什么是格拉菲亚? Graffias是受和Sinatra启发的Groovy轻量级微型网络框架。...import org.apache.commons.lang.StringEscapeUtils get( ' / ' ) { uri ' index.html ' // public/index.html } post( ' / ' )

    commons-lang3-3.1 API

    除了6个Exception类和2个已经deprecated的数字类之外,commons.lang包共包含了17个实用的类: ArrayUtils – 用于对数组的操作,如添加、查找、删除、子数组、倒序、元素类型转换等; BitField – 用于操作位元,...

    MVel 2.0.15 doc

    &lt;a href="@{ua.pageURI}"&gt;@{org.apache.commons.lang.StringEscapeUtils.escapeHtml(ua.name)} Inline Ternary Operator &lt;li&gt;@{ua.hitsTotal} total @{ua.hitsTotal == 1 ? "Hit" : "Hits"}. MVEL Integration The ...

    commons-lang.jar

    org.apache.commons.lang.StringEscapeUtils.class org.apache.commons.lang.StringUtils.class org.apache.commons.lang.SystemUtils.class org.apache.commons.lang.UnhandledException.class org.apache.commons....

    org.apache.commons.lang jar包下载

    org.apache.commons.lang.StringEscapeUtils.class org.apache.commons.lang.StringUtils.class org.apache.commons.lang.SystemUtils.class org.apache.commons.lang.UnhandledException.class org.apache....

    jfinalpluginsjfinal-dreampie.zip

    14.xss过滤的StringEscapeUtils过滤器实现 public class AttackHandler extends Handler {  @Override  public void handle(String target, HttpServletRequest request, HttpServletResponse ...

Global site tag (gtag.js) - Google Analytics