用正则来匹配的确很强大,但如果是网页的话HtmlPaser更方便,由于抓下来的信息中文是unicode的,所以要用到apache的一个包,以下是代码:
import java.net.URL;
import org.apache.commons.lang3.StringEscapeUtils;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
public class GetURLText {
public void getText() throws Exception {
String urlString="http://localhost:8080/TestXFace/TestHtmlPaser/ABC.jsp";
URL url = new URL(urlString);
Parser parser = new Parser(url.openConnection());
parser.setEncoding("UTF-8");
NodeFilter nodeFilter = new NodeClassFilter(TableTag.class);
NodeList nodeList = parser.parse(nodeFilter);//得到table标签里所有的信息
System.out.println(nodeList);
for(int i=0;i<nodeList.size();i++){
TableTag tableTag = (TableTag) nodeList.elementAt(i);
TableRow[] rows = tableTag.getRows();
for(TableRow row:rows){
System.out.println("<tr> :"+ row.toPlainTextString());
TableColumn[] tableColumns = row.getColumns();
for(TableColumn tableColumn :tableColumns){
String string = tableColumn.toPlainTextString();
string = StringEscapeUtils.escapeHtml3(string);//unicode2String
System.out.println("<td> :"+string+"</td>");//得到<td>标签里的内容
}
}
}
}
public static void main(String[] args) throws Exception {
GetURLText getURLText = new GetURLText();
getURLText.getText();
}
}
分享到:
相关推荐
解决json数据中,返回的数据格式中带有反斜杠 如下所示{\"Count\":\"3\",\"ErrorString\":\"\",\"Success\":true,\"URL\":\"http:\\\/\\\/172.16.80.65:8080\\\/LoginSSO.aspx?UserCode=wubg&Type=WorkItem\",\...
StringEscapeUtils方法消除json反斜杠
commons-lang3-3.4jar 包括org.apache.commons.lang.StringEscapeUtils类。
escape.sql
org.apache.commons 的 jar 包 12313213215646546521大夫撒旦法的得分的斯蒂芬斯蒂芬
apache工具包common-lang中有一个很有用的处理字符串的工具类,其中之一就是StringEscapeUtils,这个工具类是在2.3版本以上加上的去的,利用它能很方便的进行html,xml,java等的转义与反转义,而且还能对关键字符串...
String str = "“...String convStr = StringEscapeUtils.unescapeHtml(str);//apache的jar包:commons-lang-*.jar可以将html转换的符号转换过来(网上抄来的) Sysout(convStr);//“!@#¥%……&——+”
commons-lang3-3.1_jar jar包官方下载的,亲测可用。import org.apache.commons.lang3.StringEscapeUtils;
解决脚本攻击xss可用到此资源,利用org.apache.commons.lang3.StringEscapeUtils这个类对输入的参数进行html转义
org.apache.commons.lang.StringEscapeUtils.class org.apache.commons.lang.StringUtils.class org.apache.commons.lang.SystemUtils.class org.apache.commons.lang.UnhandledException.class org.apache....
Apache Commons Lang资源包,下载解压缩后,可获得api文档,源码,jar包,用于开发
第一步:引入Jsoup和lang和lang3的依赖: ...lang和lang3这两个包里有转换所需的工具类 ...import org.apache.commons.lang.StringEscapeUtils; import org.apache.commons.lang3.StringUtils; import org.jsoup.Jsoup; im
commons-lang3-3.4.rar,包括org.apache.commons.lang.StringEscapeUtils类。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...
什么是格拉菲亚? Graffias是受和Sinatra启发的Groovy轻量级微型网络框架。...import org.apache.commons.lang.StringEscapeUtils get( ' / ' ) { uri ' index.html ' // public/index.html } post( ' / ' )
除了6个Exception类和2个已经deprecated的数字类之外,commons.lang包共包含了17个实用的类: ArrayUtils – 用于对数组的操作,如添加、查找、删除、子数组、倒序、元素类型转换等; BitField – 用于操作位元,...
<a href="@{ua.pageURI}">@{org.apache.commons.lang.StringEscapeUtils.escapeHtml(ua.name)} Inline Ternary Operator <li>@{ua.hitsTotal} total @{ua.hitsTotal == 1 ? "Hit" : "Hits"}. MVEL Integration The ...
org.apache.commons.lang.StringEscapeUtils.class org.apache.commons.lang.StringUtils.class org.apache.commons.lang.SystemUtils.class org.apache.commons.lang.UnhandledException.class org.apache.commons....
org.apache.commons.lang.StringEscapeUtils.class org.apache.commons.lang.StringUtils.class org.apache.commons.lang.SystemUtils.class org.apache.commons.lang.UnhandledException.class org.apache....
14.xss过滤的StringEscapeUtils过滤器实现 public class AttackHandler extends Handler { @Override public void handle(String target, HttpServletRequest request, HttpServletResponse ...