Parser body_parser=new Parser(node.toHtml()); Tex " /> 免费可以看黄的视频 s色,91在线视频免费播放,欧美在线观看黄色

一区二区久久-一区二区三区www-一区二区三区久久-一区二区三区久久精品-麻豆国产一区二区在线观看-麻豆国产视频

解析得到除去標簽的txt內容

復制代碼 代碼如下:
NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);

Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}

TextExtractingVisitor,visitAllNodesWith等類及方法都是Visitor中比較很重要但也很少見的。
下面附源代碼:
復制代碼 代碼如下:
import Java.io.BufferedWriter;
import Java.io.File;
import Java.io.FileWriter;
import Java.io.IOException;
import Java.util.Date;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.visitors.TextExtractingVisitor;

import com.extractor.Extractor;

public class ExtractorHangdian extends Extractor{
public void extract()
{
BufferedWriter bw=null;
String indextime;
String title;
StringBuffer body=new StringBuffer();;
NodeFilter time_filter=new AndFilter(new TagNameFilter("font"),new HasAttributeFilter("color","#808080"));
NodeFilter title_filter1=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("b")));
NodeFilter body_filter=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("p")));

try
{
NodeList title_nodes=this.getParser().parse(title_filter1);
Node node=title_nodes.elementAt(0);
NodeList node2=node.getChildren();
//title=node2.elementAt(0).toHtml(); /* '/r/n' */
//title=node2.elementAt(1).toHtml(); /*font color="#000080" style="font-size:14.4px*/
//title=node2.elementAt(2).toHtml(); /* b */
title=node2.elementAt(3).toHtml(); /* 教材征訂及教師用書登記通知 */


bw=new BufferedWriter(new FileWriter(new File(this.getOutputPath()+title+".txt")));

String url_seg1=getInputFilePath().substring(3,30);
int end=getInputFilePath().lastIndexOf(".");
String url_seg2=getInputFilePath().substring(30, end);
String url_seg=url_seg1+".ASP?"+url_seg2;
url_seg=url_seg.replaceAll("http:////","/");
String url="http://"+url_seg;

bw.write(url+NEWLINE);
bw.write(title+NEWLINE);


}
catch(Exception e)
{
e.printStackTrace();
}

this.getParser().reset();
try
{
NodeList time_nodes=this.getParser().parse(time_filter);
Node time_node=time_nodes.elementAt(1);//這里的“1”表示符合time_filter的第二個元素
indextime=time_node.getNextSibling().toHtml();

bw.write(indextime+NEWLINE);
}
catch(Exception e)
{
e.printStackTrace();
}

this.getParser().reset();//得到除去標簽的所有txt文本
try
{
NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);

Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}
bw.write(body+NEWLINE);

}
catch(Exception e)
{
e.printStackTrace();
}

try
{
if(bw!=null)
bw.close();
}catch(IOException e)
{
e.printStackTrace();
}
}
}

這里順便提一下,當年bw沒有關掉,怎么讀不進去,搞了我好幾天,郁悶死了,想起來就火大,注意!!

jsp技術解析得到除去標簽的txt內容,轉載需保留來源!

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 91嫩草国产在线观看免费 | 在线观看一区二区三区四区 | 91精品国产综合久久精品 | 国产综合亚洲欧美日韩一区二区 | 一区二区视频在线观看免费的 | 黄视频网站免费 | 美国毛片亚洲社区在线观看 | 丁香六月婷婷在线观看视频 | 国产小视频在线看 | 亚洲美日韩 | 91精品久久久久亚洲国产 | 很黄的网站在线观看 | 国产免费一区二区三区 | 色女人在线视频 | 44444色视频在线观看 | 91精品国产综合久久精品 | 91精品欧美成人 | 欧美人体大胆私密视频 | 国产做受视频激情播放 | 91大神精品长腿在线观看网站 | 欧美色视频网 | 国产成人精品综合网站 | 国产成人亚洲精品 | 亚洲国产精品久久久久网站 | 伊人久久国产精品 | 国产在线免 | 55夜色66夜色国产精品站 | 一区二区视频在线观看免费的 | 国产中文99视频在线观看 | 黄色网址在线播放 | 中文字幕一区中文亚洲 | 亚洲一区精品伊人久久 | 中文字幕亚洲一区二区v@在线 | wwwxxxx欧美| 四虎国产精品永久一区 | 五月激情丁香婷婷综合第九 | 亚洲一区二区三区免费在线观看 | 国产欧美日韩免费一区二区 | 四虎影视永久在线精品免费播放 | 免费精品一区二区三区第35 | 玖玖爱视频在线 |