使用HtmlParser提取网页中的链接

it2022-05-05  161

关于HtmpParser的基本内容请见 HtmlParser基础教程

 

本文示例用于提取HTML文件中的链接

 

[java]  view plain copy   package org.ljh.search.html;    import java.util.HashSet;  import java.util.Set;    import org.htmlparser.Node;  import org.htmlparser.NodeFilter;  import org.htmlparser.Parser;  import org.htmlparser.filters.NodeClassFilter;  import org.htmlparser.filters.OrFilter;  import org.htmlparser.tags.LinkTag;  import org.htmlparser.util.NodeList;  import org.htmlparser.util.ParserException;    //本类创建用于HTML文件解释工具  public class HtmlParserTool {        // 本方法用于提取某个html文档中内嵌的链接      public static Set<String> extractLinks(String url, LinkFilter filter) {          Set<String> links = new HashSet<String>();          try {              // 1、构造一个Parser,并设置相关的属性              Parser parser = new Parser(url);              parser.setEncoding("gb2312");                // 2.1、自定义一个Filter,用于过滤<Frame >标签,然后取得标签中的src属性值              NodeFilter frameNodeFilter = new NodeFilter() {                  @Override                  public boolean accept(Node node) {                      if (node.getText().startsWith("frame src=")) {                          return true;                      } else {                          return false;                      }                  }              };                            //2.2、创建第二个Filter,过滤<a>标签              NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);                            //2.3、净土上述2个Filter形成一个组合逻辑Filter。              OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);                            //3、使用parser根据filter来取得所有符合条件的节点              NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);                            //4、对取得的Node进行处理              for(int i = 0; i<nodeList.size();i++){                  Node node = nodeList.elementAt(i);                  String linkURL = "";                  //如果链接类型为<a />                  if(node instanceof LinkTag){                      LinkTag link = (LinkTag)node;                      linkURL= link.getLink();                  }else{                      //如果类型为<frame />                      String nodeText = node.getText();                      int beginPosition = nodeText.indexOf("src=");                      nodeText = nodeText.substring(beginPosition);                      int endPosition = nodeText.indexOf(" ");                      if(endPosition == -1){                          endPosition = nodeText.indexOf(">");                      }                      linkURL = nodeText.substring(5, endPosition - 1);                  }                  //判断是否属于本次搜索范围的url                  if(filter.accept(linkURL)){                      links.add(linkURL);                  }              }                        } catch (ParserException e) {              e.printStackTrace();          }          return links;      }  }  

 

程序中的一些说明:

(1)通过Node#getText()取得节点的String。

(2)node instanceof TagLink,即<a/>节点,其它还有很多的类似节点,如tableTag等,基本上每个常见的html标签均会对应一个tag。官方文档说明如下:

 

org.htmlparser.nodesThe nodes package has the concrete node implementations.org.htmlparser.tagsThe tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

 

 

其中用到的LinkFilter接口定义如下:

 

[java]  view plain copy   package org.ljh.search.html;    //本接口所定义的过滤器,用于判断url是否属于本次搜索范围。  public interface LinkFilter {      public boolean accept(String url);  }  

 

测试程序如下:

 

[java]  view plain copy   package org.ljh.search.html;    import java.util.Iterator;  import java.util.Set;    import org.junit.Test;    public class HtmlParserToolTest {        @Test      public void testExtractLinks() {          String url = "http://www.baidu.com";          LinkFilter linkFilter = new LinkFilter(){              @Override              public boolean accept(String url) {                  if(url.contains("baidu")){                      return true;                  }else{                      return false;                  }              }                        };          Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);                    Iterator<String> it = urlSet.iterator();          while(it.hasNext()){              System.out.println(it.next());          }      }    }  

 

输出结果如下:

 

http://www.hao123.comhttp://www.baidu.com/http://www.baidu.com/duty/http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=http://music.baidu.comhttp://ir.baidu.comhttp://www.baidu.com/gaoji/preferences.htmlhttp://news.baidu.comhttp://map.baidu.comhttp://music.baidu.com/search?fr=ps&key=http://image.baidu.comhttp://zhidao.baidu.comhttp://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=http://www.baidu.com/more/http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139whttp://wenku.baidu.comhttp://news.baidu.com/ns?cl=2&rn=20&tn=news&word=https://passport.baidu.com/v2/?login&tpl=mn&u=http://www.baidu.com/http://www.baidu.com/cache/sethelp/index.htmlhttp://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwthttp://tieba.baidu.com/f?kw=&fr=wwwthttp://home.baidu.comhttps://passport.baidu.com/v2/?reg®Type=1&tpl=mn&u=http://www.baidu.com/http://v.baidu.comhttp://e.baidu.com/?refer=888;http://tieba.baidu.comhttp://baike.baidu.comhttp://wenku.baidu.com/search?word=&lm=0&od=0http://top.baidu.comhttp://map.baidu.com/m?word=&fr=ps01000

转载于:https://www.cnblogs.com/waiwai1015/p/4772981.html


最新回复(0)