玩c一定用得到的18款Java开源Web爬虫_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

　　四、Arale

　　Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

　　五、JSpider

　　JSpider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展你所需要的功能。

　　Spider是一个用Java实现的WebSpider，JSpider的执行格式如下：

　　jspider [URL] [ConfigName]

　　URL一定要加上协议名称，如：http://，否则会报错。如果省掉ConfigName，则采用默认配置。

　　JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的配置种类很少，用途也不大。但是JSpider非常容易扩展，可以利用它开发强大的网页抓取与数据分析工具。要做到这些，需要对JSpider的原理有深入的了解，然后根据自己的需求开发插件，撰写配置文件。

　　Spider是:

　　一个高度可配置和和可定制Web爬虫

　　LGPL开源许可下开发

　　100%纯Java实现

　　您可以使用它来：

　　检查您网站的错误(内部服务器错误, …)

　　传出或内部链接检查

　　分析你网站的结构(创建一个sitemap, …)

　　下载整修网站

　　通过编写JSpider插件实现任何功能.

　　该项目主页: http://j-spider.sourceforge.net/

　　六、spindle

　　spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

　　七、Arachnid

　　Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

　　该项目主页: http://arachnid.sourceforge.net/

　　八、LARM

　　LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

　　该项目主页: http://larm.sourceforge.net/

　　九、JoBo

　　JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。

　　十、snoics-reptile

　　1、snoics-reptile是什么?

　　是用纯Java开发的，用来进行网站镜像抓取的工具，可以使用配制文件中提供的URL入口，把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地，包括网页和各种类型的文件，如：图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内，并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如：Apache)中，就可以实现完整的网站镜像。

　　2、现在已经有了其他的类似的软件，为什么还要开发snoics-reptile?

　　因为有些在抓取的过程中经常会出现错误的文件，而且对很多使用javascript控制的URL没有办法正确的解析，而snoics-reptile通过对外提供接口和配置文件的形式，对特殊的URL，可以通过自由的扩展对外提供的接口，并通过配置文件注入的方式，基本上能实现对所有的网页都正确的解析和抓取。

　　该项目主页: http://www.blogjava.net/snoics

　　十一、Web-Harvest

　　Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。

　　Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的，你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面，它也能通过写自己的Java 方法来轻易扩展其提取能力。

2/4 首页上一页 1 2 3 4 下一页尾页