nutch下载(如何利用nutch和hadoop爬取网页数据)
各位朋友,你是否对nutch下载和如何利用nutch和hadoop爬取网页数据的相关问题感到好奇?别担心,我将为你揭示这些问题的答案,帮助你更好地理解和应用这些知识。让我们一起探索吧!
如何利用nutch和hadoop爬取网页数据
最终选择的是apache nutch,到目前为止最新的版本是1.3
1. Nutch是什么?
Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构
2.在哪里要可以下载到最新的Nutch?
在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码
http://mirror.bjtu.edu.cn/apache//nutch/
3.如何配置Nutch?
3.1对下载后的压缩包进行解压,然后cd$HOME/nutch-1.3/runtime/local
3.2配置bin/nutch这个文件的权限,使用chmod+x bin/nutch
3.3配置JAVA_HOME,使用export JAVA_HOME=$PATH
4.抓取前要做什么准备工作?
4.1配置http.agent.name这个属性,在conf目录下
<prename="code"class="bchome-43f3-1644-29d5-48df html"><property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
nutch和lucene的区别
Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用软件。它提供很多API函数让你可以运用到各种实际应用程序中。现在,它已经成为Apache的一个项目并被广泛应用着。
Nutch是一个建立在Lucene核心之上的Web搜索的实现,它是一个真正的应用程序。也就是说,你可以直接下载下来拿过来用。它在Lucene的基础上加了网络爬虫和一些和Web相关的东东。其目的就是想从一个简单的站内索引和搜索推广到全球网络的搜索上,就像Google和Yahoo一样。当然,和那些巨人竞争,你得动一些脑筋,想一些办法。我们已经测试过100M的网页,并且它的设计用在超过1B的网页上应该没有问题。当然,让它运行在一台机器上,搜索一些服务器,也运行的很好。
总的来说,我认为LUCENE会应用在本地服务器的网站内部搜索,而Nutch则扩展到整个网络、Internet的检索。当然LUCENE加上爬虫程序等就会成为Nutch,这样理解应该没错吧。
好了,文章到此结束,希望可以帮助到大家。