Nutch 查看抓取的文件

女爷i 2022-08-10 04:46 137阅读 0赞

ls data           -- 有3个文件夹

crawldb  linkdb  segments

ls data/crawldb   -- 有2个文件夹：current  old。其中old 做冗余备份

ls data/crawldb/current/   -- part-00000 ，由hadoop reduce 生成的文件夹

ls data/crawldb/current/part-00000/

\-- data, index 。数据存储在data，index是对data中数据的一个索引

du -h data/crawldb/current/part-00000/

\-- 查看文件夹part-00000的大小

du -h data/crawldb/current/part-00000/\*

\-- 查看文件夹part-00000中每个文件的大小

vi data/crawldb/current/part-00000/data  -- 二进制文件

bin/nutch | grep read          -- 查看文件的命令

readdb            read / dump crawl db

readlinkdb        read / dump link db

readseg           read / dump segment data

ls data                   -- 3个read 命令分别对应3个文件夹

crawldb  linkdb  segments

bin/nutch readdb

Usage: CrawlDbReader <crawldb> (-stats | -dump <out\_dir> | -topN <nnnn> <out\_dir> \[<min>\] | -url <url>)

其中, CrawlDbReader 表示命令使用的java类。

bin/nutch readdb data/crawldb -dump data/crawldb/crawldb\_dump   -- 二进制文件导出为文本文件

ls data/crawldb/crawldb\_dump/

vi data/crawldb/crawldb\_dump/part-00000

:/db\_fetched      -- 查找一个抓取过的路径，如：http://bj.tianya.cn/

bin/nutch readdb data/crawldb -url http://bj.tianya.cn/   -- 查看指定URL信息

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb\_topN

\-- 提取指定条数数据到某一个目录

vi data/crawldb/crawldb\_topN/part-00000      -- 显示了10行URL, 第1列为分值

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb\_topN 1    -- 最后1个参数为最小分值限制

会抛出异常，需要更换一个目录

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb\_topN\_min 1   -- 显示分值大于等于1的URL

vi data/crawldb/crawldb\_topN\_min/part-00000

ls data/segments/

\-- 每执行一轮抓取，都会生成一个文件夹，以当前时间命名

ls data/segments/20130418224204

content  crawl\_fetch  crawl\_generate  crawl\_parse  parse\_data  parse\_text

bin/nutch readseg

Usage: SegmentReader -dump <segment\_dir> <output> \[general options\]

\-nocontent      ignore content directory

-nofetch        ignore crawl\_fetch directory

-nogenerate     ignore crawl\_generate directory

-noparse        ignore crawl\_parse directory

-noparsedata    ignore parse\_data directory

-noparsetext    ignore parse\_text directory

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204\_dump -nocontent  -nofetch -noparse -noparsedata -noparsetext

\-- 只输出generate

ls data/segments/20130418224204\_dump     -- 只有1个文件：dump

vi data/segments/20130418224204\_dump/dump  -- 第1次抓取只有1个URL

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204\_dump\_crawl\_fetch -nocontent  -nogenerate -noparse -noparsedata -noparsetext

vi data/segments/20130418224204\_dump\_crawl\_fetch/dump

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204\_dump\_crawl\_content -nofetch  -nogenerate -noparse -noparsedata -noparsetext

vi data/segments/20130418224204\_dump\_crawl\_content/dump    -- 抓取到的HTML源代码

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204\_dump\_crawl\_parse -nofetch  -nogenerate -nocontent -noparsedata -noparsetext

vi data/segments/20130418224204\_dump\_crawl\_parse/dump   -- 没有内容，因为抓取的网页，被重定向到其它页面上了

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204\_dump\_crawl\_parse -nofetch  -nogenerate -nocontent -noparse -noparsetext

vi data/segments/20130418224204\_dump\_crawl\_parse/dump   -- 没有内容

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204\_dump\_crawl\_parse -nofetch  -nogenerate -nocontent -noparse -noparsedata

vi data/segments/20130418224204\_dump\_crawl\_parse/dump   -- 没有内容

bin/nutch readseg

\* SegmentReader -list (<segment\_dir1> ... | -dir <segments>) \[general options\]

bin/nutch readseg -list -dir data/segments/

bin/nutch readseg -list data/segments/20130418224204

bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/

\-- 最后一个参数为特定的URL，注意：最后要有一个反斜杠。查看指定URL的抓取信息

bin/nutch readlinkdb

Usage: LinkDbReader <linkdb> (-dump <out\_dir> | -url <url>)

-dump <out\_dir> dump whole link db to a text file in <out\_dir>

-url <url>      print information about <url> to System.out

bin/nutch readlinkdb data/linkdb -dump data/linkdb\_dump