Hungry Mind: Crawl nutch

NutchTutorial

Memulai

Pertama, Anda perlu mendapatkan salinan dari kode Nutch. Anda dapat men-download rilis dari http://lucene.apache.org/nutch/release/ . Setelah itu,

Cobalah perintah berikut:

#bin/nutch bin / Nutch

Ini akan menampilkan dokumentasi untuk perintah Nutch skrip.

Anda hampir siap untuk melakukan crawling. Anda perlu memberikan nama crawler. Hal yang diperlukan.

1. Bukalah $ NUTCH_HOME/conf/Nutch-file default.xml

2. Cari http.agent.name, dan berikan nilai 'Yourname_Spider' misalnya “ismailSpider”

Sekarang kita siap untuk crawl. Ada dua pendekatan untuk merangkak:

1. Menggunakan perintah crawl untuk melakukan semua langkah-langkah crawl dengan satu perintah. Ini disebut sebagai Intranet Crawling. Meskipun cara ini sederhana untukdilakukan, namun ia memiliki keterbatasan.

2. Menggunakan tingkat yang lebih rendah inject, generate, fetch dan perintah updatedb. Hal ini disebut sebagai Whole-Web Crawling. ini memungkinkan kontrol yang lebih besar dari setiap langkah dalam proses dan diperlukan untuk dapat memperbarui data yang ada.

Perintah Crawl

Penjelajahan Perintah ini lebih tepat bila Anda berniat untuk crawling menjadi sekitar satu juta halaman pada beberapa web server.

Crawl Command: Konfigurasi

Untuk mengkonfigurasi perintah crawl anda harus:

* Ciptakan sebuah direktori dengan flat file dari root url. Sebagai contoh, untuk menjelajah situs Nutch Anda mungkin mulai dengan sebuah file bernama url /ismailnurd berisi url dari hanya halaman muka ismailnurd.blogspot.com. Semua halaman Nutch lain dapat dicapai dari halaman ini. dengan demikian urls/ismailnurd akan berisi:

http://ismailnurd.blogspot.com

* Edit file conf / crawl-MY.DOMAIN.NAME urlfilter.txt dan ganti dengan nama domain batasan anda crawl. Sebagai contoh, jika Anda ingin membatasi merangkak ke blogspot.com domain, baris harus dibaca:

+ ^ http:// ([a-z0-9] * \.) *.blogspot.com/

Ini akan mencakup setiap url dalam domain blogspot.com.

*edit file conf / regex-urlfilter.txt dan ubah baris terakhir dari "+." menjadi "-."

Crawl Command: Menjalankan Penjelajahan

Setelah hal-hal tadi dikonfigurasi, menjalankan crawl cukup mudahCukup gunakan perintah crawl. Adapun pilihan argument meliputi:

* -dir direktori untuk menempatkan hasil crawl

*-threads menentukan jumlah thread yang akan menjemput secara paralel.

*-depth menunjukkan kedalaman link dari halaman root yang harus dijelajahi.

*-topN N menentukan jumlah maksimum halaman yang akan diambil pada tiap tingkat sampai ke kedalaman.

Sebagai contoh, sebuah panggilan khas dapat berupa:

*bin/nutch crawl urls -dir crawl -depth 3 -topN 50

Cobalah dengan kedalaman lebih rendah dulu.misalnya –topN 10. Setelah yakin konfigurasi dan halaman yang diinginkan sudah mencukupi, tambah sedikit demi sedikit. Jumlah halaman per tingkat (-TOPN) untuk dapat merangkak penuh dari puluhan ribu sampai jutaan, tergantung pada source computer dan kemampuan koneksi Anda.

Setelah crawl telah selesai, anda dapat mencoba untuk menguji hasil crawl anda

bin/nutch org.apache.nutch.searcher.NutchBean setelah (kata setelah dapat diganti sesuai kata kunci yang anda cari)

Step-by-Step atau Whole-web Crawling

Whole-web crawl dirancang untuk menangani crawling sangat besar yang mungkin memakan waktu beberapa minggu untuk menyelesaikan, berjalan pada beberapa mesin. Hal ini juga memungkinkan lebih banyak kontrol atas proses crawling, dan inkremental crawling.

Step-by-Step: Konsep

Nutch data is composed of: Data Nutch terdiri dari:

1. Crawling database, atau crawldb. Ini berisi informasi mengenai setiap url dikenal Nutch, termasuk apakah itu difetch, dan, jika demikian, kapan.

2. Link database, atau LinkDB. Ini berisi daftar url dikenal link ke masing-masing, termasuk sumber jangkar url dan teks link.

3. Satu set segmen. Setiap segmen adalah satu set url yang diambil sebagai satu unit. Segmen adalah direktori dengan subdirektori berikut:

* Crawl_menghasilhan satu nama set url yang akan diambil

* Sebuah crawl_fetch berisi status dari fetching masing-masing url

* Setiap konten berisi konten mentah diambil dari setiap url

* Parse_text berisi teks parsing setiap url

* Sebuah parse_data berisi outlinks dan metadata parsing dari setiap url

* Crawl_parse berisi sebuah outlink url, yang digunakan untuk memperbarui crawldb

4. Indeks dari crawl ini masih berformat Lucene-format indeks.

Sekarang kita siap untuk mencari!

Pencarian

Cara paling mudah untuk memverifikasi integritas merangkak Anda adalah untuk memulai NutchBean dari baris perintah:

bin/nutch org.apache.nutch.searcher.NutchBean setelah (kata setelah dapat diganti sesuai kata kunci yang anda cari)

Jika hits ada, maka crawl anda berhasil namun jika anda menemukan:

Total hits : 0

Mungkin pencarian tidak ditemukan atau crawl anda gagal.

Untuk mencari, anda harus menempatkan file war Nutch ke servlet container anda(misalnya tomcat. Jika file nutch*.war masih belum ditemukan, coba cari dalam folder build. Jika belum ada, anda harus membangun file ini terlebih dahulu dengan perintah

#Ant war

Dengan asumsi Anda sudah measang Tomcat pada OS anda. Misalnya Tomcat dipasang pada path /opt/tomcat maka file nutch*.war dapat diinstal dengan perintah:

#rm-rf /opt/tomcat/webapps/ROOT*

#cp nutch*.war /opt/tomcat/webapps/ROOT.war

The webapp menemukan indeks di. /crawl, relatif ke tempat Anda mulai Tomcat, jadi gunakan perintah seperti:

/opt/tomcat/bin/catalina.sh start

Kemudian kunjungi http://localhost:8080/ dan selamat bersenang-senang!

Label: crawl, fetch, nutch

Hungry Mind

8/24/2009

Crawl nutch

Memulai

0 Komentar:

Posting Komentar

Mengenai Saya

Postingan Sebelumnya