Hungry Mind

Tiada kata terlambat untuk belajar

8/24/2009

Crawl nutch

NutchTutorial

Memulai

Memulai

Pertama, Anda perlu mendapatkan salinan dari kode Nutch. Anda dapat men-download rilis dari http://lucene.apache.org/nutch/release/ . Setelah itu,

Cobalah perintah berikut:

#bin/nutch bin / Nutch

Ini akan menampilkan dokumentasi untuk perintah Nutch skrip.

Anda hampir siap untuk melakukan crawling. Anda perlu memberikan nama crawler. Hal yang diperlukan.

1. Bukalah $ NUTCH_HOME/conf/Nutch-file default.xml

2. Cari http.agent.name, dan berikan nilai 'Yourname_Spider' misalnya “ismailSpider”

Sekarang kita siap untuk crawl. Ada dua pendekatan untuk merangkak:

1. Menggunakan perintah crawl untuk melakukan semua langkah-langkah crawl dengan satu perintah. Ini disebut sebagai Intranet Crawling. Meskipun cara ini sederhana untukdilakukan, namun ia memiliki keterbatasan.

2. Menggunakan tingkat yang lebih rendah inject, generate, fetch dan perintah updatedb. Hal ini disebut sebagai Whole-Web Crawling. ini memungkinkan kontrol yang lebih besar dari setiap langkah dalam proses dan diperlukan untuk dapat memperbarui data yang ada.

Perintah Crawl

Penjelajahan Perintah ini lebih tepat bila Anda berniat untuk crawling menjadi sekitar satu juta halaman pada beberapa web server.

Crawl Command: Konfigurasi

Untuk mengkonfigurasi perintah crawl anda harus:

* Ciptakan sebuah direktori dengan flat file dari root url. Sebagai contoh, untuk menjelajah situs Nutch Anda mungkin mulai dengan sebuah file bernama url /ismailnurd berisi url dari hanya halaman muka ismailnurd.blogspot.com. Semua halaman Nutch lain dapat dicapai dari halaman ini. dengan demikian urls/ismailnurd akan berisi:

http://ismailnurd.blogspot.com

* Edit file conf / crawl-MY.DOMAIN.NAME urlfilter.txt dan ganti dengan nama domain batasan anda crawl. Sebagai contoh, jika Anda ingin membatasi merangkak ke blogspot.com domain, baris harus dibaca:

+ ^ http:// ([a-z0-9] * \.) *.blogspot.com/

Ini akan mencakup setiap url dalam domain blogspot.com.

*edit file conf / regex-urlfilter.txt dan ubah baris terakhir dari "+." menjadi "-."

Crawl Command: Menjalankan Penjelajahan

Setelah hal-hal tadi dikonfigurasi, menjalankan crawl cukup mudahCukup gunakan perintah crawl. Adapun pilihan argument meliputi:

* -dir direktori untuk menempatkan hasil crawl

*-threads menentukan jumlah thread yang akan menjemput secara paralel.

*-depth menunjukkan kedalaman link dari halaman root yang harus dijelajahi.

*-topN N menentukan jumlah maksimum halaman yang akan diambil pada tiap tingkat sampai ke kedalaman.

Sebagai contoh, sebuah panggilan khas dapat berupa:

*bin/nutch crawl urls -dir crawl -depth 3 -topN 50

Cobalah dengan kedalaman lebih rendah dulu.misalnya –topN 10. Setelah yakin konfigurasi dan halaman yang diinginkan sudah mencukupi, tambah sedikit demi sedikit. Jumlah halaman per tingkat (-TOPN) untuk dapat merangkak penuh dari puluhan ribu sampai jutaan, tergantung pada source computer dan kemampuan koneksi Anda.

Setelah crawl telah selesai, anda dapat mencoba untuk menguji hasil crawl anda

bin/nutch org.apache.nutch.searcher.NutchBean setelah (kata setelah dapat diganti sesuai kata kunci yang anda cari)

Step-by-Step atau Whole-web Crawling

Whole-web crawl dirancang untuk menangani crawling sangat besar yang mungkin memakan waktu beberapa minggu untuk menyelesaikan, berjalan pada beberapa mesin. Hal ini juga memungkinkan lebih banyak kontrol atas proses crawling, dan inkremental crawling.

Step-by-Step: Konsep

Nutch data is composed of: Data Nutch terdiri dari:

1. Crawling database, atau crawldb. Ini berisi informasi mengenai setiap url dikenal Nutch, termasuk apakah itu difetch, dan, jika demikian, kapan.

2. Link database, atau LinkDB. Ini berisi daftar url dikenal link ke masing-masing, termasuk sumber jangkar url dan teks link.

3. Satu set segmen. Setiap segmen adalah satu set url yang diambil sebagai satu unit. Segmen adalah direktori dengan subdirektori berikut:

* Crawl_menghasilhan satu nama set url yang akan diambil

* Sebuah crawl_fetch berisi status dari fetching masing-masing url

* Setiap konten berisi konten mentah diambil dari setiap url

* Parse_text berisi teks parsing setiap url

* Sebuah parse_data berisi outlinks dan metadata parsing dari setiap url

* Crawl_parse berisi sebuah outlink url, yang digunakan untuk memperbarui crawldb

4. Indeks dari crawl ini masih berformat Lucene-format indeks.

Sekarang kita siap untuk mencari!

Pencarian

Cara paling mudah untuk memverifikasi integritas merangkak Anda adalah untuk memulai NutchBean dari baris perintah:

bin/nutch org.apache.nutch.searcher.NutchBean setelah (kata setelah dapat diganti sesuai kata kunci yang anda cari)

Jika hits ada, maka crawl anda berhasil namun jika anda menemukan:

Total hits : 0

Mungkin pencarian tidak ditemukan atau crawl anda gagal.

Untuk mencari, anda harus menempatkan file war Nutch ke servlet container anda(misalnya tomcat. Jika file nutch*.war masih belum ditemukan, coba cari dalam folder build. Jika belum ada, anda harus membangun file ini terlebih dahulu dengan perintah

#Ant war

Dengan asumsi Anda sudah measang Tomcat pada OS anda. Misalnya Tomcat dipasang pada path /opt/tomcat maka file nutch*.war dapat diinstal dengan perintah:

#rm-rf /opt/tomcat/webapps/ROOT*

#cp nutch*.war /opt/tomcat/webapps/ROOT.war

The webapp menemukan indeks di. /crawl, relatif ke tempat Anda mulai Tomcat, jadi gunakan perintah seperti:

/opt/tomcat/bin/catalina.sh start

Kemudian kunjungi http://localhost:8080/ dan selamat bersenang-senang!

Label: , ,

Nutch Web Search

"8 998989 110167"

Dokumen ini berisi petunjuk untuk men-download dan menginstal Nutch dan Lucene. Please beware that you must be logged into the csci571 computer to run Apache Tomcat and not on aludra or nunki. Harap berhati-hati bahwa Anda harus login ke komputer untuk menjalankan csci571 Apache Tomcat dan bukan pada aludra atau nunki
Prasyarat
1. Java 1.4 Keatas. Anda dapat men-download java dari http://java.sun.com
2. Apache ANT 1.6 atau terbaru. Anda dapat men-download ANT dari http://ant.apache.org
3. Instalasi Apache Tomcat 5.5.19 atau di atas. Anda dapat men-download Tomcat dari http://tomcat.apache.org
4. Jika anda menggunakan Windows OS, silahkan install Cygwin: Anda dapat menemukan Cygwin di sini: http://www.cygwin.com/
5. Instal subversion, Anda dapat menemukan Subversion di: http://subversion.tigris.org
Petunjuk Instalasi
1. Download Nutch dari SVN, menggunakan command line Subversion:
# Svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-0.8.1/. /Nutch

Command ini berarti mendownload nutch versi 0.8.1 kedalam folder baru Nutchdi tempat anda mengeksekusi command line ini. Ini akan menginstal Nutch ke dalam direktori yang disebut "Nutch" lokal dimanapun Anda eksekusi perintah ini. Jadi, jika Anda menjalankan perintah ini dari /home/ismail, maka Anda akan memiliki direktori bernama /home/ismail/Nutch
direktori di mana Anda memasang Nutch akan sering disebut $NUTCH_HOME. Untuk mengexportnya gunakan perintah
#export NUTCH_HOME=/home/ismail/nutch [path nutch folder tempat anda simpan]
2. Cd ke direktori Nutch, dan kompilasi Nutch:

# cd /home/ismail/nutch
# ant
1. Anda akan melihat pesan seperti berikut jika semua berjalan baik dan building berhasil.

compile:
job:
[jar] Building jar: /home/ismail/nutch/build/nutch-0.8.1.job [jar] Building jar: / home/ismail/nutch/build/nutch-0.8.1.job

BUILD SUCCESSFUL BUILD SUCCESSFUL

Total time: 27 second
3. Oke, sekarang Nutch sudah terpasang, Sekarang anda dapat Fetching beberapa konten. Ada instruksi langkah-demi-langkah secara rinci pada wiki, untuk bagaimana untuk mengambil konten. Halaman ini berisi semua rincian: http://wiki.apache.org/nutch/NutchTutorial
Anda juga dapat melihat artikel Crawl
4. Setelah Anda mengambil beberapa konten, Anda mungkin ingin menelusuri konten tadi.Untuk dapat memasang nutch pada tomcat, anda diharuskan untuk membuat webapp dengan command
# ant war
Perintah di atas akan membangun file nutch-0.8.1.war dalam $ NUTCH_HOME / build. Command ini juga menghasilkan file nutch.xml dalam $NUTCH_HOME /build. Nutch.xml adalah context.xml Tomcat file, yang dapat Anda gunakan untuk mengkonfigurasi file War untuk ditempatkan di dalam Tomcat.

5. Pertama, buat direktori untuk file Nutch.war, dan file context.xml Misalnya, file tersebut dimasukan /usr/local/Nutch adalah tempat yang baik.
6. # mkdir /usr/local/nutch
# cp –R $NUTCH_HOME/build/nutch-0.8.1.war /usr/local/nutch
# cp –R $NUTCH_HOME/build/nutch.xml /usr/local/nutch
7. Edit /usr/local/Nutch/nutch.xml dimana pada property searcher.dir tambahkan alamat penuh crawl nutch_home. Misalkan awalnya hanya firstcrawl maka kasus ini menjadi /home/ismail/nutch/firstcrawl. Edit docBase Attribute pada context tag menjadi path penuh ke folder nutch war file tadi e.g. /usr/local/nutch/nutch-0.8.1.war
8. Matikan service Tomcat terlebih dahulu.
Buatlah link ke context.xml file untuk Nutch ke direktori Tomcat
#$TOMCAT_HOME/bin/shutdown.sh
#ln –s /usr/local/nutch/nutch.xml $TOMCAT_HOME/conf/Catalina/localhost/nutch.xml
Restart Tomcat service
$TOMCAT_HOME/bin/startup.sh
(Pada kasus diatas, kita harus mendefinisikan terlebih dahulu TOMCAT_HOME dengan mengeksport alamat foldernya. Contoh #export TOMCAT_HOME=/opt/tomcat)
9. Jika sesuai dengan yang diharapkan, kunjungilah http://localhost:8080. Maka anda akan mendapatkan halaman depan dari NUTCH.

Label: , ,