Mohammad Yani's Blog: Introduction of Web Indexing

Pada postingan ini saya ingin menyampaikan tentang konsep dan desain mesin pencari (Search engine) dengan hubungannya dengan Web Indexing. Secara umum model indexing ini mencakup: model dan arsitektur.

Objektif dari topik ini adalah mempelajari hal-hal sebagai berikut:

1. Anatomi mesin pencari:

Struktur web
Konsep dan teori
Algoritma dan model pengolahan informasi
Arsitektur perangkat lunak dan material

2. Praktek dan implementasi

Struktur Web

Secara umum struktur web adalah seperti gambar di bawah ini.

Gambar 1. Struktur Web [2]

Crawling the web

Proses crawling adalah suatu pekerjaan yang menantang dimana crawler harus dapat membaca dan mengambil informasi dari berbagai sumber web. Crawler adalah sebuah program yang digunakan untuk membaca dan mengambil informasi dari berbagai sumber dan dikumpulkan ke dalam index untuk keperluan search engine [3].

Secara umum crawler terdiri dari tiga proses utama, yaitu:

1. Inisialisasi

S0: kumpulan URL yang didownload. Semua element S0 ditempatkan dalam sebuah file tunggu Q berdasarkan prioritas

2. Iterasi

ambil element pertama dari Q

download halaman yang terkorespondensi

halaman yang didownload yang berisi URL baru diekstraksi

masukkan URL baru ke dalam Q

3. Kondisi stop

kondisi di mana Q adalah kosong

kondisi memori mencapai limit

jumlah URL yang didownload sudah mencapai maksimal

Bagaimanakah strategi crawler dalam memilih halaman (page), dan apa saja petunjuk penting dalam memilih sebuah page?. Ikuti postingan selanjutnya.

Bersambung ...

Referensi:
[1] Lecture of Prof. Dr. Pierre François MARTEAU: Modèles et Architectures de Recherche, Filtrage et Classification d'informations. Université de Bretagne Sud. 2012-2013
[2] http://www2006.org. Diakses tanggal 16 Juli 2013
[3] http://searchsoa.techtarget.com/definition/crawler.
Diakses tanggal 17 Juli 2013

Mohammad Yani's Blog

Rabu, 17 Juli 2013

Introduction of Web Indexing

Tidak ada komentar:

Posting Komentar

Hot links

Cari artikel

Translate

Artikel Populer