Pada postingan ini saya ingin menyampaikan tentang konsep dan desain mesin pencari (Search engine) dengan hubungannya dengan Web Indexing. Secara umum model indexing ini mencakup: model dan arsitektur.
Objektif dari topik ini adalah mempelajari hal-hal sebagai berikut:
1. Anatomi mesin pencari:
- Struktur web
- Konsep dan teori
- Algoritma dan model pengolahan informasi
- Arsitektur perangkat lunak dan material
2. Praktek dan implementasi
Struktur Web
Secara umum struktur web adalah seperti gambar di bawah ini.
Gambar 1. Struktur Web [2]
Crawling the web
Proses crawling adalah suatu pekerjaan yang menantang dimana crawler harus dapat membaca dan mengambil informasi dari berbagai sumber web. Crawler adalah sebuah program yang digunakan untuk membaca dan mengambil informasi dari berbagai sumber dan dikumpulkan ke dalam index untuk keperluan search engine [3].
Secara umum crawler terdiri dari tiga proses utama, yaitu:
1. Inisialisasi
2. Iterasi
- S0: kumpulan URL yang didownload. Semua element S0 ditempatkan dalam sebuah file tunggu Q berdasarkan prioritas
- ambil element pertama dari Q
- download halaman yang terkorespondensi
- halaman yang didownload yang berisi URL baru diekstraksi
3. Kondisi stop
- masukkan URL baru ke dalam Q
- kondisi di mana Q adalah kosong
- kondisi memori mencapai limit
- jumlah URL yang didownload sudah mencapai maksimal
Bagaimanakah strategi crawler dalam memilih halaman (page), dan apa saja petunjuk penting dalam memilih sebuah page?. Ikuti postingan selanjutnya.
Bersambung ...
Referensi:
[1] Lecture of Prof. Dr. Pierre François MARTEAU: Modèles et Architectures de Recherche, Filtrage et Classification d'informations. Université de Bretagne Sud. 2012-2013
[2] http://www2006.org. Diakses tanggal 16 Juli 2013
[3] http://searchsoa.techtarget.com/definition/crawler.
Diakses tanggal 17 Juli 2013
(Suntingan dan/atau terjemahan tulisan Copyright (c) 2013 Mohammad Yani)

Tidak ada komentar:
Posting Komentar