Perancangan System Crawler Dengan Menerapkan Arsitektur Distributed Task

  • Heri Santoso

Abstract

Kebutuhan akan data insight pada online marketplace sangat penting. Demikian juga cara dalam mendapatkan data yang cukup banyak tentunya membutuhkan otomatisasi seperti crawling data pada website marketplace. Karena data yang cukup banyak, crawler system sering tidak optimal dalam melakukan crawling data. Penerapan distributed task pada crawler system memberikan kemudahan dalam scaling server baik secara vertikal dan horizontal. Dengan demikian data yang banyak dan terus tumbuh dapat diatasi oleh crawler system. Perancangan aplikasi menggunakan bahasa python, dengan server aplikasi menggunakan Google Cloud Computing. Dalam arsitektur distributed task membutuhkan komponen berupa message broker. Message broker yang dipakai dalam perancangan system ini adalah RabbitMQ. Hasil dari perancangan crawler system akan digunakan oleh PDC Media Group untuk pengumpulan data produk marketplace. Data tersebut kemudian nantinya menjadi bahan penentuan pengambilan keputusan bisnis dari PDC Media Group sendiri. Pengujian crawler system menggunakan 3 skenario, yaitu dengan 1 worker, 2 worker, dan 3 worker. Hasil untuk skenario 1 worker adalah 19.3 request per second dan 332 ms untuk response time. Hasil untuk skenario 2 worker adalah 41.4 request per second dan 328 ms untuk response time. Sedangkan hasil untuk skenario 3 worker adalah 60 request per second dan 331 ms untuk response time.
Published
2022-02-25