Web Download, Web Reporting, IntraWeb

ZPJ> Cara yang terpikir oleh saya adalah menggunakan algoritma neural
ZPJ> network untuk membangun kecerdasan buatan bagi web crawler.

image Wah, ini ide yang keren, berbahaya sekaligus mustahil. Bukan masalah mengenali field INPUT, tapi isi user + passwordnya apa? Bila disediakan database user + password, sekalian saja user + password + host + halaman + field, jadi tidak perlu lagi kecerdasan buatan.

Bila yang diinginkan offline browsing setelah login, ya simpan saja halaman setelah login. Biasanya, session_id (setelah login) itu disimpan di COOKIE atau URL (query string). Tinggal di-grep saja. Loginnya ya POST biasa. Di PHP ada cURL, pas buat operasi-operasi gituan.

ZPJ> Problemnya: untuk tahu nama field input form login pengguna harus
ZPJ> membuka source code HTML. Pengguna harus cukup paham HTML.

yang saya pandang mustahil adalah kemampuan crawler untuk melakukan login sendiri tanpa intervensi user (dalam artian registrasi di situs tersebut). AI tentu dapat digunakan untuk mengenali pola-pola dari form login, sehingga minimal sekali yang dibutuhkan crawler adalah host, user, dan password. Jangan lupa situs yang perlu user + login itu seringkali sangat dinamis, terkait ruang dan waktu. Sifatnya boleh jadi sangat spesifik, sehingga perlu dibedah HTML + logic-nya.

ZPJ> situs yang cara registrasinya sudah dikenal banyak orang, tidak
ZPJ> mustahil menurut saya. Tapi memang harus diakui, crawler bakal
ZPJ> kesulitan jika proses registrasi sedikit diubah.

Itulah tugas kita membuatnya mustahil, misalnya dengan verifikasi gambar (captcha). Kebanyakan registrasi saat ini, termasuk phpBB dan vBulletin, berusaha menghalau pendaftaran oleh mesin. Bisakah gambar-gambar tersebut dikenali oleh mesin? Bisa saja. Tapi jika kita memandangnya dalam kerangka ‘mustahil’, ya ini pertarungan yang tidak pernah selesai.

Sebenarnya tujuan awal penanya tentang offline browsing ini patut dikritisi. Saat ini web itu begitu besar dan begitu dinamis. Web cache seperti squid kian lama kegunaannya kian turun, khususnya untuk teks (image dan script statis masih lumayan). Blog hari ini dan besok isinya bisa berbeda. Demikian juga forum. Lebih baik bandwidth + ketersediaan Internet yang diperbaiki, sumber dari masalah ini.

h>  WS ini menggunakan markup language Web Services Description (WSDL)
h> (sama halnya dengan XML atau HTML), WS digunakan untuk mengakses

Beberapa waktu lalu saya mencari cara yang elegan agar client dan server tidak dalam bahasa atau platform yang sama (misalnya Delphi sebagai client dan PHP sebagai WS). Kenyataannya, belum ketemu yang sederhana tapi efektif. Jadi kesan yang didapat, ya Delphi hanya bisa ngobrol banyak dgn Delphi, tapi menjadi primitif dgn yang lain, begitu juga sebaliknya. Kadang ironis, karena maunya khan WS ini bersifat general, tidak tergantung bahasa atau platform. Toh sulit juga.

Akhir-akhir ini sepertinya SOAP + WSDL kalah populer dengan cara-cara yang lebih sederhana, misalnya XML-RPC, JSON-RPC, dan REST. WSDL itu kesannya ribet dan menyebalkan. Ketimbang definisinya komplit tapi rentan error, lebih baik sederhana tapi stabil dan mudah ditelusuri. Sayangnya Delphi (7, default) hanya menyediakan SOAP untuk WS.

B> performance-nya justru lebih baik dari yang berbasis scripting (dalam
B> hal ini PHP). Saya  menggunakan PWU atau Powtils. Mungkin bung

Aha, topik menarik nih. Sampai saat ini saya tetap belum mengerti, mengapa anda selalu membenturkan scripting dengan non-scripting, padahal yang membuat lambat itu operasi database. Pepatah Jawanya: barking in the wrong tree. Wikipedia, WordPress, SourceForge, Friendster hingga FaceBook memakai PHP atau LAMP.

Pelajaran menarik bisa diambil dari FaceBook, yang menurut saya trafficnya amat sangat luar biasa. Sampai-sampai browsernya ngos-ngosan akibat full AJAX. Salah satu tipsnya adalah memakai memcached, yang tujuannya meringankan beban database. Bisa dimulai di sini: http://www.facebook.com/FacebookEngineering.

P> Bayangin aja bikin online store sederhana lengkap dgn login
P> account, gak perlu nulis html dan javascript. Tinggal nge-layout
P> html pake Dreamweaver dan coding click&drag pake Delphi-7.

Tidak ada jawaban pasti di sini, tergantung masing-masing selera dan kebutuhan. Kalo tidak mau bersusah-susah menulis HTML, JS, dkk, rasanya tidak cocok memakai PHP, karena sangat manual. Perlu pengetahuan yang cukup tentang hal-hal terkait web, seperti HTML, JS, CSS, termasuk setting web server + Linux. Tapi ini justru nilai tambah ya, karena ke depan kita menjadi lebih mandiri dan mudah mengembangkan program.

Saya melihatnya begini, ada saatnya kita ber-OOP + VCL ria, ada saatnya justru sebaliknya. Delphi itu mudah, bagi yang setiap hari memakai. Saya ketika mencoba Web Service di Delphi juga bingung, kenapa ribet begini? Nah, di PHP sebaliknya, istilahnya ‘quick & dirty’. Cepat dibuat, cepat jalan, berantakan tidak masalah. Sejauh ini sih saya senang-senang saja.

P> melihatnya dr perspektif ‘Time to Market’. Kebetulan aku jobbing di
P> system-house yang punya ratusan library business-system model.

Memang ini kendala yang menghalangi berpindah platform, karena sudah punya modal dasar masing-masing. Saya bilang PHP cepat, karena sudah pernah bikin, tinggal rombak sana-sini. Ada juga cara-cara perpindahan secara halus, misalnya memakai PHP untuk interface ke user, tapi engine intinya tetap Delphi (sebagai module PHP). Lebih portable lagi bila business-system disimpan di DB atau berbasis DB, jadi mudah dipindah-pindah.

P> Btw, web-service pake Delphi kalo udah tau polanya juga bisa
P> ‘quick&dirty’. saya senang dgn data-module-nya yang di taro sbg

Web Service sesama Delphi? Bagaimana dengan bahasa lain? Saya juga ingin tahu, gimana Delphi vs Java via Web Service misalnya, tidak sekedar tukar-tukaran data sederhana. Sama halnya dengan web-based application yang dibangun dengan Delphi, ada yang bisa kasih URL demonya?

Kata situsnya: "IntraWeb produces some amazing applications. Most of our customers are using them for Intranet or secure extranet applications so its difficult for us to show off those applications." Lalu bagaimana caranya saya masuk ke intranet atau extranet?

Ini juga pertanyaan menggoda. Di situsnya, atozed.com, berakhiran .aspx (ASP .NET?) Mengapa pembuatnya sendiri tidak memakai produknya? Demo tidak ada, situsnya pun tidak memakai. Gimana urusannya nih?

jm> urlnya mengarah ke situs saya yang isinya dipopulasi dari
jm> kontentnya si popular. Udah kerja sama getooo.

Maksudnya majalah Popular? Kirain situs-situs yang populer. Bila sudah kerja sama kenapa nanggung? Minta saja ‘jalan belakang’ buat menarik data. Mekanismenya bisa Web Service atau XML.

Secara awam, kalo yang dimaksud http://www.popular-maj.com/member/, dia pake ‘HTTP Authentication Schemes’. Ini dari Google: http://frontier.userland.com/stories/storyReader$2159.

Cegat saja percakapan antara browser dan web server (pake proxyTrace bisa). Contoh header yang dikirim browser ketika login:

Authorization: Basic dGVzdDoxMjM=
Cookie: PHPSESSID=a5941b06fb43c1d37e7cd31470f918ea

Di PHP, session bisa pake Cookie (seperti di atas). Setelah login, Cookie ini nempel terus setiap mengakses halaman. Selanjutnya pengolahan seperti biasa.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s