網(wǎng)絡(luò)爬蟲(Web Spider),又被稱為網(wǎng)頁蜘蛛,是一種按照一定的規(guī)則,自動地抓取網(wǎng)站信息的程序或者腳本。爬蟲其實是通過編寫程序,模擬瀏覽器上網(wǎng),然后讓其去互聯(lián)網(wǎng)上抓取數(shù)據(jù)的過程。
抓取互聯(lián)網(wǎng)上的數(shù)據(jù),為我所用,有了大量的數(shù)據(jù),就如同有了一個數(shù)據(jù)銀行一樣,下一步就是如何將這些數(shù)據(jù)產(chǎn)品化、商業(yè)化。
網(wǎng)絡(luò)爬蟲在法律中是不被禁止,但是具有違法風(fēng)險,通常來說爬蟲分為善意的爬蟲和惡意的爬蟲。爬蟲帶來的風(fēng)險可以體現(xiàn)在如下兩個方面:
那么我們?nèi)绾卧谑褂镁帉懪老x的過程中避免進(jìn)入局子的厄運呢?
反爬機(jī)制:門戶網(wǎng)站,可以通過制定相應(yīng)的策略或者技術(shù)手段,防止爬蟲程序進(jìn)行網(wǎng)站數(shù)據(jù)的爬取。反反爬策略:爬蟲程序可以通過制定相關(guān)的策略或者技術(shù)手段,破解門戶網(wǎng)站中具備的反爬機(jī)制,從而可以獲取門戶網(wǎng)站中相關(guān)的數(shù)據(jù)。
下面,我們來了解一下網(wǎng)絡(luò)爬蟲中一個重要的協(xié)議:robots.txt協(xié)議。robots.txt協(xié)議是一個君子協(xié)議,協(xié)議中規(guī)定了網(wǎng)站中哪些數(shù)據(jù)可以被爬取哪些數(shù)據(jù)不能被爬取。
http協(xié)議:就是服務(wù)器和客戶端進(jìn)行數(shù)據(jù)交互的一種形式。http協(xié)議中常用的請求頭信息:
更多建議: