閱讀(52.8k) 書簽贊(6) 我要糾錯

什么是Python3網(wǎng)絡(luò)爬蟲？

2021-05-10 16:33 更新

定義：

網(wǎng)絡(luò)爬蟲（Web Spider），又被稱為網(wǎng)頁蜘蛛，是一種按照一定的規(guī)則，自動地抓取網(wǎng)站信息的程序或者腳本。爬蟲其實是通過編寫程序，模擬瀏覽器上網(wǎng)，然后讓其去互聯(lián)網(wǎng)上抓取數(shù)據(jù)的過程。

爬蟲的價值：

抓取互聯(lián)網(wǎng)上的數(shù)據(jù)，為我所用，有了大量的數(shù)據(jù)，就如同有了一個數(shù)據(jù)銀行一樣，下一步就是如何將這些數(shù)據(jù)產(chǎn)品化、商業(yè)化。

爬蟲是否合法

網(wǎng)絡(luò)爬蟲在法律中是不被禁止，但是具有違法風(fēng)險，通常來說爬蟲分為善意的爬蟲和惡意的爬蟲。爬蟲帶來的風(fēng)險可以體現(xiàn)在如下兩個方面：

爬蟲干擾了被訪問網(wǎng)站的正常運營
爬蟲抓取了受法律保護(hù)的特定類的數(shù)據(jù)或信息

那么我們?nèi)绾卧谑褂镁帉懪老x的過程中避免進(jìn)入局子的厄運呢？

時常優(yōu)化自己的程序，避免干擾被訪問網(wǎng)站的正常運行
在使用、傳播爬取到的數(shù)據(jù)時，審查抓取到的內(nèi)容，如果發(fā)現(xiàn)涉及到用戶隱私或者商業(yè)機(jī)密等敏感內(nèi)容，需要及時停止爬取或傳播

爬蟲在使用場景中的分類

通用爬蟲抓取系統(tǒng)重要組成部分，抓取的是一整張頁面數(shù)據(jù)
聚焦爬蟲是建立在通用爬蟲的基礎(chǔ)之上，抓取頁面中特定的局部內(nèi)容
增量式爬蟲檢測網(wǎng)站中數(shù)據(jù)更新的情況，只會爬取網(wǎng)站中最新更新出來的數(shù)據(jù)

爬蟲的矛與盾

反爬機(jī)制：門戶網(wǎng)站，可以通過制定相應(yīng)的策略或者技術(shù)手段，防止爬蟲程序進(jìn)行網(wǎng)站數(shù)據(jù)的爬取。反反爬策略：爬蟲程序可以通過制定相關(guān)的策略或者技術(shù)手段，破解門戶網(wǎng)站中具備的反爬機(jī)制，從而可以獲取門戶網(wǎng)站中相關(guān)的數(shù)據(jù)。

下面，我們來了解一下網(wǎng)絡(luò)爬蟲中一個重要的協(xié)議：robots.txt協(xié)議。robots.txt協(xié)議是一個君子協(xié)議，協(xié)議中規(guī)定了網(wǎng)站中哪些數(shù)據(jù)可以被爬取哪些數(shù)據(jù)不能被爬取。

http協(xié)議和https協(xié)議

http協(xié)議：就是服務(wù)器和客戶端進(jìn)行數(shù)據(jù)交互的一種形式。http協(xié)議中常用的請求頭信息：

User-Agent：請求載體的身份標(biāo)識
Connection：請求完畢后，是斷開連接還是保持連接http協(xié)議中常用的響應(yīng)頭信息：
Content-Type：服務(wù)器響應(yīng)回客戶端的數(shù)據(jù)類型https協(xié)議其實就是一種安全的http協(xié)議

以上內(nèi)容是否對您有幫助：

網(wǎng)頁審查元素 →

寫筆記

我要補(bǔ)充

什么是Python3網(wǎng)絡(luò)爬蟲？

定義：

爬蟲的價值：

爬蟲是否合法

爬蟲在使用場景中的分類

爬蟲的矛與盾

http協(xié)議和https協(xié)議

推薦文章

推薦教程

推薦課程