W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
Concurrency是并行處理的請求數(shù)。存在全局限制 (?CONCURRENT_REQUESTS
? )以及每個域都可以設(shè)置的附加限制 (?CONCURRENT_REQUESTS_PER_DOMAIN
? )或每IP (?CONCURRENT_REQUESTS_PER_IP
? )
注解
調(diào)度程序優(yōu)先級隊列 recommended for broad crawls 不支持 ?CONCURRENT_REQUESTS_PER_IP
? .
scrapy中的默認(rèn)全局并發(fā)限制不適用于并行地對許多不同的域進行爬網(wǎng),因此您需要增加它。增加多少將取決于您的爬蟲有多少CPU和內(nèi)存可用。
一個好的起點是 100 ::
CONCURRENT_REQUESTS = 100
但最好的方法是做一些試驗,并確定零碎的進程在什么樣的并發(fā)上受到CPU限制。為了獲得最佳性能,您應(yīng)該選擇CPU使用率為80-90%的并發(fā)性。
增加并發(fā)性也會增加內(nèi)存使用量。如果擔(dān)心內(nèi)存使用問題,您可能需要相應(yīng)地降低全局并發(fā)限制。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: