解決爬蟲作為代理IP被封問題的七種方法。有一個鄰居的孩子想上學。因為重點沒過,成績也不算太低,他打算去更好的私立高中。家長們不知道哪所學校會有更好的聲譽和往年的成績。于是,他請我一個做數據的朋友來分析數據,他也學到了一些經驗。
一、無論你想在什么樣的網站上收藏,http代理IP都是必須的,但需要注意的是,你必須使用國內代理IP,可以直接從IP在線代理地址購買但一定要靠譜。這樣做的好處是:
	首先,程序邏輯變化不大,只需要代理函數。
	第二,可以根據對方網站的不同封鎖規則,購買不同的IP代理。
	第三,假設您當前使用的代理IP被對方網站屏蔽,您可以在不改變程序邏輯的情況下更改IP。
二、少數網站的防范措施比較薄弱。您可以隱藏從代理IP服務提供商購買的IP,并修改X-Forward-for來繞過它。
	大多數網站,如果要經常抓取,通常需要更多的IP,我的首選方案是直接購買動態轉發的代理IP。
三、ADSL+腳本,監視它是否被阻塞,然后不斷切換IP。
	設置查詢頻率限制。
	正統的方式是調用本網站提供的服務接口。
四、1用戶代理偽裝和旋轉。
	2使用代理ip和旋轉。
	3 Cookie處理,一些網站對登錄用戶的政策相對寬松。
	友情提醒:考慮在別人的網站上爬行的負擔,做一個負責任的爬蟲。
	五、盡可能地模擬用戶的行為:
	1. 用戶代理經常更換。
	2. 設置更長的訪問時間間隔,并將訪問時間設置為隨機數。
	3. 訪問頁面的順序也可以是隨機的。
	六、網站關閉的依據通常是單位時間內對特定IP的訪問量。
	根據目標站點的IP地址對收集到的任務進行分組,并控制每IP單位時間內發送的任務數,避免被阻塞。當然,這個前提是你收集了很多網站。如果你只收集一個網站,那只能依靠多個外部IP來實現。
	七、1. 爬行動物爬行的壓力控制。
	2.考慮使用代理訪問目標站點。
總結一下:減少獲取動態IP地址的替換頻率,花費更長的時間進行設置,并使用隨機數進行訪問。
	頻繁切換用戶代理(模擬瀏覽器訪問)。
	多頁的數據,隨機訪問然后抓取數據。
	不斷更改代理IP。
 IP模擬器
 IP模擬器