由于代理IP分布在全國各地,線路多,集群結構復雜,部分線路不時升級,代理鏈路可能會偶爾斷開。平臺提供雙機熱備份代理服務器(切換時間約1分鐘),保證代理服務實時上線,爬蟲程序需要相應優化,有兩種選擇:
(1)自動更新代理IP提取鏈接(優先級推薦,實時更新)。
爬蟲程序需要啟動一個專用線程,每隔1分鐘訪問一次“代理提取鏈接”。如果代理IP和端口發生變化,爬蟲需要自動更新代理信息。(由于爬蟲服務器的外部網絡IP的更改或其他網絡原因,獲取代理信息可能偶爾會失敗。重新發起請求就可以了)。
(2)域名訪問方式(長延時被動更新)。
通知專門的客服開啟“域名訪問模式”,爬蟲程序通過“域名和端口”連接到代理服務器。定期檢查平臺。一旦檢測到在線代理服務器中的異常,則在后臺更新該域名。由于DNS服務器的同步時間較長,在線檢測間隔較長,這種解決方案不失為一種替代方案。
IP模擬器