jsoup爬取網路小說
發布時間: 2023-09-04 12:13:13
Ⅰ jsoup爬取連接網站超時是不是ip被封了
有比較大的幾率會被封,一般爬去需要控制爬取頻率最好使用代理庫輪詢去拉數據。
Ⅱ java jsoup 爬蟲 怎麼防止重復爬取
正好最近在學習這方面的內容。
兩種思路:
可以將當前爬取的url存在一個list中作登記,在下一次開始爬子鏈接的時候進行比對,如果已經存在在list中則跳過,如果不存在那麼繼續爬
可以將所有的url網路先遍歷一遍存在list中,然後根據list而不是再次訪問子鏈接url進行爬取,在url存入list的過程中進行查重處理
順便為了方便控制。建議設置爬取深度,在一定深度內進行爬取。
熱點內容