jsoup爬取网络小说
发布时间: 2023-09-04 12:13:13
Ⅰ jsoup爬取连接网站超时是不是ip被封了
有比较大的几率会被封,一般爬去需要控制爬取频率最好使用代理库轮询去拉数据。
Ⅱ java jsoup 爬虫 怎么防止重复爬取
正好最近在学习这方面的内容。
两种思路:
可以将当前爬取的url存在一个list中作登记,在下一次开始爬子链接的时候进行比对,如果已经存在在list中则跳过,如果不存在那么继续爬
可以将所有的url网络先遍历一遍存在list中,然后根据list而不是再次访问子链接url进行爬取,在url存入list的过程中进行查重处理
顺便为了方便控制。建议设置爬取深度,在一定深度内进行爬取。
热点内容