搜索
编程论坛
→
开发语言
→
『 Python论坛 』
→ 写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
标题:
写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
只看楼主
萌萌01
等 级:
新手上路
帖 子:5
专家分:7
注 册:2018-11-15
结帖率:
0
楼主
已结贴
√
问题点数:10 回复次数:1
写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
我最近实习,领导让我爬取阿里巴巴供应商数据,刚开始目标是 爬取阿里巴巴 电脑端的数据,发现模拟登陆很麻烦,需要短信验证,而且即使登录也需要不断输入验证码,就换成爬取 阿里巴巴 移动端的数据,不需要登录,但是访问频繁就会返回重定向的页面 404-阿里巴巴 ,即使换代理ip也不行,这是为什么呢?有没有成功爬取阿里巴巴的项目可以借鉴一下?
搜索更多相关主题的帖子:
数据
代理
ip
识别
登录
2018-12-28 15:57
guanyaohao
等 级:
论坛游民
威 望:
1
帖 子:4
专家分:15
注 册:2019-1-2
第
2
楼
得分:5
回复 楼主 萌萌01
我之前有过类似的情况, 使用代理代码写得不规范; 在一个有可能是代理网站跟爬取网站有合作关系(一爬虫大牛给我的答案) ; 代理不是高密代理,哪怕20个里面有1个不是高密代理,数量多了也能被检测出来, 所以监测之前先监测一下是不是高密代理。
总的来说,有一个高质量的代理ip池很重要
2019-01-02 18:04
2
1/1页
1
参与讨论请移步原网站贴子:
https://bbs.bccn.net/thread-492349-1-1.html
关于我们
|
广告合作
|
编程中国
|
清除Cookies
|
TOP
|
手机版
编程中国
版权所有,并保留所有权利。
Powered by
Discuz
, Processed in 0.137807 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved