写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？ - Python论坛 - 编程论坛档案馆

编程论坛 → 开发语言 → 『 Python论坛』 → 写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？

标题：写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？

只看楼主

萌萌01

帅哥哟，离线，有人找我吗？

Rank: 1

等　级：新手上路
帖　子：5
专家分：7
注　册：2018-11-15
结帖率：0

已结贴√ 问题点数：10 回复次数：1

写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？

我最近实习，领导让我爬取阿里巴巴供应商数据，刚开始目标是爬取阿里巴巴电脑端的数据，发现模拟登陆很麻烦，需要短信验证，而且即使登录也需要不断输入验证码，就换成爬取阿里巴巴移动端的数据，不需要登录，但是访问频繁就会返回重定向的页面 404-阿里巴巴，即使换代理ip也不行，这是为什么呢？有没有成功爬取阿里巴巴的项目可以借鉴一下？

搜索更多相关主题的帖子: 数据　代理　 ip　识别　登录　

发帖时间

2018-12-28 15:57

guanyaohao

帅哥哟，离线，有人找我吗？

Rank: 2

等　级：论坛游民
威　望：1
帖　子：4
专家分：15
注　册：2019-1-2

得分:5

回复楼主萌萌01

我之前有过类似的情况，使用代理代码写得不规范；在一个有可能是代理网站跟爬取网站有合作关系（一爬虫大牛给我的答案）；代理不是高密代理，哪怕20个里面有1个不是高密代理，数量多了也能被检测出来，所以监测之前先监测一下是不是高密代理。
总的来说，有一个高质量的代理ip池很重要

发帖时间

2019-01-02 18:04

参与讨论请移步原网站贴子：https://bbs.bccn.net/thread-492349-1-1.html

关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有，并保留所有权利。

Powered by Discuz, Processed in 0.334053 second(s), 8 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved