标题:关于爬虫的问题,10线程还是慢。附代码
只看楼主
pypro
Rank: 1
等 级:新手上路
帖 子:18
专家分:0
注 册:2010-4-10
结帖率:80%
已结贴  问题点数:0 回复次数:3 
关于爬虫的问题,10线程还是慢。附代码
程序代码:
class S(SGMLParser):
    '''取链接的'''
  
def pachong(url):
    a=urllib2.urlopen(url)
    parser=S()
    parser.feed(a.read())
    b=parser.urls  #HTML里取得的链接列表
    if b:return b
def main():
    while True:
        url=q.get()
        c=pachong(url)
        if c:
            for url in c:
                print url
                q.put(url)
q=Queue()
q.put('http://www.')
for i in range(10):
    t=threading.Thread(target=main)
    t.start()

其中会带有处理链接的代码,但是这些应该不怎么影响爬虫的。。 感觉爬的就慢。。。




[ 本帖最后由 pypro 于 2010-4-11 13:34 编辑 ]
搜索更多相关主题的帖子: 爬虫 线程 代码 
2010-04-11 13:32
外部三电铃
Rank: 16Rank: 16Rank: 16Rank: 16
来 自:那一年
等 级:贵宾
威 望:55
帖 子:2004
专家分:7306
注 册:2007-12-17
得分:10 
1、如果已经达到你带宽的极限再怎么加线程也没用了
2、是不是那个网站有防火墙?防火墙能根据短时间内的访问次数判断是爬虫还是正常访客,不过这样它把搜索引擎的爬虫也给阻挡了

那一年,苍井空还是处女
2010-04-11 13:50
pypro
Rank: 1
等 级:新手上路
帖 子:18
专家分:0
注 册:2010-4-10
得分:0 
回复 2楼 外部三电铃
拿百度测试的。
我2M宽带,应该不是那么慢的
2010-04-11 14:41
外部三电铃
Rank: 16Rank: 16Rank: 16Rank: 16
来 自:那一年
等 级:贵宾
威 望:55
帖 子:2004
专家分:7306
注 册:2007-12-17
得分:0 
采集的时候看着任务管理器里的联网

100M的网卡,如果持续在2%左右说明已经满速了

那一年,苍井空还是处女
2010-04-11 16:02



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-302524-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.013910 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved