关于爬虫的问题,10线程还是慢。附代码
程序代码:
class S(SGMLParser): '''取链接的''' def pachong(url): a=urllib2.urlopen(url) parser=S() parser.feed(a.read()) b=parser.urls #HTML里取得的链接列表 if b:return b def main(): while True: url=q.get() c=pachong(url) if c: for url in c: print url q.put(url) q=Queue() q.put('http://www.') for i in range(10): t=threading.Thread(target=main) t.start()
其中会带有处理链接的代码,但是这些应该不怎么影响爬虫的。。 感觉爬的就慢。。。
[ 本帖最后由 pypro 于 2010-4-11 13:34 编辑 ]