标题:Java小菜鸟虚心求教 关于网络爬虫
只看楼主
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
得分:0 
回复 10楼 hhwz
关于这个爬虫我可以把我编好的整个程序打包发给你吗
 还是有些地方不知道怎么了  
   求大神帮帮忙吧 我真的莫法了
2013-08-28 15:45
hhwz
Rank: 13Rank: 13Rank: 13Rank: 13
等 级:贵宾
威 望:87
帖 子:687
专家分:4502
注 册:2011-5-22
得分:0 
回复 11楼 奈落迷离
直接附件形式发在论坛上呗
2013-08-28 20:41
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
得分:0 
回复 12楼 hhwz
好的
谢谢大神
crawler.rar (3 KB)
2013-08-28 21:29
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
得分:0 
回复 12楼 hhwz
刚突然发现我在DownPage里都写了main语句
请你忽略吧 这是我这两天各种测试的残骸
我的主线程在MyCrawler里 先向表里写入第一个网页 然后进入循环 DownPage 抓取后把网页放入访问过的表里
然后把抓取到的内容传给collectUrl提取其中的地址后加入未访问的表
这是主要的思路
请你指点吧
2013-08-28 21:33
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
得分:0 
回复 12楼 hhwz
大神 实在是不好意思
我这两天真心让它愁得快崩溃了
脑子都乱了
今天一天没碰 刚静心锊了一遍 解决了一些小麻烦
现在主要的问题是  
我在主线程抓取了里面的网页后
传什么东西给collectUrl比较好呢
原来我是直接传自己存在电脑上的TXT文件名字 然后collectUrl读取出来再用正则匹配 可是这样把数据流读了存了再在其他地方又读出来
我觉得很浪费资源
我原来想直接把读取的数据流定义成字符串 然后return给collectUrl 直接匹配   可是似乎不行

现在我就想知道  我到底传个什么东西给collectUrl才好用又不浪费资源呢
2013-08-28 22:02
hhwz
Rank: 13Rank: 13Rank: 13Rank: 13
等 级:贵宾
威 望:87
帖 子:687
专家分:4502
注 册:2011-5-22
得分:0 
collect参数的应该是 LinkQueue对象 这样不用在NEW 一个Queue来写入
看你想怎么保存,只在本次运行中 就不用保存到本地了,
你想下次继续的话,当然 是保存成一个xml文件会好一点
2013-08-29 02:01
xioun
Rank: 5Rank: 5
等 级:职业侠客
威 望:1
帖 子:68
专家分:309
注 册:2013-4-8
得分:0 
学习了

命若天定,我就破了这个天!
2013-08-29 10:17



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-419672-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.531784 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved