Java小菜鸟虚心求教关于网络爬虫 - JAVA论坛

编程论坛 → 开发语言 → 『 JAVA论坛』 → Java小菜鸟虚心求教关于网络爬虫

标题：Java小菜鸟虚心求教关于网络爬虫

只看楼主

奈落迷离

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26

第 11 楼

得分:0

回复 10楼 hhwz

关于这个爬虫我可以把我编好的整个程序打包发给你吗
还是有些地方不知道怎么了
求大神帮帮忙吧我真的莫法了

2013-08-28 15:45

hhwz

等　级：贵宾
威　望：87
帖　子：687
专家分：4502
注　册：2011-5-22

第 12 楼

得分:0

回复 11楼奈落迷离

直接附件形式发在论坛上呗

2013-08-28 20:41

奈落迷离

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26

第 13 楼

得分:0

回复 12楼 hhwz

好的
谢谢大神

crawler.rar (3 KB)

2013-08-28 21:29

奈落迷离

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26

第 14 楼

得分:0

回复 12楼 hhwz

刚突然发现我在DownPage里都写了main语句
请你忽略吧这是我这两天各种测试的残骸
我的主线程在MyCrawler里先向表里写入第一个网页然后进入循环 DownPage 抓取后把网页放入访问过的表里
然后把抓取到的内容传给collectUrl提取其中的地址后加入未访问的表
这是主要的思路
请你指点吧

2013-08-28 21:33

奈落迷离

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26

第 15 楼

得分:0

回复 12楼 hhwz

大神实在是不好意思
我这两天真心让它愁得快崩溃了
脑子都乱了
今天一天没碰刚静心锊了一遍解决了一些小麻烦
现在主要的问题是
我在主线程抓取了里面的网页后
传什么东西给collectUrl比较好呢
原来我是直接传自己存在电脑上的TXT文件名字然后collectUrl读取出来再用正则匹配可是这样把数据流读了存了再在其他地方又读出来
我觉得很浪费资源
我原来想直接把读取的数据流定义成字符串然后return给collectUrl 直接匹配   可是似乎不行

现在我就想知道  我到底传个什么东西给collectUrl才好用又不浪费资源呢

2013-08-28 22:02

hhwz

等　级：贵宾
威　望：87
帖　子：687
专家分：4502
注　册：2011-5-22

第 16 楼

得分:0

collect参数的应该是 LinkQueue对象这样不用在NEW 一个Queue来写入
看你想怎么保存，只在本次运行中就不用保存到本地了，
你想下次继续的话，当然是保存成一个xml文件会好一点

2013-08-29 02:01

xioun