标题:网页采集规则的保存类型和使用方式
只看楼主
bccnsir
Rank: 1
等 级:新手上路
帖 子:4
专家分:2
注 册:2012-5-14
结帖率:0
已结贴  问题点数:10 回复次数:2 
网页采集规则的保存类型和使用方式
各位前辈,网页采集软件中采集规则使用那种方式保存以及怎样使用更好?
比如,sina博文的采集规则(比如:从源码中抽取博文标题、内容和博文时间三项,其他内容不要)。采集1000篇sina博文。可以将这个规则使用一个数据表来保存,名字叫做“sina博文规则表”。网易博文的采集规则(比如:从源码中抽取博文标题、内容和作者三项,其他内容不要)。采集2000篇网易博文。可以将这个规则使用一个数据表来保存,名字叫做“网易博文规则表”。
那么当采集的时候,每一篇文章都要读数据表来获取采集规则,要读3000次(sina博文规则表要读1000次;网易博文规则表要读2000次)。这样频繁访问数据表的操作显然不是做好的,请问有什么好的方式呢?
谢谢各位!

[ 本帖最后由 bccnsir 于 2012-9-4 12:37 编辑 ]
搜索更多相关主题的帖子: 文章 sina 网易 数据表 
2012-09-04 12:26
何事惊慌
Rank: 6Rank: 6
等 级:侠之大者
威 望:4
帖 子:220
专家分:499
注 册:2008-7-2
得分:10 
用正则表达式可以很快的提取你需要的内容

QQ:860234001
编程交流群:236949758
2012-09-10 19:51
品味人生
Rank: 1
等 级:新手上路
帖 子:17
专家分:1
注 册:2012-8-2
得分:0 
看一看
2012-09-16 13:17



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-380657-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.017537 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved