标题:C#网页数据采集问题
只看楼主
清风易水
Rank: 1
来 自:江苏扬州
等 级:新手上路
帖 子:18
专家分:3
注 册:2009-5-13
结帖率:66.67%
已结贴  问题点数:10 回复次数:6 
C#网页数据采集问题
怎样才能用C#从网页中下载源代码,并且获取其中关键字(如地址、电话的信息等)并且获取对应的超链接(由于其他超链接过多,很乱),求教高手,谢谢....
搜索更多相关主题的帖子: 数据采集 网页 
2010-11-24 22:25
saitor
Rank: 10Rank: 10Rank: 10
等 级:青峰侠
威 望:5
帖 子:373
专家分:1520
注 册:2009-5-18
得分:3 
httpwebrequest,正则。
2010-11-25 11:19
yms123
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:209
帖 子:12488
专家分:19042
注 册:2004-7-17
得分:3 
不用正则的话
搜索下载这个.NET程序包
HtmlAgilityPack
这个程序包的特点就是可以将HTML代码当作XML来处理
并且好处就是支持非良构的HTML代码结构
比如
<br>
等有开始没结束标记的网页照样能解析。
2010-11-25 11:32
北京的晚秋
Rank: 4
来 自:北京
等 级:业余侠客
帖 子:94
专家分:247
注 册:2010-11-14
得分:3 
我比较喜欢自己写程序,抓取网页信息,既然是动态在网站信息,那么所有的网页就应该有相似在东西,找到这些规律后,将网页以txt的方式打开读取
比较笨在方法

出生在北京的晚秋时节,于是遍爱上了这个季节
2010-11-25 12:21
清风易水
Rank: 1
来 自:江苏扬州
等 级:新手上路
帖 子:18
专家分:3
注 册:2009-5-13
得分:0 
回复 2楼 saitor
我也用了正则,但获取超链接那一块比较难弄,从很多超链接中找到一个合适的还是比较难弄的,有什么好办法不?谢谢
2010-11-25 13:15
清风易水
Rank: 1
来 自:江苏扬州
等 级:新手上路
帖 子:18
专家分:3
注 册:2009-5-13
得分:0 
回复 3楼 yms123
感觉正则简便一点,不过我刚学,什么都不会。。。
2010-11-25 13:16
清风易水
Rank: 1
来 自:江苏扬州
等 级:新手上路
帖 子:18
专家分:3
注 册:2009-5-13
得分:0 
回复 4楼 北京的晚秋
呵呵,放入字符串就好了。。。
2010-11-25 13:16



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-326795-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016299 second(s), 7 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved