标题:winpcap抓取网页标题
只看楼主
守住一颗心
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-13
得分:0 
回复 7楼 yuccn
还有个问题就是,我需要先解析代码,还是先抓取啊?我是在抓取的数据里搜索<title>来抓取的,如果不解析的话是不是找不到 <title>啊?!
2013-08-16 08:17
yuccn
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:何方
等 级:版主
威 望:167
帖 子:6809
专家分:42393
注 册:2010-12-16
得分:0 
回复 10楼 守住一颗心
在你浏览的网页上面,按F12.
如果是ie浏览的话,也可以右键有个空白处,点击菜单项“查看源文件”

[ 本帖最后由 yuccn 于 2013-8-16 13:22 编辑 ]

我行我乐
我的博客:
http://blog.yuccn. net
2013-08-16 09:57
yuccn
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:何方
等 级:版主
威 望:167
帖 子:6809
专家分:42393
注 册:2010-12-16
得分:0 
回复 11楼 守住一颗心
解析的话,如果没有开源库,就得自己去解析了,简单点的就是把数据保存下来,
char *title = strstr(html_data, "<title>");
title += 7;
char *end = strstr(title, "</title>");
*end='\0';

title 就是那个标题了。自己做一下容错(判断指针是否空之类)就行了。

如果要写的功能强一点的,就得自己对每个元素解析保存下来了。。

[ 本帖最后由 yuccn 于 2013-8-16 10:04 编辑 ]

我行我乐
我的博客:
http://blog.yuccn. net
2013-08-16 10:02
守住一颗心
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-13
得分:0 
回复 13楼 yuccn
太感谢你了啊!刚进来也不知怎么报答你啊?!
再问一个问题,为什么有的网页不是乱码,有的网页是呢,这跟网页有关么?
2013-08-16 10:43
yuccn
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:何方
等 级:版主
威 望:167
帖 子:6809
专家分:42393
注 册:2010-12-16
得分:0 
回复 14楼 守住一颗心
你是指获取到的标题是乱码吗?
如果是,那么估计就是charset问题了,

我行我乐
我的博客:
http://blog.yuccn. net
2013-08-18 16:42
守住一颗心
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-13
得分:0 
回复 15楼 yuccn
但是两个网页都是gb2312编码的,咱们这个论坛的能正常显示,但是另一个不能正常显示。
如果是这个charset的问题怎么解决呢?
2013-08-19 08:30
yuccn
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:何方
等 级:版主
威 望:167
帖 子:6809
专家分:42393
注 册:2010-12-16
得分:0 
一般的网站都指明charset的。
比如本页面,有一行
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
指明了gb2312,如果是charset问题,那么按照指定的charset解码看看。

不过那个乱码问题我也不确定就是charset问题。只是猜测而已

我行我乐
我的博客:
http://blog.yuccn. net
2013-08-19 08:43



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-419154-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.071620 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved