标题:Python 爬取网页网址的问题
只看楼主
wang12zhe
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2015-1-15
结帖率:0
 问题点数:0 回复次数:1 
Python 爬取网页网址的问题
在爬取网址的时候,我查看网址源码,发现网址都是<a href="/item/%E6%95%B0%E6%8D%AE%E6%BA%90" target="_blank">数据源</a>     这种形式的,
这应该是个相对地址,实际的网址应该是https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90  吧。为什么爬虫爬取出来的是http://baike.baidu.com/view/286828.htm呢?
而且我试过,http://baike.baidu.com/view/286828.htm和https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90都能打开相同的网页, 那么二者有什么却别呢?怎么实现相互转换的 ?
搜索更多相关主题的帖子: 网页 网址 item baidu com 
2018-03-17 21:33
carbine1985
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2018-4-10
得分:0 
解码不一样,换个coding,基本就是utf-8 gb2312 GBK
总有一个能正确解析
2018-04-10 22:57



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-485360-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.021881 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved