标题:一个关于网页抓取乱码的猜想
只看楼主
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
结帖率:100%
已结贴  问题点数:20 回复次数:4 
一个关于网页抓取乱码的猜想
    平时我们抓取的网页编码主要是utf-8 或者gbk型的
    处理不当经常会出现乱码的状况
    大家现行的办法就是从网页源代码中提取出编码  事实上有些时候有些网页里并没有写编码格式
    我最近有点想法
    utf-8 和 gbk真正的区别是对字符编码的字节数
    我们是否可以在读取流后直接读出字节数
    默认utf-8存入后 再读一遍字节数
     如果字节变化了 说明是gbk格式的
    再转存就可以了
    这样不提取编码照样可以找出网页的编码格式 而且适用于所有网页
    不知道可行不 请各位大神指点
搜索更多相关主题的帖子: 源代码 网页 而且 
2013-08-30 00:56
hsjjgm
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:106
专家分:189
注 册:2013-4-27
得分:7 
听起来不错
2013-08-31 01:13
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
得分:0 
回复 2楼 hsjjgm
只是设想不知道可行不可行
看来我只好自己去验证了
2013-08-31 07:05
ren829
Rank: 9Rank: 9Rank: 9
等 级:贵宾
威 望:15
帖 子:255
专家分:1174
注 册:2006-3-11
得分:7 
完全不用那么折腾,你只要用字节流读取,然后在用字节流输出就行了,乱码是因为从字节到字符的过程中产生的,那你输出的时候不要转换成String那就能规避这个问题.
2013-08-31 09:54
奈落迷离
Rank: 1
等 级:新手上路
帖 子:13
专家分:0
注 册:2013-8-26
得分:0 
回复 4楼 ren829
用字节流存成TXT在电脑上也不会乱码吗
2013-08-31 22:06



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-419831-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.312857 second(s), 7 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved