标题:版主,来改标题(快速提取电话号码)
只看楼主
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
结帖率:97.96%
已结贴  问题点数:100 回复次数:115 
版主,来改标题(快速提取电话号码)
快速提取网页中的电话号码
要求 :
1. 给定一个网页或是一个网址,从网页文件中提取出电话号码放到一个txt文件中
2. 特殊电话号码不提取。例如:110,120,400****之类的电话
3. 提取手机号或者固定电话号。手机号11位,手机区号不需要;固定电话号码7位或8位,区号3位或4位,中间‘-’连接符可省略
4. 速度越快越好,但要保证一定的正确率,不要求100%能提取出所有合法的电话号码
5. 最后按执行速度和正确率给分
6. 对各个网页通用(该条属补充要求)
7. 想起来再补充

注:大家还有什么要补充的跟帖说明。

后记:去年还是前年,忘记了,应朋友邀请写了一个从网页或是网址中提取电话号码的一段小代码。当时随便一写,应付了事。速度非常慢,根据网页大小需要1-6分钟不等。今天突然想起来想看看那段代码,却又找不到了。正好发在这里给大家当个练习。
所以,我这个也没有标准答案。大家尽情发挥吧!!!

附测试文件:
桌面.rar (13.25 KB)


[ 本帖最后由 taohua300 于 2012-10-20 14:22 编辑 ]
搜索更多相关主题的帖子: 网页 电话号 固定电话 
2012-10-20 09:47
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:9 
请教楼主一个问题,换页如何写代码。

坚守VFP最后的阵地
2012-10-20 11:38
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
红蓝框中内容是否要分类提取电话号码

坚守VFP最后的阵地
2012-10-20 11:49
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
提取难度在于页码转换。
要不请楼主,将网页内容复制到TXT文件中上传

[ 本帖最后由 sdta 于 2012-10-20 12:13 编辑 ]

坚守VFP最后的阵地
2012-10-20 11:55
TonyDeng
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:304
帖 子:25859
专家分:48889
注 册:2011-6-22
得分:9 
那是.htm,本身已是文本文件。只能逐页提取,因为翻页是动态的,数据在服务端传过来,不在本机。

授人以渔,不授人以鱼。
2012-10-20 12:53
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
以下是引用TonyDeng在2012-10-20 12:53:24的发言:

那是.htm,本身已是文本文件。只能逐页提取,因为翻页是动态的,数据在服务端传过来,不在本机。
哈哈,翻页代码如何写[不是提取电话号码内容]?

坚守VFP最后的阵地
2012-10-20 13:05
TonyDeng
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:304
帖 子:25859
专家分:48889
注 册:2011-6-22
得分:0 
没得写,那是要通过http向服务端发请求重新发送数据过来的,而且现在我们还不能直接读取IE内存中的数据,要把网页保存为.htm文件再读,他可以把所有需要提取数据的页面都保存好,然后集中一次处理。

授人以渔,不授人以鱼。
2012-10-20 13:08
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
得分:0 
回复 2楼 sdta
我原来考虑的没有版主想象的那么复杂
(太复杂了也好,你说是不是)

这里仅仅是提取网页明文中的电话号码
至于连接,换页里的电话号码,不在本网页中,不予提取
如果这个问题也考虑到
最后的功能就相当强劲了

个性太多,无法显示
2012-10-20 13:27
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
以下是引用taohua300在2012-10-20 13:27:03的发言:

我原来考虑的没有版主想象的那么复杂
(太复杂了也好,你说是不是)

这里仅仅是提取网页明文中的电话号码
至于连接,换页里的电话号码,不在本网页中,不予提取
如果这个问题也考虑到
最后的功能就相当强劲了
如果不需要换页,提取速度很快,用低级函数提取TXT文件。换页,本人也不懂。

坚守VFP最后的阵地
2012-10-20 13:31
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
得分:0 
回复 9楼 sdta
换页应该不算太难
之前夜来香大侠在梅子论坛有个例子用用到了换页
没有仔细看
大概是分析url,然后组合成正确的url再去发送http请求

但是,实际上我们并不知道哪个连接中有电话号码,也不是只对某个网站进行电话号码提取
我们要做的,是对某个网页或是url提取,做到对绝大多数网页都能使用该程序提取电话号码(不可能绝对是所有网页)
就这样

[ 本帖最后由 taohua300 于 2012-10-20 13:41 编辑 ]

个性太多,无法显示
2012-10-20 13:37



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-383645-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.139335 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved