标题:采集了许多网站,可是自己到现在还不会写采集程序!
取消只看楼主
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
 问题点数:0 回复次数:14 
采集了许多网站,可是自己到现在还不会写采集程序!
帮人用动易。风讯等采集了许多网站。
但自己现在还不会写ASP的采集入库程序。

不知有那位仁兄指点一下。
搜索更多相关主题的帖子: 采集 ASP 仁兄 入库 
2005-11-10 17:04
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
我对HTML还是比较熟悉的。
谁能帮我引个路?
以后定当报答!
我的在线时间:8:00-17:00

QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-10 17:09
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
以下是引用zmjls在2005-11-10 17:13:37的发言:
我是通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中。其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的。与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站了。我想,我这样说你应该很明白了吧!!------ZMJLS


版主:多谢你的回复
可是我不知道怎么用!
版 主能否给一个完整示例。让我学习一下。


QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 08:00
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
您这个例子。我已经在上周看过。
出现的问题有三。
第一,数据不能入库,
第二,只能采到标题,内容采集会出容。
dim 内容
内容=*********

入库不了

QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 08:24
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
以下是引用zmjls在2005-11-11 8:41:56的发言:
里面的代码不能够完全盗用别人的,要改成你自己的啊!!


等下我把我改好的发出来,请您帮我看看错在那里!

<%
'声明取得目标信息的函数,通过XML组件进行实现。
Function GetURL(url)
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "GET", url, False
.Send
GetURL = bytes2bstr(.responsebody)
'对取得信息进行验证,如果信息长度小于100则说明截取失败
if len(.responsebody)<100 then
response.write "获取远程文件 <a href="&url&" target=_blank>"&url&"</a> 失败。"
response.end
end if

End With
Set Retrieval = Nothing
End Function
' 二进制转字符串,否则会出现乱码的!
function bytes2bstr(vin)
strreturn = ""
for i = 1 to lenb(vin)
thischarcode = ascb(midb(vin,i,1))
if thischarcode < &h80 then
strreturn = strreturn & chr(thischarcode)
else
nextcharcode = ascb(midb(vin,i+1,1))
strreturn = strreturn & chr(clng(thischarcode) * &h100 + cint(nextcharcode))
i = i + 1
end if
next
bytes2bstr = strreturn
end function
'声明截取的格式,从Start开始截取,到Last为结束
Function GetKey(HTML,Start,Last)
filearray=split(HTML,Start)
filearray2=split(filearray(1),Last)
GetKey=filearray2(0)
End Function

Dim Softid,Url,Html,Title,po

'获取要取页面的ID

SoftId=Request("Id")

If softID="" Then
softID=1
End If

Url="http://bailixia.com/Article/Class6/Class7/200511/2928.html"

Html = GetURL(Url)

'以截取百里峡网站为例子

Title = GetKey(Html,"<title>","</title>")
po = ?????

'打开数据库,准备入库

dim connstr,conn,rs,sql

connstr="DBQ="+server.mappath("db1.mdb")+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)};"

set conn=server.createobject("ADODB.CONNECTION")

conn.open connstr

conn.execute("insert into news (title,po) values('"&Title&"','"&po&"')")

set conn=nothing

Response.Write"采集完毕!"

%>

以上的TITLE是采集的标题,入库到了title字段了。
但我现在想加一个对内容的采集入到po字段

Title = GetKey(Html,"<title>","</title>")
po = 这里要怎么写才可以取得页面内容的值呢?

还有就是我想采这个页面的所有文章。那么我要怎么做?


QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 09:09
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 

内容只需要用

po= GetKey(Html,"<script language="javascript" src="/AD/200509/1.js"></script>","</p><p align='center'><font color='red'><b>[1]</b></font></p>")
就能得到

[此贴子已经被作者于2005-11-11 9:10:26编辑过]


QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 09:10
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
运行后,入库结果!



Microsoft OLE DB Provider for ODBC Drivers (0x80040E14)
[Microsoft][ODBC Microsoft Access Driver] 查詢運算式 '' <p>  “除了单向事故、意外事故,所有交通事故的形成模式都是‘交通违法行为+避让失败’,因此,责任认定应该看违法行为造成的危险,以及留给对方的避让程度。昨天,江苏省公安厅交管局调研员徐斯逵向记者透露:在这一新观念下制订的《江苏省交通事故当事人责任认定规则》试行方案已于近期形成,修改后,将于明年1月1日开始实施。</p> <p>  <strong>以往车祸责任认定主观性较大</strong></p><!--NEWSZW_HZH_BEGIN--><table border=0 ' 中的 語法錯誤 (少了運算元)。

QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 09:10
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
以下是引用盖茨他爹在2005-11-11 9:12:55的发言:
采集终究不如人工添加,被搜索引擎发现了会删除它收录你的所有网页


可是有的东西手工添加也实在是麻烦。因为我时间有限!。所以这也是没有办法的办法了。


QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 09:15
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
我的数据库结构为:
db1.mdb
表名为:news
字段为:ID
user
title
po

QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 09:16
forest8888
Rank: 1
等 级:新手上路
帖 子:37
专家分:0
注 册:2004-11-12
得分:0 
tt

QQ:83202700 LEADBBS VBB DVBBS BBSXP PHPWIND DISCUZ数据转换! PHPWIND和Discuz论坛采集入庫!
2005-11-11 11:49



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-33317-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.082017 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved