又来求助各位老师了,这个网页的数据如何采集?
又来求助各位老师了,这个网页的数据如何采集?能不能把所有学科的评估数据都采集下来,谢谢,有点贪心了https://souky.
我查看网页源码,上面只有哲学的
view-source:https://souky.
[此贴子已经被作者于2021-6-12 05:51编辑过]
[此贴子已经被作者于2021-6-12 05:51编辑过]
2021-06-12 02:23
2021-06-12 07:11
2021-06-12 07:14
2021-06-12 10:16
2021-06-12 20:13
2021-06-13 11:23
程序代码:CLEAR
t1 = SECONDS()
CREATE CURSOR 学科查询 (序号 C(4), 学校代码 C(5), 学校名称 C(20), 评估结果 C(2), 学科分类 N(3))
FOR lnk = 1 TO 111
cUrl = "https://souky. + TRANSFORM(lnk) + "&flag=1&" + SUBSTR(SYS(2015), 2)
lcText = GETURL(cUrl)
FOR lnj = 9 TO ALINES(laText, lcText, '"},[{"', '},{"', '":', ',"') STEP 16
INSERT INTO 学科查询 VALUES (&laText[lnj + 1], &laText[lnj + 5], &laText[lnj + 7], &laText[lnj + 9], lnk)
ENDFOR
ENDFOR
? SECONDS() - t1
BROWSE
FUNCTION GETURL(cUrl)
LOCAL objScrCtl As Object, cText As String
oHttp = CREATEOBJECT("WinHttp.WinHttpRequest.5.1")
oHttp.Open("GET", cUrl, .F.)
OHTTP.SETREQUESTHEADER("Content-Type", "text/html; charset=UTF-8")
oHttp.Send()
cText = oHttp.ResponseText
* 解码
objScrCtl = CreateObject("MSScriptControl.ScriptControl")
objScrCtl.Language = "Javascript"
cText = objScrCtl.Eval("unescape('" + cText + "')")
RELEASE oHttp, objScrCtl
RETURN cText
ENDFUNC

2021-06-13 12:33
2021-06-13 13:21
2021-06-13 14:18
2021-06-13 14:46