标题:又来求助各位老师了,这个网页的数据如何采集?
只看楼主
jinanshui
Rank: 2
等 级:论坛游民
帖 子:274
专家分:64
注 册:2009-10-6
结帖率:95.65%
已结贴  问题点数:20 回复次数:25 
又来求助各位老师了,这个网页的数据如何采集?
又来求助各位老师了,这个网页的数据如何采集?能不能把所有学科的评估数据都采集下来,谢谢,有点贪心了
https://souky.
我查看网页源码,上面只有哲学的
view-source:https://souky.

[此贴子已经被作者于2021-6-12 05:51编辑过]

搜索更多相关主题的帖子: 数据 采集 老师 网页 api 
2021-06-12 02:23
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
在源文件的下面找

坚守VFP最后的阵地
2021-06-12 07:11
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:432
帖 子:10064
专家分:41463
注 册:2014-5-20
得分:0 
https://souky.
https://souky.
2021-06-12 07:14
jinanshui
Rank: 2
等 级:论坛游民
帖 子:274
专家分:64
注 册:2009-10-6
得分:0 
正在研究,烧脑
https://souky.55&flag=3
这个参数改变各个学科
2021-06-12 10:16
jinanshui
Rank: 2
等 级:论坛游民
帖 子:274
专家分:64
注 册:2009-10-6
得分:0 
view-source:https://souky.
2021-06-12 20:13
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
这个网页是不是不稳定,长时间打不开

坚守VFP最后的阵地
2021-06-13 11:23
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:10 
XKPG.rar (20.9 KB)

下载一次后,网页就要有一段时间打不开了

程序代码:
CLEAR 
t1 = SECONDS()
CREATE CURSOR 学科查询 (序号 C(4), 学校代码 C(5), 学校名称 C(20), 评估结果 C(2), 学科分类 N(3))
FOR lnk = 1 TO 111
    cUrl = "https://souky. + TRANSFORM(lnk) + "&flag=1&" + SUBSTR(SYS(2015), 2)
    lcText = GETURL(cUrl)
    FOR lnj = 9 TO ALINES(laText, lcText, '"},[{"', '},{"', '":', ',"') STEP 16
        INSERT INTO 学科查询 VALUES (&laText[lnj + 1], &laText[lnj + 5], &laText[lnj + 7], &laText[lnj + 9], lnk)
    ENDFOR
ENDFOR 
? SECONDS() - t1
BROWSE 
FUNCTION GETURL(cUrl)
    LOCAL objScrCtl As Object, cText As String  
    oHttp = CREATEOBJECT("WinHttp.WinHttpRequest.5.1")
    oHttp.Open("GET", cUrl, .F.)
    OHTTP.SETREQUESTHEADER("Content-Type", "text/html; charset=UTF-8")
    oHttp.Send()
     cText = oHttp.ResponseText
    * 解码
    objScrCtl = CreateObject("MSScriptControl.ScriptControl")
    objScrCtl.Language = "Javascript"
    cText = objScrCtl.Eval("unescape('" + cText + "')")
    RELEASE oHttp, objScrCtl
    RETURN cText
ENDFUNC 

坚守VFP最后的阵地
2021-06-13 12:33
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
应该是下面的结果吧

坚守VFP最后的阵地
2021-06-13 13:21
jinanshui
Rank: 2
等 级:论坛游民
帖 子:274
专家分:64
注 册:2009-10-6
得分:0 
回复 8楼 sdta
是的,老师,应该是后一种效果,谢谢
2021-06-13 14:18
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:323
帖 子:9621
专家分:26174
注 册:2012-2-5
得分:0 
楼主提供的网址,下载一次后,网页2小时打不开,又找了一个网址:https://www.
xkcx.rar (26.17 KB)

坚守VFP最后的阵地
2021-06-13 14:46



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-506002-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.271799 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved