标题:求大神帮忙解答下python抓取数据抓不出来
只看楼主
gznaldo
Rank: 1
等 级:新手上路
帖 子:1
专家分:0
注 册:2021-4-15
结帖率:0
已结贴  问题点数:20 回复次数:2 
求大神帮忙解答下python抓取数据抓不出来
#coding: utf-8
import urllib
import urllib2
import re


def gettiebalistnumbers(name):
    url="http://tieba.baidu.com/f?"
    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);"}
    word = { "kw": name} #贴吧的名字
    word = urllib.urlencode(word)  # 编码成字符串
    url = url + word #拼接URL
    request = urllib2.Request(url, headers=headers)  # 发起请求,
    # 也可以通过调⽤Request.add_header() 添加/修改⼀个特定的 header
    request.add_header("Connection", "keep-alive")  # 一直活着
    response = urllib2.urlopen(request)
    data = response.read()  # 打开请求,抓取数据


    restr="<span class=\"card_infoNum\">([\s\S]*?)</span>" # 正则表达式,()只要括号内的数据
    regex = (restr, re.IGNORECASE)
    mylist = regex.findall( data) #寻找页面所有符合条件
    tienumbers= mylist[0].replace(",","")  #替换,
    tienumbers=eval(tienumbers) #转化为数字
    return tienumbers


环境是python2.7
PyCharm Community Edition 2020.1.3 x64
运行完成后没有数据显示,但是没有报错

返回信息:
D:\Python\py2.7\installpath\python27.exe E:/Py基础/py练习/yincheng爬虫/tieba/1tieba.py

Process finished with exit code 0
搜索更多相关主题的帖子: request url word python 数据 
2021-04-15 11:30
fall_bernana
Rank: 11Rank: 11Rank: 11Rank: 11
等 级:贵宾
威 望:17
帖 子:240
专家分:2086
注 册:2019-8-16
得分:20 
回复 楼主 gznaldo
你这个只是正则没有匹配上数据。你可以打印data看看是什么东西。
2021-04-15 14:26
wapjin
Rank: 1
等 级:新手上路
帖 子:7
专家分:5
注 册:2021-6-29
得分:0 
用Python3吧,用requests和BeautifulSoup 简简单单抓取数据

分享一下你的技术
2021-06-29 16:00



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-505462-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.125213 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved