标题:求大神解答一下爬虫的时候如何读取一个标签里面的一段文字呢?
只看楼主
LanXX
Rank: 1
等 级:新手上路
帖 子:17
专家分:0
注 册:2019-8-5
结帖率:16.67%
已结贴  问题点数:10 回复次数:1 
求大神解答一下爬虫的时候如何读取一个标签里面的一段文字呢?
按下面的方法会把又名也爬下来,因为<a>元素里面里面还有一个<span>,怎么可以只爬出专辑的名字,不把专辑名后面的部分爬下来呢?求大神解答一下,十分感谢!!

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.48'}
url = 'https://music.'

res = requests.get(url,headers = headers)
print(res.status_code)

html = res.text
soup = BeautifulSoup(html, 'html.parser')
tags = soup.find_all('div',class_='pl2')

for tag in tags:
    title = tag.find('a').text.strip()
    print(title)
搜索更多相关主题的帖子: html 爬虫 文字 res 读取 
2019-12-24 14:33
wp231957
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:神界
等 级:版主
威 望:422
帖 子:13681
专家分:53296
注 册:2012-10-18
得分:10 
回复 楼主 LanXX
程序代码:
for tag in tags:
    title = tag.find('a').contents[0].string.strip()
    print(title)

DO IT YOURSELF !
2019-12-24 15:23



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-498598-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.011789 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved