长沙做网站品牌,中信建设官网站首页,哪个网站做校招,.net网站开发怎么发布下载基本使用标签定位标签属性定位选择器定位数据的提取 下载
pip install bs4
pip install lxml基本使用
from bs4 import BeautifulSoup
#1.创建一个BeautifulSoup的工具对象#xff0c;然后把即将被解析的页面源码数据加载到该对象中#参数1#xff1a;被解析的页面源码数… 下载基本使用标签定位标签属性定位选择器定位数据的提取 下载
pip install bs4
pip install lxml基本使用
from bs4 import BeautifulSoup
#1.创建一个BeautifulSoup的工具对象然后把即将被解析的页面源码数据加载到该对象中#参数1被解析的页面源码数据#参数2固定形式的lxml(一种解析器)
soup BeautifulSoup(fp,lxml)
标签定位
title_tag soup.title
p_tag soup.div
print(p_tag )查找到html源码的第一个div标签
标签属性定位 soup.find(tagName,attrNamevalue) tags soup.find_all(a,class_du) 第二个参数可以是class_ 和 id find_all是可以获取全部 find只查找一个 #注意find只可以定位满足要求的第一个标签
#定位到了class属性值为song的div标签
div_tag soup.find(div,class_song)
print(div_tag )
print()
#定位到了id的属性值为feng的a标签
a_tag soup.find(a,idfeng)
print(a_tag ) 选择器定位
#常用的选择器class选择器(.class属性值) id选择器(#id的属性值)
tags soup.select(#feng) #定位到id的属性值为feng对应的所有标签
tags soup.select(.du) #定位到class属性值为du对应的所有标签
#层级选择器表示一个层级 一个空格可以表示多个层
tags soup.select(.tang ul li a)
tags soup.select(.tang a)
print(tags)数据的提取
#tag.string:只可以将标签直系的文本内容取出
#tag.text:可以将标签内部所有的文本内容取出
tag soup.find(a,idfeng)
content tag.stringdiv_tag soup.find(div,class_tang)
content div_tag.text#方式2提取标签的属性值 tag[attrName]
img_tag soup.find(img)
img_src img_tag[src]
print(img_src)