深圳网站制作公司,免签支付 wordpress,手机自助建站免费建站平台,常州网站制作套餐首先需要 pip install beautifulsoup4安装
然后为了方便学习此插件#xff0c;随便打开一个网页#xff0c;然后鼠标右键#xff0c;打开源网页#xff0c;如下图片 这样就可以获得一个网页源码#xff0c;全选复制粘贴到本地#xff0c;存储为 .html 文件#xff0c;…首先需要 pip install beautifulsoup4安装
然后为了方便学习此插件随便打开一个网页然后鼠标右键打开源网页如下图片 这样就可以获得一个网页源码全选复制粘贴到本地存储为 .html 文件后续的学习以此html文件为模版进行
from bs4 import BeautifulSoup
import os# html文件放置的路径和名字
filePath os.path.join(os.getcwd(), HTML, 1.html)
print(filePath)
# 打开html文件注意encoding格式
with open(filePath, r, encodingUTF-8) as f:html_content f.read()
# 把这个html进行解析
soup BeautifulSoup(html_content, html.parser)# 这里是抓第一个 h1标签的文本内容
h1_content soup.find(h1).get_text()
# 这里是抓第一个p 标签的文本内容
p_content soup.find(p).get_text()print(h1 content:, h1_content)
print(p content:, p_content)
print(--------------------------)
# 这里是抓取所有p 标签
p_content_all soup.find_all(p)
# 利用for 循环进行逐条解析获取文本内容
for p_content in p_content_all:print(p_content.get_text())如html文件中含结构 div classtitle_box pd10h1六年前的今天湖人退役科比的8号和24号球衣/h1div classinfo_boxspan classtime2023-12-19/spanspan classsource直播吧/span/div/div我使用如下命令
# 使用此命令获取 h1标签的文本内容
soup.find(h1).get_text()
# 结果
六年前的今天湖人退役科比的8号和24号球衣
soup.find(span, class_time)
# 结果
2023-12-19例二 html内容含结构如下 div classdisZoom bq_bardiv classdisZoom bar_infospan classbiaoqiana href/?cateid1005 classtags体育/a/spanspan classlaiyuan来源阿希啥都聊/span/div/div使用命令
# 抓取html中出现的第一个以下结构内的内容
soup.find(a, herf/?cateid1005)
# 结果是
体育
类似的结构还有 /spanp classtit早报华为nova 12价格全曝光 蔚来获22亿美元融资/p/asoup.find(p, class_tit)基本上你想要抓取的内容都可以按照格式进行解析获取是非常方便的 先行记录 在之后自己构建网页后自主进行管理获取导出网页内容应该都是非常有帮助的避免反复使用re工具自己分析太过于繁琐结合 requests 库等可以更加高效进行网页访问及内容获取。