当前位置: 首页 > news >正文

论论坛坛网网站站建建设设网站后台数据应该怎么做

论论坛坛网网站站建建设设,网站后台数据应该怎么做,邢台做网站哪个网络公司好,wordpress人力资源模板1.学习beautifulsoupStep.1 BeautifulSoup是基于标签的#xff0c;所以我们第一步要准确定位到我们需- 要信息所在的标签。Step.2 从定位的标签中提取我们需要的信息(一般在属性或者在string中)Step.3 对于提取数据的简单处理2.使用beautifulsoup提取丁香园论坛的回复内容2.1用…1.学习beautifulsoupStep.1 BeautifulSoup是基于标签的所以我们第一步要准确定位到我们需- 要信息所在的标签。Step.2 从定位的标签中提取我们需要的信息(一般在属性或者在string中)Step.3 对于提取数据的简单处理2.使用beautifulsoup提取丁香园论坛的回复内容2.1用户浏览器访问目标网站并检查目标内容所在标签BeautifulSoup是一个可以将复杂的HTML文档转换成一个复杂的树形结构每个节点都是python对象所有对象可以归纳为4种Tag、NavigableString、BeautifuSoup和Comment。下面边爬取论坛边介绍每个对象的意义以及方法。目标网址按F12可看见网站结构及回复内容所在标签如下图image.png2.2获取回复内容和用户名我们所需的评论内容就在td classpostbody标签下利用BeautifulSoup获取内容content data.find(td, class_postbody).text我们需要的用户名在标签下利用BeautifulSoup获取内容name data.find(div, class_auth).textfind函数用法find(name, attrs, recursive, text, **wargs)    # recursive 递归的循环的这些参数相当于过滤器一样可以进行筛选处理。不同的参数过滤可以应用到以下情况查找标签基于name参数查找文本基于text参数基于正则表达式的查找查找标签的属性基于attrs参数基于函数的查找附源码import urllib.requestfrom bs4 import BeautifulSoup as bsdef main():headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0}url http://www.dxy.cn/bbs/thread/626626request urllib.request.Request(url, headersheaders)response urllib.request.urlopen(request).read().decode(utf-8)html bs(response, lxml)getItem(html)def getItem(html):datas [] # 用来存放获取的用户名和评论for data in html.find_all(tbody):try:username data.find(div, class_auth).get_text(stripTrue)print(username)content data.find(td, class_postbody).get_text(stripTrue)print(content)datas.append((username,content))except:passprint(datas)if __name__ __main__:main()截图image.png3.学习xpath使用lxmlxpath提取内容什么是 XPath?XPath即为XML路径语言(XML Path Language)它是一种用来确定XML文档中某部分位置的语言。在 XPath 中有七种类型的节点元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。下面列出了最有用的路径表达式表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹配选择的当前节点选择文档中节点从而不考虑节点的位置.选取当前节点..选取当前节点的父节点选取属性Xpath中text()string()data()的区别如下text()仅仅返回所指元素的文本内容。string()函数会得到所指元素的所有节点文本内容这些文本讲会被拼接成一个字符串。data()大多数时候data()函数和string()函数通用而且不建议经常使用data()函数有数据表明该函数会影响XPath的性能。4.使用xpath提取丁香园论坛的回复内容# _*_ coding:utf-8 _*_from contextlib import closingimport requests, json, re, os, sys, random, timefrom urllib.request import urlopenimport urllibfrom lxml import etreeclass getUrl(object):def __init__(self):self.headers{Connection: keep-alive,User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36,Accept: text/html,application/xhtmlxml,application/xml;q0.9,image/webp,image/apng,*/*;q0.8,Accept-Encoding: gzip, deflate,Accept-Language: zh-CN,zh;q0.9};def run(self):url http://www.dxy.cn/bbs/thread/626626req requests.get(url,headersself.headers)html req.texttree etree.HTML(html)user tree.xpath(//div[classauth]/a/text())content tree.xpath(//td[classpostbody])result []for i in range(0,len(user)):#print(content[i])print(content[i].xpath(string(.)))print(user[i].strip():content[i].xpath(string(.)))print(**80)if __name__ __main__:geturl getUrl()geturl.run()截图image.png
http://www.pierceye.com/news/34730/

相关文章:

  • 茶网站开发的意义目的天津网站排名提升
  • 如何修改网站后台的用户名和密码成都网站建设app开发
  • p2p理财网站建设龙华网站推广培训
  • php网站qq互联经销商网
  • 合江县住房建设规划局网站课程精品网站开发
  • 湖南火电建设有限公司招标网站wordpress 怎么汉化主题
  • 修改wordpress地址网站打不开百度风云榜排行榜
  • 响应式网站开发原理建设网站需要申请
  • 商业网站建设常识wordpress改登陆界面
  • 手表交易网站公司网站建设代码都写完了
  • 网站做排名教程快速建站视频
  • 无锡制作网站价格自己公司的网站怎么编辑
  • 吕梁网站制作在线推广企业网站的方法是
  • 网站规划与开发实训室建设安徽省建设工程信息网怎么打不开了
  • 常德网站公司类似钉钉的企业管理软件
  • 软件工程师证怎样考取贵阳做网站seo
  • 网站建设开票内容是什么意思上海什么公司最有名
  • asp建的网站上传文章鞍山网络顾问有限公司
  • 触摸屏互动网站建设案例域名 利用域名做网站 邮箱
  • 网站建设的步骤以及流程做网站是怎样赚钱的
  • 安徽网站建设方案服务上海市建上海市建设安全协会网站
  • 广州网站注销备案制作头像
  • 湖南酒店网站建设强化网站建设和管理
  • 知名网站制作公司青岛分公司网站建设公司深圳
  • 广州番禺做网站网站收录原创文章
  • 南通通州住房和城乡建设网站百度网站怎么做
  • 苏州网站排名优化价格游戏制作软件手机版下载
  • 南宁专业网站制作jquery动画特效网站
  • 网站实名认证要钱吗wordpress图片网盘插件腾讯
  • 手机网站 标题长度wordpress 页面空白