平面电商网站建设,西安注册公司代理,运营一个企业网站的推广方案,怎么看网站是否做推广前言#xff1a; 有时候通过元素的属性的查找页面上的某个元素#xff0c;可能不太好找#xff0c;这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。 本次以博客园为例#xff0c;先爬取页面源码#xff0c;通过re正则表达式爬取出url 有时候通过元素的属性的查找页面上的某个元素可能不太好找这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。 本次以博客园为例先爬取页面源码通过re正则表达式爬取出url再进行筛选出http 协议的 url -- 用if做判断。 源码整理如下 from selenium import webdriverimport redriver webdriver.Chrome()driver.get(https://www.cnblogs.com/Teachertao/)page driver.page_source# print(page)# 非贪婪匹配,re.S(.匹配字符,包括换行符)url_list re.findall(href\(.*?)\, page)#url_list re.findall(href\(.*?)\, page,re.S)url_all []for url in url_list: if http in url: print(url) url_all.append(url)#打印出页面urlprint(url_all)转载于:https://www.cnblogs.com/Teachertao/p/10989353.html