怎么做简单的网站首页,关键词分为哪几类,大连网站开发哪儿好薇,如何写软文文章目录 一、爬虫对象-豆瓣读书TOP250二、python爬虫代码讲解三、讲解视频四、完整源码 一、爬虫对象-豆瓣读书TOP250
您好#xff0c;我是 马哥python说 #xff0c;一名10年程序猿。
今天我们分享一期python爬虫案例讲解。爬取对象是#xff0c;豆瓣读书TOP250排行榜数… 文章目录 一、爬虫对象-豆瓣读书TOP250二、python爬虫代码讲解三、讲解视频四、完整源码 一、爬虫对象-豆瓣读书TOP250
您好我是 马哥python说 一名10年程序猿。
今天我们分享一期python爬虫案例讲解。爬取对象是豆瓣读书TOP250排行榜数据 https://book.douban.com/top250
开发好python爬虫代码后爬取成功后的csv数据如下
代码是怎样实现的爬取呢下面逐一讲解python实现。
二、python爬虫代码讲解
首先导入需要用到的库
import requests # 发送请求
from bs4 import BeautifulSoup # 解析网页
import pandas as pd # 存取csv
from time import sleep # 等待时间然后向豆瓣读书网页发送请求
res requests.get(url, headersheaders)利用BeautifulSoup库解析响应页面
soup BeautifulSoup(res.text, html.parser)用BeautifulSoup的select函数css解析的方法编写代码逻辑部分核心代码
name book.select(.pl2 a)[0][title] # 书名
book_name.append(name)
bkurl book.select(.pl2 a)[0][href] # 书籍链接
book_url.append(bkurl)
star book.select(.rating_nums)[0].text # 书籍评分
book_star.append(star)
star_people book.select(.pl)[1].text # 评分人数
star_people star_people.strip().replace( , ).replace(人评价, ).replace((\n, ).replace(\n),) # 数据清洗
book_star_people.append(star_people)最后将爬取到的数据保存到csv文件中
def save_to_csv(csv_name):数据保存到csv:return: Nonedf pd.DataFrame() # 初始化一个DataFrame对象df[书名] book_namedf[豆瓣链接] book_urldf[作者] book_authordf[译者] book_translaterdf[出版社] book_publisherdf[出版日期] book_pub_yeardf[价格] book_pricedf[评分] book_stardf[评分人数] book_star_peopledf[一句话评价] book_commentdf.to_csv(csv_name, encodingutf8) # 将数据保存到csv文件其中把各个list赋值为DataFrame的各个列就把list数据转换为了DataFrame数据然后直接to_csv保存。
这样爬取的数据就持久化保存下来了。
三、讲解视频
同步讲解视频【python爬虫案例】利用python爬虫爬取豆瓣读书TOP250的数据
四、完整源码
附完整源代码【python爬虫案例】利用python爬虫爬取豆瓣读书TOP250的数据 我是 马哥python说 持续分享python源码干货中