温州外贸网站,微信怎么关闭小程序功能,织梦个人博客网站源码,h5制作软件支持什么格式输出在使用爬虫爬取数据的时候#xff0c;当需要爬取的数据量比较大#xff0c;且急需很快获取到数据的时候#xff0c;可以考虑将单线程的爬虫写成多线程的爬虫。下面来学习一些它的基础知识和代码编写方法。
一、进程和线程
进程可以理解为是正在运行的程序的实例。进程是拥…在使用爬虫爬取数据的时候当需要爬取的数据量比较大且急需很快获取到数据的时候可以考虑将单线程的爬虫写成多线程的爬虫。下面来学习一些它的基础知识和代码编写方法。
一、进程和线程
进程可以理解为是正在运行的程序的实例。进程是拥有资源的独立单位而线程不是独立的单位。由于每一次调度进程的开销比较大为此才引入的线程。一个进程可以拥有多个线程一个进程中可以同时存在多个线程这些线程共享该进程的资源线程的切换消耗是很小的。因此在操作系统中引入进程的目的是更好地使多道程序并发执行提高资源利用率和系统吞吐量;而引入线程的目的则是减小程序在并发执行时所付出的时空开销提高操作系统的并发性能。
下面用简单的例子进行描述打开本地计算机的”任务管理器”如图1所示这些正在运行的程序叫作进程。如果将一个进程比喻成一个工作指定10个人来做这份工作这10个人就是10个线程。因此在一定的范围内多线程效率比单线程效率更高。 图1.任务管理器
二、Python中的多线程与单线程
在我们平时学习的过程中使用的主要是单线程爬虫。一般来说如果爬取的资源不是特别大使用单线程即可。在Python中默认情况下是单线程的简单理解为代码是按顺序依次运行的比如先运行第一行代码再运行第二行依次类推。在前面章节所学习知识中都是以单线程的形式实践的。
举个例子批量下载某网站的图片由于下载图片是一个耗时的操作如果依然采用单线程的方式下载那么效率就会特别低意味着需要消耗更多的时间等待下载。为了节约时间这时候我们就可以考虑使用多线程的方式来下载图片。
threading模块是Python中专门用来做多线程编程的模块它对thread进行了封装,使用更加方便。例如需要对写代码和玩游戏两个事件使用多线程进行案例代码如下。
import threading
import time
# 定义第一个
def coding():for x in range(3):print(%s正在写代码\n % x)time.sleep(1)
# 定义第二个
def playing():for x in range(3):print(%s正在玩游戏\n % x)time.sleep(1)
# 如果使用多线程执行
def multi_thread():start time.time()# Thread创建第一个线程target参数为函数命t1 threading.Thread(targetcoding)t1.start() # 启动线程# 创建第二个线程t2 threading.Thread(targetplaying)t2.start()# join是确保thread子线程执行完毕后才能执行下一个线程t1.join()t2.join()end time.time()running_time end - start print(总共运行时间 : %.5f 秒 % running_time)
# 执行
if __name__ __main__:multi_thread() # 执行单线程运行结果如图2所示。 图2.多线程运行结果
那么执行单线程会消耗多少时间案例代码如下所示。
import time
# 定义第一个
def coding():for x in range(3):print(%s正在写代码\n % x)time.sleep(1)
# 定义第二个
def playing():start time.time()for x in range(3):print(%s正在玩游戏\n % x)time.sleep(1)end time.time()running_time end - startprint(总共运行时间 : %.5f 秒 % running_time)
def single_thread():coding()playing()
# 执行
if __name__ __main__:single_thread() # 执行单线程运行结果如图3所示。 图3.单线程运行结果
经过以上多线程和单线程的运行结果可以看出多线程中写代码和玩游戏是一起执行的单线程中则是先写代码再玩游戏。从时间上来说可能只有细微的差距当执行工作量很大的时候便会发现多线程消耗的时间会更少从这个案例中我们也可以知道当所需要执行的任务并不多的时候只需要编写单线程即可。
三、单线程改为多线程
以某直播的图片爬取为例案例代码如下。
import requests
from lxml import etree
import time
import osdirpath 图片/
if not os.path.exists(dirpath):os.mkdir(dirpath) # 创建文件夹header {User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36
}
def get_photo():url https://www.huya.com/g/4079/ # 目标网站response requests.get(urlurl, headersheader) # 发送请求data etree.HTML(response.text) # 转化为html格式return datadef jiexi():data get_photo()image_url data.xpath(//a//img//data-original)image_name data.xpath(//a//img[classpic]//alt)for ur, name in zip(image_url, image_name):url ur.replace(?imageview/4/0/w/338/h/190/blur/1, )title name .jpgresponse requests.get(urlurl, headersheader) # 在此发送新的请求with open(dirpath title, wb) as f:f.write(response.content)print(下载成功 name)time.sleep(2)if __name__ __main__:jiexi()如果需要修改为多线程爬虫只需要修改主函数即可例如创建4个线程进行爬取案例代码如下所示。
if __name__ __main__:threads []start time.time()# 创建四个进程for i in range(1, 5):thread threading.Thread(targetjiexi(), args(i,))threads.append(thread)thread.start()for thread in threads:thread.join()end time.time()running_time end - startprint(总共消耗时间 : %.5f 秒 % running_time)print(全部完成!) # 主程序关于Python学习指南
学好 Python 不论是就业还是做副业赚钱都不错但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料给那些想学习 Python 的小伙伴们一点帮助
包括Python激活码安装包、Python web开发Python爬虫Python数据分析人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python
Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理形成各个领域的知识点汇总它的用处就在于你可以按照上面的知识点去找对应的学习资源保证自己学得较为全面。全套教程文末领取 Python学习视频600合集
观看零基础学习视频看视频学习是最快捷也是最有效果的方式跟着视频中老师的思路从基础到深入还是很容易入门的。 温馨提示篇幅有限已打包文件夹获取方式在文末
Python70个实战练手案例源码
光学理论是没用的要学会跟着一起敲要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。 Python大厂面试资料
我们学习Python必然是为了找到高薪的工作下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料并且有阿里大佬给出了权威的解答刷完这一套面试资料相信大家都能找到满意的工作。 Python副业兼职路线方法
学好 Python 不论是就业还是做副业赚钱都不错但要学会兼职接单还是要有一个学习规划。 这份完整版的Python全套学习资料已经上传朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】
点击免费领取《CSDN大礼包》Python入门到进阶资料 实战源码 兼职接单方法 安全链接免费领取