专业营销型网站建设公司,电商购物网站,如何推广宣传一个品牌,m2型虚拟主机带宽 网站好久没有写文章#xff0c;因为确实工作也比较忙。今天周末#xff0c;稍微有些时间#xff0c;在解决一个问题时#xff0c;用到了一点抓取和处理网络数据的小技巧#xff0c;摘录分享如下。问题描述我有一个需求#xff0c;就是要研究某个网页加载过程中具体发起了多少…好久没有写文章因为确实工作也比较忙。今天周末稍微有些时间在解决一个问题时用到了一点抓取和处理网络数据的小技巧摘录分享如下。问题描述我有一个需求就是要研究某个网页加载过程中具体发起了多少个请求从主请求开始到所有的资源完成并且要检查每个响应的一些特性例如是否 包含了某个header信息等。解决方案要完成这个需求跟把一个大象装进冰箱一样简单大致需要如下几个步骤记录某个网页加载的请求把这些请求保存起来分析这些请求假设我们要分析Outlook.com这个网页要对其网路网络请求进行抓取其实很简单所有主流的浏览器都带有一个开发者工具(通过F12可以唤出然后有一个网络Network的面板很容易就可以把所有的请求记录下来。你可以点击每一个请求去查看具体的信息但我们这里需要集中处理所以如何把它们全部保存起来呢。这个也不难点击下图的按钮即可。这样会保存为一个 HAR 文件本例而言outlook.com的主界面有800多个请求这是现代网站的特点有很多本地的功能浏览器已经越来越强大相当于是一个富客户端。你会发现在你的电脑上无法直接打开。但是其实它就是一个纸老虎是一个json文件你可以用记事本或者VS Code这样的工具轻松打开。那么关键的部分终于来了。如何在这一堆文本中快速分析得到你想要的数据。这个 json 文件可不小大约几十MB呢。实际上有很多办法实现我用的是PowerShell。我也不卖什么关子了这里直接上最终的代码。(Get-Content .\outlook.live.com.har | ConvertFrom-Json).log.entries | Where-Object {($_.response.headers |where-object {$_.name -eq xxxx}).length -gt 0} | Select-Object {NameURL;Expression{$_.request.url}}这一行代码没错其实只有一行只不过为了看起来直观换行了而已即可得到我需要的结果这一行代码的意思是读取outlook.live.com.har 这个文件将文件内容转换为json对象并读取log属性的entries对象集合针对entries集合进行筛选查找那些response的headers中包含了namexxxx 这个值的entry如果找到的则返回该entry的request对象的url属性将所有找到的用一个列表返回预告一下年内会有一本关于企业元宇宙的新书上市我参与编写了其中的低代码的部分费了一个月的脑筋写下两万余言希望对大家有所帮助吧。但正如我在那本书中的结论一样有代码和无代码本质上并无差别。写代码使我快乐所以才会有这个分享。