购物网站建设需要什么资质,未来做哪些网站能致富,永州网站制作,做移动网站排名软件通过python爬虫入门#xff1a;什么是爬虫#xff0c;怎么玩爬虫#xff1f;我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是什么样的所以我们要学会怎么抓咪咪#xff01;哦…通过python爬虫入门什么是爬虫怎么玩爬虫我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是什么样的所以我们要学会怎么抓咪咪哦不对。我们要学会怎么数据抓包虽然小馒头也是包的一种ok...anyway...打开我们的 Chrome 浏览器在这里 小帅b 提醒大家一句尽量不要用国产浏览器很多是有后门的所以Chrome 是首选ok打开 Chrome 浏览器之后呢我们随便输入一个网址吧比如www.xxxhub.com营养跟不上那就...输入一个人人都能上的网站www.baidu.com用力回车一个熟悉的页面显示在你的面前这个时候你按下 F12你可以看到弹出一个有点装x的窗口这个玩意正是我们想要的可以看到Element 标签下对应的 HTML 代码其实就是这个网页的代码我们可以在这里除了看看它的代码之外我们还可以修改一些东西比如我把这个按钮改成小帅b按下回车是不是瞬间逼格满满哦不好意思今天不是要说怎么装x的我们点击 Network 这个标签然后刷新一下可以看到有很多的请求HTTP 的请求方式有好几种GET, POST, PUT, DELETE, HEAD, OPTIONS, TRACE不过最常见的就是 GET 和 POST 请求咱们就一一说道说道接下来就是学习 python 的正确姿势我们直接搜索「苍老师」然后我们就可以发现有好多请求这些都是 GET 请求我们随便点击一个请求进去可以看到我们的请求URLhttps://www.baidu.com/s?wd%E8%8B%8D%E8%80%81%E5%B8%88rsv_spt1rsv_iqid0xad707ee600011b25issp1f8rsv_bp1rsv_idx2ieutf-8rqlangcntnbaiduhome_pgrsv_enter0oq%25E8%258B%258D%25E8%2580%2581%25E5%25B8%2588rsv_t5d8eqNDy4ZpyUOz7ByzyIMYfH5Jc7861dr4CFQaY3WCiDnOpBLob6Eouk23%2F3L%2BTD46Orsv_sug315rsv_pq996e776f0000df06rsv_sug419123在 后面的这些 jb 玩意儿就是 GET 请求的参数这些参数以「键值对」的形式实现比如这里的wd%E8%8B%8D%E8%80%81%E5%B8%88就是告诉百度我们要查询的是苍老师相关的内容这种方式的请求方式是最简单的所以以后我们在 Python 写 GET 请求的时候直接在 URL 后面加个 然后添加参数值就好了比如我要百度搜索波多野结衣那么就是https://www.baidu.com/s?wd波多野结衣不信你直接在浏览器这样搜是一毛一样的那么啥是 POST 请求呢我们在做一些信息提交的时候 比如注册登录这时候我们做的就是 POST 请求POST 的参数不会直接放在 URL 上会以 Form 表单的形式将数据提交给服务器我们来登录一下百度当我们点击登录的时候就开始将我们的账号密码请求给百度服务器可以看到我们请求了 login 这个接口请求方法就是 POST而我们的请求参数是以 Form 表单的方式提交的拉到下面就可以看到username 就是 xiaoshuaib而密码就是被加密了的这些都是 POST 参数可以发现GET请求把请求参数都暴露在URL上而POST请求的参数放在request body 里面POST请求方式还对密码参数加了密这样就相对安全一些ok你已经了解请求方式了接下来说说请求头当然说的不是上面这个 gou 头哈我们刚刚在访问百度的时候可以看到这个玩意这个就是请求头Request Header我们在做 HTTP 请求的时候除了提交一些参数之外我们还有定义一些 HTTP 请求的头部信息比如 Accept、Host、cookie、User-Agent等等这些参数也是我们在做爬虫要用到通过这些信息欺骗服务器告诉它我们是正规请求比如我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话User-Agent 告诉服务器我们是浏览器请求的说完我们这边的请求了接着我们再说说服务器的响应你一定遇到过 404 页面吧或者服务器错误返回个 502 吧这些 404 啊200啊301啊502啊都是服务器的响应码一般服务器给我们返回 200那就说明我们成功请求了再来说说响应头当我们请求成功之后服务器会给我们返回响应码之外还有响应头这个头主要是告诉我们数据以什么样的形式展现告诉我们cookie的设置还有一个就是响应体了说白了就是服务器返回给我们的数据我们点击 Response 就可以看到相关的数据了看这些就是服务器返回给我们的 HTML 源代码对于不同的请求我们获取到的数据是不一样的除了 HTML的也有 JSON 的图片二进制数据等等可以针对不同的情况用不同的手段来解析这些数据说到这里想必你已经会在 Chrome 抓包了所谓抓包就是我们摸清了浏览器里面的套路知道它是怎么搞的那么通过我们的请求GET 请求也好POST 请求也罢只要知道请求方式只要知道请求参数只要知道请求头定义只要知道怎么拿到返回的数据这..对我们来说爬虫还难么完了!爽吗那还不转发那还不点赞那就赶紧关注加入pythoner的聚集地我们一起牛逼