当前位置：首页 > news >正文

郑州网站建设优化企业东莞市寮步镇防疫新闻最新

news 2025/12/24 0:41:36

郑州网站建设优化企业,东莞市寮步镇防疫新闻最新,物联网的网络架构,手机网站怎么开发这里假设你已经安装好node.js和npm#xff0c;如果没有安装#xff0c;请参阅其他教程安装。配置首先是来配置package.json文件#xff0c;这里使用express,request和cheerio。package.json如下#xff1a; {name: node-scrape,version如果没有安装请参阅其他教程安装。配置首先是来配置package.json文件这里使用express,request和cheerio。package.json如下 {name: node-scrape,version: 0.0.1,description: Scrape,main: server.js,dependencies: {express : latest,request : latest,cheerio : latest} } npm 安装把package.json文件放到一个你自己定义的文件夹(nodejs_scrape)下然后在命令行下执行cd nodejs_scrape npm install 抓取内容在nodejs_scrape目录下新建一个server.js文件先定义如下变量的和方法var express require(express); var fs require(fs); var request require(request); var cheerio require(cheerio); var app express();app.get(/,function (req,res) {//抓取内容的方法 });app.listen(8081); //使用8081端口console.log(Magic happens on port 8081);exports module.exports app; 下面我们就来完善get方法的内容首先定义要抓取的url这里以segmentfault为例 url https://segmentfault.com/news; 页面如下面所示点击F12查看我们就提取最简单的 classmr10 这个标签抓取内容的方法如下 request(url, function (err,res,html) {if (!err){ var $ cheerio.load(html);var title;$(.mr10).filter(function () {var data $(this);title data.text(); //获取标签的内容console.log(title is title); //控制台打印});}}); server.js完整代码如下 /*** Created by Administrator on 2017/3/1.*/ var express require(express); var fs require(fs); var request require(request); var cheerio require(cheerio); var app express();app.get(/,function (req,res) {//all scrape magic will happen hereurl https://segmentfault.com/news;request(url, function (err,res,html) {if (!err){var $ cheerio.load(html);var title;$(.mr10).filter(function () {var data $(this);title data.text();console.log(title is title);});}});});app.listen(8081);console.log(Magic happens on port 8081);exports module.exports app; 运行在nodejs_scrape目录下运行 node server ,可以看到如下所示在浏览器运行http://127.0.0.1:8081/可以看到抓取的内容如下这样我们就完成了一个简单到不能再简单的node.js爬虫。

查看全文

http://www.pierceye.com/news/565165/