qq恢复官方网站,西安建设工程信息网新平台,网站运营需要哪些技术,赣州福泰龙网站建设Weibo_Hot_Search都说互联网人的记忆只有七秒钟#xff0c;可我却想记录下这七秒钟的记忆。项目已部署在服务器#xff0c;会在每天的上午 11 点和晚上11 点定时爬取微博的热搜榜内容#xff0c;保存为 Markdown 文件格式#xff0c;然后上传备份到 GitHub 你可以随意下载查…Weibo_Hot_Search都说互联网人的记忆只有七秒钟可我却想记录下这七秒钟的记忆。项目已部署在服务器会在每天的上午 11 点和晚上11 点定时爬取微博的热搜榜内容保存为 Markdown 文件格式然后上传备份到 GitHub 你可以随意下载查看。不要问我为什么选择 11 这两个时间点因为个人总感觉这两个时间点左右会有大事件发生。不管微博热搜上是家事国事天下事亦或是娱乐八卦是非事我只是想忠实的记录下来...运行环境Python 3.0 pip install requestspip install lxmlpip install bs4或者执行pip install -r requirements.txt进行安装运行所需的环境运行请确保你已准备好所需的运行环境运行方法(任选一种)在仓库目录下运行 weibo_Hot_Search_bs4.py(新增) 或 weibo_Hot_Search.py在cmd中执行 python weibo_Hot_Search_bs4.py(新增) 或 python weibo_Hot_Search.py自动运行利用 Windows 或 Linux 的任务计划程序实现即可scrapy版本运行项目的结构如下├── hotweibo│ ├── __init__.py│ ├── items.py│ ├── middlewares.py│ ├── pipelines.py│ ├── __pycache__│ │ ├── __init__.cpython-38.pyc│ │ ├── items.cpython-38.pyc│ │ ├── pipelines.cpython-38.pyc│ │ └── settings.cpython-38.pyc│ ├── settings.py│ ├── spiders│ │ ├── hot.py│ │ ├── __init__.py│ │ └── __pycache__│ │ ├── hot.cpython-38.pyc│ │ └── __init__.cpython-38.pyc│ └── TimedTask.py # 可以运行此文件直接启动爬虫└── scrapy.cfg请确保准备好 MongoDB 环境和 Scrapy 环境推荐使用 Docker 安装 MongoDB数据库和集合不需要预先创建TimedTask.py 用于执行定时爬取,默认为每分钟爬取一次在linux下可以在TimedTask脚本所在目录执行nohup python Timer.py /dev/null 21 具体用法可参考这里生成文件运行结束后会在当前文件夹下生成以时间命名的文件夹如下2019年11月08日并且会生成以具体小时为单位的具体时间命名的 Markdown 文件如下2019年11月08日23点.md接口来源更新日志2020年08月08日1.将原有保存的 Markdown 文件数据进行整理保存至新开仓库 weibo_Hot_Search_Data 此仓库以后用作代码更新及保存不再在此存放数据内容。声明本项目的所有数据来源均来自 新浪微博 数据内容及其解释权归新浪微博所有。LicenseGNU General Public License v3.0