2024年北京市全年天气爬取
日期:2025-08-25  作者:admin   来源:  浏览量:164

李嘉豪大数据24102

项目简介:

本项目聚焦于2024年北京市全年天气数据的爬取,利用python编写,scrapy框架搭建爬虫平台进行数据爬取,利用正则进行数据筛选,利用循环来改变网址,不断地进行循环刷新网址,利用csv经行数据存储,同时改变访问时间延长访问,防止被反爬取。

主要技术:

该项目爬取2024年北京市全年天气数据时,使用Python语言及Scrapy框架搭建爬虫平台,通过创建包含日期、最高气温、最低气温、天气状况、风向等实体的DzyItem类来规范数据结构;利用列表推导式生成2024年1-12月的目标网址,通过循环改变网址实现持续爬取,同时改变访问时间以延长访问间隔,防止被反爬。在数据提取环节,采用XPath定位网页中天气数据条目,结合.strip()方法处理提取的字段以去除空格,并借助正则进行数据筛选;数据存储方面,通过定义DzyPipeline类,利用csv模块将爬取的数据写入CSV文件。此外,还对数据进行了可视化处理,生成了每月气温对比图、温度与风力关系散点图以及全年温度日历热力图等。

图一实体定义

创建实体:

分别创建像日期,最高最低气温,温度,风向这类实体来方便获取内容

 

图二管道定义

创建并打开文件再授权编写,同时确定格式和语言,爬虫抓取的数据会以字典形式传递给这个管道管道将这些数据按行写入CSV文件

 

图三爬虫内容

使用列表推导式生成2024年1-12月的URL,使用XPath定位天气数据条目(//ul[@class="thrui"]/li),从每个条目中提取5个字段,每个字段都使用.strip()去除前后空格

图四可视化图示

北京市每月最高气温,最低气温与平均气温经行对比

 

图五可视化展示

北京市12个月中的风力对比图,色度是月点代表本月风级

图六可视化展示

全年的热力图颜色越深代表最冷和最热

 

收藏本页