本篇内容主要讲解“如何用Python爬取天气数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何用Python爬取天气数据”吧!
一、[知识点]:
动态数据抓包
requests发送请求
结构化+非结构化数据解析
二、[开发环境]:
python 3.8 运行代码
pycharm 2021.2 辅助敲代码
requests 第三方模块 pip install 模块名
四、配置pycharm里面的python解释器
选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
选择file(文件) >>> setting(设置) >>> Plugins(插件)
点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
选择相应的插件点击 install(安装) 即可
安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效
2. 点击齿轮, 选择add 3. 添加python安装路径
五、pycharm如何安装插件
三、分析数据来源
https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=54511&areaInfo%5BareaType%5D=2&date%5Byear%5D=2022&date%5Bmonth%5D=7
四、代码实现
1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据
import requests # 发送请求 第三方模块 import parsel # 解析网页源代码的 第三方模块 import csv with open('天气数据.csv', encoding='utf-8', mode='a', newline='') as f: csv_writer = csv.writer(f) csv_writer.writerow(['日期', '最高温度', '最低温度', '天气', '风向', '城市']) city_list = [54511, 58362, 59287, 59493] for city in city_list: for year in range(2013, 2022): for month in range(1, 13): url = f'https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=54511&areaInfo%5BareaType%5D=2&date%5Byear%5D={year}&date%5Bmonth%5D={month}' # 1. 发送请求 response = requests.get(url) # <Response [200]> # 2. 获取数据 .json(): 字典类型的数据 键值对方式取值 json_data = response.json() # 3. 解析数据 # 字典取值 json(): {"":"", "":""} html_data = json_data['data'] # 结构化数据 字典键值对取值 # 非结构化数据 网页源代码 css/xpath/re select = parsel.Selector(html_data) trs = select.css('table tr') # 32个tr 每个tr都有六个td # [1, 2, 3, 4, 5] [1] for tr in trs[1:]: # 取标签里面的文本内容 # ::text tds = tr.css('td::text').getall() print(tds) if city == 54511: tds.append('北京') elif city == 58362: tds.append('上海') elif city == 59287: tds.append('广州') elif city == 59493: tds.append('深圳') # 4. 保存数据 with open('天气数据.csv', encoding='utf-8', mode='a', newline='') as f: csv_writer = csv.writer(f) csv_writer.writerow(tds)