"""使用urllib库 爬取豆瓣电影 ajax(异步刷新)"""from urllib import request,parseimport chardetimport json# 定义豆瓣的urlurl = "https://movie.douban.com/j/chart/top_list?"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0"}# 定义一个参数字典patamter ={# 电影类型 "type":"24", # 好评率 "interval_id":"100:90", # 开始 "start":"0", # 总共加载多少部 "limit":"20"}# 将参数转化为可拼接到url中的字符串格式 得到完整的urlurl = url+parse.urlencode(patamter)# 将user-agent 注入到请求中req=request.Request(url,headers=headers)# 获取网页,进行指定的编码格式 去解码 得到json格式 字符串文件res = request.urlopen(req).read().decode("utf-8")# print(res)# print(type(res))# 将字符串转为json格式文件 返回的是一个列表, 列表里面包含的都是字典jsonObj=json.loads(res)print(jsonObj)print(type(jsonObj))# 提取需求信息for data in jsonObj:print(data)# 字典 print(type(data))# 提取电影名 print(data['title'])
转载于:https://www.cnblogs.com/YangQingHong/p/10978160.html
相关资源:垃圾分类数据集及代码
转载请注明原文地址: https://win8.8miu.com/read-850173.html