spider

it2022-05-07 25

"""使用urllib库爬取豆瓣电影 ajax（异步刷新）"""from urllib import request,parseimport chardetimport json# 定义豆瓣的urlurl = "https://movie.douban.com/j/chart/top_list?"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0"}# 定义一个参数字典patamter ={# 电影类型 "type":"24", # 好评率 "interval_id":"100:90", # 开始 "start":"0", # 总共加载多少部 "limit":"20"}# 将参数转化为可拼接到url中的字符串格式得到完整的urlurl = url+parse.urlencode(patamter)# 将user-agent 注入到请求中req=request.Request(url,headers=headers)# 获取网页，进行指定的编码格式去解码得到json格式字符串文件res = request.urlopen(req).read().decode("utf-8")# print(res)# print(type(res))# 将字符串转为json格式文件返回的是一个列表，列表里面包含的都是字典jsonObj=json.loads(res)print(jsonObj)print(type(jsonObj))# 提取需求信息for data in jsonObj:print(data)# 字典 print(type(data))# 提取电影名 print(data['title'])

转载于:https://www.cnblogs.com/YangQingHong/p/10978160.html

相关资源：垃圾分类数据集及代码

专利

最新回复(0)