网络爬虫错误

Python 更新时间：2024-05-10 19:56:17 发布时间：638天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

在使用urllib中的request方法时，系统返回HTTPerror，但是没有给出错误代码

重新写了一段代码，用来显示具体错误：

# 异常处理
from urllib import request,error
try:
    response = urllib.request.urlopen('https://movie.douban.com/top250')
except error.HTTPError as e:
    print(e.reason,e.code,e.headers,sep='n')  # 使用httperror判断

这里访问的是豆瓣，结果返回错误418，查了下是反爬虫的。

处理办法：不是一次请求整个网页，而是加入header选项，只读取头部，如下：

第二个问题是，如何读取多页的信息，此时通过观察，得知douban的页面链接中包含了页码信息，用for循环配合页码即可：

转载请注明：文章转载自 www.wk8.com.cn

本文地址：https://www.wk8.com.cn/it/1038406.html

上一篇 SpringCloud: RestTemplate 带header发送post请求

下一篇 Java语言特性运用：各种Java语法特性是怎样被Spring各种版本巧妙运用的？-3

Python相关栏目本月热门文章

关于我们文章归档网站地图联系我们