博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python使用代理的方法
阅读量:4710 次
发布时间:2019-06-10

本文共 1339 字,大约阅读时间需要 4 分钟。

我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么的美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden;出现这样的原因往往是网站采取了一些反爬虫的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这时候,代理就派上用场了。

国内的免费代理网站:

接下来看如何设置代理:

urllib代理设置:

from urllib.error import URLErrorfrom urllib.request import ProxyHandler,build_openerproxy='123.58.10.36:8080'  #使用本地代理#proxy='username:password@123.58.10.36:8080'  #购买代理proxy_handler=ProxyHandler({    'http':'http://'+proxy,    'https':'https://'+proxy})opener=build_opener(proxy_handler)try:    response=opener.open('http://httpbin.org/get') #测试ip的网址    print(response.read().decode('utf-8'))except URLError as e:    print(e.reason)

运行结果如下:

 

requests代理设置:

import requestsproxy='123.58.10.36:8080'  #本地代理#proxy='username:password@123.58.10.36:8080'proxies={    'http':'http://'+proxy,    'https':'https://'+proxy}try:    response=requests.get('http://httpbin.org/get',proxies=proxies)    print(response.text)except requests.exceptions.ConnectionError as e:    print('错误:',e.args)

运行结果如下:

 

Selenium代理设置:

from selenium import webdriverproxy='123.58.10.36:8080'chrome_options=webdriver.ChromeOptions()chrome_options.add_argument('--proxy-server=http://'+proxy)browser=webdriver.Chrome(chrome_options=chrome_options)browser.get('http://httpbin.org/get')

运行结果:

以上就是代理的一些简单设置、、、

 

转载于:https://www.cnblogs.com/yuxuanlian/p/10139659.html

你可能感兴趣的文章
小鸡啄米问题求解
查看>>
Castle.net
查看>>
HDU1532 网络流最大流【EK算法】(模板题)
查看>>
PHP使用curl替代file_get_contents
查看>>
Webstorm通用设置
查看>>
jquery倾斜的动画导航菜单
查看>>
JAVA IO流的简单总结+收集日志异常信息
查看>>
类型转换与键盘输入
查看>>
面向对象(2)
查看>>
运算符(1)
查看>>
掷骰子游戏和条件语句
查看>>
循环语句
查看>>
加标签的continue用法
查看>>
递归算法
查看>>
java继承 、方法重写、重写toString方法
查看>>
SQL注入原理-手工联合注入查询技术
查看>>
实验3 SQL注入原理-万能密码注入
查看>>
redis cluster
查看>>
feign传输String json串 自动转义 \ 解决方法
查看>>
本站已稳定运行了XX天,网页时间显示功能实现方法
查看>>