python爬取“代理IP”

python讨论qq群:996113038


导语:

常在河边走,哪有不湿鞋。

前两天小编在爬取一个美眉网站的时候,刚写了requests.get()就运行了一下,结果:

显然,我的IP被这个网站封了。于是,我就赶紧去找代理IP。

最后到了“快代理”这个网站。一下就看到了大片大片的IP数据在那里,然后,好久没写爬虫的我手痒了。

废话不多说了,走起。


代码及相关资源获取:

关注“python趣味爱好者”公众号,回复“爬取IP”获取源代码


开发工具:

python3.6.4。

需要安装的第三方库:

requests

parsel

time


效果演示:

效果就是爬取到了“快代理”网站的IP:


基本原理:

和所有的爬虫原理一样。都是先踩点,点开审查元素。看看网页有没有什么规律。用resquest.get()获取网页。然后进行分析。

    base_url='/{}/'.format(page)headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'}response=requests.get(base_url,headers)

为了防止被反爬,我们还加上了一个headers。这样,网页就爬取下来了。

然后,我们就需要对网页进行分析。提取出我们需要的信息。方法如下:我们就是用了parsel这个第三方库。

parsel_list=html_data.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')

这一行代码可以提取出网页里面的IP号,端口等等信息。


部分代码:

展示一部分代码,完整代码后台回复“爬取IP”获取。

    response=requests.get(base_url,headers)data=response.text# print(data)html_data=parsel.Selector(data)parsel_list=html_data.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')for tr in parsel_list:proxies_dict={}http_type=tr.xpath('./td[4]/text()').extract_first()ip_num=tr.xpath('./td[1]/text()').extract_first()pot=tr.xpath('./td[2]/text()').extract_first()print(http_type,ip_num,pot)proxies_dict[http_type]=ip_num+":"+potproxies_list.append(proxies_dict)time.sleep(5)

              感谢大家观看,有钱的老板可以打赏一下小编哦!

扫描下方二维码,关注公众号

参考资料:

图片来源:.jpeg?auto=compress&cs=tinysrgb&dpr=1&w=500

参考来源:青灯教育

python爬取“代理IP”

python讨论qq群:996113038


导语:

常在河边走,哪有不湿鞋。

前两天小编在爬取一个美眉网站的时候,刚写了requests.get()就运行了一下,结果:

显然,我的IP被这个网站封了。于是,我就赶紧去找代理IP。

最后到了“快代理”这个网站。一下就看到了大片大片的IP数据在那里,然后,好久没写爬虫的我手痒了。

废话不多说了,走起。


代码及相关资源获取:

关注“python趣味爱好者”公众号,回复“爬取IP”获取源代码


开发工具:

python3.6.4。

需要安装的第三方库:

requests

parsel

time


效果演示:

效果就是爬取到了“快代理”网站的IP:


基本原理:

和所有的爬虫原理一样。都是先踩点,点开审查元素。看看网页有没有什么规律。用resquest.get()获取网页。然后进行分析。

    base_url='/{}/'.format(page)headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'}response=requests.get(base_url,headers)

为了防止被反爬,我们还加上了一个headers。这样,网页就爬取下来了。

然后,我们就需要对网页进行分析。提取出我们需要的信息。方法如下:我们就是用了parsel这个第三方库。

parsel_list=html_data.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')

这一行代码可以提取出网页里面的IP号,端口等等信息。


部分代码:

展示一部分代码,完整代码后台回复“爬取IP”获取。

    response=requests.get(base_url,headers)data=response.text# print(data)html_data=parsel.Selector(data)parsel_list=html_data.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')for tr in parsel_list:proxies_dict={}http_type=tr.xpath('./td[4]/text()').extract_first()ip_num=tr.xpath('./td[1]/text()').extract_first()pot=tr.xpath('./td[2]/text()').extract_first()print(http_type,ip_num,pot)proxies_dict[http_type]=ip_num+":"+potproxies_list.append(proxies_dict)time.sleep(5)

              感谢大家观看,有钱的老板可以打赏一下小编哦!

扫描下方二维码,关注公众号

参考资料:

图片来源:.jpeg?auto=compress&cs=tinysrgb&dpr=1&w=500

参考来源:青灯教育