本篇文章主要介绍了"极客学院课程爬虫Requests",主要涉及到方面的内容,对于其他编程jrs看球网直播吧_低调看直播体育app软件下载_低调看体育直播感兴趣的同学可以参考一下:
1、Requests抓取网页2、re.sub换页3、正则表达式匹配内容# -*- coding: utf-8 -*-
import requests
impor...
1、Requests抓取网页
2、re.sub换页
3、正则表达式匹配内容
# -*- coding: utf-8 -*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 在windows下面命令提示符默认编码是GBK 要爬内容为UTF-8
class spider(object):
def changepage(self, url, total_page):
now_page = int(re.search('pageNum=(\d+)',url,re.S).group(1))
page_group = []
for i in range(now_page,total_page+1):
link = re.sub('pageNum=\d+','pageNum=%s'%i,url,re.S)
page_group.append(link)
return page_group
def getsource(self,url):
html = requests.get(url)
return html.text
def geteveryclass(self,source):
everyclass = re.findall('<>',source,re.S)
return everyclass
def getinfo(self,eachclass):
info = {}
info['title'] = re.search('
以上就介绍了极客学院课程爬虫Requests,包括了方面的内容,希望对其他编程jrs看球网直播吧_低调看直播体育app软件下载_低调看体育直播有兴趣的朋友有所帮助。
本文网址链接:http://www.codes51.com/article/detail_340389.html