引言:
昨天在网易云课堂自学了《Python网络爬虫实战》,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐!
另外,在网上看到一位学友整理的课程记录,非常详细,可以优先参考学习。传送门:请点击
本篇文章是自己同步跟着视频学习的记录,欢迎阅读~~~
实验:新浪新闻首页爬虫实践
http://news.sina.com.cn/china/
一、准备
浏览器内建的开发人员工具(以Chrome为例)
Python3 requests 库
Python3 BeautifulSoup4 库(注意,BeautifulSoup4和BeautifulSoup是不一样的)
jupyter notebook
二、抓取前的分析
以Chrome为例,抓取前的分析步骤如图:
- 按
F12
进入到开发者工具; - 点击
Network
; 刷新页面
;(按F5)- 找到
Doc
; - 找到左边
Name
这一栏的第一个(需要爬去的链接90%的情况都是第一个); - 点击右边的
Headers
; - 找到请求的URL和请求方式。
三、开始撰写第一只网络爬虫
Requests库
- 网络资源撷取套件
- 改善Urllib2的缺点,让使用者以最简单的方式获取网络资源
- 可以使用REST操作存取网络资源
jupyter
使用jupyter来抓取网页并打印在浏览器中,再按Ctrl-F
查找对应的内容,以确定我们要爬去的内容在该网页中。
测试示例:
1import requests 2 res = requests.get('http://www.sina.com.cn/') 3 res.encoding = 'utf-8'4print(res.text)
四、用BeautifulSoup4剖析网页元素
测试示例: