1.爬虫概念 :
1 | 爬虫是什么? |
都有哪些语言可以实现爬虫 :
1 | (1) php : 号称世界上最好的语言, (后端语言 : php, java, python), 可以实现爬虫, 缺点 : 天生对多进程和多线程支持的不好 |
通用爬虫 :
1 | 例子 : 百度, 谷歌, 360, 搜狗, 必应等等, 搜索引擎就是一种爬虫 |
如何让百度抓取你的网站?
1 | (1) 静静地等待, 百度会和DSN服务商合作 |
我的网站不想让百度抓取?
1 | (1) 与百度商量好的, 君子协议, 口头协议, robots协议(爬虫协议, 机器协议) |
网站排名 (SEO): 通过SEO优化网站
1 | (1) pagerank值排名, 根据点击量, 浏览量等, 相当靠谱 - 口碑 |
通用爬虫缺点 :
1 | (1) 抓取很多数据都是无效的 |
聚焦爬虫 :
1 | 根据自己特定的需求, 来抓取指定的数据 |
思路 :
1 | (1) 提供一个url |
开发环境 :
1 | (1) Windows系统 , Python 3.x(64位) , sublime编辑器, pycharm编辑器, vscode |
整体内容 :
1 | (1) 涉及到的Python的库 : |
2.http协议 :
书 : <<图解http协议>>
1 | 协议是什么? : |
HTTPS和HTTP的区别主要如下 :
1 | 1. https协议需要到ca申请证书, 一般免费证书较少, 因而需要一定费用 |
http协议学习 :
1 | 图解http协议 |
请求 :
1 | 包含请求行, 请求头, 请求内容 |
响应 :
1 | 响应行, 响应头, 响应内容 |
3.抓包工具 :
(1) 谷歌浏览器自带抓包工具
1 | 右键开发者工具 ==> network |
(2) 专业工具 fiddler
1 | 专业抓包工具, 比谷歌强在了跳转的时候很多请求都能抓取到 |
4.urllib库 :
1 | urllib 库是什么 ? 自带的Python库, 模拟浏览器发送http请求 |
fiddler的使用方法 :
1 | 1、配置抓取https包 |
常见的http状态码 :
1 |
|
sublime安装流程 :
1 | 安装 package control , 按view下面的 show console, 输入如下指令敲enter即可 |
最后更新: 2018年08月09日 17:44