网络爬虫学习笔记
课程名称:52讲学爬虫
1.1 HTTP
Remote Address
:远程服务器地址及端口Referrer Policy
:Referrer判别策略Request
包含:Request Method
,Request URL
,Request Headers
,Request Body
。GET
和POST
区别:GET
:数据可在URL中体现,提交数据最多1024字节。POST
:数据在请求体中,数据大小没有限制。
方法 | 描述 |
---|---|
GET | 请求页面,返回页面内容 |
POST | 大多用于提交表单 |
HEAD | 类似于GET方法,但会相应没有内容,用于获取报头 |
PUT | 从客户端向服务器传送指定文档内容 |
DELETE | 请求服务器删除指定页面页面 |
CONNECT | 服务器为跳板,使用服务器代替哭护短访问其他页面 |
OPTIONS | 允许客户端查看服务器性能 |
TRACE | 回显服务器收到的请求,主要用于测试诊断 |
常用请求头:Accept
:请求报头域,指定客户端接收信息类型Accept-Language
:客户端接收的语言类型Accept-Encoding
:客户端接收的内容编码Host
:指定请求资源的主机IP及端口号,为请求URL的原始服务器网关地址Cookies
:网站辨别用户跟踪存储在客户端的本地数据,主要作用维持会话Refer
: 识别请求源自哪里,服务器可以用来做统计或防盗链处理User-Agent
:服务器识别用户的操作系统及版本Content-Type
:互联网媒体类型(Internet Media Type)或者MIME类型,用来表示请求中的媒体类型信息,例如:text/HTML
,image/gif
(对照表)
POST常用Content-Type:
Content-Type | 数据格式 |
---|---|
application/x-www-form-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application/json | 序列化JSON数据 |
text/xml | XML数据 |
常用响应头:Date
:标识相应产生时间Last-Modified
:资源最后修改时间Content-Encoding
:指定内容编码Server
:服务器信息,如:名称,版本号等Content-Type
:文档类型Set-Cookie
:设置CookiesExpires
:指定响应的过期时间,可将请求内容更新到缓存中,如再次访问可直接从缓存中加载,降低服务器负载,缩短加载时间
1.2 网页基础
HTML
:Hyper Text Markup Language超文本标记语言CSS
:网页页面排版样式标准JavaScript
:脚本语言,实现交互动画效果