网络爬虫学习笔记
课程名称:52讲学爬虫
1.1 HTTP
Remote Address:远程服务器地址及端口Referrer Policy:Referrer判别策略Request包含:Request Method,Request URL,Request Headers,Request Body。GET和POST区别:GET:数据可在URL中体现,提交数据最多1024字节。POST:数据在请求体中,数据大小没有限制。
| 方法 | 描述 |
|---|---|
| GET | 请求页面,返回页面内容 |
| POST | 大多用于提交表单 |
| HEAD | 类似于GET方法,但会相应没有内容,用于获取报头 |
| PUT | 从客户端向服务器传送指定文档内容 |
| DELETE | 请求服务器删除指定页面页面 |
| CONNECT | 服务器为跳板,使用服务器代替哭护短访问其他页面 |
| OPTIONS | 允许客户端查看服务器性能 |
| TRACE | 回显服务器收到的请求,主要用于测试诊断 |
常用请求头:Accept:请求报头域,指定客户端接收信息类型Accept-Language:客户端接收的语言类型Accept-Encoding:客户端接收的内容编码Host:指定请求资源的主机IP及端口号,为请求URL的原始服务器网关地址Cookies:网站辨别用户跟踪存储在客户端的本地数据,主要作用维持会话Refer: 识别请求源自哪里,服务器可以用来做统计或防盗链处理User-Agent:服务器识别用户的操作系统及版本Content-Type:互联网媒体类型(Internet Media Type)或者MIME类型,用来表示请求中的媒体类型信息,例如:text/HTML,image/gif(对照表)
POST常用Content-Type:
| Content-Type | 数据格式 |
|---|---|
| application/x-www-form-urlencoded | 表单数据 |
| multipart/form-data | 表单文件上传 |
| application/json | 序列化JSON数据 |
| text/xml | XML数据 |
常用响应头:Date:标识相应产生时间Last-Modified:资源最后修改时间Content-Encoding:指定内容编码Server:服务器信息,如:名称,版本号等Content-Type:文档类型Set-Cookie:设置CookiesExpires:指定响应的过期时间,可将请求内容更新到缓存中,如再次访问可直接从缓存中加载,降低服务器负载,缩短加载时间
1.2 网页基础
HTML:Hyper Text Markup Language超文本标记语言CSS:网页页面排版样式标准JavaScript:脚本语言,实现交互动画效果