yyyying的blog

好好学习 天天向上

0%

网络爬虫学习(1)

网络爬虫学习笔记

课程名称:52讲学爬虫

1.1 HTTP

Remote Address:远程服务器地址及端口
Referrer Policy:Referrer判别策略
Request包含:Request Method,Request URL,Request Headers,Request Body
GETPOST区别:
GET:数据可在URL中体现,提交数据最多1024字节。
POST:数据在请求体中,数据大小没有限制。

方法 描述
GET 请求页面,返回页面内容
POST 大多用于提交表单
HEAD 类似于GET方法,但会相应没有内容,用于获取报头
PUT 从客户端向服务器传送指定文档内容
DELETE 请求服务器删除指定页面页面
CONNECT 服务器为跳板,使用服务器代替哭护短访问其他页面
OPTIONS 允许客户端查看服务器性能
TRACE 回显服务器收到的请求,主要用于测试诊断

常用请求头:
Accept:请求报头域,指定客户端接收信息类型
Accept-Language:客户端接收的语言类型
Accept-Encoding:客户端接收的内容编码
Host:指定请求资源的主机IP及端口号,为请求URL的原始服务器网关地址
Cookies:网站辨别用户跟踪存储在客户端的本地数据,主要作用维持会话
Refer: 识别请求源自哪里,服务器可以用来做统计或防盗链处理
User-Agent:服务器识别用户的操作系统及版本
Content-Type:互联网媒体类型(Internet Media Type)或者MIME类型,用来表示请求中的媒体类型信息,例如:text/HTML,image/gif对照表

POST常用Content-Type:

Content-Type 数据格式
application/x-www-form-urlencoded 表单数据
multipart/form-data 表单文件上传
application/json 序列化JSON数据
text/xml XML数据

常用响应头:
Date:标识相应产生时间
Last-Modified:资源最后修改时间
Content-Encoding:指定内容编码
Server:服务器信息,如:名称,版本号等
Content-Type:文档类型
Set-Cookie:设置Cookies
Expires:指定响应的过期时间,可将请求内容更新到缓存中,如再次访问可直接从缓存中加载,降低服务器负载,缩短加载时间

1.2 网页基础

HTML:Hyper Text Markup Language超文本标记语言
CSS:网页页面排版样式标准
JavaScript:脚本语言,实现交互动画效果