江明涛的博客
HTTP协议基础
HTTP协议基础

HTTP协议基础

目标:

目标

1.理解web请求流程
2.理解http协议的相关元素
3.了解cookie session https等形式

we请求流程概述

在浏览器中输入网址,敲击回车,就开始发起了请求。整个过程大制如下:

1. 用户在浏览器输入url 一般是http[s]://域名

2.浏览器通过域名解析把输入的网址转换为对应的IP地址

3. 根据IP在互联网上找到对应的服务器,建立TCP链接

4. 客户端向服务器发送HTTP协议请求包,请求服务器中的资源

5. 到达负载均衡服务器,根据相应策略来分配用户请求到指定服务器来处理请求

6. 请求的数据可以存储在分布式缓存中,或者静态文件中,还有数据库等等

7. 当数据返回给浏览器是,浏览器解析数据和静态资源(css、js、jpg等等)时候又会发起另外一个请求,整个请求可能会在CDN上,那么CDN服务器有处理这个用户的请求

8. 关闭TCP链接,客户端与服务器断开。客户端解释HTML文档,在浏览器上渲染图形结果

一个HTTP的请求简单来说就是这样,很简单,但原理有很复杂。

PS:HTTP1.1开始,服务器可以与客户端保持长连接。

DNS域名解流程

就是把输入在浏览器中的网址解析成IP地址,如果是直接通过ip地址来访问就不需要DNS域名解析,简单来说有以下几个步骤:

1. 浏览器缓存检查

浏览器首先搜索自身DNS缓存,缓存时间比较短(1min左右),只能容纳1000条缓存,看自身的缓存中是否有对应条目且没过期,如果有且没有过期则解析到此结束。

2. 操作系统缓存检查 + hosts解析

如果浏览器的缓存里没有对应条目,操作系统会有一个域名解析的过程。浏览器先搜索操作系统的 DNS 缓存中是否有这个域名对应的解析结果,如果找到且没有过期则停止搜索,解析到此结束。

Linux中可以通过/etc/hosts文件来设置,可以将任何域名解析到任何能访问到的ip地址。如果在这里指定了一个域名对应的 IP 地址,那么浏览器会首先使用这个 IP 地址。当解析到这个配置文件中的某个域名时,操作系统会在缓存中缓存这个解析结果,缓存的时间同样是受这个域名的失效时间和缓存的空间大小控制的。

3. 本地区域名服务器(Local DNS Server)解析

如果在 hosts 文件中也没有找到对应的条目,浏览器会发起一个 DNS 的系统调用,会向本地配置的首选 DNS 服务器发起域名解析请求(通过的是 UDP 协议向 DNS 的 53 端口发起请求,这个请求是递归的请求,也就是运营商的DNS服务器必须得提供给我们该域名的IP地址)。

在我们的网络配置中都会有“DNS 服务器地址”这一项,这个地址就用于解决前面所说的如果两个过程无法解析时要怎么办。操作系统会把这个域名发送给这里设置的 LDNS,也就是本地区的域名服务器。

这个 DNS 通常都提供给你本地互联网接入的一个 DNS 解析服务,例如你是在学校接入互联网,那么你的 DNS 服务器肯定在你的学校;如果你是在一个小区接入互联网的,那这个 DNS 就是提供给你接入互联网的应用提供商,即电信或者联通。大约 80% 的域名解析都到这里就已经完成了,所以 LDNS 主要承担了域名的解析工作。

4. 根域名服务器解析(RootServer)

如果 LDNS 没有找到对应的条目,则由运营商的 DNS 代我们的浏览器发起迭代 DNS 解析请求。它首先是会找根域的 DNS 的 IP 地址,找到根域的 DNS 地址,就会向其发起请求。然后根域名服务器返回给本地域名服务器一个所查询域的主域名服务器(gTLD Server)地址。

5. 主域名服务器(gTLD Server)

本地域名服务器(LDNS Server)再向上一步返回的 gTLD 服务器发送请求。

接受请求的 gTLD 服务器查找并返回此域名对应的 Name Server 域名服务器的地址,这个 Name Server 通常就是你注册的域名服务器,例如你在某个域名服务提供商申请的域名,那么这个域名解析任务就由这个域名提供商的服务器来完成。

Name Server 域名服务器会查询存储的域名和IP的映射关系表,正常情况下都根据域名得到目标IP记录,连同一个 TTL 值返回给 DNS Server 域名服务器。

tcp的三次握手

第一次握手
客户端给服务器发送一个SYN段(在 TCP 标头中 SYN 位字段为 1 的 TCP/IP 数据包), 该段中也包含客户端的初始序列号(Sequence number = J)。
第二次握手
服务器返回客户端 SYN +ACK 段(在 TCP 标头中SYN和ACK位字段都为 1 的 TCP/IP 数据包), 该段中包含服务器的初始序列号(Sequence number = K);同时使 Acknowledgment number = J + 1来表示确认已收到客户端的 SYN段(Sequence number = J)
第三次握手
客户端给服务器响应一个ACK段(在 TCP 标头中 ACK 位字段为 1 的 TCP/IP 数据包), 该段中使 Acknowledgment number = K + 1来表示确认已收到服务器的 SYN段(Sequence number = K)。

http协议概述

HTTP介绍

HTTP协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。
HTTP使用的是一种基于消息的模型,客户端发出一条请求消息,服务的返回一条消息。
HTTP 是一种无状态 (stateless) 协议, HTTP协议本身不会对发送过的请求和相应的通信状态进行持久化处理。这样做的目的是为了保持HTTP协议的简单性,从而能够快速处理大量的事务, 提高效率。

HTTP消息头

HTTP消息头是在,客户端请求(Request)或服务器响应(Response)时传递的,位请求或响应的第一行,HTTP消息体(请求或响应的内容)是其后传输。HTTP消息头,以明文的字符串格式传送,是以冒号分隔的键/值对,如:Accept-Charset: utf-8,每一个消息头最后以回车符(CR)和换行符(LF)结尾。HTTP消息头结束后,会用一个空白的字段来标识,这样就会出现两个连续的CR-LF

HTTP消息头支持自定义, 自定义的专用消息头一般会添加'X-'前缀

常用的HTTP请求头:
Accept|Accept-Charset|Accept-Encoding|Authorization|Connection|C|Serverookie|Content-Length|Content-Type|Host|Origin|Referer|User-Agent

常见的响应头:
Access-Control-Allow-Origin|Cache-Control|ETag|Expires|Location|Pragma|Server|Set-Cookie|WWW-Authenticate

cookie

HTTP协议本身是无状态的。什么是无状态呢,即服务器无法判断用户身份。Cookie实际上是一小段的文本信息(key-value格式)。客户端向服务器发起请求,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求该网站时,浏览器把请求的网址连同该Cookie一同提交给服务器。服务器检查该Cookie,以此来辨认用户状态。cookie无法跨域名的

cookie机制
当用户第一次访问并登陆一个网站的时候,cookie的设置以及发送会经历以下4个步骤:
客户端发送一个请求到服务器 --》 服务器发送一个HttpResponse响应到客户端,其中包含Set-Cookie的头部 --》 客户端保存cookie,之后向服务器发送请求时,HttpRequest请求中会包含一个Cookie的头部 --》服务器返回响应数据

session

ession是另一种记录客户状态的机制,不同的是cookie保存在客户端浏览器中,而session保存在服务器上。客户端浏览器访问服务器的时候,服务器把客户端信息以某种形式记录在服务器上,这就是session。客户端浏览器再次访问时只需要从该session中查找该客户的状态就可以了。session相当于程序在服务器上建立的一份用户的档案,用户来访的时候只需要查询用户档案表就可以了
为了获得更高的存取速度,服务器一般把session放在内存里。每个用户都会有一个独立的session。如果session内容过于复杂,当大量客户访问服务器时可能会导致内存溢出。session的使用虽然比cookie方便,但是过多的session存储在服务器内存中,会对服务器造成压力。因此,session里的信息应该尽量精简。
session在用户第一次访问服务器的时候自动创建。session生成后,只要用户继续访问,服务器就会更新Session的最后访问时间,并维护该session。
由于有越来越多的用户访问服务器,因此session也会越来越多。为防止内存溢出,服务器会把长时间内没有活跃的session从内存中删除。这个时间就是session的超时时间。如果超过了超时时间没访问过服务器,session就自动失效了。
虽然session保存在服务器,但是它的正常运行仍然需要客户端浏览器的支持。这是因为session需要使用cookie作为识别标志。HTTP协议是无状态的,session不能依据HTTP连接来判断是否为同一客户,因此服务器向客户端浏览器发送一个名为SESSIONID的cookie,它的值为该Session的id。Session依据该cookie来识别是否为同一用户。

对于不支持cookie的手机浏览器,有另一种解决方案:URL地址重写。URL地址重写的原理是将该用户session的id信息重写到URL地址中,服务器能够解析重写后的URL获取session的id。这样即使客户端不支持cookie,也可以使用session来记录用户状态。

http状态码

每条http响应消息都必须在第一回包含一个状态码,说明请求的结果。根据代码的第一位数字可以分为以下5类
  1xx  提供信息
  2xx  请求被成功提交
  3xx  请求被重定向到其他资源
  4xx  请求包含某种错误
  5xx  服务器执行请求时遇到错误

https

HTTPS (全称:Hyper Text Transfer Protocol over SecureSocket Layer),是以安全为目标的 HTTP 通道,在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性 [1]  。HTTPS 在HTTP 的基础下加入SSL,HTTPS 的安全基础是 SSL,因此加密的详细内容就需要 SSL。 HTTPS 存在不同于 HTTP 的默认端口及一个加密/身份验证层(在 HTTP与 TCP 之间)。这个系统提供了身份验证与加密通讯方法。它被广泛用于万维网上安全敏感的通讯,例如交易支付等方面

上次更新时间 13 3 月, 2023 at 09:59 上午