CDN,内容分发网络,是大多数互联网业务里必不可少的部分,但大多数互联网从业人员不是特别清楚CDN究竟是什么,以及它可以为我们做哪些事情。
我们还是从之前介绍的《不同的人看到的直播为什么不一样?》这篇文章切入,讲讲CDN是什么。
从直播说起
还记得这个图吧,直播的主播通过自己的手机把“视频图”发给了观众,观众收到后,在APP里把每个图显示出来,形成了视频。现实的情况是,一个主播不可能只为一个观众服务,可能有很多个观众需要观看,如果是3个观众,那么就会是这样了:
图里的方式是主播把相同的数据同时传给3个不同的观众,这当然是非常愚蠢的方式,同样的数据被传了3次,主播端的瓶颈非常明显,比如有1000个观众同时观看的时候,主播端根本无法承担这么多的数据传输。
第一台服务器出现了
所以呢,很容易想到的方法是,主播把数据传给一个中间服务器,由服务器充当把数据发给不同用户的角色,也就是这样(图片1-6我们先用“数据”代替了):
这样的话,就用了性能强大的服务器来代替了主播传输数据的工作,给服务器提出的要求是:
第一,能够接收来自主播的传输数据;第二,能够把数据下发到观众APP.于是,服务器这时候便被定义了两个身份,第一,推流节点(接收来自主播端的上行推流);第二,分发节点(把视频流分发给不同的观众)。这就是简单的推流和分发概念。
由于服务器的强大能力,它不甘心只把数据接收过来再分发下去,而是要干更多的事情。比如说,给主播的脸上做个特效、给直播画面上加上公司的logo水印、或者是担心有主播直播违(hao)禁(kan)的画面,在服务器上做个鉴黄等等吧。这时候,服务器的定义有发生了改变,它被称为了“流媒体处理中心”。
观众数进一步增大会怎样?
服务器也是有瓶颈的,例如,通常服务器的网卡是1G的,一路直播视频的带宽需求是1M左右,不考虑别的因素,一台服务器的网卡最多可以同时分发1000路直播就达到瓶颈了。那么,如果有3000个观众观看的时候,怎么办?
当然,我们可以放3个服务器嘛,每个服务器分发1000路,总共就3000路了。于是就变成了这样:
又发现问题了,主播又要向服务器1、2、3分别发送3份数据了,按照之前的思路,我们可以这么来优化:在服务器1、2、3之前,放一个服务器-0,它的作用是接收主播推流,再把数据交给服务器1、2、3.由于服务器1、2、3给1000名观众分发的数据都是一样的,所以呢,他们就把数据在自己服务器上存储了一份。
概念:负载均衡、CDN缓存、回源、就近原则
在这样的架构下,会延伸出这样的几个概念:
当观众人数不太多的时候,例如总共只有1000人,那么是选择让某一台服务器服务这1000人,还是3台服务器分担1000人,还是2台?机器也会有新旧之分,老机器只能抗800数量,那要怎么来分配呢?等等问题。这里就需要有一个策略来做资源的分配。这个策略叫做:负载均衡。
因为观众看到的数据都是一样的,所以呢,数据会在服务器1、2、3上都存储一份。这个概念叫做:CDN缓存。
当分配到服务器1的第一个观众进入时,服务器1是没有存储数据的,它会向服务器-0获取数据,这个过程叫做:回源;相应的,服务器-0被称为:源站;观众请求的数据如果由CDN缓存提供,叫做缓存命中,所有用户请求的缓存命中比例叫做缓存命中率,它是衡量CDN质量的关键指标。