蘑菇街向靖:大家好,我是子骞,来自蘑菇街的运维架构师。我们接下来会做一个 Paas 平台,想做 Docker 和结合虚拟机以及我们用到公有云产品,做成一个混合云的架构平台。我们现在 Docker 也在用,更多的是当虚拟机用,后面我们想基于 Docker 原生的方式去用,可能会涉及资源调度,服务发现的问题。除了 Docker,我们还会用到公有云,公有云更多是虚拟机的方式提供。出于混合云,想在资源层做一个抽象,对于上层业务来讲它没有关系,它是跑在 Docker 上,还是云主机上,还是 KVM 虚拟机上,那么我想在这上面做一个抽象。另外还有,刚才我也是提问滴滴架构师的问题,配置怎样和代码做隔离,这个也是我考虑的问题。因为我看 Docker 用了环境变量,通过环境变量做一些配置的参数的传递,但是在虚拟机上,特别是在物理机上,通过环境变量的方式,我还在考虑有没有安全的风险,Docker 可能是一个只读的,不会被修改的,但是对于虚拟机以及物理机来说,可能会存在被修改的风险。
蘑菇街张振华:大家好,我叫张振华,花名郭嘉,我是 14 年从思科加入蘑菇街。我们算是国内用 Docker 比较早的,我们一开始用 Docker 是 1.3.2 的版本,当时我们采用集群管理工具还是Openstack,因为当时 Kubernetes 还不是很成熟。当时也走了一些弯路,比如我们把 Docker 当成虚拟机来用,曾经在线上的规模也达到几百台虚拟机几千个容器,但是我们逐步发现不能把 Docker 当成虚拟机来使用,因此我们做了一个转型,从去年开始研究 Kubernetes,现在 Kubernetes 加 Docker 的版本开发完成了,准备逐步上线。
我们为什么选用 Kubernetes?编排工具的选择我们也是做过一番调研的,它们没有谁好谁不好这一说,只能说谁更贴切你的需求。对于我们蘑菇街来说,我们需要解决是资源利用率的问题,和运维的对接,我们需要有预发和线上环境的持续集成持续部署的过程,还有我们需要有对资源的隔离,对部署的快速迭代,包括集群管理,这些方面,我们觉得 Kubernetes 更加适合于我们。
在网络方面,我们研究过现在在开源界比较常用的一些方案,但是我们都觉得不太适合,比较 Fannel,Caico 等等,他们一般用的技术都是 Vxlan,或者是用 BGP。因为我们之前对 Openstack 的网络是比较有经验的,然后我们发现有一个项目,具体名字不记得,Neutron 和 Kubernetes 做一个对接,我们在这个项目的基础上做了 Vlan 的方案,我们的网络没有用 Vxlan 来做,而是选择 Vlan 来做,这样的话一个 Docker 它可以获得跟一个物理理同一个网络平面的 IP,我们的应用程序可以直接对外访问,因为我们内部业务有这个需求选择这个方案。虽然 Docker 内部网络和外部网络是通的,但 Docker 还是独立的一个网段,不需要一层 NAT 的转换。我们直接走二层的,是在交换机走 Chunk,本来物理机交换机的 Access 口,这样的话,一台物理机上面允许跑多个vlan的容器,比如说 A业务和 B业务要走隔离的话,通过网络的 Vlan 走隔离,它们的数据之间不会有干扰。
Load Balance 我们还没有涉及到这一块,Load Balance 我们应该会在 nginx 上做一层。因为据我了解,现在 Kubernetes 这一块 Proxy 还不是很成熟,这上面还存在一些问题,因此还不敢用 Kubernetes 现有提供的服务。服务发现和注册这一块我们还在做开发,这块会和配置管理中心打通。我们内部也有其他团队在做这些功能,所以我们会和内部的中间件团队合作。
七牛云袁晓沛:大家好,我是七牛云数据处理技术总监袁晓沛。我们的数据处理业务包括了图片和视频的实时在线及异步处理。数据处理的业务量比较大,日均请求量达到百亿级。平台采用容器技术的原因是借助容器技术快速部署,启动的特性,数据处理程序可以根据数据处理量快速地弹性伸缩。借助容器技术内核级别的资源隔离和访问控制,每个数据处理程序可以运行在一个私有的环境,不被其它程序所干扰,保证其上运行数据是安全可靠的。而且容器技术是轻量的,它以最小的资源损耗提供资源隔离和访问控制,而资源特别是计算资源在数据处理中是非常宝贵的。
我们在资源调度上采用的是 Mesos,而二层的业务调度框架则是自己自研的。七牛自身拥有近千台的物理机,容器是直接运行的物理机上,可以减少虚拟层对资源的消耗,提高资源的利用率。
在网络上,对于七牛的自定义数据处理服务直接使用的是 Host 模式,而对第三方数据处理服务则使用的是 Bridge 模式,因为这些程序是用户自己部署运行的,并不知道用户是否有开启其他的端口使用,所以使用的是 Bridge 模式,需要对外使用端口的都需要通过 NAT 进行暴露,这样服务内部使用了什么端口并不会对外界环境造成影响,对平台环境做了非常好的安全隔离。我们是使用 Consul 做注册中心,支持跨数据中心的服务发现。我们为什么自研的调度框架,而不用 Marathon。因为 Marathon 不支持跨数据中心的内部服务或外部服务的发现,而七牛有多个数据中心,影响整体的调度,其次如果选用 Marathon 的话,根据我们业务的特点,还是要再做一层对 Marathon 的包装才能作为 Dora 的调度服务,这样模块就会变多,部署运维会复杂。