Coburn Watson并不害怕优化全球最大的亚马逊Web服务部署之一所带来的挑战,相反他乐在其中。
云性能工程师Coburn Watson来到电影租赁巨人网飞(Netflix)公司不到一年,因为他热衷于解决问题。儿时起,他就已经在这样做了,那时候高科技意味着在他的TI-99/4A计算机上用Logo编程语言构建应用。工程师技能世代相传。Watson的父亲早在二十世纪70年代就痛大型计算机系统工作,主要关注性能问题。
Watson进入网飞公司的路可谓“曲线救国”。他还是学生时离开德克萨斯州前往加利福尼亚,进入加州大学圣塔芭芭拉分校(UC-Santa Barbara)学习水生生物学,而不是计算机科学或者工程学。Watson热爱海洋和生物学分析。毕业后,他开始在生物工程上开展工作,同时,计算机开始在分析数据中扮演更加重要的角色。
由于他的技术背景,他开始在实验室成为系统管理员。这也导致了他多变的IT职业生涯,他曾经是甲骨文数据库管理员、Java开发者、解决方案架构师和性能经理。
当能够同世界上最大的云系统之一的机会来临时,Watson发现这个机遇太好而不能错过。自从他作为云性能工程经理开始,他的团队找到了网飞公司面临的一个重要问题,确保在相同的订阅率上不能让费用增长。他同工程师和性能团队合作创建了一个环境,其中云基础架构的成本不会放慢业务。
“我们不一定尝试削减成本,”Watson说道,他将网飞描述成为一个成长的初期阶段,尽管该公司已经有260万在线订阅者。“我们的目标真的不是随着订阅者的线性数量增加而增加我们的AWS成本。我们做的是优化资源。”
在去年十一月拉斯维维加斯举行的AWS的re:Invent会议上,与会者主要关注的是花费在亚马逊实例上的钱如何控制,这是一次全球合作伙伴和客户会议。有很多个分论坛和演讲,Watson就是演讲者之一,提出了在硬性限制和规则上如何通过优化管理实例的指南。
“我们从愿景上接近AWS用例,我们有大量很优秀的工程师团队,每个人都想做出正确的决定,”他说,“我们没有围绕AWS用例执行强制策略。我们也没有告诉团队你只可以使用100个用例,你下周一前不能再部署了。”
不适用独裁的方法,Watson采取一种更加整体的观点。关键的哲学在于网飞通过内部监控工具在其用例上收集的数据的庞大数量且用分析生成报告。
“我们有很多东西运行在那,我觉得能够有一种很好的聚合的观点的能力是我们所需要的,”Watson说。网飞每天有成千上万的实例在运行,使用自动化监控和报告工具将所有的实例转化成可控的数据。“到我们这种规模,你真的需要这些工具。”
网飞的工具对于工程师软对很关键,一些对于AWS用户是免费可用的,包括开源云管理和部署工具Asgard。
用技术解决业务问题
Watson表示这些工具的要点在于持续的为公司里面需要用这些数据做决定的人交付数据。定期他会领导一群经理讨论他们从报告中学到了什么。他觉得这种会议协助企业解决了业务问题。这个会议非常有效率,因为他们通过电话会议实现。
“我们在开会并讨论用例时,我可以通过账户、地区、分区、实例类型向下钻取。我可以通过团队将其打破,”他说,“我和我那些优秀的同事致力于非常复杂的问题。我们拥有难以置信的效率,因为我们在一个地方工作。”
通过交流,密切监测运营,持续开发最佳实践,Watson已经协助创建了一个环境,保持成本在一条线上,且不会阻碍创新或者限制了工程师。
“我们有一个原则,我们真的不想妨碍工程师的容量计划,”他说。
这个原则也是Watson面向云计算的哲学之一,他的任务核心就是控制成本,不管订阅者是不是增多。迄今为止都是成功的。Watson仍旧着迷于容量管理问题,而不是在会议上获得注意力。他希望更多的公司能够从他的团队开发的最佳实践和开源技术上获利。