“工欲善其事,必先利其器?”
“对一件具体的事情是对的,但对于一个复杂的问题,则不然。比如现在电商非常的红火,假设我们要去建造一个高效的电商仓库,应该先建设什么工具?显然应该先在规划好仓库里货架的摆放位置、走道设置、物品归类等的基础上,再按需添置工具。而我们运维人员就好比大型仓库的仓管员,因为还要负责部署,以及故障处理,所以我们不仅仅是仓管员,还是快递员,兼售后等。”赵建春巧妙的比喻让会场气氛顿时活跃了起来。
所以,我们的做法是先想办法让自己有个清爽的环境,再在此基础上建设各类效率工具,分工协作”,赵建春强调道。
三大主题诠释高效运维之道
海量SNS社区网站如何实现高效运维,赵建春通过三个主题进行了诠释:如何减少运维对象、规范技术架构和进行分工分层的专业维护。他认为,简单、规范、专业分工后的经验最大化利用是运维的三个核心思想。
谈到如何减少运维对象时,赵建春讲述了自己团队的运维经验:“在06年的时候,我们第一步做的事情就是,把运维环境中所有的应用程序进行部署,全部打包,打包之后,不管是运维同事、开发同事还是测试同事都有一个标准的按钮,只需按这个按钮就可以达到相应的目的。”
“规范技术架构并不是一件容易的事情”,在规范技术架构主题中,赵建春指出,“我们每个地方的规范和约束花了大概2年的时间,才把这样一个比例从无发展到80%、90%的覆盖率。使业务架构变成接入层以qzhttp为主,逻辑层以spp(通用socketserver)为主,数据层以cdb cmem/cssd cbitmp为主并结合lvs/tgw L5 进行容错的高度标准化运营体系。”
针对分层专业维护,赵建春分享了腾讯的做法 “我们允许和支持开发同事可以变更自己负责的模块,上线后运维系统会自动搜集所有IP,比如20分钟之前和20分钟之后的各种变化,并根据基础监控,测速、自动化测试,模块间调用,coredump,组件监控等综合输出体检报告,通过邮件发给开发同事,按规则和重要性,邮件分成关注和须处理 。”
除此之外,赵建春还举例说明 “在代码发布方面,由于配置中心化,我们可以通过菜单进行一个部署单元set的快速部署,就像我们在天津机房要部署1000台服务器,在2个小时就完成非数据拷贝部分的全部服务部署。”
“尽可能少的管理对象就是效率的最大保障,运维团队也不要一味地去适应环境的变化,也要和研发有良好的互动,形成分工维护的变更闭环,减少沟通协调成本。”赵建春总结说。
在演讲的最后,赵建春表示,这些好的技术方案在腾讯云上会继续提供或有相关优化替代版本,这些技术经历了腾讯多年的海量服务演进和考验,欢迎大家关注及使用腾讯云。
想认识全国各地的创业者、创业专家,快来加入“中国创业圈”
|