发布于:2021-01-11 14:15:41
0
115
0
我们采访了Rundeck,Inc.的联合创始人Damon Edwards,并向他介绍了DevOps和Ops的观点。他解释说,DevOps的这一部分中的哪些现代实践可以改变运营商的日常工作,什么是站点可靠性工程(SRE)以及无服务器将如何改变运营。
诸如工具或开发人员方面的炒作话题通常会更受DevOps运动的关注。在柏林2019年DevOpsCon的采访中,我们与Damon Edwards讨论了Ops的观点。他解释说,DevOps的这一部分中的哪些现代实践可以彻底改变操作员的日常工作,以及什么是站点可靠性工程(SRE)。
除了站点可靠性工程(SRE)和面向运营商的现代工作技术外,无服务器这一主题(当然)也再次出现。我们与演讲者讨论了Serverless是否以及如何在DevOps上下文中进行更改,以及具有远见的开发人员和Ops人员如何能够适应它。
JAXenter:你好,Damon。对于DevOps,“ Ops”部分通常不是重点。我们经常关注其文化方面。你为什么认为这是?
戴蒙·爱德华兹(Damon Edwards): 我认为很多人都认为Ops是重点,但我认为他们将部署错误地用于运营。因此,不在重点的部分是部署后发生的事情。没有人认为部署后会发生什么。我们已经专注于这种部署,部署,部署的想法。最初是Flickr,每天最多部署10次。其他组织会认为,这太疯狂了,太不可思议了,我们每天如何部署十次?
最初的对话开始时,是关于开发与运营之间的关系的。出现问题的闪点是那时以及开发和操作连接的地方。因此,很多精力都放在了部署上,我认为从那时起,发生的许多DevOps对话都是关于Dev走向Ops的。我们如何尽快构建,测试和部署应用程序代码?
但是,如果您退后一步,看看最终的生命周期,那只是继续进行的一部分。还有其他整个“之后会发生什么?” 部署主题以及必须进行的所有其他操作问题。在DevOps对话中,通常不会对此进行讨论。
JAXenter:运维部门中有许多实践不是很及时。您可以在此基础上扩大一点吗?
达蒙·爱德华兹(Damon Edwards): 我认为操作及其个人技能和应用实际上是最新的。在自动化方面,在平台和技术方面,技能方面有很大的发展动力。
但是,诸如敏捷,流程,快速反馈和小批量工作之类的想法与IT生命周期的其余部分不同步。这些想法已经进入房屋开发部门近二十年了。无论人们是否一直在进行敏捷实践,思想是否存在,本书是否存在,工具和术语都在那里。这些关于快速反馈,流程和小批量的想法以及产品与我们的团队保持一致的想法已有很长的历史。
而在公司的Ops一侧,工作方式实际上是植根于90年代或2000年代初以来的经典ITIL功能孤岛,命令和控制工作方式。因此,这不仅仅是个人需要改变技能的问题,或者他们不知道如何做事。它更多地是关于我们如何处理和组织需要跟上开发人员那边正在发生的事情的运作工作。
有充分的理由说明它不仅仅是一对一的转移。还有其他一些考虑因素,那就是运营所没有的发展。因此,这不仅仅是开发人员接管Ops的有力方法。这是给运营空间留出空间的问题,以便他们可以以自己的方式吸收很多这些精益和敏捷的想法。然后,我们在开发人员和运营人员之间获得了真正的和谐。
JAXenter:还有其他操作技术可以彻底改变Ops的工作方式吗?
达蒙·爱德华兹(Damon Edwards):我不确定您是否可以称其为技术,而更多是一种设计模式。但是操作中的问题是这种极端的功能孤岛。就像我们有Linux服务器团队,Windows服务器团队,存储团队,DBA团队,防火墙团队,DNS团队一样。每个人都在从事这类非常实用的工作,但是工作需要在这些不同的团队中横向进行。因此发生的事情是因为我们拥有所有这些不同的专家和特殊的专有技术,在某些情况下,我们会遇到访问问题。如果环境中有客户数据,也许只有一个团队可以访问该环境,但是所有工作都需要继续进行。
因此,发生的事情是我们最终导致了所有这些中断和等待的票证队列。您或者经常被来自不同职能部门的某人打扰,试图让您去做某事,或者当您有时间恢复工作时,您正在排队等待别人的帮助。大量的时间被中断,等待和所有与之相关的协调开销所吞噬。
我们注意到并创建了Rundeck公司的原因之一就是这种想法,即您如何替换所有这些干扰并通过自助服务等待。您如何才能充分利用职能团队的头脑中的所有知识,并帮助他们将其转变为标准操作程序,然后可以安全地委派给其他人?不必因这些重复的事情而经常被打扰,他们可以进行自助服务。同样,那些需要他们提供帮助的团队,不用等待他们就可以通过自助服务的方式完成操作任务。
导致的是分发业务的能力以及在组织中最需要的地方采取操作行动的能力。您可以使整个组织的工作流程更好。
JAXenter:您能解释一下SRE是什么以及它在运营中扮演什么角色吗?
Damon Edwards: SRE(站点可靠性工程)是对操作工作如何完成以及操作的作用的重新思考。这个词是Google创造的,但实际上,这是许多网络规模公司所采用的。基本思想是,如果我们将软件学科和软件开发思想应用于运营方式,该怎么办?从表面上看,人们为将软件工程师的才智和技能注入到运营中而感到兴奋。
但这确实有一些根本不同的观点,原因是这些公司并不存在编写软件的事实。它们存在是为了运行软件。在SRE中,有一些关键原则,例如这种想法,我们不想让我们的运营团队不断陷入所谓的“辛劳”之下。他们一直在这种搅动模式下做很多重复的工作,在这种SRE模型中,我们应该限制可以自动化的工作量。相反,我们应该确保他们至少有50%的时间可用于进行工程工作,并做能够推动组织前进的事情。
他们还谈到了共同责任。在经典世界中,SLA的想法是,如果服务低于一定水平,则运营商同意对其处以罚款。如果您看一下SLO(服务级别目标),即同一个想法的SRE版本,那是关于共享责任模型的。在该模型中,如果我们跌破SLO,则开发,业务和运营都必须基本上停止其正在做的事情,并尝试找出如何将该SLO提高到更高水平。
因此,从根本上说,这是一种现代的思考方式,它重新思考什么是运作方式,我们想要应用什么样的人员和技能,以及不同的思维过程和设计模式。
JAXenter:无服务器正在兴起,它将改变运营方式。它将产生什么影响?
Damon Edwards:我认为这与容器化,虚拟化和云具有相同的影响。这是我们可以使用的另一种建筑设计模式。也有一些经济影响。如果一切都是功能,我们可以轻松地跟踪事物的成本。我认为这将产生深远的影响。
它不会摆脱的是操作的概念。您可以与目前正在走完整无服务器路径的人交谈。最伟大的例子之一是Patrick Devois,他创造了DevOps一词。DevOps这个词是因为他而出现的。他有一家初创公司,所有公司都基于无服务器和Lambda,这些技术都在云中。当您阅读他的Twitter提要时,它会令人着迷,因为这是所有操作问题和操作工作。只是在不同的上下文中。但是,如果您查看他在说什么,询问他的系统是什么,限制是什么,发生的怪异行为,我的系统如何崩溃,我如何做出响应,这就是出现的第一响应者心态投入运营。他正在做所有的事情,除了这一切都在这个无服务器的世界中进行。
该技术正在发生变化,以分配谁在什么时候执行哪些操作任务。它正在重新分配和重新考虑。但是操作的基本领域和纪律在今天,明天在无服务器世界中同样重要,就像昨天在虚拟机世界(经典大型机世界)中的Java Web应用程序中一样。操作作为一门学科而存在,它作为一种技能而存在,只是在重新分配,基础架构和工具看起来有所不同。
作者介绍