IT运维

IT运维中如何在不停机的情况下扩展 AWS EBS 卷

2021-05-31 13:49:52 | 来源:中培企业IT培训网

在IT运维中,服务水平目标(SLO)是强大的决策工具,远远超出了团队工作面,同时在那里提供价值。SLOs as Code in Reliably——面向开发人员的可靠性自动化平台,提供可执行的、可版本化的工件,帮助您在系统演进的任何时候捕获、构建、协作和启用必要的可靠性对话。SLO 告诉我们我们关心什么以及对系统用户来说什么是好的。出于这个原因,SLO 可以成为超越团队采煤工作面的令人难以置信的决策工具,今天我们就来解释一下在IT运维中如何在不停机的情况下扩展 AWS EBS 卷。

服务水平指标 (SLI) 告诉您可以衡量什么?

首先,SLO 是 很好的 对话启动器。甚至在编写一行代码之前,就可以讨论未来系统的各个方面应该如何表现才能为系统的未来用户提供正确的可靠性体验。

许多系统在早期实施中就死了,因为可靠性是事后的想法。尽管如此,通过尽早将 SLO 对话放在首位,每个人都有机会进行协作。更重要的是,SLO 有助于了解用户会关心什么以及系统需要多可靠。

这并不意味着SLO仅为新的,未开发的系统启用有价值的对话。SLO几乎可以在任何系统上鼓励相同的对话,无论是未开发的系统还是有点泥泞的“继承”系统,因为某些原因,我们有时会忽略传统系统。

SLO 可以鼓励所有相关人员问:“我们关心什么?”、“我们需要的正确可靠性级别是多少?”、“对我们的用户来说,可靠是什么样的?” 甚至,“我们如何平衡成本和可靠性?”。

无论这些 SLO 对话何时发生,它们都可以通过将可靠性提升到架构和设计过程中的顶层来增加巨大的价值。

Reliably 的 SLO 代码工件捕获、构建并支持这些对话。使用 SLO 工件,您可以开发和改进您的 SLO,甚至在您有任何方法使用服务水平指标 (SLI) 来衡量这些 SLO 之前:

services:
- name: website
  service-levels:
  - name: 95th of requests response time under 100ms
    type: latency
    criteria:
      threshold: 100ms
    sli: []
    slo: 95
    sli: []
    window: PT1H
  - name: 99th of requests response time under 500ms
    type: latency
    criteria:
      threshold: 500ms
    slo: 99
    sli: []
    window: PT1H
  - name: 99th of requests responses not 5xx
    type: availability
    slo: 99
    sli: []
    window: PT1H

window: PT1H在上面的代码片段中,我们描述了简单网站服务的三个 SLO。

注意:您可以使用 Reliably SLO init 命令创建自己的 SLO 定义。更多信息可在 Reliably 文档中获得。

释放SLO并将SLO视为代码

SLO 经常在市场上的监控和可观察性工具中定义和捕获。这没有错。这通常意味着 SLO 对所有参与的不同合作者来说并不像他们可能看到的那样可见,尤其是在可能有不同监控和可观察性系统在起作用的组织中。

SLO 受到生命周期的影响也很常见,其中包括版本控制、在开放协作时发布。听起来有点熟?确实如此!这是我们通常使用代码的确切要求集,因此这也是 Reliably 将 SLO 编码为代码工件的另一个原因,这些工件可以使用相同(或类似)的流程进行创建、管理、版本控制和协作。用于处理其他系统关键工件。

可执行 SLO 作为代码

随着时间的流逝,您可以使用服务水平指示器(SLI)来丰富您的SLO,如代码片段所示:

services:
- name: website
  service-levels:
  - name: 95th of requests response time under 100ms
    type: latency
    criteria:
      threshold: 100ms
    slo: 95
    sli:
    - id: myprojectid/google-cloud-load-balancers/myloadbalancer-name
      provider: gcp
    window: PT24H
  - name: 99th of requests response time under 500ms
    type: latency
    criteria:
      threshold: 500ms
    slo: 99
    sli:
    - id: myprojectid/google-cloud-load-balancers/myloadbalancer-name
      provider: gcp
    window: PT24H
  - name: 99th of requests responses not 5xx
    type: availability
    slo: 99
    sli:
    - id: myprojectid/google-cloud-load-balancers/myloadbalancer-name
      provider: gcp
    window: P7D

SLI 是在给定窗口内收集的测量值,为您提供“好”和“坏”事件,这些事件汇总到 SLO 是否仍在满足、接近未完成的危险趋势或已被破坏的整体计算中完全地。

使用 Reliably 编码并最终包括一些 SLI 的 SLO 可以在任何时间由具有权限的任何人使用 SLO 报告命令进行报告:

$ reliably slo report

你甚至可以 观看 与使用--watch开关实时更新您的SLO来:

$ reliably slo report --watch

上述就是关于IT运维中如何在不停机的情况下扩展 AWS EBS 卷的全部内容,想了解更多关于IT运维的信息,请继续关注中培伟业。

标签: IT运维 AWS EBS 卷