Cada dia se fala mais sobre resiliência das organização e em uma era onde as empresas estão cada dia mais digitais, é esperado que a Área de Tecnologia seja chave para alcançar a resiliência.
Aqui um excelente artigo da McKinsey sobre o tema: https://www.mckinsey.com/capabilities/risk-and-resilience/our-insights/a-technology-survival-guide-for-resilience#/
Desse artigo eu destaco os três bullets abaixo, sobre “como se tornar resiliente”:
1) - Blame-free culture: When problems arise, teams and managers don’t look for whom to blame. They focus on fixing the problem and preventing recurrences. Teams celebrate members whom expose vulnerabilities and weaknesses as necessary to build more resilient technology.
2) - Metric-driven approach: Teams relentlessly measure their own performance and focus on which incidents they created (for example, from releases or patches) or repeat incidents that have the same root cause.
3) - Rehearse the outage: Teams anticipate problems and iteratively build up and train to respond to complete system outages. They build from individual applications to systems to products (systems of systems) to entire services.
Ao ler esses pontos pode até parecer que se trata de uma jornada simples e tranquila, mas posso dizer por experiência própria o quão difícil é mudar a cultura de uma organização (item 1), ser capaz de implementar indicadores que efetivamente ajudem a saber como se está e o que precisa ser evoluído - além de criar o hábito das pessoas fazerem uso deles - (item 2), e por fim, com toda a correria típica do dia a dia, criar o tempo disponível e a disciplina para “ensaiar e treinar” em casos de incidentes.
Enfim, qualquer um que esteja habituado com a realidade usual de qualquer área de tecnologia pode confirmar que superar esses obstáculos não é de forma alguma um passeio no parque.
E como é bem apontado tudo aqui, e eu complemento com alguns pontos abaixo, a resiliência acaba sendo realmente percebida apenas no final da cadeia, na operação dos sistemas.
Mas na verdade, para se alcançar a resiliência é necessária a visão e ações concretas ao longo de toda a cadeia de valor (o que inclui muitos passos antes da operação dos sistemas em si):
1) - Visão estratégica de o que é efetivamente crítico para o negócio e seus impactos.
2) - Desenho e implementação de uma arquitetura escalável e flexível.
3) - Aplicações desenvolvidas a partir de uma arquitetura resiliente, considerando desde largada aspectos de observabilidade e monitoramento e mecanismos de contenção.
4) - Uma Infra moderna e igualmente escalável e com mecanismos de observabilidade e monitoramento.
6) - Uma operação organizada com recursos e ferramental adequados para os processos para um SRE de primeira.
7) - Uma IT com um modelo operacional que favoreça o business agility, seja na identificação de issues, assim como na capacidade de definir, priorizar e implementar as ações de solução e evolução contínua.
8) - Uma cultura organizacional com foco na qualidade.