Qual a melhor forma de mensurar o quão confiável, estável e performático é um determinado sistema ou solução?
Aqui nessa matéria da CIO Online o tema é discutido de forma bastante inteligente:
Eu acho que o MTTR sozinho não responde tudo, mas é um indicativo (dentre outros) que ajuda a entender o quão bem organizada, instrumentalizada e provida do ferramental e recursos necessários uma dada equipe está para lidar com os incidentes e reestabelecer os serviços.
Ainda assim, gostei muito da afirmativa:
“No matter what your (unreliable) MTTR might seem to indicate, you’d still need to investigate your incidents to understand what is truly happening with your systems.”
O que realmente move o ponteiro enquanto nível de serviço e reliability é atacar o que causa os incidentes em si!
Dessa forma, me parece muito natural buscar indicadores que enderecem isso também, e não apenas o final da cadeia, quando a aplicação já está em produção.