Chegou a hora de conversarmos... uma conversa sobre o tempo de resolução e o MTTR! O tempo de resolução é uma métrica que existe desde que me lembro. Embora o tempo de resolução (ou MTTR) não seja novo, está na hora de darmos uma olhada mais de perto e descobrirmos o que o tempo de resolução realmente significa.
Por que agora? Porque o tempo de resolução é importante... E muito! E o tempo de resolução é, em sua essência, um indicador de usabilidade e experiência do usuário. Também é uma daquelas métricas que é muito mal compreendida e interpretada. Então, vamos ao que interessa!
Neste guia Time to Resolve
O que é Time to Resolve?
O que você quer dizer com "tempo para resolver"?
O Time To Resolve (MTTR) nos fornece o tempo médio necessário para que um caso ou incidente com o mesmo sintoma durante uma interrupção ou cenário de resolução de problemas seja resolvido:
Time To Resolve = tempo entre o incidente e o tempo de resolução durante o período da interrupção
Em essência, o tempo de resolução é um indicador que nos informa quanto tempo os usuários estão esperando por um erro específico. Não importa se as pessoas estão tendo o mesmo problema ou se estão enfrentando um problema diferente, mas sim se elas já encontraram algo semelhante antes e quanto tempo levam para voltar a funcionar encontrando uma solução.
MTTD e MTTR: qual é a diferença?
O MTTD e o MTTR são feitos do mesmo material. Mas não são a mesma coisa! O MTTR nos informa o tempo necessário para que um sistema volte a funcionar, enquanto o MTTD nos informa o tempo desde a ocorrência de um incidente até sua resolução. Para simplificar, vamos nos concentrar no tempo para resolver o problema nesta publicação, mas gostaria que você soubesse da pequena diferença entre o MTTD e o MTTR.
MTTD refere-se ao tempo entre o incidente e o momento da resolução.
O MTTR refere-se ao tempo decorrido desde o incidente até o momento da resolução.
Exemplos: Tempo de Incidente (TOI) e Tempo de Resolução (TOR)
É útil pensar no MTTR da seguinte forma: O problema ocorre no momento X, o usuário A leva em média Y tempo para encontrar uma solução e o problema é resolvido no momento Z.
Além disso, lembre-se de que MTTD significa o tempo desde a ocorrência de um incidente até sua resolução, enquanto MTTR significa o tempo desde a ocorrência do problema até o momento em que ele foi resolvido. Isso pode parecer trivial, mas acho que todos nós já nos deparamos com essa confusão mais de uma vez, por isso quis ter certeza de que tudo estava bem claro.
Quando devo medir o Time to Resolve?
O Time To Resolve nos fornece ótimos dados quando precisamos entender a satisfação do usuário em relação a erros recorrentes - aqueles com sintomas semelhantes. Por exemplo:
- Por que meu site ficou fora do ar novamente? Isso só aconteceu na semana passada! Não acredito que vocês não conseguem evitar que isso aconteça várias vezes...
- Depois de atualizar meu navegador, continuo recebendo esta mensagem. Poderia pedir a alguém para dar uma olhada nisso?
- As instruções que você enviou não estavam claras. Alguém pode dar outra olhada nelas?
Se o tempo de resolução é algo que pode ser medido (e o tempo de resolução é possível para todos), então o tempo de resolução o ajudará a entender o tempo que os usuários levam para voltar a trabalhar depois de uma interrupção. Basicamente, quanto tempo levou para que os usuários pudessem voltar a trabalhar depois de enfrentar o problema?
Afinal de contas, "tempo" é dinheiro! Então, vamos ver como podemos garantir que o tempo para resolver esteja sempre disponível para uso...
A opção "Over time to resolve" nos permite calcular o tempo que seus usuários estão esperando para que um problema seja resolvido. Em seguida, podemos comparar esses dados ao longo do tempo e entre diferentes equipes. Há vários outros indicadores-chave de desempenho (KPIs) que são usados para determinar se há problemas nessa área - o tempo de resolução é um deles!
Como posso medir o tempo para a resolução?
Em primeiro lugar, o tempo para resolução precisa ser medido para poder ser usado. O tempo para resolução pode ser medido de três maneiras: (1) tempo do incidente até o momento da resolução; (2) tempo durante o período da interrupção; (3) tempo do incidente até o momento do encerramento. Há vantagens e desvantagens em cada método, bem como a forma como ele pode ser relatado, portanto, tenha isso em mente ao escolher um método para a sua equipe. Vamos dar uma olhada nesses três métodos abaixo.
1.) Tempo do incidente até o momento da resolução: Essa é uma ótima métrica para as equipes que desejam uma resposta rápida, pois é possível obter dados rapidamente após a ocorrência de uma interrupção. Uma desvantagem é que você perde alguns dados históricos se algo ainda não tiver sido resolvido dentro de 72 horas (o que já foi considerado uma boa prática), mas essa velocidade diminui em períodos mais longos, o que pode ajudar no tempo de relatório. O tempo para resolução durante o período de interrupção é um dos nossos tempos mais populares para resolver métricas!
2.) Tempo do incidente até a hora do fechamento: Aqui está um exemplo de tempo do incidente ao tempo ou tempo de encerramento, no qual é possível ver que houve 100 minutos entre o início do problema e o momento em que o usuário desse tíquete específico voltou a funcionar. Esse método é mais demorado do que a extração de dados logo após uma interrupção, mas ele nos fornece muito mais dados históricos em um período de tempo mais longo. Esses dados podem ser analisados por diferentes equipes para que se possa realmente detalhar o que leva mais tempo (e por quê).
3.) Tempo entre o momento da identificação do problema e o momento do encerramento: Aqui está outro exemplo de tempo desde o momento da identificação do problema até o momento do encerramento. Desta vez, é possível ver que o usuário levou 50 minutos para resolver o problema, e também fica claro que, desta vez, os dados estão sendo extraídos de vários dias atrás, e não de apenas um. Lembre-se de que isso é mais difícil de obter do que os outros métodos, pois os problemas tendem a ser atualizados à medida que progridem em seu fluxo de trabalho - portanto, lembre-se de que precisamos de pelo menos 24 horas entre as atualizações antes de capturarmos qualquer dado de tempo para resolução.
Normalmente, o tempo para resolução (medição) se enquadra em uma dessas três categorias:
- durante o tempo de interrupção (o tempo em que os dados são coletados inclui o tempo de inatividade e o tempo que a equipe leva para resolver o problema)
- após o tempo de interrupção (dias ou semanas após a coleta dos dados)
- tempo na fila (hora de início no sistema até a hora de encerramento no sistema).
Seus usuários estão esperando, e agora?
É aqui que o tempo para a resolução se torna complicado! Lembre-se de que "tempo" é dinheiro, portanto, é importante que você dedique seu tempo para resolver os dados e transformá-los em algo útil. Algumas perguntas para você podem incluir:
- Qual é o tamanho real desse problema?
- Como esse problema se apresenta ao longo do tempo? Está percebendo alguma tendência?
- Minha equipe está melhorando ou piorando na resolução rápida de problemas?
Pode ser difícil transformar o tempo de resolução dos dados em algo útil - às vezes, as equipes têm muitas informações, mas sabem que não podem fazer alterações sem os dados de tempo de resolução. Ao obter dados sobre o tempo de resolução, você poderá não apenas se comparar com seus colegas do setor, mas também ver a eficiência com que seu tempo está sendo usado nessa área!
Dicas para diminuir o tempo de resolução e o MTTR
Então, você sabe o que é Tempo de resolução, como medi-lo e monitorá-lo. Agora, você quer diminuir essa métrica importantíssima. Aqui estão nossas dicas favoritas!
- Não tenha medo de parar de fazer algo que consome muito tempo, mas que não é importante. Se o seu tempo está sendo gasto em muitas coisas que simplesmente acrescentam tempo e não agregam valor, talvez seja hora de reavaliar essas atividades.
- Comece a usar (ou continue a usar) uma plataforma de observabilidade ou um sistema de gerenciamento de incidentes como o Pagerduty ou alternativas em que haja menos espaço para erros, em vez de e-mail ou planilhas, se é assim que você acompanha os incidentes atualmente. O e-mail pode se perder ou ser esquecido, as planilhas se tornam confusas e desorganizadas e, em última análise, o tempo continuará a passar enquanto você vai e volta tentando resolver os problemas.
- Sempre priorize seu trabalho - comece com as tarefas mais importantes primeiro, pois elas levarão mais tempo e, em seguida, priorize o tempo necessário para concluir uma tarefa para economizar tempo.
- Outras maneiras de melhorar o tempo de resolução incluem: ter um processo claro e fácil de seguir, garantir que sua equipe seja treinada adequadamente em todos os níveis e sempre saber quais tíquetes estão na fila - dessa forma, você sabe exatamente quantos usuários estão esperando por você!
Considerações finais sobre o tempo de resolução e o MTTR
O tempo para resolução é um ótimo indicador da qualidade do trabalho de TI. Ele é usado como uma indicação de que os problemas estão sendo resolvidos corretamente e com o gerenciamento de tempo em mente. Ter uma taxa de tempo de resolução eficiente significa que os problemas estão sendo resolvidos com rapidez suficiente para que as equipes possam resolvê-los, mas não muito rapidamente, a ponto de serem considerados "combate a incêndios" em vez de realmente se aprofundarem na análise da causa raiz do problema. Um bom KPI de tempo de resolução ajuda as equipes a responder a perguntas sobre atendimento ao cliente, eficiência, tempo gasto em tarefas, entre outras, por isso é importante não apenas "focar" no tempo de resolução, mas também entender o que isso significa para a sua equipe!