Ya es hora de que hablemos... ¡de Time to Resolve y MTTR! El tiempo de resolución es una métrica que existe desde que tengo uso de razón. Aunque el tiempo de resolución (o MTTR) no es nuevo, es hora de que lo analicemos más detenidamente y desentrañemos lo que significa realmente.
¿Por qué ahora? Porque el tiempo de resolución importa... ¡y mucho! Y el tiempo de resolución es, en esencia, un indicador de usabilidad y experiencia de usuario. También resulta ser una de esas métricas que se malinterpreta y se entiende muy mal. Así que, ¡vamos a sacarle jugo!
En esta guía Tiempo de Resolver
¿Qué es la Hora de Resolver?
¿Qué quiere decir con "tiempo para resolver"?
El tiempo de resolución (MTTR) nos da el tiempo medio que tarda en resolverse un caso o incidente con el mismo síntoma durante una interrupción o escenario de resolución de problemas:
Tiempo hasta la resolución = tiempo desde el incidente hasta la resolución durante el tiempo de la interrupción
En esencia, el tiempo de resolución es un indicador que nos dice cuánto tiempo están esperando los usuarios por un error concreto. No importa si la gente está teniendo el mismo problema o experimentando un problema diferente, sino más bien si se han encontrado con algo similar antes y cuánto tiempo les lleva volver a ponerse en marcha encontrando una solución.
MTTD y MTTR: ¿cuál es la diferencia?
MTTD y MTTR están cortados por el mismo patrón. Pero no son lo mismo. El MTTR nos indica el tiempo que se tarda en volver a poner en marcha un sistema, mientras que el MTTD nos da el tiempo transcurrido desde que se produjo una incidencia hasta que se resolvió. Para simplificar, vamos a centrarnos en el tiempo para resolverlo en este post, pero quería que fueras consciente de la ligera diferencia entre MTTD y MTTR.
MTTD se refiere al tiempo transcurrido desde el incidente hasta el momento de la resolución.
El MTTR se refiere al tiempo transcurrido desde el incidente hasta el momento de la resolución.
Ejemplo: Hora del incidente (TOI) y Hora de resolución (TOR)
Es útil pensar en el MTTR de esta manera: El problema se produce en el momento X, el usuario A tarda una media de tiempo Y en encontrar una solución y el problema se resuelve en el momento Z.
Además, hay que tener en cuenta que MTTD significa el tiempo transcurrido desde que se produjo un incidente hasta que se resolvió, mientras que MTTR significa el tiempo transcurrido desde que se produjo el problema hasta que se resolvió. Esto puede parecer trivial, pero creo que todos nos hemos topado con esta confusión más de una vez, así que quería asegurarme de que quedaba meridianamente claro.
¿Cuándo debo medir el tiempo de resolución?
El tiempo de resolución nos proporciona datos muy útiles cuando necesitamos conocer la satisfacción de los usuarios con respecto a errores recurrentes, es decir, aquellos que presentan síntomas similares. Por ejemplo:
- ¿Por qué se ha vuelto a caer mi sitio? Esto ocurrió la semana pasada. No puedo creer que ustedes no puedan evitar que esto suceda una y otra vez...
- Después de actualizar mi navegador, sigo recibiendo este mensaje. ¿Podría alguien echarle un vistazo?
- Las instrucciones que enviaste no eran claras. ¿Puede alguien echarles otro vistazo?
Si el tiempo de resolución es algo que se puede medir (y el tiempo de resolución es posible para todo el mundo), entonces el tiempo de resolución le ayudará a entender el tiempo que tardan sus usuarios en volver a trabajar después de una interrupción. Básicamente, ¿cuánto tardaron los usuarios en volver a trabajar después de experimentar el problema?
Al fin y al cabo, ¡el "tiempo" es dinero! Así que veamos cómo podemos asegurarnos de que el tiempo para resolver esté siempre disponible para su uso...
El tiempo de resolución nos permite calcular el tiempo que los usuarios esperan a que se resuelva un problema. A continuación, podemos comparar esos datos a lo largo del tiempo y entre distintos equipos. Hay otros indicadores clave de rendimiento (KPI) que se utilizan para determinar si hay problemas en este ámbito: el tiempo de resolución es uno de ellos.
¿Cómo se mide el tiempo de resolución?
En primer lugar, el tiempo hasta la resolución debe medirse para poder utilizarse. El tiempo hasta la resolución puede medirse de tres maneras: (1) tiempo desde el incidente hasta el momento de la resolución (2) tiempo durante el tiempo de la interrupción, (3) tiempo desde el incidente hasta el momento del cierre. Cada método tiene sus ventajas y desventajas, así como la forma en que se puede informar, así que tenga estas cosas en cuenta a la hora de elegir un método para su equipo. Veamos estos tres a continuación.
1.) Tiempo desde el incidente hasta la resolución: Esta es una gran métrica para los equipos que quieren una respuesta rápida, ya que puede extraer datos rápidamente después de que se haya producido una interrupción. Un inconveniente es que se pierden algunos datos históricos si algo no se ha resuelto en un plazo de 72 horas (lo que antes se consideraba una buena práctica), pero esto reduce la velocidad en periodos de tiempo más largos, lo que podría ayudar con el tiempo de elaboración de informes. ¡El tiempo hasta la resolución durante el tiempo de interrupción es uno de nuestros tiempos más populares para resolver métricas!
2.) Tiempo desde el incidente hasta la hora de cierre Este es un ejemplo de tiempo desde el incidente hasta la hora de cierre, en el que se puede ver que transcurrieron 100 minutos entre el momento en que comenzó el problema y el momento en que el usuario de este ticket concreto volvió a ponerse en marcha. Este método lleva más tiempo que extraer datos justo después de una interrupción, pero nos proporciona muchos más datos históricos durante un periodo de tiempo más largo. Estos datos pueden ser analizados por diferentes equipos con el fin de profundizar realmente en lo que hace el más largo (y por qué).
3.) Tiempo transcurrido desde la identificación del problema hasta el cierre: Este es otro ejemplo del tiempo transcurrido desde la identificación del problema hasta el cierre. Esta vez se puede ver que el usuario tardó 50 minutos en resolver su problema, y también está claro que esta vez se están extrayendo datos de hace varios días en lugar de sólo uno. Recuerde que esto es más difícil de obtener que los otros métodos, ya que los problemas tienden a actualizarse a medida que avanzan a través de su flujo de trabajo, así que tenga en cuenta que necesitamos al menos 24 horas entre actualizaciones antes de capturar cualquier dato de tiempo hasta la resolución.
Normalmente, el tiempo hasta la resolución (medición) se clasifica en una de estas tres categorías:
- durante el tiempo de interrupción (el tiempo de recogida de datos incluye el tiempo de inactividad y el tiempo que tarda el personal en solucionar el problema)
- después del tiempo de interrupción (días o semanas después de la recogida de datos)
- Tiempo en cola (hora de inicio en el sistema hasta la hora de cierre en el sistema).
Tus usuarios están esperando, ¿y ahora qué?
Aquí es donde el tiempo de resolución se vuelve complicado. Recuerde que el "tiempo" es dinero, así que es importante que se tome su tiempo para resolver los datos y convertirlos en algo útil. Algunas preguntas podrían ser:
- ¿Cuál es la magnitud real de este problema?
- ¿Qué aspecto tiene este problema a lo largo del tiempo? ¿Ve alguna tendencia?
- ¿Mi equipo está mejorando o empeorando en la resolución rápida de problemas?
A veces, los equipos disponen de mucha información, pero saben que no pueden realizar cambios sin los datos de tiempo de resolución. Si extraes datos sobre el tiempo de resolución, no solo podrás compararte con tus homólogos del sector, sino también comprobar la eficiencia con la que empleas tu tiempo en este ámbito.
Consejos para reducir el tiempo de resolución y el MTTR
Ya sabe qué es el tiempo hasta la resolución y cómo medirlo y realizar su seguimiento. Ahora quiere reducir esta métrica tan importante. He aquí nuestros consejos favoritos.
- No tenga miedo de dejar de hacer algo que le consume mucho tiempo pero que carece de importancia. Si dedicas mucho tiempo a cosas que simplemente te quitan tiempo y no te aportan valor, quizá sea el momento de reevaluar esas actividades.
- Empieza a utilizar (o continúa con) una plataforma de observabilidad o un sistema de gestión de incidencias como Pagerduty o alternativas en las que haya menos margen para el error, en lugar del correo electrónico o las hojas de cálculo, si es así como realizas actualmente el seguimiento de las incidencias. El correo electrónico puede perderse u olvidarse, las hojas de cálculo se vuelven desordenadas y confusas y, en última instancia, el tiempo seguirá pasando mientras vas de un lado a otro intentando resolver los problemas.
- Prioriza siempre tu trabajo: empieza primero por las tareas más importantes, ya que son las que te llevarán más tiempo, y luego prioriza el tiempo que tardas en completar una tarea para ahorrar tiempo.
- Otras formas de mejorar el tiempo de resolución son: tener un proceso claro que sea fácil de seguir, asegurarse de que el equipo recibe la formación adecuada a todos los niveles y saber siempre qué tickets están en cola: de esta forma sabrá exactamente cuántos usuarios le están esperando.
Reflexiones finales sobre el tiempo hasta la resolución y el MTTR
El tiempo de resolución es un buen indicador de la calidad del trabajo de TI. Se utiliza como indicación de que los problemas se están resolviendo correctamente y teniendo en cuenta la gestión del tiempo. Contar con un índice de tiempo de resolución eficaz significa que los problemas se resuelven con la rapidez suficiente para que los equipos puedan solucionarlos, pero no con demasiada rapidez para que se considere que están "apagando fuegos" en lugar de profundizar realmente en el análisis de la causa raíz del problema. Un buen KPI de tiempo de resolución ayuda a los equipos a responder preguntas sobre el servicio al cliente, la eficiencia y el tiempo dedicado a las tareas, entre otras, por lo que es importante no sólo "centrarse" en el tiempo de resolución, sino también comprender lo que significa para su equipo.