이제 해결 시간 및 MTTR에 대해 이야기할 시간입니다! 해결 시간은 제가 기억할 수 있는 한 오랫동안 사용되어 온 지표입니다. 해결 시간(또는 MTTR)이 새로운 것은 아니지만, 이제는 해결 시간이 실제로 무엇을 의미하는지 자세히 살펴보고 그 의미를 풀어볼 때입니다.
왜 지금일까요? 문제를 해결하는 데 시간이... 많이 걸리기 때문입니다! 그리고 해결 시간은 핵심적으로 사용성과 사용자 경험을 나타내는 지표입니다. 또한 이 지표는 매우 오해되고 잘못 해석되는 지표 중 하나이기도 합니다. 자, 이제 본론으로 들어가 보겠습니다!
이 해결 시간 가이드에서
해결해야 할 시간이란 무엇인가요?
"해결할 시간"이란 무슨 뜻인가요?
MTTR(해결 시간)은 가동 중단 또는 문제 해결 시나리오에서 동일한 증상을 보이는 사례 또는 인시던트가 해결되는 데 걸리는 평균 시간을 제공합니다:
해결 시간 = 장애가 발생한 시간 동안 사고 발생부터 해결 시간까지 걸린 시간
본질적으로 해결 시간은 사용자가 특정 오류를 기다리는 시간을 알려주는 지표입니다. 사용자가 동일한 문제를 겪고 있는지, 다른 문제를 겪고 있는지가 중요한 것이 아니라 이전에 비슷한 문제를 겪은 적이 있는지, 해결책을 찾아서 다시 실행하는 데 얼마나 걸리는지가 중요합니다.
MTTD와 MTTR: 차이점은 무엇인가요?
MTTD와 MTTR은 같은 맥락에서 출발합니다. 하지만 둘은 다릅니다! MTTR은 시스템을 다시 가동하는 데 걸리는 시간을 알려주는 반면, MTTD는 인시던트가 발생한 시점부터 해결될 때까지의 시간을 알려줍니다. 간단하게 설명하기 위해 이 글에서는 문제 해결에 걸리는 시간에 초점을 맞추고자 하지만 MTTD와 MTTR의 약간의 차이점을 알아두셨으면 합니다.
MTTD는 사고 발생부터 해결 시점까지 걸리는 시간을 의미합니다.
MTTR은 인시던트 발생 후 해결 시점까지의 시간을 의미합니다.
예시: 사건 발생 시간(TOI) 및 해결 시간(TOR)
MTTR을 이렇게 생각하면 도움이 됩니다: X 시점에 문제가 발생하고, 사용자 A가 해결책을 찾는 데 평균 Y 시간이 걸리며, Z 시점에 문제가 해결됩니다.
또한 MTTD는 인시던트가 발생한 시점부터 해결될 때까지의 시간을 의미하며, MTTR은 문제가 발생한 시점부터 문제가 해결될 때까지의 시간을 의미합니다. 사소해 보일 수 있지만 누구나 한 번쯤은 이런 혼란을 겪었을 것 같아서 명확히 알려드리고 싶었습니다.
해결 시간은 언제 측정해야 하나요?
반복되는 오류, 즉 유사한 증상을 보이는 오류에 대한 사용자 만족도를 파악해야 할 때 Time To Resolve는 훌륭한 데이터를 제공합니다. 예를 들어
- 내 사이트가 다시 다운된 이유는 무엇인가요? 지난 주에도 이런 일이 있었는데요! 이런 일이 계속 반복되는 것을 막을 수 없다니 믿을 수가 없습니다...
- 브라우저를 업데이트한 후에도 이 메시지가 계속 표시됩니다. 누군가 살펴봐 주실 수 있나요?
- 보낸 지침이 명확하지 않습니다. 다른 사람이 다시 살펴봐 주실 수 있나요?
해결 시간을 측정할 수 있는 것이라면(그리고 해결 시간은 누구나 측정할 수 있습니다), 장애 발생 후 사용자가 업무를 다시 시작하는 데 걸리는 시간을 이해하는 데 도움이 될 것입니다. 기본적으로 사용자가 문제를 경험한 후 다시 작업을 수행할 수 있을 때까지 얼마나 걸렸나요?
결국 '시간'은 돈입니다! 따라서 해결 시간을 항상 사용할 수 있도록 하는 방법을 살펴 보겠습니다...
해결 시간 경과를 통해 사용자가 문제가 해결되기를 기다리는 시간을 계산할 수 있습니다. 그런 다음 해당 데이터를 시간 경과에 따라 여러 팀에 걸쳐 비교할 수 있습니다. 이 영역에 문제가 있는지 판단하는 데 사용되는 몇 가지 다른 핵심 성과 지표(KPI)가 있는데, 해결 시간도 그중 하나입니다!
해결까지 걸리는 시간은 어떻게 측정하나요?
우선, 해결 시간을 사용하려면 해결 시간을 측정해야 합니다. 해결까지의 시간은 (1) 사고 발생부터 해결까지의 시간 (2) 장애 발생 시간 동안의 시간 (3) 사고 발생부터 종료 시간까지의 시간 등 세 가지 방법 중 하나로 측정할 수 있습니다. 각 방법에는 장단점과 보고 방법이 있으므로 팀에 맞는 방법을 선택할 때 이러한 점을 염두에 두세요. 아래에서 이 세 가지 방법을 살펴봅시다.
1.) 사고 발생부터 해결 시점까지의 시간: 이 지표는 장애가 발생한 후 데이터를 빠르게 가져올 수 있기 때문에 빠른 처리를 원하는 팀에게 유용한 지표입니다. 한 가지 단점은 72시간 이내에 문제가 해결되지 않으면 일부 과거 데이터가 손실된다는 점입니다(한때는 좋은 관행으로 간주되었지만), 이러한 속도 장애로 인해 보고 시간이 길어질 수 있습니다. 서비스 중단 시간 동안의 문제 해결 시간은 메트릭을 해결하는 데 가장 많이 사용되는 시간 중 하나입니다!
2.) 인시던트에서 종료 시간까지의 시간: 다음은 인시던트 발생 시점부터 종료 시점까지의 시간 또는 종료 시간의 예로, 문제가 시작된 시점부터 특정 티켓의 사용자가 다시 가동되기까지 100분이 걸렸다는 것을 알 수 있습니다. 이 방법은 장애 발생 직후 데이터를 가져오는 것보다 시간이 오래 걸리지만 오랜 기간에 걸쳐 훨씬 더 많은 과거 데이터를 제공합니다. 이 데이터를 여러 팀에서 분석하여 무엇이 가장 오래 걸리는지(그리고 그 이유는 무엇인지) 자세히 알아볼 수 있습니다.
3.) 문제 식별 시간부터 종료 시간까지의 시간: 다음은 문제 식별 시간부터 종료 시간까지의 시간에 대한 또 다른 예입니다. 이번에는 사용자가 문제를 해결하는 데 50분이 걸린 것을 볼 수 있으며, 이 시간은 단 하루가 아니라 며칠 전의 데이터를 가져온 것임을 알 수 있습니다. 이슈가 워크플로우를 통해 진행됨에 따라 업데이트되는 경향이 있으므로 다른 방법보다 데이터를 가져오기가 더 어렵다는 점을 기억하시기 바라며, 업데이트 사이에 최소 24시간이 지나야 해결 데이터를 캡처할 수 있습니다.
일반적으로 해상도 도달 시간(측정)은 이 세 가지 범주 중 하나에 속합니다:
- 중단 시간 동안(데이터 수집 시간에는 다운타임과 직원이 문제를 해결하는 데 걸리는 시간이 포함됨)
- 정전 시간 이후(데이터 수집 후 며칠 또는 몇 주 후)
- 대기열 시간(시스템에서 시작 시간부터 시스템에서 종료 시간까지의 시간)입니다.
사용자가 기다리는데, 이제 어떻게 해야 하나요?
여기서 문제 해결에 걸리는 시간이 문제가 됩니다! '시간'은 곧 '돈'이므로 시간을 들여 데이터를 해결하고 유용한 것으로 전환하는 것이 중요합니다. 몇 가지 질문이 있을 수 있습니다:
- 이 문제는 실제로 얼마나 큰 문제인가요?
- 이 문제는 시간이 지남에 따라 어떤 양상을 보이나요? 어떤 추세가 나타나고 있나요?
- 우리 팀의 신속한 문제 해결 능력이 향상되고 있나요, 아니면 악화되고 있나요?
시간을 들여 데이터를 분석하고 이를 유용한 정보로 전환하는 것은 어려울 수 있습니다. 때로는 팀이 너무 많은 정보를 가지고 있지만 데이터를 분석할 시간 없이는 변경할 수 없다는 것을 알고 있을 것입니다. 데이터 해결 시간을 가져와서 업계 동료들과 자신을 비교할 수 있을 뿐만 아니라 이 영역에서 시간을 얼마나 효율적으로 사용하고 있는지 확인할 수 있습니다!
해결 시간 및 MTTR을 줄이기 위한 팁
따라서 해결 시간이 무엇인지, 이를 측정하고 추적하는 방법을 알고 있습니다. 이제 이 중요한 지표를 줄이고 싶으실 겁니다. 저희가 가장 좋아하는 팁을 소개합니다!
- 시간이 많이 걸리지만 중요하지 않은 일을 중단하는 것을 두려워하지 마세요. 단순히 시간만 추가하고 가치를 창출하지 못하는 일에 많은 시간을 소비하고 있다면 이러한 활동을 재평가해야 할 때일 수 있습니다.
- 현재 인시던트를 추적하는 방식이 이메일이나 스프레드시트인 경우에는 이메일이나 스프레드시트 대신 오류의 여지가 적은 통합 가시성 플랫폼이나 Desk.com 같은 인시던트 관리 시스템을 사용(또는 계속 사용)하기 시작하세요. 이메일은 분실하거나 잊어버릴 수 있고, 스프레드시트는 지저분하고 혼란스러워지며, 결국 문제를 해결하려고 왔다 갔다 하다 보면 시간이 계속 흘러가게 됩니다.
- 항상 작업의 우선순위를 정하세요. 가장 중요한 작업부터 가장 오랜 시간이 걸리는 작업부터 시작하고, 시간을 절약하기 위해 작업 완료에 걸리는 시간의 우선순위를 정하세요.
- 해결 시간을 개선할 수 있는 다른 방법으로는 따라하기 쉬운 명확한 프로세스를 마련하고, 팀이 모든 수준에서 적절하게 교육을 받도록 하며, 대기열에 있는 티켓을 항상 파악하여 얼마나 많은 사용자가 대기 중인지 정확히 파악하는 것 등이 있습니다!
해결 시간 및 MTTR 최종 생각
해결 시간은 IT 작업의 품질을 나타내는 훌륭한 지표입니다. 이는 문제가 시간 관리를 염두에 두고 올바르게 해결되고 있음을 나타내는 지표로 사용됩니다. 해결 시간이 효율적이라는 것은 팀이 문제를 해결할 수 있을 만큼 충분히 빠르게 문제를 해결하되, 문제의 근본 원인 분석에 실제로 착수하기보다는 '소방수'로 간주될 정도로 너무 빨리 문제를 해결하지 않는다는 것을 의미합니다. 좋은 해결 시간은 고객 서비스, 효율성, 업무에 소요되는 시간 등에 대한 질문에 팀이 답하는 데 도움이 되므로 해결 시간에만 '집중'할 것이 아니라 팀에 어떤 의미가 있는지 이해하는 것이 중요합니다!