다운타임
컴퓨팅 및 통신 분야에서 다운타임(downtime, 구어적으로 시스템 장애 또는 시스템 중단이라고도 함)은 시스템을 사용할 수 없는 기간을 의미한다. 비가용성은 특정 시간 범위에서 시스템이 사용 불가능하거나 오프라인 상태인 비율을 나타낸다.
이는 보통 예기치 않은 사건으로 인해 시스템이 작동하지 못하거나, 정기 유지보수(계획된 사건)로 인해 발생한다.
이 용어는 일반적으로 네트워크와 서버에 적용된다. 비계획적 장애의 일반적인 원인은 시스템 장애(충돌 등)나 통신 장애(일반적으로 네트워크 장애 또는 네트워크 중단으로 알려짐)이다. 일반 컴퓨터 시스템 문제로 인한 장애의 경우, 컴퓨터 장애(IT 장애 또는 IT 중단이라고도 함)라는 용어를 사용할 수 있다.
이 용어는 산업 생산 장비의 고장과 관련하여 산업 환경에서도 일반적으로 사용된다. 일부 시설에서는 작업 교대 중 또는 12시간이나 24시간 동안 발생한 다운타임을 측정한다. 또 다른 일반적인 관행은 각 다운타임 사건을 운영적, 전기적 또는 기계적 원인으로 분류하는 것이다.
다운타임의 반대말은 업타임(uptime)이다.
유형
"장애 기간" 또는 "유지보수 기간"에 대한 산업 표준은 시작 시점과 완료 시점이 다를 수 있으므로, 계약 실행 시 충돌을 방지하기 위해 다음과 같은 구분을 사용해야 한다.
-
턴키(Turnkey): 이것은 모든 장애 유형 중 가장 포괄적이다. 장애 또는 유지보수는 공장이나 장비의 운영자가 종료 또는 정지 버튼을 눌러 운영 중단을 시작하는 시점에 시작된다. 별도의 명시가 없는 한, 장애 또는 유지보수는 공장이나 장비가 정상 운전 상태로 복귀하여 제조를 시작할 준비가 되거나, 시스템 또는 전력망과 동기화할 준비가 되거나, 펌프 또는 압축기로서의 기능을 수행할 준비가 된 시점에 완료된 것으로 간주한다.
-
차단기 간(Breaker to Breaker): 이 장애 또는 유지보수는 공장이나 장비의 운영자가 제어 회로가 아닌 전력 회로(주 전력 차단기를 "끔" 또는 "해제" 또는 "냉각 중"으로 설정)를 차단하는 시점에 시작된다. 이 상태에서도 장비를 냉각하거나 상온 상태로 만들어 장애/유지보수 작업을 준비하거나 시작할 수 있다. 장비 유형에 따라, "차단기 간" 장애는 제어 관련 유지보수를 외부에 계약할 때 유리할 수 있는데, 이러한 유지보수 작업은 주 장비가 아직 냉각 중이거나 대기 상태일 때 수행할 수 있기 때문이다. 별도의 명시가 없는 한, 이 유형의 장애는 전력 차단기를 다시 투입하여 전력 회로에 전원이 공급되면 완료된 것으로 간주한다.
-
잠금/표지 완료(Completion of Lock-out/Tag-out): 이 장애 또는 유지보수("냉각 완료"와 혼동되기도 하지만 같은 것은 아님)는 공장이나 장비의 운영자가 전력 회로를 차단하고, 제어 회로를 해제하며, 기타 잠재적 전력 및 위험 요소를 제거하는 작업(일반적으로 잠금-표지, "LOTO"라 칭함)을 수행하는 시점에 시작된다. 이 유지보수 기간 시점은 일반적으로 시설, 공장 또는 장비에 대한 실제 작업이 시작되기 전 장애 개시 단계의 마지막 단계이다. 안전 브리핑은 항상 LOTO 활동 후, 어떤 작업이 수행되기 전에 이루어져야 한다. 별도의 명시가 없는 한, 이 유형의 장애는 장비가 기계적 완성에 도달하고 대형 회전 장비의 경우 저속 회전에 투입할 준비가 되거나, 모터의 경우 충격 시험 또는 회전 점검이 가능한 상태가 되면 완료된 것으로 간주하지만, 반드시 LOTO 절차에 따른 작업 허가 반납 절차를 따라야 한다.
온라인 시험, 성능 시험 및 조정이 필요한 경우 이러한 활동은 일반적으로 장애 또는 유지보수 이벤트 완료 후에 수행되며 대부분의 유지보수 계약자의 통제 범위를 벗어나므로 장애 기간에 포함되어서는 안 된다.
특성
비계획적 다운타임은 장비 오작동 등의 결과일 수 있다.
통신 장애 분류
다운타임은 다음의 장애로 인해 발생할 수 있다:
- 하드웨어 (물리적 장비)
- 소프트웨어 (장비를 제어하는 논리)
- 상호접속 장비 (케이블, 시설, 라우터 등)
- 전송 (무선, 마이크로웨이브, 위성)
- 용량 (시스템 한계)
장애가 발생하는 원인은 다음과 같다:
- 손상
- 고장
- 설계
- 절차상 문제 (인간의 부적절한 사용)
- 엔지니어링 (사용 방법 및 배치)
- 과부하 (설계 한계를 초과한 트래픽 또는 시스템 자원 부하)
- 환경 (전력 및 냉난방 시스템 등 지원 시스템)
- 계획된 중단 (소프트웨어 업그레이드 및 장비 증설 등의 목적으로 시스템에 설계된 장애)
- 기타 (위에 해당하지 않지만 알려진 원인)
- 미상
장애의 책임은 다음에 있을 수 있다:
- 고객/서비스 제공자
- 벤더/공급자
- 유틸리티(전력 등 공공서비스)
- 정부
- 계약자
- 최종 고객
- 일반인
- 자연재해
- 기타 (위에 해당하지 않지만 알려진 원인)
- 미상
영향
시스템 장애로 인한 서비스 중단은 컴퓨터/네트워크 시스템 사용자, 특히 거의 24시간 서비스에 의존하는 산업에 심각한 영향을 미칠 수 있다:
- 의료 정보학
- 원자력 발전 및 기타 인프라
- 은행 및 기타 금융 기관
- 항공학, 항공사
- 뉴스 보도
- 전자상거래 및 온라인 거래 처리
- 영구 접속 온라인 게임
또한 ISP 이용자 및 통신 네트워크의 기타 고객들도 영향을 받을 수 있다.
기업은 네트워크 장애로 인해 사업 손실을 입거나 계약 불이행이 발생하여 재정적 손실을 초래할 수 있다. Veeam의 2019년 클라우드 데이터 관리 보고서에 따르면, 조직은 연평균 5~10회의 비계획적 다운타임을 겪으며, 다운타임 1시간당 평균 비용은 102,450달러이다.
다운타임의 영향을 받는 개인이나 조직은 특정 측면에 더 민감할 수 있다:
- 일부는 장애 지속 시간에 더 큰 영향을 받는다 — 문제에서 복구하는 데 얼마나 오래 걸리는지가 중요하다
- 다른 일부는 장애 발생 시점에 민감하다 — 피크 시간대의 장애가 가장 큰 영향을 미친다
가장 까다로운 사용자는 고가용성(High Availability)을 요구하는 이들이다.
유명 장애 사례
-
1988년 5월 8일 어머니의 날 일요일, 일리노이 벨 전화회사의 힌스데일 중앙 전화국 주 교환실에서 화재가 발생했다. 주 내 최대 교환 시스템 중 하나인 이 시설은 38,000명의 고객에게 서비스를 제공하면서 매일 350만 건 이상의 통화를 처리했으며, 다수의 기업, 병원, 시카고의 오헤어 공항과 미드웨이 공항이 포함되어 있었다.
-
1990년 1월 15일, AT&T의 4ESS 중계 탠덤 스위치로 구성된 거의 전체 네트워크가 반복적으로 서비스에 들어갔다 나갔다 하면서 미국 전역의 장거리 통화 서비스가 중단되었다. 트래픽이 감소하면서 문제는 자연히 해소되었다. 소프트웨어 버그가 원인으로 밝혀졌다.
-
1998년 4월 13일, AT&T는 프레임 릴레이 네트워크를 26시간 동안 상실했다. 이로 인해 수천 명의 고객이 영향을 받았으며, 은행 거래가 피해를 입었다. AT&T는 고객과의 계약에 명시된 서비스 수준 협약(SLA)을 충족하지 못했고, 6,600개의 고객 계정에 환불해야 했으며 수백만 달러의 비용이 발생했다.
-
Xbox Live는 2007~2008년 연말연시 기간 동안 13일간 간헐적인 다운타임을 겪었다. Xbox 360 구매자의 증가(Xbox Live 역사상 가장 많은 신규 가입자 수)가 다운타임의 원인으로 제시되었으며, 서비스 문제에 대한 보상으로 마이크로소프트는 사용자들에게 무료 게임을 받을 수 있는 기회를 제공했다.
-
소니의 플레이스테이션 네트워크 2011년 4월 장애는 2011년 4월 20일에 시작되어 2011년 5월 14일 미국을 시작으로 점진적으로 복구되었다. 이 장애는 2006년 PSN 출범 이후 가장 긴 오프라인 기간이었다. 소니는 외부 침입으로 인해 개인정보가 탈취된 것이 원인이라고 밝혔다. 소니는 2011년 4월 26일, 다운타임을 초래한 동일한 해킹으로 대량의 사용자 데이터가 유출되었다고 보고했다.
-
텔스트라의 라이드 교환기는 2011년 말 지속적인 습한 날씨로 인해 전기 배전반에 물이 유입되면서 장애가 발생했다. 라이드 교환기는 호주에서 면적 기준으로 가장 큰 교환기 중 하나로, 720,000건 이상의 서비스에 영향을 미쳤다.
관련 인사이트

로봇은 왜 볼트를 떨어뜨리는가 — Physical AI가 공장에 필요한 진짜 이유
AI가 데이터 패턴만 외우는 시대는 끝나고 있다. 물리 법칙을 이해하는 Physical AI가 제조 현장에 왜 필요한지, KAIST 교수와 자동차 부품 공장 팀장이 볼트 하나를 놓고 이야기한다.

디지털 트윈, 당신 공장엔 이미 있다 — 엑셀과 MES 사이 어딘가에
디지털 트윈은 10억짜리 3D 시뮬레이션이 아니다. 지금 쓰고 있는 엑셀에 좋은 질문 하나를 더하는 것 — 두 전문가가 중소 제조기업이 이미 가진 데이터로 예측하는 공장을 만드는 현실적 로드맵을 제시한다.

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.