개발 서버 복구 기록 – 2012년 2월 29일 ~ 2012년 3월 2일

사건 발단

  • 2012년 2월 29일(수) 오후 13:45 (추정) – 팀이 입주해 있는 건물의 7층에서 인테리어 개보수 공사를 위하여 전원을 차단하였으나, 전원 서킷이 입주 지역인 8층까지 연결되어 있는 관계로 갑작스런 정전 사태 발생-공사 관계자는 ‘그런 줄 몰랐다’고 함(…).
  • 2012년 2월 29일(수) 오후 14:00 – 전원 복구. 개발 서버 전원을 올렸으나, 전원이 들어가는 직후 바로 꺼지는 현상 발생.
  • 2012년 2월 29일(수) 오후 14:11 – 문제 해결이 불가능함을 파악하고 트위터 및 페이스북을 통하여 웹서비스 중단 공지(하지만 아무도 신경을 안 썼던 듯).

복구 시도

  • 2012년 2월 29일(수) 오후 17:00 – 부품 교체 테스트 등을 통하여 서버의 메인보드 및 파워 서플라이에 문제가 발생한 것으로 파악. 서버의 데이터 하드 디스크를 뜯어서 개발자 컴퓨터로 데이터 백업 시도
  • 2012년 2월 29일(수) 오후 17:44 – 개발 서버 데이터 백업 완료. 외부에 서비스 중이던 웹 페이지 서버를 가동하기 위하여 해당 VM 데이터를 이전.
  • 2012년 2월 29일(수) 오후 18:00 – 웹 페이지 서비스 임시 복구.
  • 2012년 2월 29일(수) 오후 18:25 – 트위터, 페이스북을 통하여 웹서비스 재게 공지(하지만 여전히 아무도 신경을 안 썼던 듯).

서버 보수

  • 2012년 3월 2일(금) 오전 10:00 – 문제가 발생한 부품 교체를 위하여 필요 부품을 주문 함.
  • 2012년 3월 2일(금) 오후 2:21 – 구매 부품 수령
  • 2012년 3월 2일(금) 오후 4:42 – 부품 교체(사실상 업그레이드) 및 드라이버 설치 확인. 데이터 점검 결과 큰 이상은 없음. 서버 정상 작동 확인. 임시 운영중이던 웹 서버 역시 본 서버로 이전.
  • 2012년 3월 2일(금) 오후 4:46 – 복구 완료.

교훈

  • 중고도 좋지만, 개발 서버용 부품은 안정적인 것을 쓰자.
  • 가상화는 큰 기업체만의 전유물이 아니다. 가상화를 쓰세요 인디 게임 개발자들이여.
  • 위기에는 단호하게 대처 할 것. 돈 아끼겠다고 AS를 생각했다간 다음주에도 복구를 못했을 것.

p.s. 아니 그 전에 일단 웹 서버는 호스팅 서비스로 올리는게…