정보시스템 장애관리 지침(행안부)
최근 서버 보안 이슈가 빈번하게 발생하면서, 장애 대응과 점검에 대한 실무적 지식의 중요성이 커지고 있습니다. 이에 따라, 비록 예전 자료이긴 하지만 여전히 참고할 만한 행안부에서 공개한 “정보시스템 장애대응 매뉴얼”을 공유하고, 주요 내용을 정리해 소개합니다.
※원문 링크 : 행정안전부 국가정보원자원관리원 일반자료 '2015정보시스템 장애 대응 매뉴얼'
정보시스템 장애대응 매뉴얼 소개
이 매뉴얼은 정부통합전산센터에서 발간한 표준화된 장애 대응 가이드로, 실제 장애 발생 시 신속하고 체계적으로 문제를 진단·해결할 수 있도록 다양한 분야별 사례와 절차를 담고 있습니다. 장애 예방부터 사후 조치까지, 실무에 바로 적용 가능한 노하우가 풍부하게 정리되어 있어 서버 관리자, 시스템 엔지니어, IT 운영자 모두에게 유용한 자료입니다.
매뉴얼의 필요성과 기대효과
- 장애 유형별 표준 대응 가이드를 제공하여, 장애 발생 시 신속한 복구와 장애 시간 단축에 도움을 줍니다.
- 장애 예방 활동과 개선 방안 수립에 필요한 신뢰성 있는 분석자료와 학습자료를 제공합니다.
- Troubleshooting 가이드를 통해 사전 장애 발생 가능성을 줄이고, 장애 사례 분석을 바탕으로 예방 및 개선 활동의 기초 자료를 제공합니다.
- 분야별 구조적 트리(Hierarchy Tree) 방식으로 다양한 장애 케이스를 체계적으로 참조할 수 있습니다.
매뉴얼 구성 및 주요 내용
매뉴얼은 OS, DB, WAS, WEB, 보안, 네트워크 등 6개 핵심 분야로 나뉘며, 각 분야별로 장애 예방(Proactive Action)과 장애 후속(복구) 활동(Reactive Action)을 상세히 다룹니다.
1. OS(운영체제) 분야
- 주요 서버(HP, IBM, SUN)별 성능 모니터링, 장애 징후 분석, 백업 및 복구, 크래시 덤프 설정 등
- 예를 들어, CPU/메모리/디스크 병목 현상 진단법, Glance, sar, vmstat 등 실무 명령어 활용법, 시스템 복구 절차, LVM 장애 처리 등.
2. DB(데이터베이스) 분야
- Oracle DB의 성능 모니터링, 백업, 장애 조치, 유지보수 절차
- DB 장애 발생 시 로그 분석, 데이터 파일 복구, 페이지 스페이스 관리 등 실무 중심의 가이드.
3. WAS(웹애플리케이션서버) 분야
- Weblogic, JEUS 등 주요 WAS의 성능 관리, 로그 분석, 프로세스 및 메모리 이슈 대응
- 장애 발생 시 기본 점검, CPU/DB/메모리/프로세스별 상세 조치법.
4. WEB(웹서버) 분야
- SunONE, WebtoB 등 웹서버의 성능 모니터링, 백업, 로그 관리, 장애 조치
- 실무에서 자주 발생하는 웹서버 장애 사례와 대응법.
5. 보안 분야
- Future 등 보안 시스템의 모니터링, 덤프 및 로그 관리, 백업, 장애 조치
- 보안 장비 장애 시 점검 및 복구 절차, 로그 분석 방법 등.
6. 네트워크 분야
- Cisco, Piolink, Radware 등 네트워크 장비의 모니터링, 로그, 백업, 장애 조치
- 네트워크 장애 시 단계별 점검, 인터페이스 설정, 소켓/포트 이슈 대응법 등.
분야별 장애 대응 체계 및 코드 분류
각 분야별로 예방과 복구 활동을 코드로 분류해 빠르게 필요한 정보를 찾을 수 있도록 구성되어 있습니다. 예를 들어, HP 서버의 OS 분야 예방(Performance) 활동, 서버의 CPU 관련 장애 조치 등으로 체계화되어 있습니다.
실제 장애 사례와 해결 방법
매뉴얼에는 단순 이론이 아닌 실제 장애 사례와 상세한 해결 방법이 다수 수록되어 있습니다. 예를 들어,
- “root disk의 lvm 정보가 일부 깨짐” 등 시스템 부팅 장애 시 복구 절차,
- 네트워크 장애 시 ifconfig, netstat, lanscan 등 명령어 활용과 설정 복구,
- 디스크 I/O 병목, 메모리 부족, 파일시스템 손상 등 다양한 실무 이슈별 진단 및 조치법이 구체적으로 안내되어 있습니다.
차별화 포인트
- 코드집(Index) 제공: 신속한 장애 조치와 예방 활동을 위한 코드 인덱스 제공
- 분야별·제조사별 장애사례 및 처리 과정: 다양한 서버, SW 제조사별 장애사례와 처리 과정 포함
- 구조적 트리 참조 방식: 단순 사례집이 아니라, 분야별 장애를 트리 구조로 체계적으로 정리
- 예방 활동 강조: 장애 조치뿐 아니라, 예방 활동과 점검을 통한 취약점 제거에 중점
마무리
이 매뉴얼은 예전 자료임에도 불구하고, 현장 실무에서 즉시 활용 가능한 장애 대응 노하우와 시스템 점검 방법이 잘 정리되어 있습니다. 최근 보안 이슈와 장애 대응 역량이 더욱 중요해진 만큼, 서버/DB/WAS/네트워크 등 IT 인프라 운영자라면 꼭 한 번 참고해 보시길 추천합니다.