일반 웹사이트나 은행을 접속할 때 서버작업으로 접속이 제한된 경험이 한번씩 있으실 겁니다.
이러한 작업은 내부 시스템 업데이트 및 기타 작업으로 인해 서비스 Down으로 인해 접속 제한이 되는 현상입니다.
서버작업은 단순히 서비스 재로드로 해결(순단)되는 경우가 있고 재부팅, 구성 변경이 필요한 작업이 있습니다.
작업에는 크게 아래와 같은 요인이 있습니다.
시스템 주요 작업요인
- 보안 업데이트로 인한 패치 작업
- 디스크 Mount 작업
- 마이그레이션 작업
- 에러로 인한 재부팅 작업
- 내부 시스템 구성 변경작업
- etc..
위와 같이 서버 및 네트워크 등 내부 시스템은 사용 간 서버 작업이 필요한 경우가 잦습니다.
시스템 관리자는 불필요한 Down은 지양해야하며 최소한의 Downtime 을 가져가는 것을 목표로 해야하며,
명확한 계획을 세워야합니다.
이러한 계획을 세우기 위해서는 무엇을 확인해야 할지 아래에서 알아봅시다.
서버 작업 간 확인사항
- Downtime 예측 (작업소요시간)
- 영향도 확인
- 장애 발생 시 복원방안
- 작업계획서 작성 (선택사항)
- 내외부 공지 진행
- 작업 후 서비스 특이점 확인 (로그 및 서비스 등)
만일 24시간 서비스가 켜지지 않아도 되는 서버의 경우 업무종료 후 작업을 진행하면 되므로 마음 편하게 작업이 가능합니다.
보통의 경우 24/7 서비스가 돌아가는 경우가 많아 여러가지 case의 경우를 생각하고 작업을 계획해야합니다.
위 사항들 중 특히 중요한 사항은 서비스 Downtime(작업소요시간) 과 영향도, 복원방안 입니다.
Downtime (작업소요시간)
- 정확한 작업소요시간을 파악하는것이 중요하며 가능할 경우 전 20분정도 추가적으로 Downtime을 가져갑니다.
(특이점 확인 및 특이사항 발생 시 조치 목적)
- 많은 소요시간이 필요한 경우 작업이 어려운 경우도 있습니다.
영향도
- 내부 시스템끼리 맞물려있는 경우가 많아 한 시스템을 점검하면 다른 시스템 내 기능이 안되는 경우가 있을 수 있습니다.
이 작업을 진행하며 어느 시스템에 영향이 갈지 정확하고 면밀히 파악하여야 합니다.
- 다른 시스템까지 예기치 않게 Down되면 피해가 막심합니다.
복원방안
- 작업이 순조롭게 진행되면 좋겠지만 항상 변수는 존재합니다. 원복 및 조치방안 확인이 필요합니다.
- 저 같은경우 작업 후 서버가 부팅이 안되는 현상이 있었습니다. 오래된 서버 + 메인서버라서 땀이 줄줄 났던 경험이 있습니다.
- 이러한 경우에 어떻게 조치하고 복원할 것인지 확인이 필요합니다. (백업 어플라이언스 주기확인)
위와 같이 잦은 서버작업이 있을 수 있지만 정확한 Downtime 문제 발생 시 원복 시뮬레이션까지 진행하는 것이 좋겠습니다.
감사합니다.
'서버 및 운영 > 서버' 카테고리의 다른 글
[VMware] Intel VT-x is disabled. 오류 (0) | 2023.08.29 |
---|---|
클라우드 컴퓨팅 IaaS,PaaS,SaaS 란? (0) | 2023.08.15 |
AWS 개인 서버 만들기 (0) | 2022.08.04 |
dmesg 명령어 (0) | 2022.07.22 |
WebServer와 WAS의 차이점 (0) | 2022.06.17 |