정전이 나고 장애발생

November 17, 2025

오늘 정전이 있었다.

정전 자체는 시간과 이유까지 한 달 전부터 방송으로 예고해서 잘 알고 있었고, 그런 김에 한번 가만히 놔둬도 자동 복구 시스템이 잘 돌아가는지 확인해보고 싶었다.

그런데 이게 왠일. 돌아와서 확인해보니 도커 컨테이너 상태를 보니 nginx가 계속 restarting되고 있던거 아닌가?

바로 로그 체크.

pitoche@blog:~$ docker logs nginx
...
2025/11/17 18:08:38 [emerg] 1#1: host not found in upstream "grafana" in /grafana.conf:6
nginx: [emerg] host not found in upstream "grafana" in /grafana.conf:6
/docker-entrypoint.sh: /docker-entrypoint.d/ is not empty, will attempt to perform configuration
/docker-entrypoint.sh: Looking for shell scripts in /docker-entrypoint.d/
/docker-entrypoint.sh: Launching /docker-entrypoint.d/10-listen-on-ipv6-by-default.sh
10-listen-on-ipv6-by-default.sh: info: /default.conf is not a file or does not exist
/docker-entrypoint.sh: Sourcing /docker-entrypoint.d/15-local-resolvers.envsh
/docker-entrypoint.sh: Launching /docker-entrypoint.d/20-envsubst-on-templates.sh
/docker-entrypoint.sh: Launching /docker-entrypoint.d/30-tune-worker-processes.sh
/docker-entrypoint.sh: Configuration complete; ready for start up

그라파나가 문제였다.

이때 그라파나 로그도 바로 체크해야 원인을 확실하게 알았을텐데 습관적으로 치던 docker compose up -d를 했더니 컨테이너가 초기화되며 로그도 날아갔다. 이때는 docker compose start를 했어야 했는데.

그라파나가 왜 꺼졌던걸까? 모르겠다. 부팅 시 프로메테우스가 아직 안 떠있어서 꺼졌을수도 있고 도커 네트워크 attach에 실패했을수도 있고. 컨테이너 날아가면 로그도 증발하는거 좀 아쉬운데 에러 로그만이라도 꾸준히 백업해놓을까..

다른 문제는 3일 전에 만들었던 도커 상태를 체크해서 restarting이 5회 이상 반복되면 알림을 보내는 스크립트가 작동을 안했다는거다. 왜?

이것도 골치아픈게 restarting count 올라가는 조건이 따로 있었다네? 컨테이너는 기동 직후 죽으면 도커에서 crash로 인정되지 않아 restarting(1)에서 안올라가고 반복된다고 한다.





내 도커 시스템은 굴리는게 별로 없어서 이정도에 쉽게 장애가 날 줄은 몰랐다. 이번에 좋은 경험이 됐으니 잘 고쳐보자.