평화롭던 어느날… 서비스 장애는 언제나 갑자기 찾아온다! 서비스 장애의 원인을 찾아보니 주문 서버가 죽어있는게 원인이였다. 이전부터 종종 주문 서버가 죽는 증상이 있었으나, APM을 따로 달지 않아 죽어도 원인 파악이 힘든 부분이 있었다. 그리하여 Elastic APM을 달아두고 몇 일간 모니터링 한 결과 죽은 원인을 추측할 수 있었다. thread count가 계속 증가하면서 사용 memory가 같이 증가하였고, 그로 인해 WAS가 뻗는 것으로 추론할수 있었다. 일단 스레드 분석을 위해서 스레드 덤프를 확인해 봤다. $ jps 12051 order $ jstack 12051 > dump.txt "pool-60-thread-1" #277 prio-5 os_prio=31 tid=0x000000012cc3d..