[공공기관 Kubernetes(NKS) 인프라 전환 및 최적화]
2023.06 ~ 2024.10
- NHN Cloud NKS 기반으로 기존 VM 서비스를 컨테이너화하고, Istio(mTLS), ArgoCD(GitOps) 기반의 배포 자동화 체계를 구축
- CSAP 인증 요건을 충족하기 위해 보안 그룹, 노드 풀 분리, Helm 기반 구성 자동화를 적용
- Redis 세션 외부화, RabbitMQ 인증 기반 접근 제어 및 모니터링 구성으로 무상태 구조와 메시징 신뢰성 확보
- RDS for MySQL에 대해 SSL 연결, 권한 분리, 보안 그룹 설정을 적용하여 데이터 접근 보안성을 강화
- 구축 사례는 세미나로 발표하고 GitOps 배포 방식은 팀 표준 운영 방식으로 확산
- 기술 스택: NHN Cloud NKS, Docker, Istio, ArgoCD, Terraform, RDS for MySQL, Redis, RabbitMQ
[Azure 기반 클라우드 인프라 최적화 및 비용 절감]
2023.01 ~ 2023.05
- Azure VMSS와 Packer, Compute Gallery를 기반으로 오토스케일 및 이미지 배포 자동화를 구축해 운영 효율을 개선
- Redis, RabbitMQ, RDS 등 주요 구성 요소를 Terraform으로 IaC화하여 재현성과 운영 안정성을 확보
- 리전 및 네트워크 분리 설계를 통해 트래픽 격리 및 보안 수준을 높였으며, 미사용 자원 정리를 통해 비용을 75% 절감
- 장애율은 약 50% 감소했으며, 전체 구성은 문서화되어 사내 표준 템플릿으로 재사용됨
- 기술 스택: Azure VMSS, Packer, Terraform, Azure CLI, Azure Compute Gallery, Redis, RabbitMQ, RDS for MySQL
[CI/CD 파이프라인 구축 및 자동화]
2022.02 ~ 2022.08
- GitHub Actions Jenkins Nexus로 이어지는 멀티스테이지 파이프라인을 구축하여 Node.js, Spring boot, Docker, VM 환경 모두 지원
- Terraform 기반 IaC 구성 및 환경 변수 통합 관리로 배포 재현성과 안정성을 높이고, 배포 시간을 약 50% 단축
- 실패 시 알림 전송, 태그 기반의 트리거, Docker 이미지 자동 업로드 등 주요 단계를 자동화
- 파이프라인 구조는 사내 템플릿으로 정리되어 공유되었으며, 관련 내용을 사내 DevOps 세미나에서 발표함
- 기술 스택: GitHub Actions, Jenkins Pipeline, Nexus, Terraform, Packer
[대형 고객사(은행·보험) 대상 일일 100만 트래픽 처리 아키텍처 설계 및 구축]
2021.06 ~ 2022.02
- JMeter 및 Demo Generator를 활용해 실제 운영 수준의 부하 테스트 시나리오를 설계하고 병목 구간을 반복적으로 분석
- Redis 기반 세션 캐시 외부화, RabbitMQ Quorum Queue 구성으로 무상태 및 안정적 메시징 구조 확보
- Nginx L7 라우팅, MySQL MHA 기반 이중화를 통해 데이터베이스 처리 성능을 40% 이상 개선
- 설계된 구조는 금융권 인프라 표준 모델로 채택되어 여러 프로젝트에 재활용됨
- 기술 스택: JMeter, Demo Generator, Nginx, Redis Sentinel, RabbitMQ Cluster, Quorum Queue, MySQL MHA
[통합 모니터링 및 APM 시스템 구축]
2021.04 ~ 2021.06
- Prometheus + Grafana로 메트릭 수집 및 시각화 환경을 구성하고, Loki + AlertManager를 통해 로그 기반 장애 탐지 체계 구현
- OpenTelemetry + Jaeger를 통해 서비스 간 분산 트랜잭션 추적 구조를 도입하고, APM 시스템을 고도화
- 장애 탐지율은 약 70% 개선되었으며, 구성 사례는 운영 매뉴얼로 정리되어 팀 내 공유됨
- 기술 스택: Prometheus, Grafana, Node Exporter, Loki, AlertManager, Slack/Webhook, OpenTelemetry, Jaeger
[서비스 자동 복구 및 장애 대응 시스템 구축]
2021.02 ~ 2021.04
- Systemd 타이머와 Bash 스크립트를 활용하여 매분 단위 헬스 체크 및 장애 발생 시 자동 재시작 구조로 구현
- 주요 장애 유형별로 Bash 스크립트를 작성해 문서화하고 운영팀과 공유
- 평균 복구 시간을 5분 1분 미만으로 단축하며 자동 복구율 향상
- 온보딩 가이드에도 반영하여 DevOps 대응 체계를 내재화함
- 기술 스택: Systemd, Bash Script
더보기