AWS 클라우드 기반 인프라 아키텍처 재설계
주요 업무: 기존 베타 서비스와 신규 런칭 서비스의 인프라 아키텍처를 분리하고, 유지보수 및 가시성을 높이기 위해 필요한 부분을 통합하여 재설계
문제점: 기존 아키텍처의 복잡성으로 인해 관리 효율성이 저하
문제 발견 및 분석: AWS와의 협업을 통해 아키텍처 최적화 방안을 도출
개선사항: 아키텍처 분리 및 통합을 통해 관리성과 가시성 향상
AWS 클라우드 비용 절감
주요 업무: 기존 AWS 인프라의 비용 절감을 위한 최적화 작업 수행
문제점: 비효율적인 리소스 사용으로 인한 높은 비용 발생
문제 발견 및 분석: 스케줄링 기반의 재시작, X86에서 ARM으로의 전환, 내부 통신 최적화 등 다양한 비용 절감 방법 적용
개선사항: AWS Compute Optimizer를 활용한 스펙 재산정, Lambda에서 EC2로 마이그레이션, 슬로우 쿼리 알림 시스템 구축, CloudWatch 로그 그룹 보존 일자 조정
CloudWatch 기반 장애 모니터링 시스템 구축
주요 업무: AWS CloudWatch를 기반으로 한 인프라 장애 모니터링 시스템 구축
문제점: 기존에는 인프라 장애 발생 시 별도의 알람 시스템이 없어 장애 대응이 지연
문제 발견 및 분석: CloudWatch와 Lambda를 활용하여 실시간 알람 시스템을 구축하고, 담당자에게 Slack으로 알림 발송
개선사항: 장애 발생 시 신속한 대응을 위한 모니터링 및 알림 시스템 구축
포스트모텀 도입
주요 업무: 온프레미스와 클라우드 환경 간의 데이터 통신 장애 분석 및 재발 방지 체계 구축
문제점: 데이터 통신이 서비스의 SPOF(단일 장애 지점)였으며, 장애 발생 시 원인 분석 및 대응이 지연
문제 발견 및 분석: 장애 발생 후 원인 분석이 원활하지 않음
개선사항: 포스트모텀 프로세스 도입으로 장애 발생 원인 및 대응책을 사내에 공유하고, 동일 장애의 재발 방지 체계 마련
무중단 배포 진행
주요 업무: 무중단 배포를 위한 인프라 환경 구축
문제점: 잦은 애플리케이션 배포로 인해 중단 시간이 발생하여 서비스 운영에 영향
문제 발견 및 분석: 기존의 수동 배포 프로세스가 비효율적이며, 자동화된 CI/CD 환경 필요
개선사항: Jenkins 기반 CI 파이프라인을 구축하고, ALB를 활용한 무중단 배포 환경으로 변경
AWS 아키텍처 구축 및 운영
주요 업무: AWS EC2, Redis, ELK, RabbitMQ, ALB, S3, Route53 등 다양한 AWS 서비스를 활용한 인프라 구축 및 운영
문제점: 기존 인프라의 확장성 및 안정성 문제
문제 발견 및 분석: EC2, Redis, ELK 등 핵심 서비스의 최적화 필요
개선사항: AWS 아키텍처 구축을 통해 안정적이고 확장 가능한 인프라 운영 환경 조성
하이브리드 & 멀티 클라우드 구성
주요 업무: NCP, Refinitiv 등의 클라우드 서비스와 AWS를 연동하여 하이브리드 및 멀티 클라우드 구성
문제점: 단일 클라우드 환경의 의존성 및 리스크 관리 문제
문제 발견 및 분석: 클라우드 간 연동 및 데이터 통합 문제
개선사항: 하이브리드 및 멀티 클라우드 환경을 구축하여 리스크 분산 및 유연성 확보
더보기