저는 개발을 배우며 데이터를 다루는 부분에서 많은 흥미를 느꼈습니다. 그중 많은 다양한 데이터를 처리하고 데이터의 가치를 찾아내어 활용할 수 있도록 해주는 빅데이터 및 데이터 분석 분야 중 데이터 전처리 부분인 데이터 엔지니어 분야에 흥미를 느꼈고 그와 관련 업무를 하고 싶다는 생각을 가지게 되었습니다.
데이터스트림즈에서 ETL을 비롯해서 DW, DM 개선 및 설계, 구축을 경험하며 다양한 RDBMS를 경험했습니다. Oracle, MariaDB, MySQL, Sybase, PostgreSQL 를 다루어 보았습니다.
RDBMS 사용 시 쿼리플랜을 확인하고 힌트를 사용해서 튜닝한 경험이 있습니다.
DW, DM 개선, 설계 및 구축 부분에서는 기존의 Tibero 프로시져를 통한 DW 작업을 Sybase 로 이관하였고 SQL 튜닝을 통해 속도를 개선시킨 경험이 있습니다.
빅데이터 부분에서는 Hadoop eco system에서 Hadoop file system, hive, impala, kudu, spark를 경험하였습니다. Hadoop file system에서 파일 관리 경험, Hive, Impala에서 옵션 설정 및 SQL 작업 경험이 있습니다. ETL 시 벌크 로드 작업 경험도 있습니다.
나아가 주니어 레벨이지만 Python TA 경험이 있습니다.
서버에 Anaconda를 통해 Python를 직접 설치하고 경로 설정, 필요 패키지를 추가한 경험이 있습니다.
업무를 Python으로 구현하는 작업에서 Python 작업 로깅 처리 및 예외 처리 설계, 구현을 하였습니다.
상기에 언급된 RDBMS 와 Hive, Kudu에 접속해서 데이터를 추출, 정제, 수정, 적재 경험이 있습니다.
Python에서 데이터를 불러와서 다양한 분석모델을 설계, 구현한 경험이 있습니다.
데이터를 추출하고 적정 데이터인지 체크하고, 결측치 제거 등 전처리 한 후 분류, 회귀 분석, 딥러닝 등 다양한 분석모델을 통해 테스트해서 가장 적합한 모델을 선택해서 구간 별로 점수를 부여하는 분석을 구축한 경험이 있습니다. 구성한 분석 모델을 주기적으로 고도화 하는 로직도 구현했습니다.
분석모델 결과 데이터를 직접 세팅한 DB에 저장하고, 시각화 단에 전달할 때 SQL도 만들었습니다.
쉘 스크립트를 사용해서 기본적인 리눅스 작업을 구현했습니다. If문, while문 등을 통해 작업을 반복 수행하고, 프로세스를 체크해서 자동으로 실행, 종료하는 기능을 만들었습니다.
간단한 리눅스 모니터링도 가능합니다.