사람

기업

게시물

블로그 글

채용 정보

프로젝트

Apache Spark를 활용한 실시간 분석 환경 구성
 
 
Apache Spark를 활용한 실시간 분석 환경 구성을 해보았습니다.
최원진  IT부서 인턴 
450RP · JavaScript 상위 4%
빅데이터 솔루션 개발
 
2019년 1월 | 진행중 
Zeppelin 기반의 빅데이터 분석 솔루션 개발 Filebrowser 기능 개발 Python3 pandas api를 이용한 aggregate 기능 개발 Spark interpreter 기능 개선
조국환  엔지니어 @준타
750RP · Oracle 상위 4%
스파크 클러스터 환경 기반 자연어 처리를 위한 벡터화 성능 분석
 
2017년 6월 - 2018년 6월 
담당 업무 : Hadoop, Spark 클러스터 운영(1~12 Node), word2vec 분석 scala 프로그램 작성(zeppelin) 국내 포털(네이버) 뉴스 기사의 카테고리에서 크롤링한 인터넷 기사 제목과 내용 데이터를 HDFS에 적재하고 Spark 클러스터 환경에서 word2vec을 통한 단어 임베딩 기법을 통한 백터 생성 진행. 기사 내용은 Python의 Komoran을 통해 형태소 단위의 명사를 추출해 word2vec의 벡터화. 또한 Spark, Hadoop 클러스터의 노드 수를 변경하며 해당 벡터화의 성능을 측정.
조중현  순천향대학교 대학원 컴퓨터공학부
1290RP · JavaScript 상위 3%