타조 (소프트웨어)

위키백과, 우리 모두의 백과사전.

타조(Tajo)는 하둡 기반 데이터웨어하우스 시스템이다. 하둡 데이터 분석을 위해 일반적으로 사용되는 맵리듀스 기술 대신 관계형 데이터베이스에서 사용하는 SQL로 질의할 수 있다. 고려대학교 정보통신대학 컴퓨터학과 DB연구실 박사과정 중이던 최현식과 손지훈이 시작했으며, 2013년 3월에 그루터(Gruter), 고려대학교, 링크드인(LinkedIn), 나사(Nasa), 호튼웍스(HortonWorks), 인텔(Intel)의 개발자들이 참여하여, 아파치 재단의 인큐베이션 프로젝트로 채택이 됐다. 그리고 2014년 3월에는 최상위 레벨 프로젝트(TLP)로 승격되었다. SQL 표준을 지원하고, 성능 향상을 위해서 질의 전체를 분산 처리한다. 하둡 분산파일 시스템(HDFS)를 기본 저장소로 사용하기 때문에 질의 실행 결과가 HDFS에 저장된다. 하둡을 사용하지 않을 수도 있다. 타임 질의에 해당하는 ETL 작업 뿐만 아니라 로우 레이턴시 질의도 지원하며, 100 밀리세컨드부터 수시간까지 실행되는 질의를 처리할 수 있다. 또한 사용자가 직접 함수를 정의할 수 있다. 다양한 최적화를 위해서, 비용 기반 최적화 모델(Cost basted optimization model)과 확장 가능한 리라이트 룰(Rewrite Rule)을 제공한다. 비슷한 기능을 가진 상용 솔루션으로는 클라우데라사의 임팔라 등이 있다.[1][2][3][4]

출처[편집]