AWS EMR Series - Apache Superset으로 presto 쿼리 결과 시각화

Jan 31,2019 | AWS

작성자_김명수

AWS EMR

여기서 다루는 내용

· 간단 소개
· 사전 준비
· 연동 확인
· 마무리

이번 시간에는 BI Tool인 Apache Superset을 사용하여 AWS EMR 클러스터의 presto를 연동하여 데이터를 시각화를 간단히 해보도록 하겠습니다.

Apache Superset은 Python으로 만들어진 응용 프로그램 프레임워크인 Flask로 만들어졌습니다.

Cloud-native하고, Airbnb에서 아래와 같이 사용중이라 하니 검토해볼만 합니다.

“Superset is battle tested in large environments with hundreds of concurrent users. Airbnb’s production environment runs inside Kubernetes and serves 600+ daily active users viewing over 100K charts a day.”

- 원문

먼저 EMR 클러스터와 Superset을 준비하고, 샘플 데이터를 Hive 카탈로그에 등록하여 이를 Presto에서 간단 조회합니다.

그리고 Superset에 EMR의 presto에 연동하여 간단한 시각화를 해보겠습니다.

간단 소개

- AWS EMR
  - 관리형 하둡 클러스터 플랫폼
  - Apache Spark, HBase, Presto, Hive와 같이 널리 사용되는 분산 프레임워크를 실행
  - Amazon S3 및Amazon DynamoDB와 같은 다른 AWS 데이터 스토어의 데이터와 상호 작용
  - 수동 또는 Auto Scaling을 통한 인스턴스 수를 늘리거나 줄일 수 있으며, spot 인스턴스 활용을 통한 비용 절감 가능
  - 제품 세부 정보 : Link
- Apache Superset
  - Apache Incubating Project
  - Airbnb에서 오픈소스로 공개한 BI Tool
  - 고가용성 설계 및 대규모 분산 환경 수평 확장 설계 가능
  - Dashboard 생성 및 공유 가능
  - SQLAlchemy를 통한 database 연결
  - 제품 세부 정보 : Link
  - Github: Link

사전 준비

:: EMR 클러스터 생성

Hive, Presto가 포함된 EMR 클러스터를 생성합니다.

:: Apache Superset 준비

Superset은 EC2 Amazon Linux에 설치가능하며 Docker 환경을 지원합니다.

Apache Superset 공식 설치 및 설정 가이드 문서를 참고하여 설치를 합니다.

설치 완료 후 8088 port로 접근하면 아래 이미지와 같이 로그인 화면을 볼 수 있습니다.

:: 샘플 데이터 준비

본 포스팅에서는 샘플 데이터를 S3에 업로드하여 조회해보겠습니다.

먼저 movielens에서 latest datasets 데이터를 다운로드 받습니다.

압축을 해제하면 README.txt 파일 및 CSV 파일들이 보입니다.

README.txt, genome-scores.csv, genome-tags.csv, links.csv, movies.csv, ratings.csv, tags.csv

S3에 해당 CSV 파일에 해당되는 각각의 폴더를 생성하여 업로드 합니다.