📒

[AWS - SAA] 15. AWS 데이터 분석 ✅

상태

완료

수업

AWS - Solutions Architect

주제

AWS-DB

4 more properties

참고

Amazon 데이터 분석

Amazon Athena

Amazon Redshift ✅

Amazon Redshift - 스냅샷 & 재해복구

Amazon Redshift - 데이터 주입

Amazon Lake Formation

Kinesis Data Analytics

Amazon MSK(Apache Kafka용)

Amazon 데이터 분석

Amazon Athena

NOTE

서버리스 방식의 대화형 분석 서비스!

일반적인 흐름

•

데이터 분석을 위해서는 표준 SQL 언어로 파일을 쿼리 해야함

•

스캔된 데이터의 TB당 고정 가격 지불 형식

•

CSVm JSON, ORC 및 Parquet 지원

•

Athena는 Amazon QuickSight라는 툴과 함께 사용되는 경우가 많다.

•

서버리스 SQL 엔진을 사용한 Amazon S3 데이터 분석 ⇒ Athena

•

임시 쿼리 수행이나 BI 분석 및 보고, AWS 서비스에 발생하는 모든 로그를 쿼리로 분석하는데 사용

◦

VPC Flow 로그

◦

ELB 로그

◦

CloudTrail

•

열 기반 데이터 유형을 사용하여 비용 절감 가능(스캔감소)

◦

Apache Parquet 또는 ORC 권장

◦

Glue를 사용하여 데이터를 Parquet 또는 ORC로 변환

Amazon Redshift

NOTE

데이터베이스이자 분석 엔진, 클라우드에서 관리되는 데이터 웨어하우스!

•

PostgreSQL 기술 기반이지만 온라인 트랜잭션 처리(OLTP)에 사용되지는 않음

•

온라인 분석 처리(OLAP) 유형의 데이터베이스이며 분석과 데이터 웨어하우징에 이용

•

열 기반 데이터 스토리지 사용

•

S3의 임시 쿼리라면 Athena, 쿼리가 많고 복잡하며 집계하는 집중적 데이터 웨어하우스라면 Redshift

Redshift Cluster

•

리더 노드

◦

쿼리 계획, 결과 집계용

•

컴퓨팅 노드

◦

쿼리 수행을 위해 리더에게 결과 전송

•

사전에 노드 크기를 프로비저닝한다.

•

비용 절감을 위해 예약 인스턴스를 사용할 수 있다.

Amazon Redshift - 스냅샷 & 재해복구

NOTE

•

다중 AZ 지원하지 않고 클러스터가 1개의 AZ에 있으므로 재해 복구 전략 적용을 위해 스냅샷 사용해야 한다.

•

스냅샷은 클러스터의 지정 시간 백업으로 Amazon S3 내부에 저장

•

새로운 Redshift 클러스터에 스냅샷 복원 할 수 있음

•

자동이든 수동이든 상관없이 스냅샷을 다른 AWS 리전에 복사하도록 구성 가능

Amazon Redshift - 데이터 주입

NOTE

Amazon Kinesis Data Firehose 사용

•

Firehose가 다양한 소스로부터 데이터를 받아서 Redshift에게 전달한다.

•

S3 버킷에 데이터 씀 ⇒ Kinesis Data Firehose가 S3 복사 명령을 실행에 Redshift에게 전달

S3 복사명령

•

S3에 데이터를 로드하고 Redshift에서 복사 명령을 실행하면 IAM 역할을 사용해 S3 버킷에서 Redshift로 데이터 복사

EC2 Instance JDBC Driver

•

JDBC 드라이버를 사용해 Redshift 클러스터에 데이터 삽입

Amazon OpenSearcher

NOTE

Apache 2.0라이선스 하에 제공되는 분산형 커뮤니티 기반 오픈소스 검색 및 분석 제품!

DynamoDB를 사용하는 경우의 흐름

•

OpenSearch로 부터 부분적으로 일치하는 필드를 포함해 모든 필드 검색이 가능

•

서버리스 서비스가 아니므로 인스턴스에 클러스터를 생성해야 한다.

•

자체 쿼리가 있어 SQL 지원안함

Amazon EMR

NOTE

Elastic MapReduce, 데이터 처리와 대화식 분석 및 기계학습을 위한 솔루션!

•

Hadoop 클러스터(빅 데이터)를 생성하여 방대한 양의 데이터를 분석하고 처리하는데 도움됨!

•

EMR은 Apache Spark, Hbase, Presto .. 와 함께 번들로 제공됨

•

Auto Scaling 및 Spot 인스턴스와 통합

Amazon QuickSight

NOTE

AWS가 제공하는 서버리스  머신러닝 기반 비즈니스 인텔리전스 데이터 시각화 대시보드!

이런걸 만들 수 있다.

•

시각화가 가능하고 빠르며 오토 스케일링 가능

•

RDS, Aurora, Athena 등 다양한 데이터 소스에 연결 가능

•

특정 사용자 또는 그룹과 분석결과 및 대시보드 공유가 가능!

Amazon Glue

NOTE

추출(extract), 변환(transform), 로드(load) 서비스를 관리하여 이를 ETL 서비스라 함!

추출하고 변환하고 뿌린다..

•

분석을 위해 데이터를 준비하고 변환하는데 유용

•

완전 서버리스 서비스

•

Glue 주요 기능

◦

Job Bookmark ⇒ 새 ETL 작업을 실행할 때 이전 데이터의 재처리 방지!

◦

Studio ⇒ Glue에서 ETML작업을 생성, 실행 하는 GUI

◦

Elastic View ⇒ SQL을 사용해 여러 데이터 스토어의 데이터를 결합하고 복제

Amazon Lake Formation

NOTE

데이터 레이크 생성을 수월하게 해주는 완전 관리형 서비스!

글루의 진화버전으로 생각?

•

데이터 레이크

◦

데이터 분석을 위해 모든 데이터를 한 곳으로 모아주는 중앙 집중식 저장소

•

AWS Lake Formation은 데이터 레이크에서 데이터 검색, 정제, 변환, 주입을 돕는다.

•

AWS Glue를 기반으로 구축했다.

•

Lake Formation에 연결하는 서비스는 읽기 권한이 있는 데이터만 볼 수 있게된다!

◦

어떠한 도구를 사용하든 한곳에서 보안을 관리 할 수 있음!

Kinesis Data Analytics

NOTE

상태 유지 이벤트 처리, 스트리밍 ETL 및 실시간 분석을 포함한 다양한 사례에 특화된 API 제공!

•

고급 쿼리 능력이 필요하거나, Kafka와 같은 서비스로부터 스트리밍 데이터를 읽는 능력이 필요할 때 사용한다.

•

병렬 연산과 오토 스케일링 가능

•

컴퓨팅 리소스 자동 프로비저닝

Amazon MSK(Apache Kafka용)

NOTE

완전관리형 Apache Kafka를 통해 실시간으로 스트리밍 데이터를 수집/처리 해준다!

•

Amazon Kinesis의 대안

•

AWS에서 완벽하게 관리되는 Apache Kafka

◦

클러스터 생성, 업데이트, 삭제 허용

◦

MSK 클러스터를 VPC, 다중 AZ에 배포한다.

◦

데이터는 원하는 기간 동안 EBS 볼륨에 저장한다.

•

MSK 서버리스

◦

용량 관리 없이 MSK에서 Kafka를 실행