본문 바로가기

데이터 엔지니어링31

Spark RDD, DAG란? Apache Spark는 빅 데이터 워크로드에 주로 사용되는 오픈 소스 분산 처리 시스템이다. Apache Spark는 빠른 성능을 위해 인 메모리 캐싱과 최적화된 실행을 사용하며, 일반 배치 처리, 스트리밍 분석, 기계 학습, 그래프 데이터베이스 및 임시 쿼리를 지원한다. MapReduce는 데이터의 중간 과정을 HDFS에 저장하기 때문에 오버헤드가 발생한다. Spark는 이러한 문제점을 In-Memory 처리로 해결할 수 있다. 하지만 메모리 특성상 중간에 오류가 나면 데이터가 모두 사라지게되어 처음부터 다시 연산해야 하는 단점이 생긴다. Spark는 메모리에서 데이터가 유실되면 RDD의 Lineage 기록에 따라 유실되었던 RDD를 다시 생성한다. 이 내용은 뒤에서 다시 한번 언급된다. Apache.. 2022. 8. 12.
Data Lifecycle Management(DLM) 란? Data Lifecycle Management(DLM)는 데이터가 시작되는 시점부터 소멸(destruction)되는 시점까지 전체 수명 주기 동안 거치는 여러 단계로 정의할 수 있다. 데이터 수명 주기의 각 단계는 데이터 보호(data protection), 복원력(resiliency) 및 규정 준수(regulatory compliance)를 제어하는 다양한 정책 집합을 통해 제어된다. 데이터 생명 주기의 여러 단계 데이터는 수명 주기 동안 5가지 단계를 거친다. 각 단계는 데이터의 목적과 가치, 그리고 데이터가 누구에게 가치가 있는지를 중심으로 진행된다. 각 단계에 영향을 미치는 기타 요소에는 데이터 개인 정보 보호, 데이터 보안 및 데이터 규정 준수가 있다. 1. Generate & Collect (.. 2022. 8. 11.
Tumbling window와 Sliding window 윈도우 집계 스트림 처리는 시스템이 지속적으로 실행되는 데이터 스트림을 처리하면서 실행되어야 한다. 이벤트가 계속 발생함에 따라 오래된 이벤트는 처리하려는 프로세스와 관련성은 점점 낮아진다. 윈도우는 데이터 스트림 처리나 시계열 데이터 분석에서 사용되는 개념으로, 규칙적이고 반복적인 시간 기반 집계 작업을 말한다. 즉, 주어진 시간 동안 데이터를 그룹화하고 분석하는 방식에 사용된다. 윈도우는 왜 사용하는걸까? 실시간 데이터 스트림이나 대량의 시계열 데이터에서 의미있는 정보를 추출하고, 이를 통해 실시간 의사 결정, 모니터링, 분석 등을 가능하게 하기 위함이다. 윈도우를 통해 데이터를 소화 가능한 단위로 분할함으로써 시간의 흐름에 다른 변화를 추적하고 트렌드를 분석하는 등 다양한 작업을 수행할 수 있다. .. 2022. 8. 11.
Star schema와 Snowflake schema 비교 star and snowflake schema는 데이터 웨어하우스에서 사용되는 가장 있기 있는 다차원 데이터 모델이다. 스타 스키마와 스노우 플레이크 스키마의 결정적인 차이점은 스타 스키마는 정규화를 사용하지 않는 반면, 스노우 플레이크 스키마는 데이터의 중복을 제거하기 위해 정규화를 사용한다는 것이다. 팩트 및 차원 테이블은 스키마를 만드는데 필수 요구사항이다. 관계형 데이터베이스의 설계는 엔티티-관계 데이터 모델을 사용한다. 이러한 모델에서 데이터베이스 스키마는 엔티티 집합과 엔티티 간의 관계로 구성된다. 이러한 종류의 데이터 모델은 온라인 거래 처리 등에 적합하다. 데이터 웨어하우스는 온라인 데이터 분석을 지원하는 간략한 주제 지향 스키마가 필요하다. 스키마는 전체 데이터베이스를 논리적으로 설명하는.. 2022. 8. 9.
DeltaLake(Databricks), Snowflake References Databricks Apache spark(빅데이터 프로세싱의 표준이 될 만큼 많이 쓰이는 오픈소스 빅데이터 프로젝트)를 만든 사람들이 모여서 창립했으며, DeltaLake, MLFlow 등 다양한 오픈소스 프로젝트를 만들고 이를 기반으로 모든 데이터/분석 AI 워크로드를 한꺼번에 통합해서 쓸 수 있는 통합 클라우드 분석 플랫폼을 제공하는 SaaS 회사이다. 그리고 그 플랫폼의 이름이 "Lakehouse" 이다. Lakehouse Platform 통한 클라우드 분석 플랫폼 (SaaS) 데이터 과학자, 데이터 엔지니어를 위해 설계된 빠르고 쉽게 협업이 가능한 Apache Spark 기반 빅 데이터 분석 서비스 데이터 웨어하우스, 데이터 레이크, 스트리밍 데이터 한 기업 내에서 데이터를 .. 2022. 8. 9.
Kafka란? (3) 내부 동작 원리 replication/controller/log segment 카프카의 내부 동작 원리와 구현에서 가장 중요한 부분 중 하나는 리플리케이션 동작이다. 1. 카프카 리플리케이션 카프카는 안정성을 확보하기 위해 리플리케이션이라는 동작을 한다. 1.1 리플리케이션 동작 개요 describe 옵션을 이용해 토픽의 상세보기 출력 $ kafka-topics.sh --bootstrap-server ... --topic test_topic --describe [output] Topic: test_topicpartitionCount:1ReplicationFactor:3Configs:segment.bytes=100324543 Topic: test_topicpartition:0Leader:1Replicas:1,2,3Isr:1,2,3 위에서 알 수 있는 내용은 파티션 0의 리더는 브로커.. 2022. 8. 7.
반응형