본문 바로가기

데이터 엔지니어링38

Iceberg 에 대해 알아보자 | Architecture 및 도입 이유 목차 LIST  Iceberg의 등장 배경HDFS에 Hive를 연동하여 사용하다 보면, 데이터가 수정/삭제되지 않아 불편한 상황이 발생할 수 있습니다.HDFS는 파일 단위로 삭제가 가능하지만, 데이터는 수정이 불가능해 재적재해야 하는 상황이 종종 발생합니다. 이러한 문제를 해결하기 위해 Kudu와 같은 대안과 다양한 방법들이 제시되었습니다.참고로, Kudu는 실시간 분석을 위한 스토리지 엔진으로 데이터 삽입, 업데이트, 삭제가 가능합니다.Apache Iceberg는 이러한 방법들 중 하나로 Netflix에서 개발된 기술로, 이후 Apache 프로젝트로 오픈소스화 되었습니다. Iceberg는 대규모 데이터셋에서 효율적인 데이터 관리와 성능 유지를 목표로 하며, 데이터 수정 및 삭제 기능을 유연하게 제공합니.. 2024. 8. 23.
Debezium에 대해 알아보자 | 사용 방법 및 MySQL 연동 목차 LIST Debezium이란?Change Data Capture(CDC)를 구현하는 오픈소스 플랫폼입니다.CDC란 데이터베이스에서 발생하는 변경 사항(INSERT, UPDATE, DELETE)을 실시간으로 캡쳐하여 이벤트 형태로 다른 시스템으로 전송하는 기술입니다. Debezium은 이러한 변경 이벤트를 Apache Kafka와 같은 스트리밍 시스템으로 전달하여 다른 저장소로 실시간 데이터베이스 변경 사항을 처리할 수 있도록 합니다.Debezium 사용 방법아래는 Debezium을 사용하는 세 가지 방법에 대해 소개합니다. 1. Debezium Kafka Connect대부분의 경우, Debezium은 Apache Kafka Connect를 통해 배포됩니다.Kafka Connect는 아래 사항을 구.. 2024. 8. 19.
Flink - checkpoint 옵션 및 재시작 전략 목차 LIST Implement Checkpointing in a Flink Program상태를 장애 내성 상태 (fault tolerant)로 만들기 위해서는 Flink가 상태를 체크포인팅해야 한다.체크포인팅은 몇 가지 파라미터를 설정하여 구현할 수 있으며, 이 파라미터들은 환경 객체를 사용하여 설정된다. 스트림 실행 환경의 ENV 객체를 사용하여 이 파라미터들을 설정한다.StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 1. enableCheckpointing기본적으로 체크포인팅은 비활성화 되어 있으며, 이 메서드를 사용하여 활성화한다. 인수는 체크포인팅 시간을 밀리초 단위로 전달한다.Flink가.. 2024. 8. 19.
Flink - State, Checkpointing and Fault Tolerance 상세 내용 개요목차 LIST  What is a State in FlinkFlink Checkpoints : Flink의 내결함성(Fault Tolerance)을 달성하기 위한 매우 중요한 개념이다.state가 뭔지, state의 유형, 체크포인팅을 사용하여 어떻게 구현되는지에 대해 논의한다. State(상태)?스트림 처리 환경에서, 상태를 특정 시점에서의 연산자의 스냅샷   으로 간주할 수 있다.과거의 입력과 이벤트에 대한 정보를 기억하고, 미래의 출력을 결정하는데 사용될 수 있다. 시스템의 상태는 특정 시점까지 애플리케이션에서 발생한 모든 일을 알고 있다.상태는 개별 요소(individual elements)나 이벤트 처리 동안 데이터를 저장할 수 있으며, 저장된 상태 또는 데이터의 스냅샷은 애플리케이션을 복구.. 2024. 8. 19.
Flink Memory에 대해 알아보자 목차 LIST   Flink MemoryTotal Process Memory정의 : Flink 작업 프로세스 전체에 할당되는 메모리설명 : Flink 프로세스가 사용할 수 있는 전체 메모리로 Flink 외부의 다른 프로세스에 영향을 줄 수 있음JVM Metaspace : 클래스 메타데이터를 저장하는 영역으로 클래스와 메서드 정보 등 저장JVM Overhead : JVM 내부 운영에 필요한 메모리로 Flink 작업에서 사용하는 메모리 외에 JVM 운영용Total Flink Memory정의 : Flink 작업에 할당된 전체 메모리설명 : Flink 클러스터에서만 사용되는 메모리로 Flink 작업에만 영향을 줌  Total Process Memory참고 : 메모리 구성 충돌로 배포 오류가 발생할 수 있으므로.. 2024. 5. 21.
Flink DataSources 정의 및 구성 요소 목차 LIST  DataSources?Flink에서 datasources란 소싱하는 데이터를 의미하며, Data Ingestion이라고 합니다.Flink application은 하나 또는 그 이상의 데이터소스를 소싱합니다. 데이터 소스는 파일 시스템 상의 파일, 카프카의 토픽 또는 여러가지 데이터 스트림이 될 수 있습니다.     핵심 3가지 요소Split소스로부터 데이터를 컨슈밍하는 단위입니다. 예를 들면 파일이나, 로그 파티션이 될 수 있습니다.Splits은 SourceReader가 작업을 분배하고 데이터를 병렬로 읽는 단위입니다.SourceReaderSourceReader는 Splits를 요청하고 그것들을 처리합니다. 예를 들면, split으로 나누어진 파일이나 로그 파티션을 읽습니다.SourceR.. 2024. 5. 20.
반응형