본문 바로가기

분류 전체보기138

Flink - checkpoint 옵션 및 재시작 전략 목차 LIST Implement Checkpointing in a Flink Program상태를 장애 내성 상태 (fault tolerant)로 만들기 위해서는 Flink가 상태를 체크포인팅해야 한다.체크포인팅은 몇 가지 파라미터를 설정하여 구현할 수 있으며, 이 파라미터들은 환경 객체를 사용하여 설정된다. 스트림 실행 환경의 ENV 객체를 사용하여 이 파라미터들을 설정한다.StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 1. enableCheckpointing기본적으로 체크포인팅은 비활성화 되어 있으며, 이 메서드를 사용하여 활성화한다. 인수는 체크포인팅 시간을 밀리초 단위로 전달한다.Flink가.. 2024. 8. 19.

Flink - State, Checkpointing and Fault Tolerance 상세 내용 개요목차 LIST What is a State in FlinkFlink Checkpoints : Flink의 내결함성(Fault Tolerance)을 달성하기 위한 매우 중요한 개념이다.state가 뭔지, state의 유형, 체크포인팅을 사용하여 어떻게 구현되는지에 대해 논의한다. State(상태)?스트림 처리 환경에서, 상태를 특정 시점에서의 연산자의 스냅샷 으로 간주할 수 있다.과거의 입력과 이벤트에 대한 정보를 기억하고, 미래의 출력을 결정하는데 사용될 수 있다. 시스템의 상태는 특정 시점까지 애플리케이션에서 발생한 모든 일을 알고 있다.상태는 개별 요소(individual elements)나 이벤트 처리 동안 데이터를 저장할 수 있으며, 저장된 상태 또는 데이터의 스냅샷은 애플리케이션을 복구.. 2024. 8. 19.

Flink Memory에 대해 알아보자 목차 LIST Flink MemoryTotal Process Memory정의 : Flink 작업 프로세스 전체에 할당되는 메모리설명 : Flink 프로세스가 사용할 수 있는 전체 메모리로 Flink 외부의 다른 프로세스에 영향을 줄 수 있음JVM Metaspace : 클래스 메타데이터를 저장하는 영역으로 클래스와 메서드 정보 등 저장JVM Overhead : JVM 내부 운영에 필요한 메모리로 Flink 작업에서 사용하는 메모리 외에 JVM 운영용Total Flink Memory정의 : Flink 작업에 할당된 전체 메모리설명 : Flink 클러스터에서만 사용되는 메모리로 Flink 작업에만 영향을 줌 Total Process Memory참고 : 메모리 구성 충돌로 배포 오류가 발생할 수 있으므로.. 2024. 5. 21.

Flink DataSources 정의 및 구성 요소 목차 LIST DataSources?Flink에서 datasources란 소싱하는 데이터를 의미하며, Data Ingestion이라고 합니다.Flink application은 하나 또는 그 이상의 데이터소스를 소싱합니다. 데이터 소스는 파일 시스템 상의 파일, 카프카의 토픽 또는 여러가지 데이터 스트림이 될 수 있습니다. 핵심 3가지 요소Split소스로부터 데이터를 컨슈밍하는 단위입니다. 예를 들면 파일이나, 로그 파티션이 될 수 있습니다.Splits은 SourceReader가 작업을 분배하고 데이터를 병렬로 읽는 단위입니다.SourceReaderSourceReader는 Splits를 요청하고 그것들을 처리합니다. 예를 들면, split으로 나누어진 파일이나 로그 파티션을 읽습니다.SourceR.. 2024. 5. 20.

Dataflow Windowing : watermark 목차 LIST Dataflow WindowingDataflow Windowing은 스트리밍 데이터를 다룰 때 사용하는 핵심 데이터플로우 전략 중 하나입니다. 스트리밍 데이터를 다루기 위한 시스템적인 접근을 제공하는데, 특정 chunk 단위나 windows로 나누는 방법입니다. 1. Dividing the Stream info finite Windows스트리밍 데이터를 유한한 윈도우로 쪼개는 방식입니다. 스트리밍 시나리오에서 데이터는 특정 시간 범위나 윈도우로 나눕니다.예를 들어, 주어진 시간 범위 내에서 평균을 구하고자 할 때 사용할 수 있습니다. 특히 대량의 데이터를 다룰 때 이렇게 윈도우를 사용하는 것은 쉽지 않을 수 있습니다. 하지만 데이터플로우는 이 과정을 더 단순화할 수 있습니다. 메시지를 .. 2024. 5. 17.

Git Flow vs Github Flow : 브랜치 전략 목차 LIST 새로운 프로젝트를 시작할 때, 브랜치 전략으로 Git Flow와 Github Flow를 자주 접하게 되는데요. 두 전략의 차이에 대해 알아보겠습니다. Git FlowGit Flow 브랜치 전략은 총 5개의 브랜치로 나누어집니다. main (or master) - 현재 릴리즈된 코드의 저장소이며, Production에 나가는 버전과 일치해야 합니다.develop - main 브랜치를 따서, 릴리즈 이후에 발생한 추가적인 변경 사항을 반영합니다.feature - develop 브랜치를 따서, 새로운 기능을 개발하기 위한 feature 브랜치를 생성합니다. main이나 develop과 달리 feature라는 단일 브랜치가 있는 것은 아니고, 변경 사항마다 생성합니다.예를 들면, bug/Stac.. 2024. 5. 3.

이전 1 2 3 4 5 ··· 23 다음

티스토리툴바