본문 바로가기

Druid4

[Druid] indexing service / Overlord 목차 LIST Druid indexing service Apache druid의 indexing service는 인덱싱 관련 작업을 실행하는 고가용 분산 서비스 입니다. 인덱싱 작업은 드루이드 세그먼트를 생성하거나 destroy(파괴)합니다. 인덱싱 서비스는 master/slave 와 같은 아키텍처를 가지고 있습니다. 인덱싱 서비스는 세개의 주 구성요소로 이루어져 있습니다. 1) Peon component : 단일 task 실행 2) Middle Manager component : peon 관리 3) Overlord component : middle manager에게 작업 분배 Overlord와 MiddleManager는 동일한 프로세스 또는 여러 프로세스에서 실행될 수 있지만, Middle Manage.. 2023. 7. 16.
Druid flatten spec 공식 문서 FlattenSpec 드루이드 중첩 열(nested columns) 특징의 대안으로, 그리고 nested input 포맷에 대해 중첩된 데이터를 평탄화하기 위해 'flattenSpec' 객체를 사용할 수 있습니다. Nested columns에서 중첩된(nested) 데이터를 수집하고 저장하는 방법에 대해 알아보겠습니다. Configure Field Description Default useFieldDiscovery true일때, 모든 루트 수준 필드를 'timestampSpec', 'transformSpec', 'dimensionSpec', 'metricsSpec' 에서 사용할 수 있는 필드로 전환합니다. false이면, 명시적으로 지정된 필드만 사용할 수 있습니다. true fields 명시적으로 지정.. 2023. 3. 26.
Druid segment retention rules | 세그먼트 보존 규칙 Using rules to drop and retain data 데이터 보존 정책은 어떤 데이터를 보존하고 어떤 데이터를 클러스터에서 삭제할지 지정합니다. -> Coordinator는 rules를 사용해서 히스토리컬에 어떤 세그먼트를 load/drop 할지 결정 코디네이터는 메타데이터 스토리지에서 set of rules를 로드합니다. 규칙(role)은 특정 데이터 소스에 한정해서 적용할 수도 있고, 기본 설정으로 구성할 수도 있습니다. 규칙은 순서대로 읽히므로 순서가 중요합니다. 코디네이터는 사용 가능한 모든 세그먼트를 순환하며 각 세그먼트를 가장 먼저 적용되는 규칙과 매핑합니다. 각 세그먼트는 하나의 규칙만 가질 수 있습니다. 크게 3개(load, drop, broadcase)의 룰이 있습니다. Ret.. 2023. 3. 26.
Apache Druid 정의, 구성요소, 아키텍처 목차 Druid란? Apache Druid is a high performance real-time analytics database. 대규모 데이터 세트에 대한 빠른 분석을 위해 설계된 실시간 분석 데이터베이스입니다. Druid는 실시간 수집, 빠른 쿼리 성능을 위해 사용되며 빠른 집계가 필요한 동시성이 높은 API 백엔드로 사용됩니다. Apache Druid는 OLAP 데이터베이스 입니다. OLAP는 Online Analytics Processing의 약자로 사용자가 적재한 데이터를 다양한 방식(다차원)으로 적재하고 분석하도록 도와주는 시스템입니다. 다차원 정보는 기존에 1차원 정보(row단위)를 몇 개의 필드들을 사용해서 지표로 만들어 보여주는 것입니다. 즉, Druid는 다차원 필드인 디멘젼을 사.. 2022. 12. 27.
반응형