본문 바로가기

데이터 엔지니어링31

HyperLogLog에 대해 알아보자 목차 LIST HyperLogLog는 집합의 카디널리티를 추정하는 확률적 데이터 구조(probabilistic data structure)이다. 즉, 정확한 값을 제공하지 않고 확률적인 방법을 사용하여 집합의 카디널리티를 추정하는 것이다. HyperLogLog는 확률적 데이터 구조의 특성을 가지기 때문에 완벽한 정확도를 포기하고 대신 공간을 효율적으로 사용한다. (HyperLogLog trades perfect accuracy for efficient space utilization.) 대용량 데이터셋에서 유니크한 값, 즉 카디널리티를 어떻게 구할 것인가? 에 대한 문제를 Cardinality Estimation Problem 또는 Count-distinct problem 이라고 한다. HyperLogL.. 2023. 9. 16.
[Druid] indexing service / Overlord 목차 LIST Druid indexing service Apache druid의 indexing service는 인덱싱 관련 작업을 실행하는 고가용 분산 서비스 입니다. 인덱싱 작업은 드루이드 세그먼트를 생성하거나 destroy(파괴)합니다. 인덱싱 서비스는 master/slave 와 같은 아키텍처를 가지고 있습니다. 인덱싱 서비스는 세개의 주 구성요소로 이루어져 있습니다. 1) Peon component : 단일 task 실행 2) Middle Manager component : peon 관리 3) Overlord component : middle manager에게 작업 분배 Overlord와 MiddleManager는 동일한 프로세스 또는 여러 프로세스에서 실행될 수 있지만, Middle Manage.. 2023. 7. 16.
Druid flatten spec 공식 문서 FlattenSpec 드루이드 중첩 열(nested columns) 특징의 대안으로, 그리고 nested input 포맷에 대해 중첩된 데이터를 평탄화하기 위해 'flattenSpec' 객체를 사용할 수 있습니다. Nested columns에서 중첩된(nested) 데이터를 수집하고 저장하는 방법에 대해 알아보겠습니다. Configure Field Description Default useFieldDiscovery true일때, 모든 루트 수준 필드를 'timestampSpec', 'transformSpec', 'dimensionSpec', 'metricsSpec' 에서 사용할 수 있는 필드로 전환합니다. false이면, 명시적으로 지정된 필드만 사용할 수 있습니다. true fields 명시적으로 지정.. 2023. 3. 26.
Druid segment retention rules | 세그먼트 보존 규칙 Using rules to drop and retain data 데이터 보존 정책은 어떤 데이터를 보존하고 어떤 데이터를 클러스터에서 삭제할지 지정합니다. -> Coordinator는 rules를 사용해서 히스토리컬에 어떤 세그먼트를 load/drop 할지 결정 코디네이터는 메타데이터 스토리지에서 set of rules를 로드합니다. 규칙(role)은 특정 데이터 소스에 한정해서 적용할 수도 있고, 기본 설정으로 구성할 수도 있습니다. 규칙은 순서대로 읽히므로 순서가 중요합니다. 코디네이터는 사용 가능한 모든 세그먼트를 순환하며 각 세그먼트를 가장 먼저 적용되는 규칙과 매핑합니다. 각 세그먼트는 하나의 규칙만 가질 수 있습니다. 크게 3개(load, drop, broadcase)의 룰이 있습니다. Ret.. 2023. 3. 26.
Ansible Roles 사용 방법, 공식 문서 목차 Roles `Roles`을 사용하면 알려진 파일 구조를 기반으로 관련 변수, 파일, tasks, handlers 및 기타 Ansible artifacts를 자동으로 로드할 수 있습니다. content를 role로 그룹화하면, 쉽게 재사용할 수 있습니다. Role directory structure Ansible role은 8개의 주요 표준 디렉터리가 있는 정의된 데릭터리 구조가 있습니다. 적어도 각 역할에 표준 디렉터리 중 하나 이상은 포함해야 합니다. Role에서 사용하지 않는 디렉터리는 생략이 가능합니다. # playbooks site.yml webservers.yml fooservers.yml roles/ common/ # this hierarchy represents a "role" task.. 2023. 3. 19.
Ansible Inventory와 variables 설정 방법 목차 LIST Ansible 공식 문서를 통해 Inventory에 대한 전반적인 내용과 variables 설정 방법까지 확인해보겠습니다. How to build your inventory Inventory basics: formats, hosts, and groups inventory 파일의 default는 hosts(.ini)입니다. * ini : initialization sample) mail.example.com [webservers] foo.example.com bar.example.com [dbservers] one.example.com two.example.com three.example.com Default groups inventory file에 그룹을 아무것도 지정하지 않아도, Ansi.. 2023. 3. 16.
반응형