데이터 엔지니어링38 Kafka란? (3) 내부 동작 원리 replication/controller/log segment 카프카의 내부 동작 원리와 구현에서 가장 중요한 부분 중 하나는 리플리케이션 동작이다. 1. 카프카 리플리케이션 카프카는 안정성을 확보하기 위해 리플리케이션이라는 동작을 한다. 1.1 리플리케이션 동작 개요 describe 옵션을 이용해 토픽의 상세보기 출력 $ kafka-topics.sh --bootstrap-server ... --topic test_topic --describe [output] Topic: test_topicpartitionCount:1ReplicationFactor:3Configs:segment.bytes=100324543 Topic: test_topicpartition:0Leader:1Replicas:1,2,3Isr:1,2,3 위에서 알 수 있는 내용은 파티션 0의 리더는 브로커.. 2022. 8. 7. ElasticSearch 구성 요소 - Shard, Replicas, Analyzer ElasticSearch 분산형 Restful 검색 및 분석 엔진이다. 주요 특징 역색인을 통한 빠른 검색 지원 클러스터 구성을 통한 분산처리 및 고가용성 Replica를 활용한 데이터 안정성 증대 Shard 분배를 통한 scale-out RESTful API 지원 Schemaless Index 기반의 타입 및 색인 방식 설정 지원 ElasticSearch Architecture : Key Components Elasticsearch 아키텍처는 확장성과 유연성을 위해 구축되었다. Elasticsearch Cluster Elasticsearch 클러스터는 데이터를 저장하는 노드 그룹으로 구성된다. 클러스터와 함께 실행되는 노드 수와 가상 또는 물리 서버의 IP 주소를 지정할 수 있으며, 모든 구성설정은 c.. 2022. 8. 4. Hadoop이란? (2) NameNode, Yarn NameNode 네임노드는 모든 메타데이터(HDFS 디렉토리 정보나 파일의 퍼미션 정보 등)를 메모리에 저장해 정보를 빠르게 제공한다. 이 정보들은 디스크에도 저장되는데 fsimage 파일로 디스크에 저장한다. fsimage 파일 - HDFS에 있는 모든 파일 이름, HDFS 디렉토리 구조, HDFS에 있는 모든 파일의 퍼미션 구조 HDFS에서 파일 생성이나 삭제가 일어나면 메타데이터가 변경돼야 하는데 이 모든것이 fsimage(파일 시스템 이미지)에 즉시 반영되지는 않는다. 대신 변경 내용은 디스크의 다른 파일에 기록된다. 그리고 매 시간(기본값)마다 보조 네임노드가 변경된 내용과 fsimage 파일을 합치는 작업을 하고 이렇게 만들어진 정보가 새로운 fsimage 파일로 기록된다. 네임노드가 HDF.. 2022. 8. 3. Hadoop이란? (1) 하둡이란 무엇인가? Apache Hadoop은 기가바이트에서 페타바이트에 이르는 대규모 데이터셋을 효율적으로 저장하고 처리하는데 사용되는 오픈소스 프레임워크이다. Hadoop은 하나의 대형 컴퓨터를 사용하여 데이터를 저장하고 처리하는 대신, 여러 컴퓨터를 클러스터링하여 대용량 데이터셋을 보다 빠르게 병렬로 분석할 수 있도록 한다. Hadoop은 4개의 주요 모듈로 구성되어 있다. HDFS(Hadoop Distributed File System) - 표준 또는 저가 하드웨어에서 실행되는 분산 파일 시스템이다. HDFS는 기존 파일 시스템보다 우수한 데이터 처리량을 제공하며, 높은 내결함성과 대용량 데이터셋을 제공한다. YARN(Yet Anather Resource Negotiator) - 클러스터 노드 .. 2022. 8. 2. Impala의 Architecture와 Components에 대한 정리 Impala(임팔라) 란? 아파치 하둡을 실행하는 컴퓨터 클러스터에 저장된 데이터를 위한 오픈 소스 대규모 병렬 처리 SQL 쿼리 엔진이다. Apache Hadoop 파일 형식으로 저장된 데이터에 대해 low-latency 고성능 SQL 쿼리를 제공한다. 쿼리에 대한 빠른 응답으로 대화형 SQL 이라고도 한다. Impala는 Hive 메타 스토어(HMS)와 통합되어 두 구성 요소 간에 데이터베이스와 테이블을 공유한다. Hive와 높은 수준의 통합 및 HiveQL 구문과의 호환성을 통해 Impala 또는 Hive를 사용하여 테이블을 만들고 쿼리를 실행하고 데이터를 로드하는 등의 작업을 수행할 수 있다. - Map-reduce 대신 별도의 실행 엔진을 사용한다. - 다양한 파일 저장소(HDFS, Kudu,.. 2022. 7. 31. DataLake vs DataWarehouse vs DataMart 데이터 레이크와 데이터 웨어하우스는 둘 다 빅 데이터를 저장하는 데 널리 사용되지만 상호 교환 가능한 용어는 아니다. 데이터 레이크는 용도가 아직 정해지지 않은 raw data의 방대한 Pool이며, 데이터 웨어하우스는 특정 목적을 위해 처리된 구조화되고 필터링된 데이터 저장소이다. 데이터 레이크의 유연성과 데이터 웨어하우스의 데이터 관리 기능을 결합한 데이터 레이크하우스의 데이터 관리 아키텍처 추세도 나타나고 있다. Four key differences between a data lake and a data warehouse Data Lake Data Warehouse Data Structure Raw Processed Purpose of Data Not yet determined Currently i.. 2022. 7. 30. 이전 1 ··· 3 4 5 6 7 다음 반응형