데이터 레이크와 데이터 웨어하우스는 둘 다 빅 데이터를 저장하는 데 널리 사용되지만 상호 교환 가능한 용어는 아니다.
데이터 레이크는 용도가 아직 정해지지 않은 raw data의 방대한 Pool이며,
데이터 웨어하우스는 특정 목적을 위해 처리된 구조화되고 필터링된 데이터 저장소이다.
데이터 레이크의 유연성과 데이터 웨어하우스의 데이터 관리 기능을 결합한 데이터 레이크하우스의 데이터 관리 아키텍처 추세도 나타나고 있다.
Four key differences between a data lake and a data warehouse
Data Lake | Data Warehouse | |
Data Structure | Raw | Processed |
Purpose of Data | Not yet determined | Currently in use |
Users | Data Scientists | Business professionals |
Accessibility | Highly accessible and quick to update | More complicated and costly to make changes |
Data structure: raw vs. processed
raw data는 목적을 위해 아직 처리되지 않은 데이터이다. 데이터 레이크와 데이터 웨어하우스의 가장 큰 차이점은 raw data와 processed data(처리된 데이터)의 다양한 구조이다.
즉, 데이터 레이크는 주로 가공되지 않은 raw data를 저장하는 반면, 데이터 웨어하우스는 가공되고 정제된 데이터를 저장한다.
이러한 이유로 데이터 레이크는 일반적으로 데이터 웨어하우스보다 훨씬 큰 스토리지 용량을 필요로 한다. 또한 가공되지 않은 raw data는 가변적이며, 목적에 따라 빠르게 분석할 수 있고, 기계 학습에 이상적이다.
하지만, 적절한 데이터 품질과 데이터 거버넌스 정책이 마련되지 않은 상태의 데이터레이크는 때때로 데이터 늪(data swamps)이 될 수 있는 위험이 있다.
데이터 웨어하우스는 처리된 데이터만 저장하기 때문에 사용되지 않을 데이터는 유지하지 않아 값비싼 스토리지 공간을 절약할 수 있다.
또한, 처리된 데이터는 사용자가 이해하기 쉽다.
Purpose: undetermined vs in-use (미확정 vs 사용 중)
데이터 레이크에 있는 개별 데이터 조각의 사용 목적은 고정되어 있지 않다. raw data는 데이터레이크로 유입되며, 때로는 미래에 사용될 가능성을 염두해두고 그냥 보관하는 경우도 있다.
즉, 데이터 레이크는 데이터 웨어하우스보다 덜 조직적이고 덜 필터링된 데이터를 가진다.(less organization and less filtration)
처리된 데이터(processed data)는 특정 용도로 사용하기 위해 정제된 데이터이다. 데이터 웨어하우스는 처리된 데이터만 저장하기 때문에 데이터 웨어하우스의 모든 데이터는 조직 내에서 특정 목적을 위해 사용된다. 이는 사용되지 않는 데이터로 스토리지 공간이 낭비되지 않음을 의미한다.
Users: data scientists vs business professionals
데이터 레이크는 종종 raw data에 익숙하지 않은 사람들이 사용하기에 친숙하지 않다. 구조화 되지 않은 raw data는 일반적으로 특정 비즈니스 용도로 데이터를 이해하고 사용하기 위해 data scientist와 전문적인 툴(specialized tools)이 필요하다.
처리된 데이터는 차트, spreadsheets, 테이블 등에 사용되며 전부는 아니더라도 회사 직원 대부분이 데이터를 읽을 수 있다. 데이터 웨어하우스에 저장된 것과 같이 처리된 데이터를 사용할 때 사용자는 데이터가 나타내고자 하는 목적에 익숙하기만 하면 사용이 가능하다.
Accessibility: flexible vs secure (접근성: 유연성과 보안성)
접근성 및 사용 편의성은 데이터 저장소 내의 데이터가 아닌 데이터 저장소를 전체적으로 사용하는 것을 의미한다.
데이터 레이크 아키텍처는 구조가 없으므로 접근하기 쉽고 변경하기도 쉽다. 또한, 데이터레이크에는 제한이 거의 없기 때문에 데이터에 대한 변경 작업을 신속하게 수행할 수 있다.
데이터 웨어하우스는 구조화되어있기 때문에 데이터를 더 쉽게 사용하고 이해할 수 있게 하지만, 구조의 한계로 인해 조작하는 것이 비용이 많이 들고 어렵다.
Data Warehouse vs Data Mart
Data Mart는 특정 비즈니스 라인에 대한 정보를 가진 데이터 웨어하우스의 하위 집합이다.
데이터 마트에는 조직 내 특정 섹션 또는 단위(ex.영업 부서)에 대한 분석을 위해 수집된 요약 데이터의 저장소가 포함되어 있다.
데이터 웨어하우스는 조직 내 여러 정보를 포함하는 대규모 중앙 집중식 데이터 저장소이다. 수집된 데이터는 분석, 보고 및 데이터 마이닝 도구를 통해 비즈니스 의사 결정에 도움을 준다.
데이터 마트는 정규화된 구조와 비정규화된 구조 중 선호하는 것 없이 둘 다 사용 가능하지만
최신 데이터 웨어하우스는 데이터 쿼리 및 읽기 성능을 높이기 위해 대부분 정규화되지 않는다.
참고)
Top Free Data Warehouse Software
Snowflake, Amazon Redshift, IBM Db2, Databricks Lakehouse Platform...
References
https://www.talend.com/resources/data-lake-vs-data-warehouse/
'데이터 엔지니어링' 카테고리의 다른 글
Hadoop이란? (2) NameNode, Yarn (0) | 2022.08.03 |
---|---|
Hadoop이란? (1) (0) | 2022.08.02 |
Impala의 Architecture와 Components에 대한 정리 (0) | 2022.07.31 |
[번역] Kafka Throughput&Latency Best Practices 공식문서 (0) | 2022.07.29 |
Kafka란? (1) | 아키텍처, 핵심 개념 (0) | 2022.03.04 |
댓글