본문 바로가기
데이터 엔지니어링

Data Lifecycle Management(DLM) 란?

by 내기록 2022. 8. 11.
반응형

Data Lifecycle Management(DLM)는 데이터가 시작되는 시점부터 소멸(destruction)되는 시점까지 전체 수명 주기 동안 거치는 여러 단계로 정의할 수 있다.

 

데이터 수명 주기의 각 단계는 데이터 보호(data protection), 복원력(resiliency) 및 규정 준수(regulatory compliance)를 제어하는 다양한 정책 집합을 통해 제어된다.

 

https://stealthbits.com/blog/what-is-data-lifecycle-management/

 

데이터 생명 주기의 여러 단계

 

데이터는 수명 주기 동안 5가지 단계를 거친다. 각 단계는 데이터의 목적과 가치, 그리고 데이터가 누구에게 가치가 있는지를 중심으로 진행된다. 각 단계에 영향을 미치는 기타 요소에는 데이터 개인 정보 보호, 데이터 보안 및 데이터 규정 준수가 있다.

 

1. Generate & Collect (생성 및 수집)

 

데이터를 생성하고 수집한다. 정형 및 비정형 데이터는 사용자, 장치, 애플리케이션, 기계, IoT 장치 및 기타 방법에 의해 지속적으로 생성되고 있다. 데이터를 캡처(capture)하는 방법은 데이터가 생성되는 방식과 데이터 및 애플리케이션 유형에 따라 달라진다.

생성된 모든 데이터가 수집되지 않는 경우도 있다. 예를 들어, 기계 데이터는 엄청난 양의 센서 데이터를 생성하지만, 어떠한 목적을 위해 비정상적인 데이터만 수집하기도 한다.

 

2. Store & Manage (저장 및 관리)

데이터를 저장하고 관리한다. 데이터의 무결성을 보장하려면 데이터를 안정적인 환경에 저장하고 적절히 유지 관리해야 한다. 이 단계에서 데이터는 일반적으로 암호화, 압축, 정리(cleansed) 또는 변환과 같은 방식으로 처리된다. 또한 이 단계에서는 가용성과 안정성을 보장하고 이중화 및 재해 복구를 구현하는 시스템이 마련되어 있는지 확인한다.

 

생성된 데이터는 데이터의 특성에 따라 다양한 스토리지에 저장된다. 데이터는 재무, 마케팅, 고객 관계 관리 등과 같은 비즈니스 요구 사항에 맞게 추가로 처리(processed)될 수 있다.

이 단계에서 데이터의 수명과 비즈니스 프로세스와의 관련성에 따라 hot, warm 또는 cold로 분류된다.

 

3. Use & Share (사용 및 공유)

데이터를 사용하고 공유한다. 데이터는 인증된 사용자가 일상적인 작업을 수행하는 데 필요에 맞게 작업할 수 있는 경우에만 가치가 있다. 이 단계에서 사용자는 필요에 따라 데이터에 액세스하고 수정하며 협업, 비즈니스 인텔리전스, 고급 분석(advanced analytics) 또는 시각화 등의 데이터 관련 작업을 수행한다. 또한 데이터 사용으로 인해 추가 데이터가 생성될 수 있으며, 이 데이터는 저장된 후 추가적으로 처리되어야 한다. 사실상, 이 단계는 인증된 사용자가 원하는 작업을 수행할 수 있게 하는 것이다.

 

4. Archive (보관)

데이터를 보관한다. 어느 시점에서는 조직의 일상적인 애플리케이션 및 워크플로우를 지원하기 위해 데이터가 더 이상 필요하지 않다. 이 경우 데이터를 안전한 장기 스토리지 시스템에 아카이브할 수 있다. 데이터는 현재는 필요하지 않지만 추후 규정 준수, 분석, 보고 또는 기타 목적을 위해 필요할 수 있다. 즉, 이 데이터는 일상적인 운영에는 필요하지 않지만 가용성을 유지해야 하고 활성(active) 데이터와 마찬가지로 잘 보호되어야 한다.(fully protected)

 

5. Destroy (파기)

데이터를 파기한다. 데이터의 수명이 다하면 영구적으로 삭제할 수 있지만 해당 데이터의 보호 규정을 위반하지 않고 안전하게 삭제해야 한다.

 

https://www.plutora.com/blog/data-lifecycle-management

 

모든 DLM 단계가 위 그림처럼 엄격하게 linear한 것은 아니다. 앞서 말한 것처럼 3번째 use&share 단계에서 추가 데이터가 생성될 수 있다.

실제로 처음 세 단계는 (creation, storage, use) 종종 동시에 발생하며, 데이터는 지속적으로 생성, 수집, 저장, 관리되고 인가된 사용자에 의해 사용될 수 있다.

 

 

* 데이터 거버넌스?

데이터 거버넌스란 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업을 가리킨다.

여기에는 사람이 취해야 하는 조치, 따라야 하는 프로세스, 데이터의 전체 수명 주기 동안 잘 유지될 수 있게 지원하는 기술이 포함된다.

 

데이터 거버넌스는 데이터 라이프사이클(데이터 수집, 저장, 처리, 폐기)에 적용되는 내부 표준(데이터 정책)을 설정하는 것을 의미한다. 이를 통해 누가 어떤 종류의 데이터에 액세스할 수 있고, 어떤 종류의 데이터가 거버넌스 대상인지를 제어한다. 업계 협회, 정부 기관, 기타 이해 관계자가 설정한 외부 표준을 준수하는 것도 데이터 거버넌스에 포함된다.

 

* 데이터 거버넌스의 이점?

- 비용 관리 개선

데이터는 리소스를 보다 효과적으로 관리하는 데 도움이 된다. 정보 고립으로 인한 데이터 중복을 제거할 수 있기 때문에 많은 비용이 드는 하드웨어를 과도하게 구입하거나 유지보수할 필요가 없다.

- 보다 쉬운 위험 관리
강력한 거버넌스를 통해 적절한 권한이 없는 개인 또는 시스템에 민감한 정보가 노출되거나, 악의적인 외부인이 보안을 침해하거나, 내부인이 볼 권한이 없는 데이터에 액세스할 우려를 완화할 수 있다. 

 

 

 

 

 

References

https://stealthbits.com/blog/what-is-data-lifecycle-management/

https://www.techtarget.com/searchstorage/definition/data-life-cycle-management

https://cloud.google.com/learn/what-is-data-governance?hl=ko

 

반응형

댓글