독서
-
데이터 마트 구축의 파이프라인 1. 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. 다수의 텍스트 파일을 읽어 들여 가공하는 부하가 큰 처리가 되기 때문에 Hive를 이용한다. 2. 완성된 구조화 데이터를 결합, 집계하고 비정규화 테이블로 데이터 마트에 써서 내보낸다. 열 지향 스토리지를 이용한 쿼리 실행에는 Presto를 사용함으로써 실행 시간을 단축할 수 있다. Hive에서 만든 각 테이블의 정보는 Hive 메타 스토어라고 불리는 특별한 데이터베이스에 저장된다. Hive에 의한 구조화 데이터 작성 csv 파일을 읽어 들인다고 가정한다. 그러나 csv 파일을 그대로 집계하는 것은 비효율적이므로 열 지향 스토리지로 변환한다. 열 지향 형식 스토리지 형식인 ORC 형식으로 ..
[빅데이터를 지탱하는 기술] 3.빅데이터의 분산처리-쿼리 엔진데이터 마트 구축의 파이프라인 1. 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. 다수의 텍스트 파일을 읽어 들여 가공하는 부하가 큰 처리가 되기 때문에 Hive를 이용한다. 2. 완성된 구조화 데이터를 결합, 집계하고 비정규화 테이블로 데이터 마트에 써서 내보낸다. 열 지향 스토리지를 이용한 쿼리 실행에는 Presto를 사용함으로써 실행 시간을 단축할 수 있다. Hive에서 만든 각 테이블의 정보는 Hive 메타 스토어라고 불리는 특별한 데이터베이스에 저장된다. Hive에 의한 구조화 데이터 작성 csv 파일을 읽어 들인다고 가정한다. 그러나 csv 파일을 그대로 집계하는 것은 비효율적이므로 열 지향 스토리지로 변환한다. 열 지향 형식 스토리지 형식인 ORC 형식으로 ..
2022.04.29 -
다수의 컴퓨터에서 데이터 분산 처리를 위해서는 그 실행을 관리하기 위한 프레임워크가 필요하다. 구조화 데이터와 비구조화 데이터 기존의 데이터 웨어하우스에서는 데이터는 항상 구조화된 데이터로 축적하는 것이 일반적이다. 스키마가 명확하게 정의된 데이터를 구조화된 데이터라고 한다. 빅데이터의 경우에는 구조화된 데이터 뿐만 아니라 텍스트,이미지 등의 스키마가 없는 비구조화 데이터도 존재한다. 이런 비구조화 데이터를 분산 스토리지 등에 저장하고 그것을 분산 시스템에서 처리하는 것이 데이터 레이크의 개념이다. 데이터 구조화의 파이프라인 데이터 소스에서 수집된 비구조화 데이터, 스키마리스 데이터는 분산 스토리지에 보존된다. 분산 스토리지에 수집된 데이터는 명확한 스키마를 갖지 않은 것도 많으므로 기존 상태로는 SQL..
[빅데이터를 지탱하는 기술] 3.빅데이터의 분산처리-대규모 분산 처리의 프레임워크다수의 컴퓨터에서 데이터 분산 처리를 위해서는 그 실행을 관리하기 위한 프레임워크가 필요하다. 구조화 데이터와 비구조화 데이터 기존의 데이터 웨어하우스에서는 데이터는 항상 구조화된 데이터로 축적하는 것이 일반적이다. 스키마가 명확하게 정의된 데이터를 구조화된 데이터라고 한다. 빅데이터의 경우에는 구조화된 데이터 뿐만 아니라 텍스트,이미지 등의 스키마가 없는 비구조화 데이터도 존재한다. 이런 비구조화 데이터를 분산 스토리지 등에 저장하고 그것을 분산 시스템에서 처리하는 것이 데이터 레이크의 개념이다. 데이터 구조화의 파이프라인 데이터 소스에서 수집된 비구조화 데이터, 스키마리스 데이터는 분산 스토리지에 보존된다. 분산 스토리지에 수집된 데이터는 명확한 스키마를 갖지 않은 것도 많으므로 기존 상태로는 SQL..
2022.04.25 -
빅데이터를 탐색하기 위한 기초 지식인 시각화에 대한 내용이다. 데이터 집계 → 데이터 마트 → 시각화 데이터 집계와 시각화 사이에 있는 것이 데이터 마트이다. 시스템 구성은 데이터 마트의 크기에 따라 결정된다. 데이터 마트가 작을수록 시각화하는 것이 간단하지만 원래 데이터에 포함된 정보를 잃어버리게 되어 시각화 프로세스에서 할 수 있는 것이 적어지고, 데이터 마트가 거대화된다면 좋은 시각화를 할 수 없는 트레이드 오프 관계에 있다. 3계층의 데이터 집계 시스템 원 데이터는 용량적인 제약이 적어서 대량의 데이터를 처리할 수 있는 데이터 레이크와 데이터 웨어하우스에 저장한다. 그리고서 원하는 데이터를 추출해 데이터 마트를 구축하고 초 단위의 응답을 얻을 수 있도록 한다. 데이터 마트에 사용되는 기술 데이터 ..
[빅데이터를 지탱하는 기술] 2.빅데이터의 탐색빅데이터를 탐색하기 위한 기초 지식인 시각화에 대한 내용이다. 데이터 집계 → 데이터 마트 → 시각화 데이터 집계와 시각화 사이에 있는 것이 데이터 마트이다. 시스템 구성은 데이터 마트의 크기에 따라 결정된다. 데이터 마트가 작을수록 시각화하는 것이 간단하지만 원래 데이터에 포함된 정보를 잃어버리게 되어 시각화 프로세스에서 할 수 있는 것이 적어지고, 데이터 마트가 거대화된다면 좋은 시각화를 할 수 없는 트레이드 오프 관계에 있다. 3계층의 데이터 집계 시스템 원 데이터는 용량적인 제약이 적어서 대량의 데이터를 처리할 수 있는 데이터 레이크와 데이터 웨어하우스에 저장한다. 그리고서 원하는 데이터를 추출해 데이터 마트를 구축하고 초 단위의 응답을 얻을 수 있도록 한다. 데이터 마트에 사용되는 기술 데이터 ..
2022.04.24 -
1-1. 빅데이터의 정착 인터넷의 보급으로 세계 곳곳으로부터 엑세스 되는 시스템이 증가함에 따라 전통적인 관계형 데이터베이스로는 취급할 수 없을 만큼 대량의 데이터가 쌓이게 되었다. 이를 해결하기 위해 Hadoop과 NoSQL이 생겨났다. Hadoop Hadoop은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 모여진 데이터를 나중에 집계하는 것이 목적 -데이터 웨어하우스 와의 공존- 전통적인 데이터 웨어하우스에는 안정적으로 데이터를 처리할 수 있지만 이를 위해 하드웨어와 소프트웨어가 통합된 장비로 제공되었다. 따라서 데이터 용량을 늘리려면 하드웨어를 교체하는 등 확장이 어렵다는 단점이 있다. 따라서 기하급수적으로 증가하는 데이터의 처리는 Hadoop에게 맡기고 비교적 작거나 중요한 데이터만을 ..
[빅데이터를 지탱하는 기술] 1.빅데이터의 기초 지식1-1. 빅데이터의 정착 인터넷의 보급으로 세계 곳곳으로부터 엑세스 되는 시스템이 증가함에 따라 전통적인 관계형 데이터베이스로는 취급할 수 없을 만큼 대량의 데이터가 쌓이게 되었다. 이를 해결하기 위해 Hadoop과 NoSQL이 생겨났다. Hadoop Hadoop은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 모여진 데이터를 나중에 집계하는 것이 목적 -데이터 웨어하우스 와의 공존- 전통적인 데이터 웨어하우스에는 안정적으로 데이터를 처리할 수 있지만 이를 위해 하드웨어와 소프트웨어가 통합된 장비로 제공되었다. 따라서 데이터 용량을 늘리려면 하드웨어를 교체하는 등 확장이 어렵다는 단점이 있다. 따라서 기하급수적으로 증가하는 데이터의 처리는 Hadoop에게 맡기고 비교적 작거나 중요한 데이터만을 ..
2022.04.22