거의 실시간 가용성으로 스트리밍 입력
데이터 분석의 일반적인 문제는 새로운 데이터가 빠르고 지속적으로 도착하고 동일한 데이터를 거의 실시간으로 읽기, 스캔 및 업데이트 할 수 있어야하는 문제입니다. Kudu는 효율적인 컬럼 스캔과 함께 빠른 삽입 및 업데이트의 강력한 조합을 제공하여 단일 스토리지 계층에서 실시간 분석 사용 사례를 가능하게합니다.
매우 다양한 액세스 패턴을 가진 시계열 애플리케이션
시계열 스키마는 데이터 포인트가 발생한 시간에 따라 구성되고 키가 지정되는 스키마입니다. 이는 시간 경과에 따른 메트릭의 성능을 조사하거나 과거 데이터를 기반으로 미래의 행동을 예측하는 데 유용 할 수 있습니다. 예를 들어, 시계열 고객 데이터는 구매 클릭 스트림 기록을 저장하고 향후 구매를 예측하거나 고객 지원 담당자가 사용하는 데 모두 사용될 수 있습니다. 이러한 다양한 유형의 분석이 발생하는 동안 삽입 및 돌연변이도 개별적으로 대량으로 발생하고 워크로드를 읽는 데 즉시 사용할 수 있습니다. Kudu는 확장 가능하고 효율적인 방식으로 이러한 모든 액세스 패턴을 동시에 처리 할 수 있습니다.
Kudu는 여러 가지 이유로 시계열 워크로드에 적합합니다. Kudu의 해시 기반 분할 지원과 복합 행 키에 대한 기본 지원이 결합되어 범위 분할이 사용될 때 일반적으로 관찰되는 "핫스팟"위험없이 여러 서버에 분산 된 테이블을 설정하는 것이 간단합니다. 많은 시계열 워크로드가 전체 행이 아닌 몇 개의 열만 읽기 때문에 Kudu의 컬럼 형 스토리지 엔진도이 맥락에서 유용합니다.
과거에는 다양한 데이터 액세스 패턴을 처리하기 위해 여러 데이터 저장소를 사용해야했습니다. 이 방법은 애플리케이션과 운영에 복잡성을 더하고 데이터를 복제하여 필요한 스토리지 양을 두 배 (또는 더 나쁘게) 증가시킵니다. Kudu는 작업을 다른 데이터 저장소로 오프로드 할 필요없이 이러한 모든 액세스 패턴을 기본적으로 효율적으로 처리 할 수 있습니다.
예측 모델링
데이터 과학자는 종종 대규모 데이터 세트에서 예측 학습 모델을 개발합니다. 모델과 데이터는 학습이 진행되거나 모델링되는 상황이 변경됨에 따라 자주 업데이트하거나 수정해야 할 수 있습니다. 또한 과학자는 시간이 지남에 따라 어떤 일이 발생하는지보기 위해 모델에서 하나 이상의 요인을 변경하려고 할 수 있습니다. HDFS의 파일에 저장된 대규모 데이터 세트를 업데이트하는 것은 각 파일을 완전히 다시 작성해야하므로 리소스 집약적입니다. Kudu에서는 거의 실시간으로 업데이트가 이루어집니다. 과학자는 값을 조정하고 쿼리를 다시 실행하고 그래프를 몇 시간이나 며칠이 아닌 몇 초 또는 몇 분 안에 새로 고칠 수 있습니다. 또한, 일괄 또는 증분 알고리즘은 거의 실시간 결과와 함께 언제든지 데이터에서 실행할 수 있습니다.
Kudu의 데이터를 레거시 시스템과 결합
회사는 여러 소스에서 데이터를 생성하고 다양한 시스템과 형식으로 저장합니다. 예를 들어 일부 데이터는 Kudu에, 일부는 기존 RDBMS에, 일부는 HDFS의 파일에 저장 될 수 있습니다. 기존 시스템을 변경할 필요없이 Impala를 사용하여 이러한 모든 소스 및 형식에 액세스하고 쿼리 할 수 있습니다.
'기술_Kudu' 카테고리의 다른 글
Ubuntu 또는 Debian (0) | 2022.07.05 |
---|---|
Apache Must 설치 (0) | 2022.07.05 |
개념 및 용어 (0) | 2022.07.05 |
Apache Must 소개 (0) | 2022.07.04 |
Kibana에서 모니터링 문제 해결 (0) | 2022.07.04 |