Data Lake

Data Lake to system przechowywania ogromnych ilości danych nieustrukturyzowanych i strukturyzowanych, przechowywanych w formie, w jakiej się znajdują, bez określonego celu, który można zbudować na wielu technologiach, takich jak Hadoop, NoSQL, Amazon Simple Storage Service, baza danych relacyjna lub różne kombinacje i różne formaty (np. Excel, CSV, tekst, dzienniki itp.).

Według Hortonworks Data Lake Whitepaper, Data Lake powstało, ponieważ nowe typy danych potrzebowały zostać zdobyte i wykorzystane przez przedsiębiorstwo. W miarę jak te dane stawały się coraz bardziej dostępne, pierwsi użytkownicy odkryli, że mogą uzyskać wgląd poprzez nowe aplikacje zbudowane w celu obsługi biznesu. Data Lake obsługuje następujące zdolności:

Zbieranie i przechowywanie surowych danych w skali za niską cenę
Przechowywanie wielu typów danych w tym samym repozytorium
Wykonywanie transformacji danych na danych, której cel może nie być zdefiniowany
Wykonywanie nowych rodzajów przetwarzania danych
Wykonywanie analiz jedno-tematycznych opartych na konkretnych przypadkach użycia

Quartz 4

Explorer

Data Lake

Graph View