Data Lake to system przechowywania ogromnych ilości danych nieustrukturyzowanych i strukturyzowanych, przechowywanych w formie, w jakiej się znajdują, bez określonego celu, który można zbudować na wielu technologiach, takich jak Hadoop, NoSQL, Amazon Simple Storage Service, baza danych relacyjna lub różne kombinacje i różne formaty (np. Excel, CSV, tekst, dzienniki itp.).
Według Hortonworks Data Lake Whitepaper, Data Lake powstało, ponieważ nowe typy danych potrzebowały zostać zdobyte i wykorzystane przez przedsiębiorstwo. W miarę jak te dane stawały się coraz bardziej dostępne, pierwsi użytkownicy odkryli, że mogą uzyskać wgląd poprzez nowe aplikacje zbudowane w celu obsługi biznesu. Data Lake obsługuje następujące zdolności:
- Zbieranie i przechowywanie surowych danych w skali za niską cenę
- Przechowywanie wielu typów danych w tym samym repozytorium
- Wykonywanie transformacji danych na danych, której cel może nie być zdefiniowany
- Wykonywanie nowych rodzajów przetwarzania danych
- Wykonywanie analiz jedno-tematycznych opartych na konkretnych przypadkach użycia