Data Lake to system przechowywania ogromnych ilości danych nieustrukturyzowanych i strukturyzowanych, przechowywanych w formie, w jakiej się znajdują, bez określonego celu, który można zbudować na wielu technologiach, takich jak Hadoop, NoSQL, Amazon Simple Storage Service, baza danych relacyjna lub różne kombinacje i różne formaty (np. Excel, CSV, tekst, dzienniki itp.).

Według Hortonworks Data Lake Whitepaper, Data Lake powstało, ponieważ nowe typy danych potrzebowały zostać zdobyte i wykorzystane przez przedsiębiorstwo. W miarę jak te dane stawały się coraz bardziej dostępne, pierwsi użytkownicy odkryli, że mogą uzyskać wgląd poprzez nowe aplikacje zbudowane w celu obsługi biznesu. Data Lake obsługuje następujące zdolności:

  • Zbieranie i przechowywanie surowych danych w skali za niską cenę
  • Przechowywanie wielu typów danych w tym samym repozytorium
  • Wykonywanie transformacji danych na danych, której cel może nie być zdefiniowany
  • Wykonywanie nowych rodzajów przetwarzania danych
  • Wykonywanie analiz jedno-tematycznych opartych na konkretnych przypadkach użycia