Data Warehouse Semantyczny łączy w sobie najlepsze praktyki wyznawane przez Bill Inmon dla solidnego, skalowalnego projektowania magazynu danych zbudowanego dla chmury jako abstrakcję Data Stack z Modelowanie Danych w jego rdzeniu.
Ilustracja Data Warehouse Semantycznego według Chad Sanderson na LinkedIn
Chad Sanders wprowadził po raz pierwszy ten termin w tym poście na LinkedIn. Niektóre charakterystyczne cechy:
- Dane jako produkt i przechwytywanie świata naturalnego poprzez zdarzenia zamiast przetwarzania wsadowego za pomocą jasno zdefiniowanego schematu
- Kontrakt Danych jako podstawa wprowadzenia umów do jego podstawowych tabel źródłowych.
- Współpraca i modelowanie danych w oparciu o przeglądy rówieśników.
- Skoncentrowane na miarach z Warstwą Logiczną umożliwia wspólne modelowanie danych między biznesem a (danymi) inżynierami oraz abstrahuje złożoność stosu danych.
- Wbudowane bodźce dzięki semantyce i modelowaniu są wymagane, aby generować dobre Produkty Danych.
Data Warehouse Semantyczny próbuje rozwiązać następujące problemy:
- Nowoczesny Stos Danych (MDS) to zestaw dobrych narzędzi do budowy rzeczy, ale nie pomagają one zapewnić, że to, co jest budowane, jest wysokiej jakości.
- Większość architektur danych i fundamentów danych nie jest skalowalna. Pierwsza wersja infrastruktury danych (zazwyczaj ustawiana przez inżynierów lub początkujących deweloperów danych) nigdy nie jest refaktoryzowana, ponieważ jest to trudne do zrobienia.
- Producentów nie obowiązuje (chociaż powinno) jakość danych. Inżynierowie danych nie powinni być pośrednikami w konflikcie między konsumentami.
- Brak semantyki i kontekstu. Deweloperzy danych spędzają dni lub tygodnie, próbując zrozumieć, jakie dane mamy, co oznaczają, jak się odnoszą do usług i czy dane można ufać.
- Modelowanie danych nie było obywatelem pierwszej klasy. Modelowanie było trudne do zrealizowania (z powodu #4) i w niektórych przypadkach niemożliwe ze względu na brak danych.
- Nasz Data Warehouse nie odzwierciedlał rzeczywistego świata. Zamiast tego był składnikiem do produkcji usług i interfejsów API stron trzecich.
- Brak interoperacyjności z powodu narzędzi, które nie “mówią tym samym językiem”. Mamy wiele produktów, z których każdy wymaga swojego środowiska modelowania i braku wspólnego zrozumienia pojęć biznesowych.
- Zarządzanie Danymi jest istotne, ale firmy go odrzucają, jeśli staje się przeszkodą. Nie możemy skalować naszego zespołu danych poprzez złożoność.
Zobacz również Warstwa Semantyczna i Kontrakt Danych.