Dlatego szukamy nowych sposobów przechowywania, analizowania i wykorzystywania danych. Nie ma wątpliwości – dane są złotem, trzeba tylko znaleźć odpowiednie narzędzia do ich wydobycia.
Jeziora czy domy?
Istnieją dwa, zupełnie różne podejścia do panowania nad danymi w organizacji. Jednym z nich jest budowa Hurtowni Danych (eng. Data Warehouse) – systemu do raportowania i analiz, tworzonego w sposób systemowy, ze zdefiniowanymi z góry regułami. Drugie to utrzymywanie Jeziora Danych (eng. Data Lake) – repozytorium danych, w którym nie ma prawie żadnych zdefiniowanych z góry reguł.
Jak można sobie wyobrazić, oba rozwiązania mają swoje plusy i minusy. Hurtownia Danych jest łatwiejsza w zarządzaniu i łatwiejsza w użyciu. Ale jej budowa zajmuje dużo czasu, a wymagania zmieniają się w trakcie. Może się zdarzyć, że po zbudowaniu Hurtowni Danych stanie się ona już przestarzała. A to jest bardzo kosztowne, trzeba zainwestować w zaawansowaną technologię przechowywania danych, która staje się jeszcze bardziej kosztowna, gdy trzeba ją uaktualnić.
Jezioro Danych to repozytorium wszelkiego rodzaju danych – ustrukturyzowanych, półstrukturalnych i nieustrukturyzowanych, przechowywanych „tak, jak jest”, wraz z metadanymi, w bardzo surowy, natywny sposób, w technologii rozproszonej – Hadoop. Daje ona znacznie lepsze możliwości analizy, jest szybka w konfiguracji, tańsza i bardzo elastyczna w użyciu. Jednak, jeśli nie jest odpowiednio zarządzana, może skończyć się utrzymywaniem Data Swamp (z ang. Bagna) – repozytorium pełnego śmieci z długim czasem odpowiedzi.
Jezioro Danych może być bardzo produktywną metodą obsługi Big Data, jeśli tylko zostanie dobrze wykonana. Punktem wyjścia jest tutaj Big Data Governance. Należy sformułować zasady związane z optymalizacją, ochroną prywatności i monetyzacją przechowywanych danych. Polityka Big Data Governance musi być dostosowana do celów wielu funkcji, którym dane mają służyć w organizacji. Jedną z bardzo ważnych części Data Governance jest wdrożenie Data Lineage – śledzenie cyklu życia danych, ich pochodzenia i przetwarzania, wszystko w oparciu o meta-dane.
Jezioro Danych – czyste wody bez zanieczyszczeń
Jezioro Danych może być bardzo produktywną metodą obsługi Big Data, jeśli tylko zostanie dobrze wykonana. Punktem wyjścia jest tutaj Big Data Governance. Należy sformułować zasady związane z optymalizacją, ochroną prywatności i monetyzacją przechowywanych danych. Polityka Big Data Governance musi być dostosowana do celów wielu funkcji, którym dane mają służyć w organizacji. Jedną z bardzo ważnych części Data Governance jest wdrożenie Data Lineage – śledzenie cyklu życia danych, ich pochodzenia i przetwarzania, wszystko w oparciu o meta-dane.
Niektóre organizacje, w tym TUATARA, dostrzegają ogromną wartość w tworzeniu Centrum Kompetencyjnego Big Data – wyspecjalizowanych pracowników, którzy działają jako rzecznicy użytkowników danych i przede wszystkim dbają o to, aby zasady Data Governance były przestrzegane.
Te dwa elementy – Big Data Governance z Data Lineage oraz Big Data Competence Center sprawią, że wody Twojego Data Lake będą czyste i przyjemne w użyciu.
Dopasowane do potrzeb
Co więc jest lepsze: Jeziora Danych czy Hurtownie Danych? Nie ma prostej odpowiedzi na to pytanie. W nowoczesnych organizacjach jest miejsce dla obu rozwiązań. Najważniejszym czynnikiem decydującym o podejściu do zarządzania Big Data powinien być cel biznesowy przetwarzania danych. Jeśli potrzebujesz raportowania do giełdy – prawdopodobnie powinieneś zdecydować się na Hurtownię Danych dla tej części działalności. Jeśli jednak szukasz większych wartości z lepszego zrozumienia swoich klientów poprzez otrzymywanie wiedzy z różnych źródeł lub odkrywanie relacji pomiędzy klientami, prawdopodobnie powinieneś wykorzystać Data Lake.
Pomożemy określić Twoje potrzeby w zakresie Big Data i zaproponować odpowiednie podejście, dopasowane do Twoich potrzeb, najlepiej optymalizujące efekt końcowy.