Analityka i Data Science – biznes oparty na danych
Analityka – który sposób zarządzania danymi będzie najlepszy?
4 minPOZOSTAŁO

Analityka – który sposób zarządzania danymi będzie najlepszy?

Dane rosną w ekspresowym tempie. Szybciej niż jesteśmy w stanie to pojąć. Jest wielu, którzy szacują tempo tego ogromnego wzrostu – Forbes podsumowuje prognozę IDC, pisząc o produkcji aż 180 zetabajtów danych (lub 180 bilionów gigabajtów) w 2025 roku. Dla porównania, w 2015 roku zostało stworzonych mniej niż 10 zetabajtów. Świat zmienia się tak szybko, że w ciągu najbliższych pięciu lat te szacunki mogą się zmienić i przewidywać jeszcze bardziej stromą krzywą wzrostu ilości danych. 

Analityka i Data Science – biznes oparty na danych

Dlatego szukamy nowych sposobów przechowywania, analizowania i wykorzystywania danych. Nie ma wątpliwości – dane są złotem, trzeba tylko znaleźć odpowiednie narzędzia do ich wydobycia.

Jeziora czy domy?

Istnieją dwa, zupełnie różne podejścia do panowania nad danymi w organizacji. Jednym z nich jest budowa Hurtowni Danych (eng. Data Warehouse) – systemu do raportowania i analiz, tworzonego w sposób systemowy, ze zdefiniowanymi z góry regułami. Drugie to utrzymywanie Jeziora Danych (eng. Data Lake) – repozytorium danych, w którym nie ma prawie żadnych zdefiniowanych z góry reguł.

Jak można sobie wyobrazić, oba rozwiązania mają swoje plusy i minusy. Hurtownia Danych jest łatwiejsza w zarządzaniu i łatwiejsza w użyciu. Ale jej budowa zajmuje dużo czasu, a wymagania zmieniają się w trakcie. Może się zdarzyć, że po zbudowaniu Hurtowni Danych stanie się ona już przestarzała. A to jest bardzo kosztowne, trzeba zainwestować w zaawansowaną technologię przechowywania danych, która staje się jeszcze bardziej kosztowna, gdy trzeba ją uaktualnić.

Jezioro Danych to repozytorium wszelkiego rodzaju danych – ustrukturyzowanych, półstrukturalnych i nieustrukturyzowanych, przechowywanych „tak, jak jest”, wraz z metadanymi, w bardzo surowy, natywny sposób, w technologii rozproszonej – Hadoop. Daje ona znacznie lepsze możliwości analizy, jest szybka w konfiguracji, tańsza i bardzo elastyczna w użyciu. Jednak, jeśli nie jest odpowiednio zarządzana, może skończyć się utrzymywaniem Data Swamp (z ang. Bagna) – repozytorium pełnego śmieci z długim czasem odpowiedzi.

Jezioro Danych może być bardzo produktywną metodą obsługi Big Data, jeśli tylko zostanie dobrze wykonana. Punktem wyjścia jest tutaj Big Data Governance. Należy sformułować zasady związane z optymalizacją, ochroną prywatności i monetyzacją przechowywanych danych. Polityka Big Data Governance musi być dostosowana do celów wielu funkcji, którym dane mają służyć w organizacji. Jedną z bardzo ważnych części Data Governance jest wdrożenie Data Lineage – śledzenie cyklu życia danych, ich pochodzenia i przetwarzania, wszystko w oparciu o meta-dane.

Jezioro Danych – czyste wody bez zanieczyszczeń

Jezioro Danych może być bardzo produktywną metodą obsługi Big Data, jeśli tylko zostanie dobrze wykonana. Punktem wyjścia jest tutaj Big Data Governance. Należy sformułować zasady związane z optymalizacją, ochroną prywatności i monetyzacją przechowywanych danych. Polityka Big Data Governance musi być dostosowana do celów wielu funkcji, którym dane mają służyć w organizacji. Jedną z bardzo ważnych części Data Governance jest wdrożenie Data Lineage – śledzenie cyklu życia danych, ich pochodzenia i przetwarzania, wszystko w oparciu o meta-dane.  

Niektóre organizacje, w tym TUATARA, dostrzegają ogromną wartość w tworzeniu Centrum Kompetencyjnego Big Data – wyspecjalizowanych pracowników, którzy działają jako rzecznicy użytkowników danych i przede wszystkim dbają o to, aby zasady Data Governance były przestrzegane.  

Te dwa elementy – Big Data Governance z Data Lineage oraz Big Data Competence Center sprawią, że wody Twojego Data Lake będą czyste i przyjemne w użyciu. 

Dopasowane do potrzeb

Co więc jest lepsze: Jeziora Danych czy Hurtownie Danych? Nie ma prostej odpowiedzi na to pytanie. W nowoczesnych organizacjach jest miejsce dla obu rozwiązań. Najważniejszym czynnikiem decydującym o podejściu do zarządzania Big Data powinien być cel biznesowy przetwarzania danych. Jeśli potrzebujesz raportowania do giełdy – prawdopodobnie powinieneś zdecydować się na Hurtownię Danych dla tej części działalności. Jeśli jednak szukasz większych wartości z lepszego zrozumienia swoich klientów poprzez otrzymywanie wiedzy z różnych źródeł lub odkrywanie relacji pomiędzy klientami, prawdopodobnie powinieneś wykorzystać Data Lake. 

Pomożemy określić Twoje potrzeby w zakresie Big Data i zaproponować odpowiednie podejście, dopasowane do Twoich potrzeb, najlepiej optymalizujące efekt końcowy. 

Spodobało Ci się?