Korporacyjne_jezioro_danych_Wykorzystaj_potencjal_big_data_w_swojej_organizacji_kojeda.pdf

(2658 KB) Pobierz
Tytuł oryginału: The Enterprise Big Data Lake: Delivering on the Promise of Hadoop and Data Science in
the Enterprise
Tłumaczenie: Lech Lachowski
ISBN: 978-83-283-5078-6
© 2019 Helion S.A.
Authorized Polish translation of the English edition of The Enterprise Big Data Lake
ISBN 9781491931554 © 2019 Alex Gorelik.
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all
rights to publish and sell the same.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Helion SA dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne
i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym
ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Helion SA nie ponoszą również żadnej
odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Helion SA
ul. Kościuszki 1c, 44-100 Gliwice
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/kojeda
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Wstęp ......................................................................................................................... 9
1. Wprowadzenie do jezior danych ................................................................................ 13
Dojrzewanie jeziora danych
Kałuże danych
Stawy danych
Udane tworzenie jeziora danych
Właściwa platforma
Właściwe dane
Właściwy interfejs
Bagno danych
Wskazówki dotyczące sukcesu w budowaniu jezior danych
Tworzenie jeziora danych
Organizowanie jeziora danych
Konfiguracja jeziora danych pod kątem samoobsługi
Architektury jeziora danych
Jeziora danych w chmurze publicznej
Logiczne jeziora danych
Podsumowanie
15
17
17
18
18
19
20
22
23
24
24
26
30
31
31
34
2. Perspektywa historyczna ........................................................................................... 37
Dysk do danych samoobsługowych — narodziny baz danych
Imperatyw analityczny — narodziny hurtowni danych
Ekosystem hurtowni danych
Przechowywanie i kwerendowanie danych
Ładowanie danych — narzędzia do integracji danych
Organizowanie danych i zarządzanie nimi
Konsumowanie danych
Podsumowanie
37
40
41
42
47
50
55
56
5
Kup książkę
Poleć książkę
3. Wprowadzenie do big data i nauki o danych .............................................................. 57
Hadoop przewodzi historycznemu przejściu na big data
System plików Hadoop
Współdziałanie przetwarzania i przechowywania w zadaniu MapReduce
Schemat odczytu
Projekty Hadoop
Nauka o danych
Uczenie maszynowe
Zdolność wyjaśnienia
Zarządzanie zmianami
Podsumowanie
57
58
59
60
61
62
66
67
68
69
4. Budowanie jeziora danych ......................................................................................... 71
Co to jest Hadoop i dlaczego z niego korzystamy?
Zapobieganie rozprzestrzenianiu się kałuż danych
Wykorzystanie big data
Nauka o danych jako główny czynnik
Strategia 1. — przeniesienie istniejącej funkcjonalności
Strategia 2. — jeziora danych dla nowych projektów
Strategia 3. — ustanowienie centralnego punktu zarządzania
Który sposób jest odpowiedni dla Ciebie?
Podsumowanie
71
74
74
75
77
79
79
80
82
5. Od stawów danych, czyli hurtowni danych big data, do jezior danych ......................... 83
Podstawowe funkcje hurtowni danych
Modelowanie wymiarowe dla analityki
Integrowanie danych z różnych źródeł
Zachowywanie historii za pomocą powoli zmieniających się wymiarów
Ograniczenia hurtowni danych jako repozytorium historycznego
Przejście do stawu danych
Utrzymywanie historii w stawie danych
Wdrażanie powoli zmieniających się wymiarów w stawie danych
Rozrastanie się stawów danych w jeziora danych
— ładowanie danych, które nie znajdują się w hurtowni danych
Surowe dane
Dane zewnętrzne
Internet rzeczy (IoT) i inne dane strumieniowe
Architektura Lambda
Transformacje danych
84
85
86
86
86
87
87
88
90
91
91
94
94
97
6
Spis treści
Poleć książkę
Kup książkę
Systemy docelowe
Hurtownie danych
Operacyjne magazyny danych
Aplikacje czasu rzeczywistego i produkty oparte na danych
Podsumowanie
99
100
100
100
101
6. Optymalizacja pod kątem samoobsługi .....................................................................103
Początki samoobsługi
Analitycy biznesowi
Znajdowanie i zrozumienie danych — dokumentowanie przedsiębiorstwa
Budowanie zaufania
Dostarczanie
Przygotowanie danych do analizy
Przygotowywanie danych w jeziorze danych
Umiejscowienie przygotowywania danych w Hadoop
Powszechne przypadki użycia dla przygotowywania danych
Analiza i wizualizacja
Podsumowanie
103
105
106
109
115
116
117
118
119
120
123
7. Architektura jeziora danych ......................................................................................125
Organizacja jeziora danych
Strefa lądowania lub surowa
Strefa złota
Strefa robocza
Strefa wrażliwa
Wiele jezior danych
Zalety utrzymywania osobnych jezior danych
Zalety scalania jezior danych
Jeziora danych w chmurze
Wirtualne jeziora danych
Federacja danych
Wirtualizacja big data
Eliminacja redundancji
Podsumowanie
125
126
127
129
129
131
131
131
132
135
135
136
137
139
8. Katalogowanie jeziora danych ..................................................................................141
Organizowanie danych
Metadane techniczne
Metadane biznesowe
Znakowanie
Automatyczne katalogowanie
141
142
146
148
149
Spis treści
Kup książkę
7
Poleć książkę
Zgłoś jeśli naruszono regulamin