Zwinna_analiza_danych_Apache_Hadoop_dla_kazdego_zwiand.pdf

(1648 KB) Pobierz
Tytuł oryginału: Agile Data Science: Building Data Analytics Applications with Hadoop
Tłumaczenie: Przemysław Szeremiota
ISBN: 978-83-246-9944-5
© 2015 Helion S.A.
Authorized Polish translation of the English edition of Agile Data Science, ISBN
9781449326265 © 2014 Data Syndrome LLC.
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or
controls all rights to publish and sell the same.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by
any means, electronic or mechanical, including photocopying, recording or by any
information storage retrieval system, without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu
niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą
kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym,
magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź
towarowymi ich właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce
informacje były kompletne i rzetelne. Nie bierze jednak żadnej odpowiedzialności ani za ich
wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub
autorskich. Wydawnictwo HELION nie ponosi również żadnej odpowiedzialności za
ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog siążek)
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
ftp://ftp.helion.pl/przyklady/zwiand.zip
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/zwiand
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis tre ci
Wst p ............................................................................................... 7
Cz
I
Przygotowanie ........................................................ 11
13
15
16
18
18
22
24
24
25
26
26
26
29
30
30
31
31
37
38
39
40
3
1. Teoria ............................................................................................. 13
Agile w Big Data
Wielkie s owa
Zespo y
Rozpoznawanie problemów i szans
Adaptowanie do zmian
Proces wytwórczy w zwinnym Big Data
Programowanie w parach i przegl d kodu
rodowisko zwinnej pracy a produktywno
Przestrze wspó pracy
Przestrze prywatna
Przestrze osobista
Pomys y na wielkoformatowych wydrukach
E-mail
Praca z surowymi danymi
Surowe wiadomo ci e-mail
Dane ustrukturyzowane a dane na wpó ustrukturyzowane
SQL
NoSQL
Serializacja
Wyodr bnianie i ujawnianie cech w ewoluuj cym schemacie
Potoki danych
2. Dane ...............................................................................................29
Kup książkę
Poleć książkę
Perspektywy danych
Sieci
Szeregi czasowe
J zyk naturalny
Prawdopodobie stwo
Podsumowanie
Skalowalno = prostota
Zwinne przetwarzanie w Big Data
Konfigurowanie wirtualnego rodowiska dla j zyka Python
Serializacja zdarze przez Avro
Avro w Pythonie
Zbieranie danych
Przetwarzanie danych w Pigu
Instalacja
Publikowanie danych w MongoDB
Instalacja
Instalowanie sterownika MongoDB dla Javy
Instalowanie cznika mongo-hadoop
Wypychanie danych z Piga do MongoDB
Wyszukiwarka ElasticSearch
Instalacja
ElasticSearch i Pig — Wonderdog
Refleksja o kszta cie potoku przetwarzaj cego
Lekkie aplikacje WWW
Python i Flask
Prezentacja danych
Instalacja
Bootstrap na start
Wizualizacja danych: D3.js i nvd3.js
Podsumowanie
Wprowadzenie
GitHub
DotCloud
Pierwszy krok w dotCloud
Procesy robocze w Pythonie
40
41
44
44
45
48
49
50
52
52
53
55
58
58
62
62
63
63
63
66
66
66
69
70
70
72
73
73
78
78
81
83
84
85
87
3. Narz dzia zwinno ci .....................................................................49
4. Do chmury! ..................................................................................... 81
4
Spis tre ci
Kup książkę
Poleć książkę
Amazon Web Services
Simple Storage Service
Elastic MapReduce
MongoDB w wydaniu us ugowym
Monitorowanie
Google Analytics
Mortar Data
87
88
89
94
97
97
98
Cz
II W gór piramidy ....................................................101
Monta ko cowy
Pobieranie i serializowanie zawarto ci skrzynki pocztowej
Przetwarzanie i publikowanie wiadomo ci e-mail
Prezentowanie wiadomo ci w przegl darce
Serwowanie wiadomo ci przez Flask i pymongo
Renderowanie strony HTML5 z szablonów Jinja2
Kontrola zwinno ci
Listy wiadomo ci
Generowanie list wiadomo ci w MongoDB
Anatomia prezentacji
Przeszukiwanie wiadomo ci e-mail
Indeksowanie wiadomo ci — Pig, ElasticSearch i Wonderdog
Wyszukiwanie wiadomo ci z poziomu aplikacji WWW
Podsumowanie
Dobre wykresy
Wyodr bnianie encji: adresy e-mail
Wyodr bnianie adresów
Wizualizacja w przekroju czasowym
Podsumowanie
Budowanie raportów z wieloma wykresami
czenie rekordów
Ekstrakcja s ów z wiadomo ci — TF-IDF
Podsumowanie
106
107
108
110
110
111
115
116
116
119
124
124
125
126
130
130
131
135
141
144
147
152
158
5. Zbieranie i wy wietlanie rekordów ............................................ 105
6. Wizualizacja danych na wykresach ............................................ 129
7. Eksplorowanie danych w raportach ........................................... 143
Spis tre ci
5
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin