Python_Podstawy_nauki_o_danych_Wydanie_II_pypod2.pdf

(1148 KB) Pobierz
Tytuł oryginału: Python Data Science Essentials, Second Edition
Tłumaczenie: Tomasz Walczak
ISBN: 978-83-283-3423-6
Copyright © Packt Publishing 2016
First published in the English language under the title
‘Python Data Science Essentials – Second Edition – (9781786462138)’
Polish edition copyright © 2017 by Helion SA. All rights reserved.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były
kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane
z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie
ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji
zawartych w książce.
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/pypod2
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis tre ci
O autorach
O recenzencie
Wprowadzenie
Rozdzia 1. Pierwsze kroki
Wprowadzenie do nauki o danych i Pythona
Instalowanie Pythona
Python 2 czy Python 3?
Instalacja krok po kroku
Instalowanie pakietów
Aktualizowanie pakietów
Dystrybucje naukowe
rodowiska wirtualne
Krótki przegl d podstawowych pakietów
Wprowadzenie do rodowiska Jupyter
Szybka instalacja i pierwsze testowe zastosowanie
Magiczne polecenia w Jupyterze
W jaki sposób notatniki Jupytera mog by pomocne dla badaczy danych?
Zast pniki Jupytera
Zbiory danych i kod u ywane w ksi ce
Proste przyk adowe zbiory danych z pakietu scikit-learn
Podsumowanie
9
10
11
15
16
17
18
19
20
22
22
25
28
37
41
42
44
49
50
50
59
Kup książkę
Poleć książkę
Spis tre ci
Rozdzia 2. Przekszta canie danych
Proces pracy w nauce o danych
Wczytywanie i wst pne przetwarzanie danych za pomoc biblioteki pandas
Szybkie i atwe wczytywanie danych
Radzenie sobie z problematycznymi danymi
Radzenie sobie z du ymi zbiorami danych
Dost p do danych w innych formatach
Wst pne przetwarzanie danych
Wybieranie danych
Praca z danymi kategorialnymi i tekstowymi
Specjalny rodzaj danych — tekst
Scraping stron internetowych za pomoc pakietu Beautiful Soup
Przetwarzanie danych za pomoc pakietu NumPy
N-wymiarowe tablice z pakietu NumPy
Podstawowe informacje o obiektach ndarray z pakietu NumPy
Tworzenie tablic z pakietu NumPy
Przekszta canie list w jednowymiarowe tablice
Kontrolowanie ilo ci zajmowanej pami ci
Listy niejednorodne
Od list do tablic wielowymiarowych
Zmiana wielko ci tablic
Tablice generowane przez funkcje z pakietu NumPy
Pobieranie tablicy bezpo rednio z pliku
Pobieranie danych ze struktur z biblioteki pandas
Szybkie operacje i obliczenia z u yciem pakietu NumPy
Operacje na macierzach
Tworzenie wycinków i indeksowanie tablic z pakietu NumPy
Dodawanie „warstw” tablic z pakietu NumPy
Podsumowanie
61
62
64
64
67
70
73
75
78
81
83
89
92
92
93
95
95
96
98
99
100
101
102
103
104
106
108
110
112
Rozdzia 3. Potok danych
Wprowadzenie do eksploracji danych
Tworzenie nowych cech
Redukcja liczby wymiarów
Macierz kowariancji
Analiza g ównych sk adowych
Analiza g ównych sk adowych dla big data — typ RandomizedPCA
Analiza czynników ukrytych
Liniowa analiza dyskryminacyjna
Analiza ukrytych grup semantycznych
Analiza sk adowych niezale nych
Analiza g ównych sk adowych oparta na funkcji j dra
Algorytm t-SNE
Ograniczone maszyny Boltzmanna
113
113
117
120
120
121
125
126
127
128
129
129
131
132
4
Kup książkę
Poleć książkę
Spis tre ci
Wykrywanie i traktowanie warto ci odstaj cych
Wykrywanie obserwacji odstaj cych za pomoc technik jednoczynnikowych
Klasa EllipticEnvelope
Klasa OneClassSVM
Miary u ywane do walidacji
Klasyfikacja wieloklasowa
Klasyfikacja binarna
Regresja
Testy i walidacja
Walidacja krzy owa
Iteratory walidacji krzy owej
Próbkowanie i bootstrapping
Optymalizacja hiperparametrów
Tworzenie niestandardowych funkcji oceny
Skracanie czasu przeszukiwania siatki parametrów
Wybór cech
Wybór na podstawie wariancji cech
Wybór za pomoc modelu jednoczynnikowego
Rekurencyjna eliminacja
Wybór na podstawie stabilno ci i regularyzacji L1
Opakowywanie wszystkich operacji w potok
czenie cech i tworzenie a cuchów transformacji
Tworzenie niestandardowych funkcji transformacji
Podsumowanie
133
134
136
140
144
144
147
148
148
153
155
157
159
162
164
166
167
168
169
171
173
174
176
177
Rozdzia 4. Uczenie maszynowe
Przygotowywanie narz dzi i zbiorów danych
Regresja liniowa i logistyczna
Naiwny klasyfikator bayesowski
Algorytm kNN
Algorytmy nieliniowe
Stosowanie algorytmu SVM do klasyfikowania
Stosowanie algorytmów SVM do regresji
Dostrajanie algorytmu SVM
Strategie oparte na zestawach algorytmów
Pasting z u yciem losowych próbek
Bagging z u yciem s abych klasyfikatorów
Podprzestrzenie losowe i obszary losowe
Algorytmy Random Forests i Extra-Trees
Szacowanie prawdopodobie stwa na podstawie zestawów
Sekwencje modeli — AdaBoost
Metoda GTB
XGBoost
179
179
181
184
187
188
190
192
193
195
196
196
197
198
200
202
202
203
5
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin