Data_Mining_Eksploracja_danych_w_sieciach_spolecznosciowych_Wydanie_III_datam3.pdf

(2396 KB) Pobierz
Tytuł oryginału: Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and
More, 3rd Edition
Tłumaczenie: Radosław Meryk
ISBN: 978-83-283-5554-5
© 2019 Helion S.A.
Authorized Polish translation of the English edition of Mining the Social Web, 3E ISBN 9781491985045 ©
2019 Matthew A. Russell and Mikhail Klassen
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all
rights to publish and sell the same.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Helion SA dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne
i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym
ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Helion SA nie ponoszą również
żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Helion SA
ul. Kościuszki 1c, 44-100 Gliwice
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
ftp://ftp.helion.pl/przyklady/datam3.zip
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/datam3
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Przedmowa .............................................................................................................. 11
Część I. Przewodnik po sieciach społecznościowych
Wstęp ....................................................................................................................... 25
1. Eksploracja Twittera: odkrywanie trendów, dowiadywanie się,
o czym się rozmawia, i trochę więcej .......................................................................... 27
1.1. Przegląd
1.2. Dlaczego Twitter to jest „to”?
1.3. Odkrywanie API Twittera
1.3.1. Podstawowa terminologia związana z Twitterem
1.3.2. Tworzenie połączenia z API Twittera
1.3.3. Odkrywanie trendów
1.3.4. Wyszukiwanie tweetów
1.4. Analiza 140 (lub więcej) znaków
1.4.1. Wyodrębnianie podmiotów z tweetów
1.4.2. Analizowanie tweetów i występujących w nich podmiotów
z wykorzystaniem analizy częstości
1.4.3. Obliczanie różnorodności leksykalnej tweetów
1.4.4. Badanie wzorców w retweetach
1.4.5. Wizualizacja danych częstości za pomocą histogramów
1.5. Uwagi końcowe
1.6. Zalecane ćwiczenia
1.7. Zasoby online
27
28
30
30
33
36
40
46
47
49
51
53
55
59
60
61
5
Kup książkę
Poleć książkę
2. Eksploracja Facebooka: analizowanie fanpage’y, znajomości i więcej .......................... 63
2.1. Przegląd
2.2. Interfejs API Graph Facebooka
2.2.1. Wprowadzenie do API Graph
2.2.2. Protokół Open Graph
2.3. Analiza połączeń grafu społecznościowego
2.3.1. Analizowanie stron Facebooka
2.3.2. Manipulowanie danymi z wykorzystaniem pakietu pandas
2.4. Uwagi końcowe
2.5. Zalecane ćwiczenia
2.6. Zasoby online
64
64
66
70
75
78
88
95
96
96
3. Eksploracja Instagrama: komputerowy wzrok, sieci neuronowe,
rozpoznawanie obiektów i wykrywanie twarzy .......................................................... 99
3.1. Przegląd
3.2. Poznawanie API Instagrama
3.2.1. Tworzenie żądań do API Instagrama
3.2.2. Odczytywanie własnego kanału na Instagramie
3.2.3. Pobieranie medium według hashtagu
3.3. Anatomia posta na Instagramie
3.4. Szybki kurs na temat sztucznych sieci neuronowych
3.4.1. Trening sieci neuronowej pod kątem „oglądania” zdjęć
3.4.2. Rozpoznawanie cyfr pisanych odręcznie
3.4.3. Rozpoznawanie obiektów na zdjęciach
przy użyciu wstępnie przeszkolonych sieci neuronowych
3.5. Wykorzystanie sieci neuronowych do postów na Instagramie
3.5.1. Oznaczanie zawartości obrazu
3.5.2. Wykrywanie twarzy na zdjęciach
3.6. Uwagi końcowe
3.7. Zalecane ćwiczenia
3.8. Zasoby online
100
101
101
103
105
105
108
109
111
116
119
119
121
122
123
124
4. Eksploracja sieci LinkedIn: stanowiska, współpracownicy i nie tylko ......................... 127
4.1. Przegląd
4.2. Poznawanie API LinkedIna
4.2.1. Tworzenie żądań do API LinkedIn
4.2.2. Pobieranie połączeń LinkedIn w pliku CSV
128
128
129
132
6
Spis treści
Poleć książkę
Kup książkę
4.3. Krótki kurs grupowania danych
4.3.1. Normalizacja danych w celu umożliwienia analizy
4.3.2. Mierzenie podobieństwa
4.3.3. Algorytmy klasteryzacji
4.4. Uwagi końcowe
4.5. Zalecane ćwiczenia
4.6. Zasoby online
132
135
145
147
161
161
162
5. Eksploracja danych z plików tekstowych: obliczanie podobieństwa dokumentów,
wyodrębnianie kolokacji i inne .................................................................................163
5.1. Przegląd
5.2. Pliki tekstowe
5.3. Wprowadzenie do TF-IDF
5.3.1. Częstość terminu
5.3.2. Odwrotna częstość dokumentu
5.3.3. TF-IDF
5.4. Odpytywanie danych w języku naturalnym za pomocą TF-IDF
5.4.1. Natural Language Toolkit — wprowadzenie
5.4.2. Zastosowanie współczynnika TF-IDF do języka naturalnego
5.4.3. Wyszukiwanie podobnych dokumentów
5.4.4. Analiza bigramów w języku naturalnym
5.4.5. Refleksje na temat analizy danych języka naturalnego
5.5. Uwagi końcowe
5.6. Zalecane ćwiczenia
5.7. Zasoby online
164
164
166
166
168
169
172
172
176
177
184
193
194
195
195
6. Eksploracja stron internetowych: przetwarzanie języka naturalnego
w celu zrozumienia języka ludzkiego, tworzenie podsumowań postów
na blogu i inne .........................................................................................................197
6.1. Przegląd
6.2. Scraping, parsowanie i crawling stron internetowych
6.2.1. Przeszukiwanie wszerz w crawlingu stron internetowych
6.3. Odkrywanie semantyki przez dekodowanie składni
6.3.1. Przetwarzanie języka naturalnego krok po kroku
6.3.2. Wykrywanie zdań w danych w języku naturalnym
6.3.3. Tworzenie streszczeń dokumentów
6.4. Zmiana paradygmatu. Analiza obiektów
6.4.1. Podsumowania danych w języku naturalnym
198
199
202
205
207
210
214
222
226
Spis treści
Kup książkę
7
Poleć książkę
Zgłoś jeśli naruszono regulamin