Microsoft_SQL_Server_Modelowanie_i_eksploracja_danych_sqlsme.pdf

(752 KB) Pobierz
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym
powoduje naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi
ich właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje
były kompletne i rzetelne. Nie biorą jednak
żadnej
odpowiedzialności ani za ich wykorzystanie, ani
za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz
Wydawnictwo HELION nie ponoszą również
żadnej
odpowiedzialności za ewentualne szkody
wynikłe z wykorzystania informacji zawartych w książce.
Redaktor prowadzący: Michał Mrowiec
Korekta merytoryczna: Radosław
Łebkowski
Projekt okładki: Jan Paluch
Fotografia na okładce została wykorzystana za zgodą Shutterstock.com
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail: helion@helion.pl
WWW: http://helion.pl (księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie?sqlsme
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Kody
źródłowe
wybranych przykładów dostępne są pod adresem:
ftp://ftp.helion.pl/przyklady/sqlsme.zip
ISBN: 978-83-246-3440-8
Copyright © Helion 2012
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis tre ci
Wstöp .................................................................................................... 9
Proces eksploracji danych .............................................................................................. 10
Instalacja i konfiguracja narz dzi ................................................................................... 12
Serwer SQL .............................................................................................................. 12
Arkusz kalkulacyjny Excel ....................................................................................... 15
Dodatek Data Mining do pakietu Office .................................................................. 15
Przykáady ................................................................................................................. 16
Konwencje i oznaczenia ................................................................................................. 20
Czö è I
Rozdziaä 1.
Modelowanie ................................................................ 23
Eksploracja danych jako technika wspomagania decyzji ........................ 25
Modelowanie wiata ....................................................................................................... 25
Obiekty, zdarzenia i reguáy ...................................................................................... 26
Dane ......................................................................................................................... 27
Informacje ................................................................................................................ 27
Wiedza ..................................................................................................................... 29
Decyzje ..................................................................................................................... 31
Eksploracja danych ......................................................................................................... 32
Hipotezy ................................................................................................................... 32
Káopoty ze sformuáowaniem problemu .................................................................... 33
Rozdziaä 2.
Analiza biznesowa ................................................................................. 35
Cele modelowania i eksploracji danych ......................................................................... 35
Opisywanie danych czy wspieranie decyzji? ............................................................ 36
Decydenci ................................................................................................................. 38
Zakres projektu eksploracji danych ................................................................................ 39
Dane ródáowe ......................................................................................................... 40
Kontekst ................................................................................................................... 40
Sprecyzowanie spodziewanych wyników .................................................................... 42
Modele deskrypcyjne ............................................................................................... 43
Modele predykcyjne ................................................................................................. 43
Prawdopodobie stwo sukcesu projektu eksploracji danych ........................................... 44
Ocena ryzyka .................................................................................................................. 45
Kup książkę
Poleć książkę
4
Microsoft SQL Server. Modelowanie i eksploracja danych
Rozdziaä 3.
Ocena danych ....................................................................................... 49
Dane ródáowe ................................................................................................................ 49
Bá dy pomiaru .......................................................................................................... 50
Przypadki, czyli to, co badamy ....................................................................................... 51
Profilowanie danych za pomoc usáugi SQL Server Integration Services ...................... 54
Atrybuty i ich stany ........................................................................................................ 57
Atrybuty jednowarto ciowe i wielowarto ciowe ...................................................... 57
Atrybuty monotoniczne ............................................................................................ 59
Rozkáad warto ci ...................................................................................................... 59
Integralno ü danych ........................................................................................................ 62
Duplikaty .................................................................................................................. 62
Zakres warto ci ........................................................................................................ 63
Zgodno ü ze wzorcem .............................................................................................. 63
Próbkowanie i reprezentatywno ü danych ...................................................................... 64
Próbkowanie danych ................................................................................................ 64
Zbie no ü do rzeczywistego rozkáadu ...................................................................... 65
Odchylenie standardowe .......................................................................................... 67
Zmienno ü atrybutów tekstowych ............................................................................ 68
Brakuj ce dane ............................................................................................................... 69
Model brakuj cych danych ....................................................................................... 70
Zale no ci pomi dzy atrybutami .................................................................................... 73
Niezale ne atrybuty .................................................................................................. 74
Nadmiarowe atrybuty ............................................................................................... 75
Anachronizmy .......................................................................................................... 76
Mierzenie informacji ...................................................................................................... 76
Bity ........................................................................................................................... 77
Zaskoczenie .............................................................................................................. 77
Kontekst ................................................................................................................... 78
Rozdziaä 4.
Przygotowanie danych .......................................................................... 79
Przestrze stanów ........................................................................................................... 79
Atrybuty dyskretne ......................................................................................................... 81
Grupowanie .............................................................................................................. 81
Numerowanie stanów ............................................................................................... 84
Atrybuty porz dkowe ............................................................................................... 85
Atrybuty okresowe ................................................................................................... 86
Atrybuty ci gáe ............................................................................................................... 86
Warto ci skrajne ....................................................................................................... 87
Normalizacja zakresu ............................................................................................... 87
Dyskretyzacja ........................................................................................................... 90
Serie danych ................................................................................................................... 92
Trend ........................................................................................................................ 96
Okresowo ü i sezonowo ü ........................................................................................ 96
Szum ......................................................................................................................... 97
Rozdziaä 5.
Poprawa jako ci danych ....................................................................... 99
Uzupeánienie warto ci .................................................................................................... 99
Wzbogacenie danych .................................................................................................... 103
Redukcja wymiarów ..................................................................................................... 105
Korelacje ................................................................................................................ 106
Kup książkę
Poleć książkę
Spis tre ci
5
Dane dla modeli deskrypcyjnych .................................................................................. 108
Dane dla modeli predykcyjnych ................................................................................... 109
Zmiana proporcji .................................................................................................... 109
Dane na potrzeby analizy wariantowej ......................................................................... 111
Analiza wariantowa ................................................................................................ 111
Wydzielenie danych testowych .................................................................................... 113
Czö è II
Rozdziaä 6.
Eksploracja ................................................................ 117
Techniki eksploracji danych ............................................................ 119
Zastosowania ................................................................................................................ 119
Dodatek Data Mining do pakietu Office ....................................................................... 121
Ocena i przygotowanie danych ródáowych ........................................................... 121
Techniki eksploracji danych ......................................................................................... 126
Klasyfikacja ............................................................................................................ 126
Szacowanie ............................................................................................................. 136
Asocjacja ................................................................................................................ 141
Grupowanie ............................................................................................................ 145
Analiza sekwencyjna .............................................................................................. 151
Analiza wariantowa ................................................................................................ 152
Prognozowanie ....................................................................................................... 156
Rozdziaä 7.
Serwer SQL jako platforma eksploracji danych ................................ 161
Excel jako klient SQL Server Analysis Services .......................................................... 162
Narz dzia eksploracji zewn trznych danych .......................................................... 162
Praca z modelami eksploracji danych .................................................................... 184
Formuáy arkusza Excel ........................................................................................... 191
Projekty eksploracji danych .......................................................................................... 192
Business Intelligence Development Studio ............................................................ 192
ródáa danych ......................................................................................................... 195
Widoki danych ródáowych .................................................................................... 196
Struktury eksploracji danych .................................................................................. 199
Modele eksploracji danych ..................................................................................... 206
Zapytania predykcyjne ........................................................................................... 210
Zagnie d anie przypadków .................................................................................... 213
Zarz dzanie serwerem SSAS i modelami eksploracji danych poprzez SQL
Server Management Studio .......................................................................................... 216
Usáugi eksploracji danych serwera SQL ....................................................................... 218
Architektura ............................................................................................................ 219
Bezpiecze stwo ...................................................................................................... 221
Integracja z pozostaáymi usáugami Business Intelligence ....................................... 223
Rozdziaä 8.
DMX ................................................................................................... 227
Terminologia ................................................................................................................ 227
Atrybut ................................................................................................................... 227
Warto ü i stan ......................................................................................................... 229
Przypadek ............................................................................................................... 229
Klucze .................................................................................................................... 230
Struktury eksploracji danych .................................................................................. 231
Modele eksploracji danych ..................................................................................... 232
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin