Używamy cookies, aby ułatwić korzystanie z Portalu. Możesz określić warunki przechowywania, dostępu do plików cookies w Twojej przeglądarce. Dowiedz się więcej.
strona główna Strona główna | Nowości | Promocje | Zapowiedzi Twoje konto | Zarejestruj | Schowek | Kontakt | Pomoc
mapa działów
Szukaj: szukanie zaawansowane
Koszyk
Książki \ Bazy danych

Data Science i uczenie maszynowe Język: 1

978-83-01-19232-7

Cena Brutto: 89.00

Cena netto: 84.76

Ilość:
Wersja: Drukowana
Autor Marcin Szeliga
Liczba_stron 372
Wydawnictwo PWN
Oprawa miękka
Data_Wydania 2017-05-19

Data Science

i uczenie maszynowe


XXI wiek to czas sztucznej inteligencji. Nie tylko tej specjalistycznej, która kieruje samochodami, tłumaczy języki naturalne czy szuka leku na raka, ale również uniwersalnej, rozwiązującej zadania z różnych dziedzin. Ten przełom zawdzięczamy splotowi trzech zdarzeń: rozwojowi technologii przechowywania i przetwarzania danych, nowej metodzie naukowej (data science), oraz uczeniu maszynowemu, w szczególności znacznemu postępowi w zakresie głębokiego uczenia maszynowego.

Książka przedstawia uczenie maszynowe w ujęciu praktycznym. Przeprowadzając opisane w niej eksperymenty data science poznamy zastosowanie reguł statystycznych i algorytmów uczenia maszynowego do rozwiązywania konkretnych problemów. Takie podejście oznacza, że studenci informatyki oraz specjaliści — analitycy, informatycy i bazodanowcy — zdobędą nie tylko teoretyczną wiedzę, ale również umiejętność jej praktycznego wykorzystania w codziennej pracy.

Książka podzielona jest na cztery części:
  • Pierwszy rozdział wyjaśnia termin Data science i pokazuje zastosowanie tej metody w eksperymentach naukowych
  • Rozdziały od drugiego do czwartego poświęcone są danym: technikom oceny ich jakości, wstępnego przygotowania oraz wzbogacenia danych na potrzeby ich dalszej analizy
  • Rozdziały od piątego do dziewiątego opisują poszczególne typy modeli predykcyjnych: klasyfikatory, regresory, modele grupujące, rekomendujące i prognozujące
  • Ostatnie dwa rozdziały książki przedstawiają metody oceny i poprawy jakości modeli oraz udostępniania ich użytkownikom jako usług WWW

Wstęp ............... XVII

O czym jest ta książka? ........ XVII

Data science ........................ XVIII

Uczenie maszynowe ........... XX

Dla kogo jest ta książka? ...... XXI

Narzędzia ........................... XXII

Usługa Azure ML ................. XXIII

Język R ................................ XXIV

Microsoft R Open ................ XXV

Przykładowe dane ............... XXVI

Konwencje i oznaczenia ...... XXVI

1. Uczenie maszynowe jako element eksperymentów data science ............ 1

1.1. Eksploracja danych jako technika wspomagania decyzji ...................... 2

1.2. Modelowanie ................. 4

1.3. Wiedza i proces uczenia . 6

1.4. Hipotezy ........................ 9

1.5. Założenia eksperymentu data science ............... 10

1.6. Dwa typy analiz ............. 12

1.7. Data science jako metoda naukowa .................. 12

1.8. Przykładowy eksperyment – optymalizacja kampanii marketingowej ............. 14

1.8.1. Zrozumienie problemu i określenie celów eksperymentu .............. 15

1.8.2. Zrozumienie danych ............................. 16

1.8.3. Wstępne przetwarzanie danych ............. 17

1.8.4. Modelowanie ...... 18

1.8.5. Ocena ................. 18

1.8.6. Wdrożenie .......... 20

Podsumowanie ....................... 23

2. Ocena przydatności danych ............................ 25

2.1. Dane źródłowe ............ 26

2.2. Zmienne ...................... 27

2.2.1. Rozkład częstości zmiennych ............... 30

2.2.2. Grafi czna prezentacja danych .............. 42

2.2.3. Korelacje (związki między zmiennymi) . 44

2.3. Reprezentatywność danych ............................ 50

2.4. Duplikaty ..................... 54

2.5. Szeregi czasowe ........... 56

Podsumowanie ..................... 63

3. Wstępne przetwarzanie danych ...................... 65

3.1. Uzupełnianie brakujących danych .................. 66

3.2. Poprawianie błędnych danych ........................ 71

3.3. Zmienne numeryczne .. 71

3.3.1. Instalowanie dodatkowych bibliotek R w Azure ML .................................................... 72

3.3.2. Wartości nietypowe (odstające) ........... 73

3.3.3. Normalizacja ..... 75

3.3.4. Dyskretyzacja .... 77

3.4. Zmienne kategoryczne . 78

3.4.1. Problem jakości danych tekstowych ..... 79

3.4.2. Uogólnienie (generalizacja) .................. 80

3.4.3. Numerowanie stanów ......................... 81

3.4.4. Zmienne porządkowe ......................... 83

3.5. Szeregi czasowe ........... 83

3.6. Wyrażenia języka naturalnego ........................ 89

3.7. Redukcja wymiarów ..... 94

3.7.1. Usuwanie zmiennych na podstawie ich zdolności predykcyjnych ............................... 95

3.7.2. Analiza głównych składowych (PCA) .... 97

Podsumowanie ..................... 99

4. Wzbogacanie danych ...... 101

4.1. Równoważenie danych  102

4.1.1. Usunięcie części przykładów większościowych ........................................................... 103

4.1.2. Nadpróbkowanie ................................ 104

4.2. Zmienne wyliczeniowe  106

4.3. Zastąpienie zmiennych wspólnym rozkładem prawdopodobieństwa ...................................... 108

4.4. Wydzielenie danych testowych ...................... 111

4.4.1. Szeregi czasowe  115

4.4.2. Modele rekomendujące ...................... 116

4.4.3. Modele wykrywania oszustw ............... 116

4.5. Wzorzec eksperymentu data science .............. 116

Podsumowanie ..................... 117

5. Klasyfi kacja ....................... 119

5.1. Klasyfi kacja poprzez indukcję drzew decyzyjnych .................................................................. 121

5.1.1. Drzewa decyzyjne – defi nicja .............. 121

5.1.2. Pojedyncze drzewa decyzyjne ............. 124

5.1.3. Kombinacje drzew decyzyjnych ........... 126

5.2. Klasyfi kacja z użyciem maszyny wektorów nośnych ............................................................... 141

5.2.1. Przetwarzanie języka naturalnego przy użyciu maszyny wektorów nośnych ................ 143

5.2.2. Modele maszyny wektorów nośnych i lokalnie głębokiej maszyny wektorów nośnych .. 152

5.3. Klasyfi kacja probabilistyczna ........................... 153

5.3.1. Sieć Bayesa ....... 157

5.3.2. Maszyna punktów Bayesa .................... 159

5.4. Inne klasyfi katory dostępne w Studiu Azure ML ..................................................................... 161

5.4.1. Inne klasyfi katory – omówienie ........... 161

5.4.2. Modele eksploracji danych w języku R  163

5.5. Klasyfi katory binarne a klasyfi kacja wieloklasowa ................................................................... 164

5.6. Wykrywanie oszustw jako przykład klasyfi kacji binarnej ......................................................... 167

5.6.1. Oznaczenie obserwacji ........................ 167

5.6.2. Zrównoważenie danych i wydzielenie danych testowych ............................................ 169

5.6.3. Wzbogacenie danych .......................... 169

Podsumowanie ..................... 172

6. Regresja ............................. 173

6.1. Model regresji wielorakiej ............................... 179

6.1.1 Wieloraka regresja liniowa .................... 181

6.1.2. Estymacja bayesowska modelu regresji liniowej .......................................................... 183

6.2. Zmienne kategoryczne w modelach regresji ... 185

6.2.1. Regresja Poissona ................................ 186

6.2.2. Regresja porządkowa ........................... 188

6.3. Regresja kwantylowa .... 188

6.4. Regresja poprzez indukcję drzew decyzyjnych ...................................................................... 191

6.5. Sztuczne sieci neuronowe .............................. 193

6.5.1. Perceptron ........ 198

6.5.2. Sieci neuronowe a regresja .................. 200

6.5.3. Metody minimalizacji błędu ................ 202

6.5.4. Wsteczna propagacja błędów .............. 203

6.5.5. Regresja z użyciem sieci neuronowej ... 205

6.5.6. Głębokie sieci neuronowe ................... 209

Podsumowanie ..................... 218

7. Grupowanie (analiza skupień) ........................ 221

7.1. Na czym polega grupowanie ......................... 221

7.2. Algorytmy grupowania .. 225

7.2.1. Grupowanie hierarchiczne .................. 226

7.2.2. Grupowanie iteracyjno-optymalizacyjne ..................................................................... 231

7.3. Grupowanie w celu znajdowania podobnych obiektów ......................................................... 236

7.4. Grupowanie w celu kompresji ........................ 239

7.5. Wykrywanie anomalii ... 240

Podsumowanie ..................... 244

8. Rekomendowanie ............ 245

8.1. Systemy rekomendujące ................................. 245

8.2. Odkrywanie asocjacji ... 250

8.3. Model Matchbox Recommender .................... 258

8.3.1. Rekomendowanie przez fi ltrowanie kolektywne ......................................................... 258

8.3.2. Rekomendowanie przez fi ltrowanie cech przedmiotów i użytkowników (hybrydowe) .. 267

Podsumowanie ..................... 269

9. Prognozowanie ................. 271

9.1. Szeregi czasowe ........... 272

9.2. Naiwne metody prognozowania ..................... 274

9.3. Modele średniej ważonej ............................... 274

9.4. Modele ARIMA ............. 283

9.5. Modele nieliniowe ....... 288

9.6. Prognozowanie w Studiu Azure ML ................ 290

Podsumowanie ..................... 292

10. Ocena i poprawa jakości modeli .................. 293

10.1. Reguła powrotu do średniej .......................... 293

10.2. Kryteria oceny modeli eksploracji danych ..... 295

10.2.1. Łatwość interpretacji ......................... 296

10.2.2. Trafność ........... 296

10.2.3. Wiarygodność . 297

10.2.4. Wydajność i skalowalność ................. 297

10.2.5. Przydatność ..... 297

10.3. Ocena jakości modeli klasyfi kacyjnych ......... 298

10.3.1. Moduł Evaluate Model ....................... 298

10.3.2. Macierz pomyłek ............................... 299

10.3.3. Krzywa ROC ... 302

10.3.4. Wykres precyzja w funkcji czułości i wykres zysku ............... 304

10.3.5. Trafność klasyfi kacji ........................... 305

10.3.6. Klasyfi katory wieloklasowe ................ 307

10.4. Ocena jakości modeli regresyjnych ............... 308

10.4.1. Miary oceny modeli .......................... 308

10.4.2. Walidacja krzyżowa ........................... 310

10.5. Ocena jakości modeli grupujących ............... 313

10.6. Ocena jakości modeli rekomendujących ...... 315

10.7. Ocena jakości modeli prognozujących .......... 317

10.8. Porównanie jakości modeli ........................... 322

10.9. Poprawa jakości modeli ................................ 326

10.9.1. Automatyczna poprawa jakości modeli uczenia nadzorowanego .......... 326

10.9.2. Znalezienie optymalnej liczby klastrów .................................. 330

10.10. Cykl życia eksperymentu data science ........ 333

Podsumowanie ..................... 334

11. Publikacja modeli eksploracji danych jako usług WWW .................. 339

11.1. Wzorcowy eksperyment data science ........... 340

11.2. Predykcyjne usługi WWW ............................ 345

11.2.1. Zapytania predykcyjne ad-hoc ........... 348

11.2.2. Wsadowe zapytania predykcyjne ....... 349

Podsumowanie ..................... 352

Bibliografi a ............................. 353

Dodatek A ............................... 361

Dodatek B ............................... 367

powrót
 
Produkty Podobne
Język SQL. Przyjazny podręcznik. Wydanie II
Microsoft SQL Server 2016 Analysis Services: Modelowanie tabelaryczne
Data Science i uczenie maszynowe
Tabular Modeling in Microsoft SQL Server Analysis Services, 2nd Edition
Exam Ref 70-768 Developing SQL Data Models
Exam Ref 70-761 Querying Data with Transact-SQL
Exam Ref 70-762 Developing SQL Databases
PHP i MySQL. Dla każdego. Wydanie III
Microsoft SQL Server T-SQL in 10 Minutes, Sams Teach Yourself, 2nd Edition
Pierwsze kroki z SQL. Praktyczne podejście dla początkujących
Więcej produktów