Używamy cookies, aby ułatwić korzystanie z Portalu. Możesz określić warunki przechowywania, dostępu do plików cookies w Twojej przeglądarce. Dowiedz się więcej.
strona główna Strona główna | Nowości | Promocje | Zapowiedzi Twoje konto | Zarejestruj | Schowek | Kontakt | Pomoc
mapa działów
Szukaj: szukanie zaawansowane
Koszyk
Książki \ Programowanie

High Performance Spark Język: 2

978-1-4919-4320-5

Cena Brutto: 155.40

Cena netto: 148.00

Ilość:
Wersja: Drukowana
Autor Holden Karau, Rachel Warren
Liczba_stron 358
Wydawnictwo O'Reilly Media
Oprawa miękka
Data_Wydania 2017-06-20
High Performance

Spark



Apache Spark is amazing when everything clicks. But if you haven’t seen the performance improvements you expected, or still don’t feel confident enough to use Spark in production, this practical book is for you. Authors Holden Karau and Rachel Warren demonstrate performance optimizations to help your Spark queries run faster and handle larger data sizes, while using fewer resources.


Ideal for software engineers, data engineers, developers, and system administrators working with large-scale data applications, this book describes techniques that can reduce data infrastructure costs and developer hours. Not only will you gain a more comprehensive understanding of Spark, you’ll also learn how to make it sing.


With this book, you’ll explore:

  • How Spark SQL’s new interfaces improve performance over SQL’s RDD data structure
  • The choice between data joins in Core Spark and Spark SQL
  • Techniques for getting the most out of standard RDD transformations
  • How to work around performance issues in Spark’s key/value pair paradigm
  • Writing high-performance Spark code without Scala or the JVM
  • How to test for functionality and performance when applying suggested improvements
  • Using Spark MLlib and Spark ML machine learning libraries
  • Spark’s Streaming components and external community packages


Pragniemy Państwa zapewnić, iż dokładamy wszelkich możliwych starań, by opisy książek i podręczników, zawarte na naszych stronach internetowych, zawierały bieżące i wiarygodne materiały. Może jednak, mimo naszych wysiłków, w opisy książek wkraść się przekłamanie z naszej strony niezamierzone. Nie może to stanowić powodu do roszczeń. O ile macie Państwo jakiekolwiek pytania lub wątpliwości - prosimy o kontakt z naszym ekspertem lub działem handlowym. Postaramy  się odpowiedzieć na wszystkie Państwa pytania zanim podejmiecie Państwo decyzje o złożeniu zamówienia.
#
  1. Chapter 1 Introduction to High Performance Spark

    1. What Is Spark and Why Performance Matters

    2. What You Can Expect to Get from This Book

    3. Spark Versions

    4. Why Scala?

    5. Conclusion

  2. Chapter 2 How Spark Works

    1. How Spark Fits into the Big Data Ecosystem

    2. Spark Model of Parallel Computing: RDDs

    3. Spark Job Scheduling

    4. The Anatomy of a Spark Job

    5. Conclusion

  3. Chapter 3 DataFrames, Datasets, and Spark SQL

    1. Getting Started with the SparkSession (or HiveContext or SQLContext)

    2. Spark SQL Dependencies

    3. Basics of Schemas

    4. DataFrame API

    5. Data Representation in DataFrames and Datasets

    6. Data Loading and Saving Functions

    7. Datasets

    8. Extending with User-Defined Functions and Aggregate Functions (UDFs, UDAFs)

    9. Query Optimizer

    10. Debugging Spark SQL Queries

    11. JDBC/ODBC Server

    12. Conclusion

  4. Chapter 4 Joins (SQL and Core)

    1. Core Spark Joins

    2. Spark SQL Joins

    3. Conclusion

  5. Chapter 5 Effective Transformations

    1. Narrow Versus Wide Transformations

    2. What Type of RDD Does Your Transformation Return?

    3. Minimizing Object Creation

    4. Iterator-to-Iterator Transformations with mapPartitions

    5. Set Operations

    6. Reducing Setup Overhead

    7. Reusing RDDs

    8. Conclusion

  6. Chapter 6 Working with Key/Value Data

    1. The Goldilocks Example

    2. Actions on Key/Value Pairs

    3. What’s So Dangerous About the groupByKey Function

    4. Choosing an Aggregation Operation

    5. Multiple RDD Operations

    6. Partitioners and Key/Value Data

    7. Dictionary of OrderedRDDOperations

    8. Secondary Sort and repartitionAndSortWithinPartitions

    9. Straggler Detection and Unbalanced Data

    10. Conclusion

  7. Chapter 7 Going Beyond Scala

    1. Beyond Scala within the JVM

    2. Beyond Scala, and Beyond the JVM

    3. Calling Other Languages from Spark

    4. The Future

    5. Conclusion

  8. Chapter 8 Testing and Validation

    1. Unit Testing

    2. Getting Test Data

    3. Property Checking with ScalaCheck

    4. Integration Testing

    5. Verifying Performance

    6. Job Validation

    7. Conclusion

  9. Chapter 9 Spark MLlib and ML

    1. Choosing Between Spark MLlib and Spark ML

    2. Working with MLlib

    3. Working with Spark ML

    4. General Serving Considerations

    5. Conclusion

  10. Chapter 10 Spark Components and Packages

    1. Stream Processing with Spark

    2. GraphX

    3. Using Community Packages and Libraries

    4. Conclusion

  11. Appendix Tuning, Debugging, and Other Things Developers Like to Pretend Don’t Exist

    1. Spark Tuning and Cluster Sizing

    2. Basic Spark Core Settings: How Many Resources to Allocate to the Spark Application?

    3. Serialization Options

    4. Some Additional Debugging Techniques

powrót
 
Produkty Podobne
OpenCV 3. Komputerowe rozpoznawanie obrazu w C++ przy użyciu biblioteki OpenCV
Python. Rusz głową! Wydanie II
PHP. Obiekty, wzorce, narzędzia. Wydanie V
Modern Java Recipes
Node.js. Projektowanie, wdrażanie i utrzymywanie aplikacji
Opus magnum C++11. Programowanie w języku C++ (komplet)
Python, C++, JavaScript. Zadania z programowania
Python, C++, JavaScript. Zadania z programowania
Python, C++, JavaScript. Zadania z programowania
Elegant SciPy. The Art of Scientific Python
Więcej produktów