BIG DATA EBOOK
Przygotowałem dla Ciebie ebooka, w którym zebrałem ważne informacje o Apache Spark. To pozwoli Ci poznać filar technologii Big Data.
Dzięki niemu szybko i bez wysiłku staniesz się inżynierem danych z przyszłości.
Jak kwalifikować dane do Big Data 3V 1
Architektura Apache Spark 2
Komponenty Apache Spark 2
Sterownik (sparkcontext) 2
Kierownik klastra (cluster manager) 2
Wykonawcy (Executors) 2
Pamięć wykonawcy 3
Aplikacja Spark 4
Spark API 5
Interfejsy API niższego poziomu 6
Strukturalny interfejs API 6
Rozproszona architektura 6
Jobs Stages Tasks 7
Tolerancja błędów 7
Optymalizacja 12
Co można optymalizować 12
Równoległość 14
Skalowanie aplikacji 14
Konfiguracja Spark 14
Optymalizator Catalyst 15
Plan Logiczny i Fizyczny 15
Identyfikowanie wąskich gardeł wydajności w aplikacjach Spark 16
Plan wykonania 16
cache() alias persist() 16
Kiedy użyć Cache i persist 17
Kiedy nie używać 17
Poziomy magazynowania danych 17
Adaptacyjne wykonywanie zapytań 18
Spark Dataframe 18
Podstawowe typy danych 18
Czas uniksowy 20
Skomplikowane Typy Danych 21
ArrayType-MapType-StructType 22
Schematy Danych 23
Kiedy używamy schematu 23
DataFrame i zestawy danych 24
Bezpieczne ładowanie danych 24
Tryby Zapisu (Save Modes) 26
DataSet 27
Encoders 27
Tworzenie Dataset 28
Transformacje 28
Łączniki 29
Grupowanie i agregację 29
Kiedy użyć DataFrame a kiedy Dataset 29
Spark SQL 30
Tabele 31
Widoki 32
Apache Hive 33
Katalog 35
Odczyt i zapis DataFrames 35
Operacje na kolumnach 36
Zarządzanie nulls 37
Transformacje i akcje 38
Transformacje Wide – Narrow 39
Shuffle 40
Pipelining 40
Łączniki (Joins) 40
Hints (podpowiedzi) 42
Typy Łączników 42
Duplikaty kolumn 42
UDFs Funkcje zdefiniowane przez użytkownika 43
Funkcje 45
Funkcje okienkowe 45
Przesyłanie strumieniowe 47
Porównanie 47
Strumienie ustrukturyzowane 47
Problem ze Spark Streaming - Micro-batch 47
Przetwarzanie micro-batcha 48
Opóźnienie 48
Mikro-batch alternatywa 48
Zapytania do tabeli 49
Tryby wyjściowe (Output Modes) 50
Stream części składowe 50
Output Sinks 51
Charakterystyka Streamu 51
Odporność na błędy (Fault tolerance) 52
Schemat 52
Typy okienek Spark 55
Usuwanie duplikatów 57
Zabronione operacje 58
Odzyskiwanie po awarii - Checkpointing 58
Przykłady Spark Streaming 59
Monitorowanie 60
Monitoruj Driver 61
Logi Sparka 61
Spark UI 61
Statystyki Stage 61
Jobs 63
Wolne Taski 64
Wolne agregacje 64
Wolne joiny 64
Wolne Odczyty i Zapisy 64
Błędy OutOfMemory 65
Książki 65
Ciekawe Blogi 65
Lakehouse 66
Dobre praktyki Databricks 67