BIG DATA EBOOK
Przygotowałem dla Ciebie ebooka, w którym zebrałem ważne informacje o Apache Spark. To pozwoli Ci poznać filar technologii Big Data.
Dzięki niemu szybko i bez wysiłku staniesz się inżynierem danych z przyszłości.
Jak kwalifikować dane do Big Data 3V 1 Architektura Apache Spark 2 Komponenty Apache Spark 2 Sterownik (sparkcontext) 2 Kierownik klastra (cluster manager) 2 Wykonawcy (Executors) 2 Pamięć wykonawcy 3 Aplikacja Spark 4 Spark API 5 Interfejsy API niższego poziomu 6 Strukturalny interfejs API 6 Rozproszona architektura 6 Jobs Stages Tasks 7 Tolerancja błędów 7 Optymalizacja 12 Co można optymalizować 12 Równoległość 14 Skalowanie aplikacji 14 Konfiguracja Spark 14 Optymalizator Catalyst 15 Plan Logiczny i Fizyczny 15 Identyfikowanie wąskich gardeł wydajności w aplikacjach Spark 16 Plan wykonania 16 cache() alias persist() 16 Kiedy użyć Cache i persist 17 Kiedy nie używać 17 Poziomy magazynowania danych 17 Adaptacyjne wykonywanie zapytań 18 Spark Dataframe 18 Podstawowe typy danych 18 Czas uniksowy 20 Skomplikowane Typy Danych 21 ArrayType-MapType-StructType 22 Schematy Danych 23 Kiedy używamy schematu 23 DataFrame i zestawy danych 24 Bezpieczne ładowanie danych 24 Tryby Zapisu (Save Modes) 26 DataSet 27 Encoders 27 Tworzenie Dataset 28 Transformacje 28 Łączniki 29 Grupowanie i agregację 29 Kiedy użyć DataFrame a kiedy Dataset 29 Spark SQL 30 Tabele 31 Widoki 32 Apache Hive 33 Katalog 35 Odczyt i zapis DataFrames 35 Operacje na kolumnach 36 Zarządzanie nulls 37 Transformacje i akcje 38 Transformacje Wide – Narrow 39 Shuffle 40 Pipelining 40 Łączniki (Joins) 40 Hints (podpowiedzi) 42 Typy Łączników 42 Duplikaty kolumn 42 UDFs Funkcje zdefiniowane przez użytkownika 43 Funkcje 45 Funkcje okienkowe 45 Przesyłanie strumieniowe 47 Porównanie 47 Strumienie ustrukturyzowane 47 Problem ze Spark Streaming - Micro-batch 47 Przetwarzanie micro-batcha 48 Opóźnienie 48 Mikro-batch alternatywa 48 Zapytania do tabeli 49 Tryby wyjściowe (Output Modes) 50 Stream części składowe 50 Output Sinks 51 Charakterystyka Streamu 51 Odporność na błędy (Fault tolerance) 52 Schemat 52 Typy okienek Spark 55 Usuwanie duplikatów 57 Zabronione operacje 58 Odzyskiwanie po awarii - Checkpointing 58 Przykłady Spark Streaming 59 Monitorowanie 60 Monitoruj Driver 61 Logi Sparka 61 Spark UI 61 Statystyki Stage 61 Jobs 63 Wolne Taski 64 Wolne agregacje 64 Wolne joiny 64 Wolne Odczyty i Zapisy 64 Błędy OutOfMemory 65 Książki 65 Ciekawe Blogi 65 Lakehouse 66 Dobre praktyki Databricks 67