BIG DATA EBOOK

Przygotowałem dla Ciebie ebooka, w którym zebrałem ważne informacje o Apache Spark. To pozwoli Ci poznać filar technologii Big Data. 

Dzięki niemu szybko i bez wysiłku staniesz się inżynierem danych z przyszłości. 

Spis Treści

Jak kwalifikować dane do Big Data 3V                                         1
Architektura Apache Spark                                                    2
      Komponenty Apache Spark                                                2
            Sterownik (sparkcontext)                                         2
            Kierownik klastra (cluster manager)                              2          
            Wykonawcy (Executors)                                            2
            Pamięć wykonawcy                                                 3
      Aplikacja Spark                                                        4
            Spark API                                                        5
                  Interfejsy API niższego poziomu                            6
                  Strukturalny interfejs API                                 6
            Rozproszona architektura                                         6
            Jobs Stages Tasks                                                7
            Tolerancja błędów                                                7
Optymalizacja                                                               12
      Co można optymalizować                                                12
            Równoległość                                                    14
            Skalowanie aplikacji                                            14
            Konfiguracja Spark                                              14
      Optymalizator Catalyst                                                15
            Plan Logiczny i Fizyczny                                        15
      Identyfikowanie wąskich gardeł wydajności w aplikacjach Spark         16
      Plan wykonania                                                        16
            cache() alias persist()                                         16
                  Kiedy użyć Cache i persist                                17
                  Kiedy nie używać                                          17
      Poziomy magazynowania danych                                          17
      Adaptacyjne wykonywanie zapytań                                       18
Spark Dataframe                                                             18
      Podstawowe typy danych                                                18
            Czas uniksowy                                                   20
            Skomplikowane Typy Danych                                       21
            ArrayType-MapType-StructType                                    22
      Schematy Danych                                                       23
            Kiedy używamy schematu                                          23
      DataFrame i zestawy danych                                            24
            Bezpieczne ładowanie danych                                     24
            Tryby Zapisu (Save Modes)                                       26
      DataSet                                                               27
            Encoders                                                        27
            Tworzenie Dataset                                               28
                  Transformacje                                             28
                  Łączniki                                                  29
                  Grupowanie i agregację                                    29
            Kiedy użyć DataFrame a kiedy Dataset                            29
      Spark SQL                                                             30
            Tabele                                                          31
            Widoki                                                          32
            Apache Hive                                                     33
            Katalog                                                         35
            Odczyt i zapis DataFrames                                       35
            Operacje na kolumnach                                           36
            Zarządzanie nulls                                               37
            Transformacje i akcje                                           38
                 Transformacje Wide – Narrow                                39
            Shuffle                                                         40
            Pipelining                                                      40
            Łączniki (Joins)                                                40
                  Hints (podpowiedzi)                                       42
                  Typy Łączników                                            42
                  Duplikaty kolumn                                          42
      UDFs Funkcje zdefiniowane przez użytkownika                           43
      Funkcje                                                               45
      Funkcje okienkowe                                                     45
Przesyłanie strumieniowe                                                    47
      Porównanie                                                            47
      Strumienie ustrukturyzowane                                           47
            Problem ze Spark Streaming - Micro-batch                        47
                  Przetwarzanie micro-batcha                                48
                  Opóźnienie                                                48
                  Mikro-batch alternatywa                                   48
                  Zapytania do tabeli                                       49
                  Tryby wyjściowe (Output Modes)                            50
            Stream części składowe                                          50
                  Output Sinks                                              51
                  Charakterystyka Streamu                                   51
                  Odporność na błędy (Fault tolerance)                      52
                  Schemat                                                   52
                  Typy okienek Spark                                        55
                  Usuwanie duplikatów                                       57
                  Zabronione operacje                                       58
                  Odzyskiwanie po awarii - Checkpointing                    58
                  Przykłady Spark Streaming                                 59
Monitorowanie                                                               60
      Monitoruj Driver                                                      61
            Logi Sparka                                                     61
      Spark UI                                                              61
            Statystyki Stage                                                61
            Jobs                                                            63
            Wolne Taski                                                     64    
            Wolne agregacje                                                 64
            Wolne joiny                                                     64
            Wolne Odczyty i Zapisy                                          64
            Błędy OutOfMemory                                               65
Książki                                                                     65
Ciekawe Blogi                                                               65
Lakehouse                                                                   66
Dobre praktyki Databricks                                                   67