CHCESZ POZNAWAĆ ŚWIAT BIG DATA?

Przygotowałem dla Ciebie kilka notebooków, które wprowadzą Cię do Apache Spark w chmurze.

Dzięki nim zobaczysz jak to wygląda od podszewki

Materiały do pobrania

Pobierz notebooki Databricks i zacznij poznawać świat Big Data

Znajdziesz w nich:

  • Instrukcje jak załadować notebooki do Databricks

  • Ciekawe dane filmowe z IMDB gotowe to użycia
  • Informacje o Spark
  • Architekturę Spark
  • Wprowadzenie do DataFrame
  • Wprowadzenie do Spark SQL

Po zapisaniu się na listę otrzymasz emaila z dwoma linkami, pierwszy link zawiera dokument z plikiem pdf opisujący krok po kroku jak stworzyć klaster, i jak uruchomić kod w notatniku.

Instrukcje.pdf

Drugi dokument to sam notatnik, jest on w formacie .dbc, jest to natywny format pliku w środowisku Databricks. Dzięki Databricks Community nie musisz płacić za klaster, jest zupełnie za darmo.

Mini Kurs ETL - Spark.dbc

Notatniki działają w dwóch językach Python i Scala, dzięki temu będziesz mógł wybrać ten, który jest najciekawszy i zobaczyć jaka jest różnica pomiędzy nimi.

W sumie otrzymasz 6 notatników

Ciekawe Dane filmowe z IMDB, nie będziesz ich musiał pobierać załadują się automatycznie do twojego klastra

val actorsFile = "actors.csv"
val
moviesFile = "movies.csv"
val
namesFile = "names.csv"
val
ratingsFile = "ratings.csv"

Notatniki:

1. Wprowadzenie do Apache Spark 

2. Architektura Apache Spark

3. Notatnik dedykowany obiektowi Dataframe: 

  • Podstawowe pojęcia:
    • SparkSession
    • DataFrame (czyli Dataset[Row])
  • Transformacje:
    • select(..)
    • filter(..)
    • drop(..)
    • distinct()
    • dropDuplicates(..)
    • min()
    • max()
    • withColumnRanmed()
  • Akcje:
    • show(..)
    • display(..)
    • count()

4. Notatnik dedykowany obiektowi Dataframe:

  • Bardzo ważne klasy
    • Column
    • Row
  • Dodatkowe transformacje
    • orderBy(..)
    • sort(..)
  • Wprowadzenie do akcji
    • collect()
    • take(n)
    • first()
    • head()

5. Notatnik pobierający dane z gitHub

6. Dedykowany notatnik dotyczący Spark SQL

7. Notatnik Databricks

  • Najciekawsze funkcjonalności dotyczące notatników
  • Magiczne komendy %fs
  • Użycie Markup do opisywania notatnika
  • Zestaw narzędzi dbutils