CHCESZ POZNAWAĆ ŚWIAT BIG DATA?
Przygotowałem dla Ciebie kilka notebooków, które wprowadzą Cię do Apache Spark w chmurze.
Dzięki nim zobaczysz jak to wygląda od podszewki
Pobierz notebooki Databricks i zacznij poznawać świat Big Data
Znajdziesz w nich:
Po zapisaniu się na listę otrzymasz emaila z dwoma linkami, pierwszy link zawiera dokument z plikiem pdf opisujący krok po kroku jak stworzyć klaster, i jak uruchomić kod w notatniku.
Instrukcje.pdf
Drugi dokument to sam notatnik, jest on w formacie .dbc, jest to natywny format pliku w środowisku Databricks. Dzięki Databricks Community nie musisz płacić za klaster, jest zupełnie za darmo.
Mini Kurs ETL - Spark.dbc
Notatniki działają w dwóch językach Python i Scala, dzięki temu będziesz mógł wybrać ten, który jest najciekawszy i zobaczyć jaka jest różnica pomiędzy nimi.
W sumie otrzymasz 6 notatników
Ciekawe Dane filmowe z IMDB, nie będziesz ich musiał pobierać załadują się automatycznie do twojego klastra
val actorsFile = "actors.csv"
val moviesFile = "movies.csv"
val namesFile = "names.csv"
val ratingsFile = "ratings.csv"
Notatniki:
1. Wprowadzenie do Apache Spark
2. Architektura Apache Spark
3. Notatnik dedykowany obiektowi Dataframe:
SparkSessionDataFrame (czyli Dataset[Row])select(..)filter(..)drop(..)distinct()dropDuplicates(..)min()max()withColumnRanmed()show(..)display(..)count()4. Notatnik dedykowany obiektowi Dataframe:
ColumnRoworderBy(..)sort(..)collect()take(n)first()head()5. Notatnik pobierający dane z gitHub
6. Dedykowany notatnik dotyczący Spark SQL
7. Notatnik Databricks
Pobierz materiały