import random
import re


%%html
<style>
    div.output_stderr {
    display: none;
}
</style>


from pyspark import SparkContext, SparkConf


# cannot run multiple SparkContexts at once (so stop one just in case)
sc = SparkContext.getOrCreate()
sc.stop()


# spark conf
conf = SparkConf()


# create a Spark context
sc = SparkContext(conf=conf)


# input files
file1 = 'file1.txt'
file2 = 'file2.txt'


# load data
data1 = sc.textFile(file1)
data2 = sc.textFile(file2)


data1.collect()

['Apple,Amy',
 'Butter,Bob',
 'Cheese,Chucky',
 'Dinkel,Dieter',
 'Egg,Edward',
 'Oxtail,Oscar',
 'Anchovie,Alex',
 'Avocado,Adam',
 'Apple,Alex',
 'Apple,Adam',
 'Dinkel,Dieter',
 'Doughboy,Pilsbury',
 'McDonald,Ronald']


print("file1: %d lines" % data1.count())

file1: 13 lines


data1.take(3)

['Apple,Amy', 'Butter,Bob', 'Cheese,Chucky']


data2.collect()

['Wendy,', 'Doughboy,Pillsbury', 'McDonald,Ronald', 'Cheese,Chucky']


print("file2: %d lines" % data2.count())

file2: 4 lines


data2.take(3)

['Wendy,', 'Doughboy,Pillsbury', 'McDonald,Ronald']


# prints each element in the Jupyter notebook output
data2.foreach(print)

Cheese,Chucky
Wendy,
Doughboy,Pillsbury
McDonald,Ronald


data = sc.textFile(file1)


data

file1.txt MapPartitionsRDD[10] at textFile at NativeMethodAccessorImpl.java:0


data.take(3)

['Apple,Amy', 'Butter,Bob', 'Cheese,Chucky']


data.map(lambda line: line.split(',')).take(3)

[['Apple', 'Amy'], ['Butter', 'Bob'], ['Cheese', 'Chucky']]


data = sc.textFile(file1)


data.take(4)

['Apple,Amy', 'Butter,Bob', 'Cheese,Chucky', 'Dinkel,Dieter']


data.flatMap(lambda line: line.split(',')).take(7)

['Apple', 'Amy', 'Butter', 'Bob', 'Cheese', 'Chucky', 'Dinkel']


data = sc.textFile(file1)


data = data.map(lambda line: line.split(','))


data.take(3)

[['Apple', 'Amy'], ['Butter', 'Bob'], ['Cheese', 'Chucky']]


data.collect()

[['Apple', 'Amy'],
 ['Butter', 'Bob'],
 ['Cheese', 'Chucky'],
 ['Dinkel', 'Dieter'],
 ['Egg', 'Edward'],
 ['Oxtail', 'Oscar'],
 ['Anchovie', 'Alex'],
 ['Avocado', 'Adam'],
 ['Apple', 'Alex'],
 ['Apple', 'Adam'],
 ['Dinkel', 'Dieter'],
 ['Doughboy', 'Pilsbury'],
 ['McDonald', 'Ronald']]


data = data.map(lambda pair: (pair[0], pair[1]))


data.take(3)

[('Apple', 'Amy'), ('Butter', 'Bob'), ('Cheese', 'Chucky')]


data.mapValues(lambda name: name.lower()).take(3)

[('Apple', 'amy'), ('Butter', 'bob'), ('Cheese', 'chucky')]


data = sc.textFile(file1)


data = data.map(lambda line: line.split(','))


data = data.map(lambda pair: (pair[0], pair[1]))


data.take(3)

[('Apple', 'Amy'), ('Butter', 'Bob'), ('Cheese', 'Chucky')]


data.flatMapValues(lambda name: name.lower()).take(9)

[('Apple', 'a'),
 ('Apple', 'm'),
 ('Apple', 'y'),
 ('Butter', 'b'),
 ('Butter', 'o'),
 ('Butter', 'b'),
 ('Cheese', 'c'),
 ('Cheese', 'h'),
 ('Cheese', 'u')]


data = sc.textFile(file1)


data.take(3)

['Apple,Amy', 'Butter,Bob', 'Cheese,Chucky']


data.filter(lambda line: re.match(r'^[AEIOU]', line)).take(3)

['Apple,Amy', 'Egg,Edward', 'Oxtail,Oscar']


data.filter(lambda line: re.match(r'^[AEIOU]', line)).collect()

['Apple,Amy',
 'Egg,Edward',
 'Oxtail,Oscar',
 'Anchovie,Alex',
 'Avocado,Adam',
 'Apple,Alex',
 'Apple,Adam']


data.filter(lambda line: re.match(r'.+[y]$', line)).take(3)

['Apple,Amy', 'Cheese,Chucky', 'Doughboy,Pilsbury']


data.filter(lambda line: re.search(r'[x]$', line)).take(3)

['Anchovie,Alex', 'Apple,Alex']


data = sc.textFile(file1)


data = data.map(lambda line: line.split(','))


data.take(3)

[['Apple', 'Amy'], ['Butter', 'Bob'], ['Cheese', 'Chucky']]


data = data.map(lambda pair: (pair[0], pair[1]))


data.take(3)

[('Apple', 'Amy'), ('Butter', 'Bob'), ('Cheese', 'Chucky')]


data.groupByKey().take(1)

[('Apple', <pyspark.resultiterable.ResultIterable at 0x7f2ba8087b50>)]


for pair in data.groupByKey().take(1):
    print("%s: %s" % (pair[0], ",".join([n for n in pair[1]])))

Apple: Amy,Alex,Adam


data = sc.textFile(file1)


data = data.map(lambda line: line.split(","))


data = data.map(lambda pair: (pair[0], pair[1]))


data.take(3)

[('Apple', 'Amy'), ('Butter', 'Bob'), ('Cheese', 'Chucky')]


data.reduceByKey(lambda v1, v2: v1 + ":" + v2).take(6)

[('Apple', 'Amy:Alex:Adam'),
 ('Butter', 'Bob'),
 ('Dinkel', 'Dieter:Dieter'),
 ('Doughboy', 'Pilsbury'),
 ('Cheese', 'Chucky'),
 ('Egg', 'Edward')]


data = sc.textFile(file1)


data = data.map(lambda line: line.split(","))


data = data.map(lambda pair: (pair[0], pair[1]))


data.collect()

[('Apple', 'Amy'),
 ('Butter', 'Bob'),
 ('Cheese', 'Chucky'),
 ('Dinkel', 'Dieter'),
 ('Egg', 'Edward'),
 ('Oxtail', 'Oscar'),
 ('Anchovie', 'Alex'),
 ('Avocado', 'Adam'),
 ('Apple', 'Alex'),
 ('Apple', 'Adam'),
 ('Dinkel', 'Dieter'),
 ('Doughboy', 'Pilsbury'),
 ('McDonald', 'Ronald')]


data.sortBy(lambda pair: pair[1][1]).take(10)

[('Egg', 'Edward'),
 ('Avocado', 'Adam'),
 ('Apple', 'Adam'),
 ('Cheese', 'Chucky'),
 ('Dinkel', 'Dieter'),
 ('Dinkel', 'Dieter'),
 ('Doughboy', 'Pilsbury'),
 ('Anchovie', 'Alex'),
 ('Apple', 'Alex'),
 ('Apple', 'Amy')]


data = sc.textFile(file1)


data = data.map(lambda line: line.split(","))


data = data.map(lambda pair: (pair[0], pair[1]))


data.collect()

[('Apple', 'Amy'),
 ('Butter', 'Bob'),
 ('Cheese', 'Chucky'),
 ('Dinkel', 'Dieter'),
 ('Egg', 'Edward'),
 ('Oxtail', 'Oscar'),
 ('Anchovie', 'Alex'),
 ('Avocado', 'Adam'),
 ('Apple', 'Alex'),
 ('Apple', 'Adam'),
 ('Dinkel', 'Dieter'),
 ('Doughboy', 'Pilsbury'),
 ('McDonald', 'Ronald')]


data.sortByKey().take(6)

[('Anchovie', 'Alex'),
 ('Apple', 'Amy'),
 ('Apple', 'Alex'),
 ('Apple', 'Adam'),
 ('Avocado', 'Adam'),
 ('Butter', 'Bob')]


data1 = sc.textFile(file1)


data1.collect()

['Apple,Amy',
 'Butter,Bob',
 'Cheese,Chucky',
 'Dinkel,Dieter',
 'Egg,Edward',
 'Oxtail,Oscar',
 'Anchovie,Alex',
 'Avocado,Adam',
 'Apple,Alex',
 'Apple,Adam',
 'Dinkel,Dieter',
 'Doughboy,Pilsbury',
 'McDonald,Ronald']


data1.count()

13


data2 = sc.textFile(file2)


data2.collect()

['Wendy,', 'Doughboy,Pillsbury', 'McDonald,Ronald', 'Cheese,Chucky']


data2.count()

4


data1.subtract(data2).collect()

['Egg,Edward',
 'Doughboy,Pilsbury',
 'Oxtail,Oscar',
 'Apple,Alex',
 'Apple,Amy',
 'Butter,Bob',
 'Anchovie,Alex',
 'Avocado,Adam',
 'Dinkel,Dieter',
 'Dinkel,Dieter',
 'Apple,Adam']


data1.subtract(data2).count()

11


data1 = sc.textFile(file1).map(lambda line: line.split(',')).map(lambda pair: (pair[0], pair[1]))


data1.collect()

[('Apple', 'Amy'),
 ('Butter', 'Bob'),
 ('Cheese', 'Chucky'),
 ('Dinkel', 'Dieter'),
 ('Egg', 'Edward'),
 ('Oxtail', 'Oscar'),
 ('Anchovie', 'Alex'),
 ('Avocado', 'Adam'),
 ('Apple', 'Alex'),
 ('Apple', 'Adam'),
 ('Dinkel', 'Dieter'),
 ('Doughboy', 'Pilsbury'),
 ('McDonald', 'Ronald')]


data1.count()

13


data2 = sc.textFile(file2).map(lambda line: line.split(',')).map(lambda pair: (pair[0], pair[1]))


data2.collect()

[('Wendy', ''),
 ('Doughboy', 'Pillsbury'),
 ('McDonald', 'Ronald'),
 ('Cheese', 'Chucky')]


data2.count()

4


data1.join(data2).collect()

[('Doughboy', ('Pilsbury', 'Pillsbury')),
 ('McDonald', ('Ronald', 'Ronald')),
 ('Cheese', ('Chucky', 'Chucky'))]


data1.join(data2).count()

3


data1.fullOuterJoin(data2).take(2)

[('Dinkel', ('Dieter', None)), ('Dinkel', ('Dieter', None))]


# stop Spark context
sc.stop()


# create a Spark context
sc = SparkContext(conf=conf)


# read the target file into an RDD
lines = sc.textFile(file1)
lines.take(3)

['Apple,Amy', 'Butter,Bob', 'Cheese,Chucky']


# split the lines into individual words
words = lines.flatMap(lambda l: re.split(r'[^\w]+', l))
words.take(3)

['Apple', 'Amy', 'Butter']


# replace each word with a tuple of that word and the number 1
pairs = words.map(lambda w: (w, 1))
pairs.take(3)

[('Apple', 1), ('Amy', 1), ('Butter', 1)]


# group the elements of the RDD by key (word) and add up their values
counts = pairs.reduceByKey(lambda n1, n2: n1 + n2)
counts.take(3)

[('Apple', 3), ('Amy', 1), ('Butter', 1)]


# sort the elements by values in descending order
counts.sortBy(lambda pair: pair[1], ascending=False).take(10)

[('Apple', 3),
 ('Dinkel', 2),
 ('Alex', 2),
 ('Dieter', 2),
 ('Adam', 2),
 ('Amy', 1),
 ('Butter', 1),
 ('Chucky', 1),
 ('Edward', 1),
 ('Doughboy', 1)]


sorted_counts = (lines.flatMap(lambda l: re.split(r'[^\w]+', l))       # words
                      .map(lambda w: (w, 1))                           # pairs
                      .reduceByKey(lambda n1, n2: n1 + n2)             # counts
                      .sortBy(lambda pair: pair[1], ascending=False))  # sorted counts


sorted_counts.take(10)

[('Apple', 3),
 ('Dinkel', 2),
 ('Alex', 2),
 ('Dieter', 2),
 ('Adam', 2),
 ('Amy', 1),
 ('Butter', 1),
 ('Chucky', 1),
 ('Edward', 1),
 ('Doughboy', 1)]


# stop Spark context
sc.stop()

Spark tutorial¶

Install Spark¶

Spark & Jupyter notebook¶

PySpark Python API¶

RDD - Resilient Distributed Datasets¶

RDD Actions¶

Demo files¶

RDD Operations¶

map()¶

flatMap()¶

mapValues()¶

flatMapValues()¶

filter()¶

groupByKey()¶

reduceByKey()¶

sortBy()¶

sortByKey()¶

subtract()¶

join()¶

MapReduce demo¶

Simplify chained transformations¶