hadoop - intro

15

Click here to load reader

Upload: radu-stoenescu

Post on 02-Jul-2015

80 views

Category:

Engineering


2 download

DESCRIPTION

Intro to Hadoop.

TRANSCRIPT

Page 1: Hadoop - Intro

Data locality in

distributed systems

Hadoop

Stoenescu Radu

Page 2: Hadoop - Intro

Data locality

● algoritmul necesita transferuri reduse de

date (d.p.d.v. al frecventei si dimensiunii)

Page 3: Hadoop - Intro

Importanta

● erori mai putine si mai usor de detectat

● vitezao CPU ~ 32GB/s

o Network ~ 1Gb/s

Page 4: Hadoop - Intro

Probleme

● fiecare doua zile aduc atatea date cat de

la inceputul omenirii pana in 2003

● date de intrare care nu pot si stocate

unitar -> date fragmentate la nivel de

cluster

Page 5: Hadoop - Intro

O solutie

Hadoop

● sistem pentru stocarea si procesarea

datelor la nivelul unui cluster construit cu

"commodity hardware"

● doua componenteo stocare HDFS

o procesare Map - Reduce

Page 6: Hadoop - Intro

Stocare - cerinte

● toleranta la defecte => redundanta

● performanta pentru operatia de citire

Page 7: Hadoop - Intro

Idei

● Un nod central (Namenode) pentru

coordonare

● Date replicate la mai multe noduri de

stocare (Datanode)

● Date stocate continuu

Page 8: Hadoop - Intro

HDFS - Arhitectura

Page 9: Hadoop - Intro

Procesare - cerinte

● high level

● scalabilitate

● viteza

Page 10: Hadoop - Intro

Map Reduce

● map(raw_data) => [<id, reprezentare>]

● reduce(<id, [reprezentare1, ...]>) =>

<id, rezultat>

Page 11: Hadoop - Intro

Arhitectura

Page 12: Hadoop - Intro

Exemplu - numararea cuvintelor

● raw_input => document

● map(raw_input) => [<cuvant, 1>]

● reduce(<cuvant, [1, ...]>) =>

<cuvant, sum([1, ... ])>

Page 13: Hadoop - Intro

Ce se mai intampla

● Dupa etapa de map se prioritizeaza

transferurile

● Heartbeat la nivelul clusterului

Page 14: Hadoop - Intro

Ce am obtinut

● Interfata simpla

● Toleranta la defecte

● Algoritm care favorizeaza un numar mic

de transferuri la nivelul cluster-ului

Page 15: Hadoop - Intro

Multumesc