Care este diferența dintre HDFS și MapReduce

principala diferență între HDFS și MapReduce este asta HDFS este un sistem de fișiere distribuit, care oferă un acces de mare viteză la datele aplicațiilor, în timp ce MapReduce este un cadru software care procesează în mod credibil date importante pe grupuri mari.

Datele mari sunt o colecție de seturi de date mari. Are trei proprietati principale: volum, viteza si varietate. Hadoop este un software care permite stocarea și gestionarea datelor importante. Este un cadru open source scris în Java. Mai mult, aceasta permite procesarea distribuită a seturilor mari de date între grupurile de computere. HDFS și MapReduce sunt două module în arhitectura Hadoop.

Domenii cheie acoperite

1. Ce este HDFS
     - Definiție, funcționalitate
2. Ce este MapReduce
     - Definiție, funcționalitate
3. Care este diferența dintre HDFS și MapReduce
     - Compararea diferențelor cheie

Termeni cheie

Datele mari, HDFS, MapReduce

Ce este HDFS

HDFS înseamnă Sistemul de fișiere distribuite Hadoop. Este un sistem de fișiere distribuit de Hadoop care rulează pe grupuri mari în mod fiabil și eficient. De asemenea, se bazează pe Sistemul de fișiere Google (GFS). Mai mult, are și o listă de comenzi pentru a interacționa cu sistemul de fișiere.

În plus, HDFS funcționează în funcție de arhitectura master, slave. Nodul principal sau nodul de nume gestionează metadatele sistemului de fișiere în timp ce nodurile slave sau notele de date stochează date reale.

Figura 1: Arhitectura HDFS

În plus, un fișier dintr-un spațiu de nume HDFS este împărțit în mai multe blocuri. Nodurile de date stochează aceste blocuri. Și, nodul nume hărți blocurile la nodurile de date, care manipulează operațiile de citire și scriere cu sistemul de fișiere. În plus, ele efectuează sarcini cum ar fi crearea de blocuri, ștergerea etc., așa cum este instruit de către nodul de nume.

Ce este MapReduce

MapReduce este un cadru software care permite scrierea de aplicații pentru procesarea simultană a datelor mari pe grupuri mari de hardware de mărfuri. Acest cadru constă într-un singur tracker de locuri de muncă principale și un tracker de sarcină slave pe nod de cluster. Master-ul efectuează gestionarea resurselor, programarea de sarcini pe sclavi, monitorizarea și re-executarea sarcinilor eșuate. Pe de altă parte, dispozitivul de urmărire a sarcinilor slave execută sarcinile instruite de comandant și trimite informațiile despre starea sarcinilor înapoi la mater în mod constant.

Figura 2: Prezentare generală MapReduce

De asemenea, există două sarcini asociate cu MapReduce. Acestea sunt sarcina de hartă și sarcina de reducere. Sarcina de hartă ia datele de intrare și le împarte în tupluri de perechi de chei și valori, în timp ce sarcina Reduce prelucrează ieșirea dintr-o sarcină a hărții ca intrare și le conectează la nopți mai mici. Mai mult, sarcina hărții este efectuată înainte de reducerea sarcinii.

Diferența dintre HDFS și MapReduce

Definiție

HDFS este un sistem de fișiere distribuit, care stochează în mod fiabil fișiere mari pe mașini într-un grup mare. În schimb, MapReduce este un cadru software pentru scrierea cu ușurință a aplicațiilor care procesează cantități mari de date în paralel pe grupuri mari de hardware de mărfuri într-o manieră fiabilă, tolerantă la erori. Aceste definiții explică principala diferență dintre HDFS și MapReduce.

Funcționalitatea principală

O altă diferență între HDFS și MapReduce este că HDFS oferă acces de înaltă performanță la date în clustere Hadoop extrem de scalabile, în timp ce MapReduce efectuează procesarea datelor mari.

Concluzie

Pe scurt, HDFS și MapReduce sunt două module în arhitectura Hadoop. Principala diferență dintre HDFS și MapReduce este că HDFS este un sistem de fișiere distribuit, care oferă acces la date de mare viteză la aplicații, în timp ce MapReduce este un cadru software care procesează în mod fiabil date importante despre clustere mari.

Referinţă:

1. "Ghidul Arhitectului HDFS", Apache Hadoop, disponibil aici. 
2. "MapReduce Tutorial", Apache Hadoop, disponibil aici.
3. "Ce este Sistemul de fișiere distribuit Hadoop (HDFS)?" - Definiție de la WhatIs.com. "SearchDataManagement, disponibil aici.

Datorită fotografiei:

1. "Hdfsarchitecture" de Magnai17 - Muncă proprie (CC BY-SA 4.0) prin Wikimedia Commons
2. "Mapreduce Overview" Prin Poposhka - SVG-Edit (CC BY-SA 3.0) prin Wikimedia Commons