Хадооп МапРедуце Придружите се и бројач са примером

Шта је Јоин ин Мапредуце?

Мапредуце Јоин операција се користи за комбиновање два велика скупа података. Међутим, овај процес укључује писање много кода за извођење стварне операције спајања. Спајање два скупа података почиње упоређивањем величине сваког скупа података. Ако је један скуп података мањи у односу на други скуп података, тада се мањи скуп података дистрибуира на сваки чвор података у кластеру.

Једном када се придружи спајање у МапРедуце -у, Маппер или Редуцер користе мањи скуп података да изврше претрагу за подударање записа из великог скупа података, а затим их комбинују како би формирали излазне записе.

У овом водичу ћете научити-

Врсте придруживања

У зависности од места где се стварно спајање изводи, спајања у Хадооп-у су класификована у-

1. Спајање на карти - Када мапирање изведе спајање, назива се спајање на карти. У овом типу, спајање се врши пре него што функција карти заиста потроши податке. Обавезно је да је улаз на свакој карти у облику партиције и да је сортиран. Такође, мора постојати једнак број партиција и мора се сортирати према кључу придруживања.

2. Спој на страни смањења - Када спајање изводи редуктор, то се назива спајањем на страни редукције. У овом придруживању није потребно имати скуп података у структурираном облику (или партиционираном).

Овде бочна обрада мапе емитује кључ придруживања и одговарајуће низове обе табеле. Као резултат ове обраде, све торбе са истим кључем придруживања падају у исти редуктор који затим спаја записе са истим кључем за придруживање.

Цјелокупни ток процеса спајања у Хадооп -у приказан је на доњем дијаграму.

Врсте придруживања у Хадооп МапРедуце



Како се придружити два скупа података: Пример МапРедуце

Постоје два скупа података у две различите датотеке (приказане доле). ИД кључа Депт_ИД је уобичајен у обе датотеке. Циљ је да користите МапРедуце Јоин за комбиновање ових датотека

Датотека 1

Датотека 2



Улазни: Улазни скуп података је ткт датотека, ДептНаме.ткт & ДепСтренгтх.ткт

Преузмите улазне датотеке одавде

Уверите се да имате инсталиран Хадооп. Пре него што почнете са стварним процесом примера МапРедуце Јоин, промените корисника у „хдусер“ (ИД се користи док се Хадооп конфигурише, можете се пребацити на кориснички ИД који се користи током конфигурације Хадооп -а). | _+_ |

Корак 1) Копирајте зип датотеку на локацију по вашем избору

Корак 2) Распакујте Зип датотеку | _+_ |

Корак 3) Идите у директоријум МапРедуцеЈоин/ | _+_ |

Корак 4) Покрени Хадооп | _+_ | | _+_ |

Корак 5) ДептСтренгтх.ткт и ДептНаме.ткт су улазне датотеке које се користе за овај пример програма МапРедуце Јоин.

Ове датотеке је потребно копирати на ХДФС помоћу наредбе испод | | _+_ |

Корак 6) Покрените програм помоћу наредбе испод | | _+_ |

Корак 7) Након извршења, излазна датотека (названа 'парт-00000') ће бити ускладиштена у директорију /оутпут_мапредуцејоин на ХДФС-у

Резултати се могу видети помоћу интерфејса командне линије | _+_ |

Резултати се такође могу видети путем веб интерфејса као

Сада изаберите 'Прегледајте систем датотека' и дођите до /оутпут_мапредуцејоин

Отвори део-р-00000

Резултати су приказани

БЕЛЕШКА: Имајте на уму да ћете пре следећег покретања овог програма морати да избришете излазни директоријум /оутпут_мапредуцејоин | _+_ |

Алтернатива је кориштење другог назива за излазни директориј.

Шта је бројач у МапРедуце -у?

ДО Бројач у МапРедуце -у је механизам који се користи за прикупљање и мерење статистичких података о пословима и догађајима МапРедуце. Бројачи воде евиденцију различитих статистика послова у МапРедуце -у, попут броја извршених операција и напретка операције. Бројачи се користе за дијагностику проблема у МапРедуце -у.

Хадооп бројачи су слични стављању дневничке поруке у код за мапу или смањење. Ове информације могу бити корисне за дијагностицирање проблема при обради посла МапРедуце.

Типично, ови бројачи у Хадооп -у су дефинисани у програму (пресликајте или смањите) и повећавају се током извршавања када се догоди одређени догађај или стање (специфично за тај бројач). Врло добра примена Хадооп бројача је праћење ваљаних и неважећих записа из улазног скупа података.

Врсте бројача МапРедуце

У основи постоје 2 врсте Карта смањити Бројачи

    1. Уграђени бројачи Хадооп: Постоје неки уграђени Хадооп бројачи који постоје по послу. Испод су уграђене бројачке групе-
      • МапРедуце Бројачи задатака - Прикупља информације специфичне за задатак (нпр. Број улазних записа) током времена извршавања.
      • Бројачи датотечних система - Прикупља информације попут броја бајтова које је задатак прочитао или написао
      • Бројачи ФилеИнпутФормат - Прикупља информације о броју бајтова прочитаних кроз ФилеИнпутФормат
      • Бројачи ФилеОутпутФормат - Прикупља информације о одређеном броју бајтова написаних путем ФилеОутпутФормат
      • Бројачи послова - Ове бројаче користи ЈобТрацкер. Статистика коју су прикупили укључује, на пример, број задатака покренутих за посао.
    2. Кориснички дефинисани бројачи

Поред уграђених бројача, корисник може да дефинише сопствене бројаче користећи сличне функције које пружа програмски језици . На пример, у Јави 'енум' се користи за дефинисање кориснички дефинисаних бројача.

Пример бројача

Пример МапЦласс -а са бројачима за бројање недостајућих и неважећих вредности. Датотека улазних података која се користи у овом водичу Наш скуп улазних података је ЦСВ датотека, СалесЈан2009.цсв

su - hduser_

Горе наведени исечак кода приказује пример имплементације бројача у Хадооп Мап Редуце.

Овде, СалесЦоунтерс је бројач дефинисан коришћењем 'енум' . Користи се за бројање МИССИНГ и ИНВАЛИД улазни записи.

У исечку кода, ако 'земља' поље има нулту дужину, тада његова вредност недостаје, па отуда и одговарајући бројач СалесЦоунтерс.МИССИНГ се увећава.

Даље, ако 'продаја' поље почиње са а ' онда се запис сматра НЕВАЖНИМ. Ово је означено повећањем бројача СалесЦоунтерс.ИНВАЛИД.