17 novembre 2017

Utilisation d’un “combiner” dans un job Hadoop MapReduce

Pour augmenter l’efficacité d’un job MapReduce, en plus du cache distribué, on peut s’aider de combiners. Brièvement, dans un job MapReduce: Lors de la phase Map, les mappers génèrent des paires de clé/valeur. Lors de la phase shuffle/sort, ces paires sont réparties et ordonnées sur un ou plusieurs nœuds en fonction de la valeur de…

Continuer à lire

10 novembre 2017

Utilisation du “distributed cache” dans un job Hadoop MapReduce

Lors de l’exécution d’un job MapReduce, il peut être nécessaire de consulter des données régulièrement de façon à les utiliser pour les traitements effectués par le mapper ou le reducer. Par exemple, on peut avoir la nécessité de mettre en place un dictionnaire et y accéder pendant l’exécution du mapper et du reducer. Hadoop possède…

Continuer à lire

28 octobre 20174 novembre 2017

Configurer un cluster Hadoop multi-nœud

Cet article indique comment configurer un cluster Hadoop à partir d’une configuration en mode pseudo-distribué. Dans un article précédent, on avait expliqué comment installer Hadoop sur Debian GNU/Linux. A la suite de cette installation, le cluster Hadoop ne comportait qu’un seul nœud (i.e. single node cluster) et les jobs MapReduce s’exécutaient de façon pseudo distribuée….

Continuer à lire

28 octobre 201710 novembre 2017

Exécuter un job Hadoop MapReduce avec .NET Core

Cet article fait suite à l’article Hadoop MapReduce en 5 min qui expliquait de façon théorique le mécanisme des jobs MapReduce. Dans ce présent article, le but est de rentrer un peu plus dans les détails de l’implémentation d’un job Hadoop MapReduce avec une technologie .NET. Dans un premier temps, on va expliciter les différentes…

Continuer à lire

14 octobre 201715 octobre 2017

Hadoop MapReduce en 5 min

Hadoop (i.e. High-availability distributed object-oriented platform) est une système distribué permettant de stocker et d’analyser des données. Le grand intérêt d’Hadoop est de proposer un framework pour effectuer des analyses de données de façon parallélisée sur plusieurs machines. D’autre part, Hadoop permet d’utiliser des machines normales et de les associer en groupe de façon à…

Continuer à lire

16 septembre 201729 octobre 2017

Commandes shell courantes pour HDFS

Quelques commandes courantes pour HDFS Pour ces commandes, il existe 2 syntaxes possibles: Avec hadoop: avec une syntaxe du type hadoop fs <commande>, Avec hdfs: la syntaxe est hdfs dfs <commande>. Cette commande sont proche de celles utilisées par le shell linux comme ls, mkdir, rm, cat, etc… Pour lister le contenu d’un répertoire hdfs…

Continuer à lire

16 septembre 201729 octobre 2017

Installation d’Hadoop sur Debian

Cet article explique l’installation de Hadoop sur Debian GNU/linux 9. La version d’Hadoop utilisée est celle téléchargeable directement du site d’Apache. L’intérêt d’utiliser Debian est que beaucoup d’outils sont disponibles sur cette distribution et qu’elle est gratuite. Dans cet article, on détaille l’installation d’Hadoop et de YARN ainsi que la configuration d’un cluster en single-node….

Continuer à lire