Utilisation du “distributed cache” dans un job Hadoop MapReduce

Lors de l’exécution d’un job MapReduce, il peut être nécessaire de consulter des données régulièrement de façon à les utiliser pour les traitements effectués par le mapper ou le reducer. Par exemple, on peut avoir la nécessité de mettre en place un dictionnaire et y accéder pendant l’exécution du mapper et du reducer. Hadoop possède…

Continuer à lire

Hadoop MapReduce en 5 min

Hadoop (i.e. High-availability distributed object-oriented platform) est une système distribué permettant de stocker et d’analyser des données. Le grand intérêt d’Hadoop est de proposer un framework pour effectuer des analyses de données de façon parallélisée sur plusieurs machines. D’autre part, Hadoop permet d’utiliser des machines normales et de les associer en groupe de façon à…

Continuer à lire

Commandes shell courantes pour HDFS

Quelques commandes courantes pour HDFS Pour ces commandes, il existe 2 syntaxes possibles: Avec hadoop: avec une syntaxe du type hadoop fs <commande>, Avec hdfs: la syntaxe est hdfs dfs <commande>. Cette commande sont proche de celles utilisées par le shell linux comme ls, mkdir, rm, cat, etc… Pour lister le contenu d’un répertoire hdfs…

Continuer à lire