Comment se connecter sur mon cluster Hadoop en SSH ?

Pour bous connecter à votre cluster Hadoop, il faut vous munir de votre clé SSH ainsi que de l’adresse IP flottante.

/!\ Il ne faut pas le user cloud, mais au contraire Ubuntu (pour un OS Ubuntu 14.04) ou alors cloud-user/root (pour un OS CentOS).

ssh –i <clé ssh> <user ubuntu/root>@<IP flottante>

Comment se connecter aux services Hadoop ayant une interface Web (Ambari, Cloudera Manager, Yarn…) ?

Lorsque votre cluster est créé avec succès, dans le menu CLUSTER vous trouverez une instance ACTIVE.

Si vous cliquez sur le nom du cluster, vous trouverez le détail des services qui ont été déployés avec succès. Sera indiqué l’URL / port pour pouvoir se connecter. Vous pouvez alors ouvrir cette URL dans une autre page de votre navigateur.

Pour les services web sans authentification, vous pouvez y accéder directement. Pour Ambari / Cloudera Manager, le login par défaut est admin, le mots-de-passe sera généré automatiquement par Sahara (dans le menu Cluster -> cliquer sur le cluster actif).

/¡\ Veillez à restreindre l’accès à ces portails web, au travers des groupes de sécurité, et aussi à modifier les mots-de-passe à la première connexion.

Comment déployer correctement mon cluster avec des disques volume attachés ?

Sur les disques des nœuds Hadoop, il y a une partition DFS (non-hadoop) et une partition HDFS (Hadoop-DFS). Il faut veiller à bien définir assez d’espace disque pour pouvoir faire cohabiter les partitions.

Par défaut, CDH 5.0 réserve 10Go de disque pour le DFS. Donc, si vous n’affectez qu’un disque volume de 10Go à vos nœuds Hadoop, le déploiement du cluster Hadoop échouera, par manque d’espace HDFS.

Dans le cas d’un disque éphémère, il y a un total de 50Go de disque par nœud. Ce qui est amplement suffisant pour un DFS de 10Go et donc un total restant de 40Go pour le HDFS.

ERROR: publicURL endpoint for data-processing service in fr1 region not found

Cette erreur survient quand le client Sahara ne trouve pas le serveur Sahara. En effet, le client Sahara fait une recherche des points d’entrée (« endpoint ») qui est susceptible d’être compatible avec le service Hadoop (« data-processing »).

Nous avons pris le parti de déployer le service Sahara au niveau d’une instance. Il faut donc explicitement indiquer la localisation du point d’entrée (« endpoint ») du serveur Sahara.

sahara --insecure --bypass-url https://<@IP>:8386/v1.1/<tenant-id> <commande sahara>

Pour éviter de réécrire cette ligne de commande, nous vous recommandons d’en créer un alias à la fin de votre fichier COMPUTE….openrc.sh. Lorsque vous ferez une initialisation de vos variables d’environnement OS_TENANT, etc. Vous initialiserez aussi cet alias.

alias sahara="sahara --insecure --bypass-url https://<@IP>:8386/v1.1/<tenant-i>"

A partir de là, toutes vos commandes Sahara seront interprétées de façon nominale. Par ex: sahara cluster-list