Analytics-as-a-Service avec Sahara et Swift

Analytics-As-A-Service permet de lancer les tâches sur les données et sauvegarder les résultats sur le stockage objet. Cette fonctionnalité présente plusieurs avantages:

  • Il n’est plus nécessaire de se connecter au cluster Hadoop pour y télécharger le job ainsi que les données.
  • Il peut lancer le même job/données sur plusieurs fois sur des clusters différents. D’ailleurs, en utilisant Stockage Objet pour sauvegarder les données, le client peut partager les données (input/output) entres différents clusters Hadoop, ou avec d’autres clients de Cloudwatt.

Dans le cas d’usage ci-dessous, nous utilisons le stockage objet pour stocker le job binaire, les données d’entrée et les données en sortie. Le job binaire, qui est un programme (wordcount), va compter l’occurrence de tous les mots dans le fichier input.

Job binaire: https://git.openstack.org/cgit/openstack/sahara-tests/plain/sahara_tests/scenario/defaults/edp-examples/edp-java/edp-java.jar

Données d’entrée: http://norvig.com/big.txt