Hadoop dans Windows Azure : Big Data & Business Intelligence

by Romain.CASTERES 18. May 2012 13:56

 

Démonstration préparée pour l'Après-midi du développement : Big Data : Hadoop sur Azure qui aura lieu le 24 mai 2012 chez Microsoft : http://aka.ms/amdev-hadoop

1 - Hadoop dans le cloud avec Windows Azure

 

Hadoop est une librairie open source pour traiter d'importantes masses de données en mode distribuée. Hadoop est aujourd'hui le leader du domaine et du Big Data.

2 - Rapatrier des données provenant d’un Blob Storage Azure

  • Dans Manage Cluster, configurer votre Azure Blob Storage.
  • Connectez vous en Remote Desktop
  • Exécuter les commandes shell afin de distribué sur le cluster vos données

Hadoop distcp asv://demo/iislogsTB-out-H demo/iislogsTB-out-H

Hadoop distcp asv://demo/iislogsTB-out-D demo/iislogsTB-out-D

Information sur la commande Distcp : http://hadoop.apache.org/common/docs/current/distcp.html

 

3 - Requête Hive

Dans Interactive Console, Interactive Hive nous allons créer des "External Table" afin de pouvoir accéder aux données rapatriées.

 

4 - Interrogation des données dans Excel

Afin de pouvoir interroger vos données de votre cluster Hadoop depuis Excel il vous faut télécharger et installer :

  • Hive ODBC driver
  • Hive Add-in for Excel.

Ouvrez le port "ODBC Server" :

Configuration de la connexion Hive ODBC :

 

5 - Projet de Business Intelligence

Nous allons alimenter un petit Datamart à partir de notre cluster Hadoop. Création de notre base de données dans SQL Server 2012 :

  • Création d'un Package SSIS :

Création d’un cube SSAS Tabular :

6 - Drill-Down

Nous avons alimenté le Datamart à partir de données agrégées provenant du cluster Hadoop. Grace à une requête Hive, les données de granularités les plus fines peuvent toujours être récupérées !

Nous voyons ici la complémentarité de la Business Intelligence et du Big Data

 

HadoopOnAzure, démo des TechDays 2012

by Damien.DORISON 22. February 2012 19:44

A l'occasion des TechDays 2012, nous avons eu le plaisir d'animer aux côtés de Laurent MARZOUK de Microsoft, une session dédiée à la problématique BigData, et particulièrement à l'intégration de HadoopOnAzure. Cette démo mettait en avant un cas d'usage tiré d'un scénario réèl :

  • Des clients s'abonnent à un service qui leur permet de diffuser des contenus publicitaires dans leurs lieux de vente sur des écrans de télévision
  • Ils uploadent leurs contenus vers une plateforme centralisée
  • Les sites de diffusion téléchargent les contenus en local
  • Un système de schedule permet aux clients de créer des listes de diffusion, autorisant ainsi la lecture des médias en pilotant unitairement chacun des écrans des lieux de vente
  • A chaque fois qu'un film est joué sur un écran, un log de diffusion est remonté vers la plateforme centrale et stocké en BDD
  • Des outils de reporting sont mis en place pour permettre à différents intervenants d'avoir une vue sur l'activité du système :
    • Rapports système pour les administrateurs de la plateforme
    • Rapports d'usage en vue de la facturation client
    • Rapports destinés au service commercial des client pour éventuelle re-facturation
    • Outils d'analyse croisée pour chaque client

L'ensemble des diffusions sur chaque écrans génère une volumétrie considérable qu'il est couteux de stocker dans une BDD relationnelle à des fins d'analyse (3 Go de données / jour).

Nous avons donc démontré l'usage de HadoopOnAzure pour réaliser le stockage et l'analyse de ces données.

HaddopOnAzure est actuellement disponible en CTP sur invitation (ici). La version actuelle permet de créer un cluster temporaire qui peut contenir jusqu'à 32 noeuds et 16 TB de disques.

Lors de la création du cluster un nom DNS est choisi afin de pouvoir adresser la machine depuis l'extérieur du cluster, ou de s'y connecter en RDP.

Le cluster ainsi créé est adressable :

  • Depuis une console Hive inclue dans le portail HadoopOnAzure
  • Depuis une console Javascript inclue dans le portail HadoopOnAzure
  • Depuis l'extérieur du cluster grâce à un driver ODBC Hive QL (en ouvrant le port dédié)
  • En upload en FTPS (en ouvrant le port dédié)
  • En RDP

Le système permet, entre-autres d'exécuter des jobs de Map/Reduce écrits en .Net (C#, F#).

Le matériel de cette démo :

Vos retours sont les bienvenus.

 

Enjoy :)

Tags: , , ,

BigData | Techdays '12

A propos de DCube

DCube est une société de services spécialisée dans les plateformes Microsoft.

Microsoft Gold Certified Partner depuis 2007, nous comptons une trentaine de collaborateurs certifiés ayant à cœur de mettre leur passion pour la technologie au service de leurs clients.

Visitez notre site : www.d-cube.fr