#4.21 IBM se lance dans le data mesh avec Data Product Hub
Manage episode 425740551 series 3560168
IBM se lance à son tour dans le data mesh et les data products. L’entreprise l’a annoncé cette semaine, à l’occasion d’un séminaire de présentation de son offre appelée IBM Data Product Hub.
Cette tendance, le « shift left », consiste à transférer peu à peu la responsabilité des data aux utilisateurs métiers, et l’autonomie qui va avec.
Que vous appliquiez à la lettre les principes du data mesh ou si vous créez simplement des data products pour remplacer vos entrepôts de données centralisés, vous allez passer par la recherche et l’installation d’une plateforme de jeux de données. Amazon, SAP, Microsoft mais également des éditeurs spécialisés comme Zeena, Meta-Analysis ou Orkestra Data se sont lancés dans la course. Nous en avons déjà parlé ici.
Signe que le sujet du data mesh devient incontournable, IBM se lance à son tour.
Difficile de remettre en question ses habitudes de centralisation ! IBM annonce Data Product Hub, une plateforme, centralisée, pour stocker les data products.
Les sources de données sont des entrepôts de données ou des lakehouses – 57 connecteurs sont annoncés. Les jeux de données peuvent ensuite être analysés avec Tableau, Watsonx de IBM ou encore en Python via la librairie Pandas. Le plan de développement prévoit l’incorporation d’IA générative dans les prochaines versions, fin 2024 et début 2025.
Les consommateurs de données peuvent envoyer des requêtes, demandant à accéder aux données qui les intéressent. Les producteurs de données peuvent personnaliser les formats de génération des jeux de données, pour s’adapter aux besoins de leurs consommateurs.
La gouvernance de l’ensemble est bien sur facilitée. Si vous utilisez le catalogue de données IBM Knowledge Catalog, le Data Product Hub pourra s’y connecter. Une intégration avec Informatica est prévue fin 2024. Les jeux de données peuvent être générés et stockés, ou pourront être virtualisés à partir de fin 2024. La génération et la mise à jour des data products sera automatisée dans la version de début 2025.
Point très important, des data contracts et des niveaux de service peuvent être implémentés afin de gouverner les échanges de données. Un tableau de bord de suivi est même prévu. Ces contrats « lisibles par la machine » permettront dans la version de début 2025, de mettre en place un suivi automatisé de la gouvernance.
Le Data Product Hub de IBM sera disponible en version on-premise, à l’achat ou à la location, ainsi qu’en version SaaS hébergée dans le cloud IBM, ou dans d’autres grands clouds. Une version d’essai de 60 jours sera proposée par l’éditeur. La version perpétuelle sera proposée à partir de 250 000 $, ou en location à partir de 100 000 $ par an. Le Data Product Hub est un nouveau composant ajouté à la Data Fabric de IBM.
Préparant le futur, et la monétisation des données, IBM inclut une fonction de place de marché – on appelle également cela un Data Space. Mais dès maintenant, les consommateurs de données peuvent l’utiliser pour rechercher un jeu de données répondant à leurs besoins. Avec toutes les difficultés que l’on constate lors des tentatives de création de catalogues de données métier, on peut espérer que les catalogues de jeux de données seront adoptés, par les producteurs et les consommateurs, et seront alors correctement catalogués !
80 episoder