Intelligence Artificielle : les actualités passées au crible par Keley - Oct 2021

Catégorie :

Data Science

Savoir-faire :

Data & Digital Performance

Publié le :

22

October

2021

Temps de lecture :

5 minutes

#

Article

#

Big Data et Cloud

#

DataScience

Data center conceptualisé avec faiseaux lumineux

Article mis à jour le

Animée par Jean-Michel Salem, les meetups mensuels Keley passent en revue les actualités liées à l’Intelligence Artificielle. Data Science, Machine Learning et autres concepts sont abordés de manière ludique et vulgarisée par nos 2 experts : Vincent Talbo et Mehdi Haddab. Voici le troisième épisode, avec un focus important sur la définition du big data et le stockage de la donnée, deux concepts préalables à la data science.

‍

Que veut dire « Big Data » ?

Tentative d’explication autour de l’exemple Facebook.

4 peta octets. C’est que ce génère Facebook par jour en taille de donnée, soit 46 giga octets par seconde. À notre échelle, ce volume de création de données remplirait tous les ordinateurs de Keley en un peu plus de 5 minutes. On se rend ainsi bien compte que ces données ne peuvent pas être stockées sur des ordinateurs simples. C’est ainsi qu’arrive la notion d’infrastructure cloud, impliquant des énormes serveurs.

Dans le cas de Facebook (mais aussi d’Amazon), ces serveurs sont organisés en ruche (The Facebook Hive), soit de mini alvéoles qui communiquent entre elles et stockent les données. On pourrait imaginer que le big data se résume à ça, avec « big » dans le sens énorme. Mais on n’évoque ici que le volume, et le big data ne se résume pas à la taille.

La question qui vient à l’esprit immédiatement est où toutes ces données sont-elles stockées physiquement ? Car le stockage demande des machines, des disques durs. Dans le monde, il existe de gigantesques data centers, très centralisés qui abritent toute cette donnée. C’est une vraie question qui se pose en termes de ressources et d’environnement. Le stockage demande des ressources, mais y accéder aussi.

‍

Les 5 V du big Data

Car si empiler des données est plutôt simple, copier 46 Go en une seconde n’est pas aisé. On a tous transféré des fichiers sur une clef USB ou un serveur, et personne n’a jamais bénéficié de cette vitesse de débit…

Ensuite, il faut prendre en compte la variété des données. Dans le cas de Facebook, on a des images, des vidéos, des textes, des calculs, etc. soit une multitude de types de données à stocker efficacement. Il faut également être capable de déterminer quand on aura besoin d’accéder à cette donnée, immédiatement ou plus tard. Toute cette gestion est opérée par l’infrastructure.

En data science, la véracité est cruciale. La donnée est-elle correcte ? Est-elle redondante, c’est-à-dire peut-on la trouver ailleurs ? Parce que le stockage coûte de l’énergie et donc de l’argent (sans parler de l’impact écologique). Ainsi, la capacité à identifier deux données similaires et ainsi les stocker en une seule est un enjeu d’avenir. Ce qui aujourd’hui ne semble pas encore être le cas de Facebook qui stocke plusieurs images si la même photo est publiée plusieurs fois.

Dans le cadre d’un réseau social, même si des informations sensibles peuvent circuler, la véracité et/ou la redondance ne sont pas encore un enjeu crucial. En revanche, on imagine que dans les domaines bancaires ou de la santé, les désagréments peuvent devenir critiques. On a tous été par exemple confronté un jour à un double débit.

Enfin, le dernier point est certainement le plus important. À quoi cela sert-il de stocker de la donnée si on n’en extrait pas de la valeur ? Chez Facebook par exemple, si on sait plus ou moins ce que le réseau social fait de notre donnée, elle est au cœur du business model de l’entreprise. Grâce à elle, Facebook connaît notre comportement et nos centres d’intérêts et les vend à des annonceurs pour en retirer des revenus publicitaires.

Quelle qu’en soit son utilisation, pour que la valeur de la donnée soit maximale, les quatre précédents V ont toute leur importance. Il faut que la donnée soit disponible, rapidement, classifiée et vérifiée.

‍

Stockage de la donnée : Cloud vs On Premise

Commençons par enfoncer une porte ouverte. Le cloud bien que traduisible par nuage, ne signifie pas que les données sont immatérielles. Elles ont une réalité physique dans des data centers. Simplement, à l’inverse du « on premise », vos données ne sont pas stockées sur votre appareil, mais sur le serveur d’un tiers « de confiance ».

Il est important de souligner cette notion de confiance, qui est à la base du transfert de données. Car la délégation du stockage implique évidemment des notions juridiques et d’autonomie sur ces données.

On comprend tout de suite l’intérêt du cloud : s’affranchir de la partie ressource de ses propres appareils. On a tous eu sa mémoire d’ordinateur ou de téléphone pleine à cause de photos, de vidéos ou d’application gourmande en place. Le cloud supprime cet écueil. Cela permet ainsi aux entreprises de ne plus avoir à anticiper leur infrastructure matérielle et son évolution. Il suffit d’ajuster son contrat.

L’infrastructure représente également une somme de travail et de problème considérable. L’externalisation est donc souvent bienvenue. En faisant appel à des entreprises dont c’est le cœur de métier, un groupe peut même espérer des économies conséquentes. Mais il peut aussi prétendre à des technologies qu’il ne maîtrise pas en interne. Le stockage n’est pas la seule vertu du cloud. Google permet par exemple l’accès à des outils d’IA pour data scientists, qu’une entreprise mettrait des années à développer en interne.

En revanche, le cloud rajoute une complexification, celle de la disponibilité de la donnée. On retrouve ici le concept de « velocity ». Sur son ordinateur, la donnée est disponible immédiatement et en intégralité. Le chiffrement se résume à celui d’accès à la machine. Sur un cloud, les notions de disponibilité, de compression/décompression, de chiffrement et donc d’accès dans des délais rapides sont à prendre en compte avant de franchir le pas.

Enfin, la sécurité est un enjeu primordial. Si le piratage peut arriver n’importe où, les data centers cloud sont évidemment plus visés, mais bien mieux sécurisés. De plus, le cloud dispose toujours d’une double sécurité, qui permet en cas de défaillance d’un disque dur, de retrouver ses données à un autre endroit. Cela peut prendre du temps de retrouver sa donnée, comme l’a montré l’exemple OVH il y a quelques semaines, mais on finit toujours par y accéder. Avec la perte d’un téléphone, on peut dire au revoir à sa donnée.

En suspens reste de la question législative. Théoriquement, la donnée est soumise à sa territorialité, et non à sa possession. Mais le pouvoir de pression de certains états (par exemple les USA avec leur patriot act qui donne une force incroyable à l’extraterritorialité de ses lois) fait que votre donnée peut être dans la pratique consultée par des organisations dont vous pouvez être à l’origine protégés.

Un projet de migration cloud, qu’il accompagne ou non un projet big data, est une décision trop importante pour une entreprise pour faire l’économie d’une phase de cadrage. Il faut se poser les bonnes questions, bien connaître ses besoins avant de s’engager (ou non).

Vincent Talbo

Consultant en Data Science

Docteur en Physique, Ingénieur-Chercheur depuis 10 ans, Vincent est passionné par les thématiques touchant aux intelligences artificielles et à l'apprentissage machine.

Mehdi Haddab

Consultant en Data Science

Titulaire d'un Master en Data Science obtenu à l'Université de la Sorbonne, Mehdi est passionné par l'IAet les mathématiques. Il a notamment travaillé pour Orange.

Envie de partager cet article ?

Button Text

Intelligence Artificielle : les actualités passées au crible par Keley - Oct 2021

Que veut dire « Big Data » ?

Les 5 V du big Data

Stockage de la donnée : Cloud vs On Premise

Comment pouvons-nous vous aider ?