Biais AI & Dataset – Huawei BLOG – objectifsmartphone.fr

[ad_1]

Selon les statistiques, la plupart des contenus sur les réseaux sociaux ne sont pas créés par vous ou moi: plusieurs études suggèrent qu’un petit groupe d’utilisateurs (9-10%), principalement des médias traditionnels, crée la majeure partie du contenu original. Les leaders d’opinion produisent alors 18 à 20% du contenu en commentant le contenu produit par ces points de vente. Le grand public voit alors et interagit avec ce contenu. Malgré la perception du public, le nouveau paysage médiatique est façonné par une fraction des utilisateurs.

Malgré la perception du public, le nouveau paysage médiatique est façonné par une fraction des utilisateurs.

Maintenant, si nous tournons notre attention vers l’IA, nous pouvons voir qu’un problème similaire peut se produire ici. Supposons que vous soyez un développeur d’IA, alors vous irez probablement sur kaggle.com, Statista, ou tirerez parti des données gouvernementales ouvertes pour former votre modèle. Le nombre de sources de données est limité, ce qui signifie qu’un développeur doit s’appuyer entièrement sur ces quelques sources. Il est probable que vous ne puissiez pas vérifier cette entrée avec d’autres sources et, même si vous le pouviez, comment décideriez-vous quel ensemble de données choisir s’il y en avait plusieurs? Ainsi, plusieurs sources de données peuvent présenter leurs propres problèmes.

Un développeur peut utiliser différents modèles, tels que différents nombres de fonctionnalités, et choisir plusieurs techniques d’optimisation pour arriver à un système prédictif fonctionnel. Mais pour la plupart des modèles, les données sur lesquelles ils s’appuient peuvent être identiques. Quelle que soit la sophistication d’un ingénieur en IA, le modèle n’est aussi bon que les données sur lesquelles il est basé. C’est là que nous devons comprendre les données que nous obtenons.

COVID-19 fournit un exemple approprié. Pour créer un modèle mondial de la propagation du virus, nous devons nous fier aux sources de données de chaque pays. Cependant, étant donné qu’il n’existe pas de méthode uniforme pour collecter ces données à l’échelle mondiale, nous pouvons nous attendre à une marge d’erreur considérable.

Un autre exemple est le réchauffement climatique. Les données d’une ONG ou d’une source gouvernementale peuvent brosser un tableau complètement différent – des images différentes qui peuvent façonner un éventail de décisions et de stratégies d’entreprise à l’échelle nationale. Si la source n’est pas correcte, le biais pourrait se propager à travers les industries, modifier la perception du public et peut-être aggraver l’impact négatif du réchauffement climatique lui-même.

Si la source n’est pas correcte, le biais pourrait se propager à travers les industries, modifier la perception du public et peut-être aggraver l’impact négatif du réchauffement climatique lui-même.

L’IA venant au service d’un vaste éventail de services autour de nous, une éventuelle manipulation des ensembles de données peut entraîner la propagation de la désinformation à une échelle et un impact plus importants que jamais. Lorsqu’une organisation utilise un cerveau artificiel, il s’agit souvent d’une boîte noire dans laquelle nous ne savons pas pourquoi elle fait ce qu’elle fait. Il est difficile de savoir s’il y a un problème avec les données ou avec le modèle lui-même. L’IA s’intègre directement à l’environnement qui nous entoure, à nos appareils électroménagers, à notre téléphone mobile et à notre expérience d’achat. Tant que nous devons nous fier à la qualité des données disponibles, il y aura toujours un problème avec la prise de décision automatisée.

Le problème de la création d’un langage de données universel est loin d’être simple, car il soulève des questions de confidentialité et des problèmes de protection des secrets d’affaires. Néanmoins, nous pouvons emprunter à la riche expérience de l’industrie pour développer une solution potentielle. Premièrement, à mesure que le coût de la collecte et du stockage des données diminue, il est préférable d’avoir des accords de données prédéfinis qui nous permettraient d’assembler les données au sein de l’organisation avec des sources externes. Cela ressemble à la façon dont les protocoles réseau ont évolué au fil du temps – des protocoles propriétaires aux protocoles ouverts. Deuxièmement, les entreprises peuvent rendre plus d’ensembles de données accessibles au public, conformément aux attentes accrues en matière de transparence des entreprises. Troisièmement, les entreprises doivent devenir plus responsables des données qu’elles produisent, de la manière dont elles les stockent et de la manière dont elles les diffusent.

Les organisations devraient adapter de manière proactive leurs ensembles de données aux normes publiques plutôt que d’attendre que les scientifiques leur demandent de le faire. Il doit s’inscrire dans une stratégie de relations publiques plus large de l’entreprise ou du gouvernement moderne qui cherche à gagner une réputation positive.

Les ensembles de données peuvent être biaisés et peu fiables. Cela ne veut pas dire que l’intelligence artificielle est mauvaise – cela signifie que nous devons tous travailler à éliminer les préjugés.

Cliquez pour lire comment Model Arts 3.0 de Huawei peut entraîner des modèles de haute précision avec très peu de données, abaissant les obstacles à l’adoption de l’IA dans le secteur des entreprises.

Clause de non-responsabilité: Toutes les opinions et / ou opinions exprimées dans cet article par des auteurs ou contributeurs individuels sont leurs vues et / ou opinions personnelles et ne reflètent pas nécessairement les vues et / ou opinions de Huawei Technologies.

[ad_2]

objectifsmartphone.fr

Actualités sur les smartphones

Biais AI & Dataset – Huawei BLOG

Soyez le premier à commenter

Poster un Commentaire Annuler la réponse