La libre disponibilité des données est-elle une opportunité ?

Une étude récemment menée par une équipe de chercheurs à l’université de Stanford , expliquant que l’intelligence artificielle peut prédire l’orientation sexuelle d’un individu à partir de sa photo, a fait l’objet de nombreuses polémiques.

Il s’en est suivi de nombreuses controverses, dont les principales ciblent deux points principaux : la source des données et le phénomène à expliquer (orientation sexuelle).

En effet, les données (photo, genre et orientation sexuelle) de cette expérimentation ont été récupérées à partir de profils publics de sites de rencontre américains. Ces informations sont donc libres d’accès et facilement récupérables.

Comment se fait-il que ce type d’information personnelle soit aussi simple d’accès ?

Lorsque l’on s’inscrit sur ce type de sites, nous sommes invités à fournir de nombreuses informations personnelles : profession, centres d’intérêts ou encore croyances religieuses… Toutes ces informations sont utilisées afin de pouvoir maximiser ses chances de trouver LA bonne personne, celle avec qui tous les paramètres « matchent » (1). De plus, il existe souvent un système de « bons points » récompensant l’assiduité et permettant d’accroitre sa popularité !

Par ailleurs, les sites de rencontre sont loin d’être les seuls à inciter les visiteurs à fournir un maximum d’informations personnelles : les réseaux sociaux tels que Facebook ou LinkedIn ont recours à ce genre de pratique. La consigne est simple : si vous voulez accroitre votre cercle relationnel ou augmenter vos chances de trouver un emploi, remplissez votre profil !
Ainsi, le visiteur se retrouve face à un dilemme : soit livrer de nombreuses informations personnelles, qui seront facilement accessibles, soit ne pas pouvoir profiter des fonctionnalités de ces sites.

Comment et à quelles fins toutes ces informations sont utilisées ?

Cette gigantesque masse d’information, libre d’accès, attire la convoitise des chercheurs et des entreprises. Le développement des API (2) et des projets « open sourcés » (3) permettent de caractériser le client plus largement qu’à travers ses seuls mouvements débiteurs/créditeurs ou de ses accidents déclarés. Il devient alors possible d’intégrer à peu près n’importe quelle information dans les modèles utilisés par les entreprises pour définir leur clientèle.

Par exemple, une banque peut savoir grâce à ces informations personnelles qu’un de ses clients est un amateur de course à pied grâce à sa montre Garmin et qu’il est plutôt fêtard via ses photos Instagram… Autrement dit, notre client n’est plus seulement un compte en banque mais un individu ayant sa propre personnalité.

Ces données additionnelles sont un précieux atout pour les entreprises. En effet, de nombreuses applications deviennent possibles telles que la personnalisation d’offres, une meilleure communication, une plus grande réactivité, etc. Grâce à ces informations, c’est l’expérience client qui se place au centre des préoccupations et non plus le produit. Et au final, tout le monde est gagnant : pourquoi paierait-on une assurance plus chère alors que nous avons une bonne condition physique?

Ainsi, l’opulence des informations privées sur la sphère publique est une manière d’appréhender l’individu avec une approche plus globale.

Le libre accès aux données confère-t-il une sorte « d’obligation d’utilisation » ?

En fait, on assiste à une course, parfois effrénée, au modèle le plus parfait, le plus performant, le plus complexe. Parallèlement, les récents outils et les évolutions technologiques permettent d’aller plus loin : en traitant des données variées, il est possible d’expliquer des phénomènes plus complexes.
Malheureusement, l’adrénaline générée par cette compétition nous fait oublier que l’utilisation de certaines informations ou la modélisation de certains comportements ne répondent pas à des critères éthiques.

La question de ce qui est acceptable se pose régulièrement. Toutefois, l’absence de consensus autour de concepts abstraits (éthique, intégrité…) et variant (selon les époques, la situation géographique… les individus !) peut conduire à des situations bancales.
C’est pourquoi l’étude réalisée à Stanford est au centre de vives polémiques. Certains la considèrent comme une prouesse scientifique, tandis que d’autres la considèrent comme une porte ouverte à des pratiques peu recommandables.

Quels sont les risques aujourd’hui ?

Heureusement, nous n’en sommes pas au point où les entreprises et/ou chercheurs détiennent une connaissance exhaustive des individus.
Certes, les données sont théoriquement disponibles sur internet, mais généralement elles le sont de manière anonyme (pseudonymes) et bien souvent déstructurées et désorganisées (présence sur quelques sites, données non exhaustives, fausses, non cohérentes). Ainsi, l’association des profils publics avec un compte en banque n’est pas aisé et le risque est grand de commettre une erreur sur l’identité réelle de la personne !

De ce fait, les données publiques sont essentiellement utilisées pour calculer des statistiques globales : tendances, parts de marché, etc. permettant d’analyser l’évolution de l’organisation dans un environnement donné.
De plus, la réglementation RGPD (4) viendra probablement freiner quelques ambitions concernant le traitement de la donnée personnelle.

Ainsi, des voix s’élèvent afin de responsabiliser « les fournisseurs » de données en leur rappelant quelques règles de bons sens concernant la vie privée. D’un autre côté, les règles sociales actuelles nous pressent à livrer sous peine d’exclusion de la communauté. Enfin les entreprises et la communauté scientifique sont invitées à profiter de cette tendance pour être plus efficientes ou faire avancer la recherche.

En définitive, l’usage de ces datas peut être vécue comme une chance pour tous, sans toutefois oublier les dérives qui en découlent et dont le risque est d’aboutir à une discrimination justifiée par les mathématiques.

Par Sarah Daymier consultant Senior du cabinet ADWAY

  1. Correspondent
  2. Les API ou « Application Programming Interface » sont des interfaces regroupant un ensemble de fonctionnalité permettant à l’utilisateur d’accéder aux différents services proposés par une application, comme par exemple, la collecte de donnée.
  3. Désigne les logiciels dont le code source de tout ou certain de ses composants est laissé en libre accès. Ce code source peut être exploité par d’autres utilisateurs.
  4. Le règlement général de protection des données (RGPD) est un texte de référence concernant la protection des données au niveau européen et entrera en vigueur en Mai 2018.

 

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.