Les données de la servitude volontaire.

Titre alternatif de ce billet :

"286 téra-octets de gazouillis, et moi et moi et moi."

La chose était déjà possible aux états-unis depuis quelques mois. Elle l'est désormais en France et dans quelques autres pays européens. Twitter vient d'annoncer la possibilité de récupérer l'archive de tous ses tweets. Comme je l'avais à l'époque fait et narré pour la récupération de mes données Facebook, je me suis donc livré au même exercice dont je vous livre ici les résultats ainsi que quelques considérations statistiques et de nature archivistiques.

(NOTA BENE : les chiffres présentés ci-après n'ont vraiment qu'une valeur très "pifométrique" étant donné que l'on sait que Twitter dispose de plus de 500 millions de comptes mais que nul – y compris par ici – n'est en mesure d'indiquer combien sont publics et combien sont privés – ou alors j'ai pas trouvé l'info … – , combien sont réellement actifs et combien sont des spambots, etc. J'ai donc choisi de me baser sur l'une des dernières études à peu près sérieuse sur la question qui chiffrait le nombre de comptes actifs à 27% de l'ensemble, et j'ai arrondi à 30% de 500 millions de comptes, soit une valeur pour mon analyse de 150 millions de comptes actifs, publics ou privés. J'ai également considéré, faute d'indications suffisantes, que j'entrais dans la catégorie du gazouilleur lambda avec mes 5 ans d'ancienneté et ma moyenne d'environ 200 tweets par mois – mais là encore si vous disposez de chiffres fiables, je suis preneur)

Or donc la récupération rapide de mon archive Twitter me donne ceci.

Un fichier index.html qui permet de "naviguer" dans l'archive de tous ses tweets classés par mois et par année, et d'y farfouiller pour y retrouver … ce qu'on y cherche, et un fichier de données brutes "tweets.csv" de 2,3 Mo.

Counting accounts.

Multiplions donc ces 2,3 Mo par les supposés – a minima – 150 millions de comptes réellement actifs sur les 500 millions affichés, ce qui nous donne (avec un petit détour par le convertisseur magique) : un peu plus de 286 téra-octets de données.

Vous l'aurez rapidement compris : primo ce chiffre est très probablement largement (OK, très largement) en dessous de la réalité (le nombre de tweets postés et d'utilisateurs enregistrés suivant depuis quelques années une courbe exponentielle, mais d'un autre côté, 51% des utilisateurs actifs n'auraient pas posté de tweet dans le mois précédent cette étude …) et n'a donc aucune réelle valeur statistique, il est juste là pour donner un ordre de grandeur, et deuxio, l'important dans les chiffres c'est ce que l'on en déduit côté usages (cf plus bas) 🙂

Restons encore un peu du côté des chiffres et réutilisons la même comparaison que pour Facebook à l'époque. Sachant que "10 téraoctets pourraient contenir toute la collection des ouvrages imprimés de la bibliothèque du Congrès" (source),
on peut donc supposer que Twitter détient au moins l'équivalent de 28 – mettons 30 – bibliothèques du Congrès uniquement composées de nos gazouillis quotidiens.
Celle-ci – la bib du congrès – comptant plus de 33 millions d'ouvrages, cela fait donc l'équivalent de (33 x 30) : 990 millions de livres de conversations.

Et maintenant, côté usages

A quoi cela sert-il de récupérer l'archive de ses tweets pour un individu ?

A rien. Ou à pas grand chose sinon à alimenter la compréhension le plus souvent vaine de notre "quantified self". Et accessoirement à alimenter de nouvelles conversations passionnantes autour de "hey, tu sais quel était mon premier Tweet il y a 6 ans ?" – même quand on s'appelle Edgar Morin – ou à retrouver tous les Tweets mentionnant un moment particulier de nos vies digitales (le discours corporate de Twitter consécutif à cette annonce est d'ailleurs très orienté "marketing du sentiment"). Nonobstant il faut tout de même saluer l'existence de cette possibilité. Il est en effet vital que chacun puisse à son gré disposer de l'ensemble des "traces" laissées en ligne, et ce indépendamment de la nature (vitale, anecdotique) desdites traces et de leur forme (traces profilaires, données navigationnelles, etc.) Les grands écosystèmes qui catalysent l'ensemble de nos données et comportements en ligne sont suffisamment fermés et propriétaires pour que chaque pas dans la bonne direction soit salué. Nonobstant encore (oui je sais c'est le deuxième nonobstant, mais le sujet est compliqué), nonobstant encore, outre la possibilité offerte de récupérer nos données, possibilité effectivement nécessaire et impérieuse, nous avons surtout (individuellement et collectivement) besoin de données "qualifiées" (ou en tout cas interprétables) si nous ne voulons pas passer du règne du "data self" (données sur soi) à celui du "data serf" (données entraînant une servitude)

A quoi cela sert-il de récupérer l'archive de ses tweets pour une entreprise ?

Idem que pour la question précédente. Sauf pour les quelques scénarios d'usage dans lesquels une entreprise ou une organisation pourra ainsi disposer d'une vision rétrospective lui permettant d'analyser – par exemple – l'évolution de sa stratégie de présence en ligne.

A quoi cela sert-il de récupérer l'archive des tweets publics pour les chercheurs et la bibliothèque du congrès ?

Et oui, parce que vous vous souvenez que la bibliothèque du congrès conserve l'archive de tous les tweets publics. Et ben … et ben la question mérite d'être posée. Elle l'avait d'ailleurs été sous le lien précédent 😉 Naturellement le corpus ainsi constitué est prodigieux et inédit mais il pose surtout la question du contrôle des corpus numériques en général et de leurs usages en particulier (cf ce billet, la partie : "L'enjeu de la maîtrise des corpus"). Et là encore, la question des données d'une servitude volontaire ("data serf") se pose avec acuité. By the way, en Janvier 2013, la même bibliothèque du congrès indiquait disposer d'une archive de "133.2 terabytes including two compressed copies of the 2006-2010 archive." – nota-bene : du coup mon calcul pifométrique n'était pas si mal que ça 😉 – pour un total de – "approximatively" – 170 milliards de tweets. (Source : là et là en .pdf)

Quelles implications dans la logique du 100% cloud ?

Une nouveau renforcement, et peut-être de nouvelles ruptures dans la chaîne du froid.

A quoi cela sert-il de disposer de l'archive des tweets publics pour la société Twitter ?

Pas uniquement à affiner un business model qui au dire des analystes se cherche encore un peu. Mais plutôt à travailler, au même titre que les autres – Google, Facebook en tête – à l'industrialisation de la production de nos données personnelles. A nous inciter à en produire la matière première :

"Pour le pétrole, comme pour les autres matières premières, nous avons développé une chaîne industrielle
cohérente : prospection, exploitation, transformation, transport et
production. Dans les deux industries, la concentration est forte. Mais,
pour des raisons géologiques, le pétrole est présent dans des zones
géographiques précises, extrait, transformé, puis acheminé vers les
particuliers dans le monde entier.
Les données, elles,
sont récoltées chez les particuliers, dans le monde entier, et
acheminées vers les centres de données de multinationales, qui ont le monopole de leur traitement, comme Google, Facebook ou Amazon, et qui, aux Etats-Unis, concentrent 80% de ces données" (Source)

Une réalité que vient magistralement illustrer l'article "Industrializing personnal data production" du dernier numéro de First Monday :

"We argue that Facebook is a transformative space for “processing” user experience vis–à–vis
customisation, a collective archive in which each user weaves their own
standardized personal content, to be transformed into an endless sea of
“data”. The demand for producing more content is in fact a demand to
produce more personal data."

Et plus loin :

"In other words, it is not only that Facebook standardises its
representation of the ‘self’, by demanding that identity and experience
fit into neat boxes available to a user when creating a Timeline page.
Most importantly, Facebook establishes a paradigm that demands the
constant revelation of even more aspects of the user’s identity, as if
stripping, peeling and indexing the self, producing more information
about it and archiving this information defines virtual sociability." (ma traduction) "En d'autres termes, Facebook ne se contente pas de standardiser la représentation du "moi" en demandant à ce que notre identité et nos expériences rentrent dans les cases disponibles pour une utilisateur du site quand il crée sa page Timeline. Le plus important c'est que Facebook établit un paradigme qui nécessite la révélation constante d'aspects toujours plus importants sur l'identité de l'utilisateur, comme si la mise à nu, l'épluchage et l'indexation du "moi" permettait de produire encore davantage d'informations sur ce même "moi" et comme si l'archivage de ces informations définissait la sociabilité numérique."

Qu'est-ce que change l'existence de cette archive constituée dans nos vies numériques ?

<HDR> En changeant les règles du discours, en changeant les règles de production et de conservation des discours, elle change les règles du jeu. Pas uniquement les règles du "je", mais celles du jeu. De ce jeu social qui fait que c'est d'abord par nos discours et nos mots (qu'ils soient lois, règles, "valeurs", codes ou simples conversations de bistrot), c'est d'abord par nos discours et nos mots et par la mémoire de ceux-ci que nous pouvons constituer société, que nous pouvons donner lieu à un vivre ensemble.

Or, le temps dans lequel Google, Facebook, Twitter et d'autres s'affirmaient en champions disruptifs d'une nouvelle hétérodoxie face aux mass-média constitués et constituant notre rapport à l'information, ce temps là est révolu. Comme le souligne une nouvelle fois admirablement Danah Boyd au travers de l'exemple de la manière dont Facebook "détruit" l'expérience de mixité sociale des université américaines ("college"), Facebook, par les données qu'il agrège et par l'utilisation naturellement homophile** que nous sommes tentés d'en faire, Facebook abolit une nouvelle fois la recherche de la différence dans les rapports sociaux, un peu à la manière dont Google avec ses suggestions de recherche et son affichage instantanné des résultats vint abolir la différance (au sens de Derrida) entre les requêtes, entre les textes, entre les corpus.

Facebook et les autres sont déjà devenus les nouvelles orthodoxies d'un monde dont l'homophilie est la nouvelle doctrine, parce qu'elle seule permet d'établir des conditions d'énonciation et des situations de discours qui satisfassent à la critériologie statistique qui sous-tend le modèle économique publicitaire déterministe de ces firmes.

Comme le rappelait un autre de mes héros éminent sociologue, "Le web ne désocialise pas plus qu’il n’hypersocialise, mais il reconfigure notre manière de faire société" (Antonio Casilli). Facebook ne détruit pas davantage des sociabilités que Google ne détruit des ouvrages en les numérisant. Tous deux ont en revanche les moyens de contrôler et d'infléchir les modèles d'accès aux textes ou les modes de socialisation qu'ils jugent les plus efficients pour leur propre intérêt. Et la plus grande erreur que nous ayons à faire serait de penser un seul instant qu'ils s'interdiront de le faire. </HDR>

** "En sociologie, l’homophilie est un discours déterministe qui dit qu’on a
tendance à s’associer à des gens avec lesquels on partage des formes de
complémentarité liée à la langue, au sexe, au niveau culturel ou à
l’ethnicité… Dans l’étude de l’amitié comme processus social, on a
longtemps pensé que les gens évoluaient dans leur amitié par sexe, même
milieu géographique, social, etc. Or, avec l’internet on arrive à créer
des zones de meilleure maîtrise de ce positionnement." (Source : Antonio Casilli)

So what ?

Puisque l'on en parlait plus haut, peut-être commencer par relire justement, le discours sur la servitude volontaire (.pdf), écrit par un garçon de 18 ans, soit 5 ans de plus que l'âge légal permettant de s'inscrire sur Facebook. Morceaux choisis :

"Or ce tyran seul, il n'est pas besoin de le combattre, ni de l'abattre. Il est défait de lui-même, pourvu que le pays ne consente point à sa servitude. Il ne s'agit pas de lui ôter quelque chose, mais de ne rien lui donner." (…)

"Ce maître n’a pourtant que deux yeux, deux mains, un corps, et rien de plus que n’a le dernier des habitants du nombre infini de nos villes. Ce qu’il a de plus, ce sont les moyens que vous lui fournissez pour vous détruire. D’où tire-t-il tous ces yeux qui vous épient, si ce n’est de vous ? (…)

A-t-il pouvoir sur vous, qui ne soit de vous-mêmes ? Comment oserait-il vous assaillir, s’il n’était d’intelligence avec vous ? Quel mal pourrait-il vous faire, si vous n’étiez les receleurs du larron qui vous pille, les complices du meurtrier qui vous tue et les traîtres de vous-mêmes ? (…)

Soyez résolus à ne plus servir, et vous voilà libres. Je ne vous demande pas de le pousser, de l’ébranler, mais seulement de ne plus le soutenir, et vous le verrez, tel un grand colosse dont on a brisé la base, fondre sous son poids et se rompre. (…)

Disons donc que, si toutes choses deviennent naturelles à l’homme lorsqu’il s’y habitue, seul reste dans sa nature celui qui ne désire que les choses simples et non altérées. Ainsi la première raison de la servitude volontaire, c’est l’habitude. (…) Ils disent qu’ils ont toujours été sujets, que leurs pères ont vécu ainsi. Ils pensent qu’ils sont tenus d’endurer le mal, s’en persuadent par des exemples et consolident eux-mêmes, par la durée, la possession de ceux qui les tyrannisent."

Se le réciter encore une fois. Pour le plaisir. "D’où tire-t-il tous ces yeux qui vous épient, si ce n’est de vous ? (…)
A-t-il
pouvoir sur vous, qui ne soit de vous-mêmes ? Comment oserait-il vous
assaillir, s’il n’était d’intelligence avec vous ? Quel mal pourrait-il
vous faire, si vous n’étiez les receleurs du larron qui vous pille (…) ? Soyez résolus à ne plus servir, et vous voilà libres."

Que vaut cette résolution pour un milliard d'individus ? N'est-ce pas là la plus belle et la plus noble des questions politiques qu'il convienne aujourd'hui de poser ?

Un commentaire pour “Les données de la servitude volontaire.”

Sous la poussière dit :

12 mars 2013 à 13h42

Ce n’est pas le coeur de ce billet, mais je me permets de commenter le passage « A quoi cela sert-il de récupérer l’archive de ses tweets pour une entreprise ? »
Sur un compte Twitter d’une entreprise, les tweets peuvent être considérés comme des documents d’activité (en l’occurence des activités de marketing/communication/support); ils peuvent servir de preuves dans des litiges, et, selon les contextes, être soumis à des obligations de conservation, en terme d’auditabilité, à l’instar des sites web, blogs etc. de l’entreprise.
Maintenant, il est vrai qu’on tendra plus à mettre en place une conservation à la volée (par ex. récupération par flux rss) que la capture périodique via de telles archives.

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.