Aller la navigation | Aller au contenu

> Axe 4

Gérald Kembellec et Camille Paloque-Berges

Nouvelles sources numériques et logiques d’open corpus : l’intérêt d’archiver et partager des courriers électroniques

Article

Texte intégral

1L’inflation documentaire créée par les environnements numériques oblige les SHS à s’interroger sur les nouvelles sources à disposition pour la recherche d’information et l’analyse. Dans le cadre d’un post-doctorat à la croisée des sciences de l’information et de l’histoire des sciences et des techniques1, nous nous sommes penchés sur un de ces objets documentaires : les communications médiées par les réseaux Internet et plus précisément les courriers électroniques pour l’échange collectif (listes et groupes de discussion). Nous arguons que ces communications, sauvegardées sous la forme de documents texte pour les communautés et les institutions, sont des sources légitimes pour les études en Sciences, Techniques et Société (STS), en ce qu’elles permettent l’accès à des échanges entre acteurs (dans une logique de micro-histoire) mais aussi à un ensemble de données documentaires et infra-structurelles (métadonnées de logiciels, de protocoles et de format) cruciales pour analyser la co-évolution des pratiques et des formes de la communication numérique. En ceci, elles participent d’une « extension du terrain de l’enquête [grâce à] d’autres sources que l’imprimé : les manuscrits, les correspondances, les documents administratifs, la littérature grise et les carnets de laboratoires, les machines et les instruments » (Brian, 2001). Le travail de définition et d’analyse du corpus s’intéresse ainsi à des aspects documentaires jusque-là laissés à l’archiviste, en particulier s’il souhaite participer à la mise en forme des corpus pour leur partage avec le reste de la communauté

2Nous présentons une justification structurelle de l’intérêt de se pencher sur ce type de documents numériques natifs, puis nous proposons un exemple de structuration documentaire favorisant l’interopérabilité dans une logique d’open corpus. Enfin, nous discutons des limites épistémologiques de l’archivage des communications électroniques.

Mise en archives et interopérabilité pour la communauté SHS

3Objets d’une grande richesse documentaire aussi bien pour leur forme que leur contenu, les courriers électroniques issus d’échanges collectifs rassemblés et formalisés en corpus nous semblent être de bons candidats pour le partage en ligne des données de la recherche. Nous avons ainsi porté notre attention sur des projets en cours de grande ampleur relatifs au partage des données de la recherche scientifique en France et en particulier la très grande infrastructure de recherche (TGI) HumaNum.

Isidore

4La plateforme Isidore2, sous l’égide de la Huma-Num, assure ainsi l’accès aux données et aux services des SHS en permettant de faire des requêtes dans des bases de données extérieures qui ont été standardisées pour accepter ces requêtes. Ce travail est donc essentiellement collaboratif : alors que l’équipe Isidore s’occupe de créer un moteur de recherche et une interface Web pour la communauté des SHS, la communauté, elle doit mettre à disposition ses documents en intégrant des métadonnées standardisées qui rendent possibles à ces documents d’être trouvés par le moteur d’Isidore. Ce travail se situe dans une optique d’Open Data, c’est-à-dire du partage des données numériques, ici à visée de recherche scientifique3

5Parmi les documents à requêter, l’on trouve des bases de données classiques correspondant aux publications et à des « données événementielles » de la recherche académique (appels à communication/projet/publication, annonces d’événements scientifiques, données bibliographiques…), mais aussi l’accès à des sources de la recherche mises en corpus, qui sont plus rares d’accès sur le Web. Ce dernier type d’accès est celui que nous souhaitons intégrer à notre projet.

CoMeRe et OLAC

6Nous nous sommes rapprochés d’un groupe de travail sur le partage des corpus en SHS au sein de HumaNum (anciennement CORPUS IR). Parmi les consortiums disciplinaires4 qui le composent, CORPUS ECRITS, d’orientation linguistique, inclut un groupe dédié aux « Corpus d’écrits modernes et prise en compte de nouveaux modes de communication » (Groupe 75). Les « données ouvertes » de ces corpus peuvent être utilisées pour potentiellement n’importe quel type d’usage. Leurs critères fondamentaux de définition sont :

  • la disponibilité et l’accès,

  • la réutilisation et la redistribution,

  • la participation dite « universelle » sans restriction ni discrimination d’usage, l’utilisateur pouvant réarranger le corpus et recombiner les corpus.

7Le travail de formalisation des documents pour l’open data doit ainsi faire attention à fournir des descriptions normalisées, pour permettre l’interopérabilité, mais doit aussi prévoir la protection de données potentiellement sensibles comme les noms et les coordonnées des personnes à l’origine des contenus des documents.

8Parmi les propositions du groupe, le recours au standard de métadonnées Open Language Archive Community (OLAC6) nous semble pertinent pour notre type de corpus. Il permet de décrire par un jeu de données les auteurs du corpus et différentes informations contextuelles (sources originales, date de création, types de communication, formats, informations juridiques, anonymisation…) et de rendre ces informations disponibles à des serveurs de moissonnage OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), eux-mêmes requêtables par des structures comme Isidore. Associé à d’autres standards XML permettant de structurer les données pour accompagner l’analyse des contenus linguistiques, il n’est pas suffisant pour formaliser à tous les niveaux les différentes couches de données des courriels décrites plus haut ; mais son approche contextuelle permet cependant de spécifier certains de leurs aspects documentaires.

Documentarisation d’archives courriel : un patrimoine délicat

9Les traces et sources des documents issus des échanges de courriels constituent une mémoire technique des individus et collectifs, au plan du discours comme des usages, qu’il faut manipuler avec attention. Replacée dans une problématique impliquant des questions mémorielles et historiques, cette « parole » organisée dans une communication en réseau est une inscription d’une part (les traces de la communication en réseau révélée dans l’analyse des couches infrastructurelles et formelles des techniques de transmission), et un document d’autre part, si les communications électroniques ont fait l’objet d’archives (même non formalisées). L’effet d’informalité de la parole en réseau est à la base d’un paradoxe qui structure les réseaux électroniques (le Web en particulier) : « le développement des échanges spontanés (la conversation) et leur fixation sur un support public pérenne et documenté. Autrement dit, [Internet] transforme automatiquement ce qui relevait de l’intime et de l’éphémère en document ou proto-document. » (Salaün, in Pédauque, 2006 : 17-23). Devant cette généralisation de ce qui a été appelé la « documentarisation » (Pédauque, 2006), quels écueils sont soulevés par le recueil documentaire de cette mémoire technique proliférante et informelle ?

10L’analyse des courriels nous semble justifiée dans plusieurs dimensions méthodologiques : l’analyse de discours des communications numériques, la micro-histoire et les interactions acteurs-réseaux. Mais il faut prendre garde aux effets d’oralité générés par les dispositions de communication en ligne, qui miment le temps réel (Labbe et Marcoccia, 2005). Si elles participent à faire d’Internet un média de conversation (Cardon, 2010), elles n’en relèvent pas moins d’une économie de l’écriture reposant sur des structures organisationnelles et logicielles aux niveaux infra et supra. En ceci, il semble nécessaire les voir comme des textes dont la matérialité crée des effets de sens en termes d’infrastructures d’inscription, d’enregistrement et d’écriture numérique.

11Ces effets de sens doivent être gardés à l’esprit dans le travail de lecture, de définition des corpus et, ultimement, de mise en archives pour la communauté SHS. En effet, la documentarisation de ces traces et sources, mise à disposition à nouveau aux yeux du public (même restreint, dans le cas des publics académiques) crée des réinterprétations mémorielles la croisée de la mémoire individuelle (retrouver ses contributions dans une masse d’interactions) et collective (reconstruire les référents communs d’un groupe en interaction) et des dispositifs de re-médiation des contenus des contenus en ligne. L’archive pose le risque de la décontextualisation des paroles et de leur réinterprétation par de nouveaux dispositifs de traitement et d’affichage de l’information (Paloque-Berges, 2013). Que devient la personne numérique quand elle est réduite à des jeux de données ? La tendance à favoriser des approches de big data, auxquels les corpus sur lesquels nous travaillons peuvent fournir un terrain, doit être équilibrée avec une attention qualitative aux dispositifs de médiation spatiale (situations et contextes logiciels) et temporelle (évolution des dispositifs et altération des contenus au fut et à mesure de leur documentarisation).

12Plus concrètement encore, l’analyse de ces dispositifs au préalable de la mise en archives est cruciale pour soulever les enjeux socio-culturels, économiques et même politiques que pose le recueil de la mémoire des contenus numériques. Cette vision du contexte et des évolutions au sens large doit par ailleurs s’accompagner d’un regard réflexif sûr de celui qui s’intéresse à ces archives : que ce soit du point de vue de l’ingénierie de la recherche, de l’analyse ou de l’utilisation des résultats, l’étude et le partage des archives dans une logique de corpus ouvert réclame plus que jamais une attention accrue aux positionnements éthiques de la science face à ses données (Latzko-Toth et Proulx, in Barats, 2013 : 32-52). En ceci, le rôle des chercheurs est de participer à éclaircir les conditions les plus à même d’éviter les écueils posés par l’infobésité, l’obsolescence et les enjeux relatifs à la mnésie des informations personnelles du numérique, afin d’éviter de tomber dans le piège d’un « patrimoine superflu » (Ertzscheid, in Barats, 2013 : 69-727).

13Si notre approche des archives est avant tout méthodologique et pratique, elle n’est cependant pas destinée à nourrir un fantasme d’un tout archivage dans la ligne droite de l’utopie d’Internet comme archive universelle, et reste consciente de l’illusion d’archive que représente les réseaux numériques.

Bibliographie

Akrich M., Callon M. et Latour B. (éd.), Sociologie de la traduction : textes fondateurs, Paris, Mines ParisTech, les Presses, « Sciences sociales », 2006.

Barats C., Manuel d’analyse du Web, Armand Colin, 2013.

Brian É., « Archives et mémoire des sciences : enjeux historiographiques », Revue d’histoire moderne et contemporaine, 2001/5 n°48-4bis, p. 44-48, 2001.

Cardon D., « Confiner le clair-obscur. Réflexions sur la protection de la vie personnelle sur le Web 2.0 », in F. Millerand, S. Proulx, & J. Rueff (éd.), Web Social : Mutation de la Communication, PUQ, pp. 315-328, 2010.

Chabin M-A., « Document trace et document source. La technologie numérique change-t-elle la notion de document ? », in Information-Interaction-Intelligence, Volume 4, n° 1, pp. 141-157, 2004

Herrenschmidt C., Les trois écritures : Langue, nombre, code, Paris : Gallimard/Bibliothèque des Sciences humaines, 2007

Labbe H. et Marcoccia M. « Communication numérique et continuité des genres : l’exemple du courrier électronique », in Revue Texto, 2005, [En ligne], URL : http://www.revue-texto.net/index.php?id=512, accédé le 15 octobre 2013.

Paloque-Berges C., « Un patrimoine composite : le public Internet face à l’archivage de sa matière culturelle », in I. Dragan, P. Stefanescu, N. Pelissier, J-F. Tétu et L. Idjeroui-Ravez (éd.), Traces, mémoire et communication, Presses de l’Université de Bucarest, 2013

Pédauque, Roger T. (éd.), Le document à la lumière du numérique, C&F Édition, 2006.

Notes

1 Contrat post-doctoral de Camille Paloque-Berges pour l’année 2012-2013 financé par le LabEx HASTEC (Pres Hesam), en partenariat avec le laboratoire DICEN (CNAM). Gérald Kembellec, lors de son aterat à l’INTD (Cnam) a pris part au projet sur les aspects documentaires liés à la formalisation et à l’interopérabilité des corpus.

2 Isidore a été initié dans le cadre du projet de Très Grand Équipement (TGE) Adonis. http://rechercheisidore.fr

3 L’autre volet de l’open data concerne les gouvernements mettant à disposition du public certaines données. Cf. le Vademecum Open du Data 17 septembre 2013 : http://www.modernisation.gouv.fr/lactionpublique-se-transforme/en-ouvrant-les-donnees-publiques/lopen-data-son-vade-mecum

4 http://www.huma-num.fr/service/consortium

5 http://corpusecrits.corpus-ir.fr/travaux-2

6 OLAC utilise un format XML pour l’échange de métadonnées de ressources linguistiques dans le cadre de l’Open Archives Initiative. http://language-archives.org/OLAC/1.1

7 cf. aussi la contribution, dans le même ouvrage, de Ertzcheid, Gallezot et Simonnot, « A la recherche de la « mémoire » du Web : sédiments, traces et temporalités des documents en ligne », pp.  53-68.

Pour citer ce document

Gérald Kembellec et Camille Paloque-Berges, «Nouvelles sources numériques et logiques d’open corpus : l’intérêt d’archiver et partager des courriers électroniques», Les Cahiers de la SFSIC [En ligne], Collection, 9-Varia, DOSSIER, > Axe 4,mis à jour le : 22/04/2020,URL : http://cahiers.sfsic.org/sfsic/index.php?id=774.

Quelques mots à propos de : Gérald Kembellec

GERIICO, Université Lille 3. Courriel : gerald.kembellec@univ-lille3.fr

Quelques mots à propos de : Camille Paloque-Berges

DICEN, HT2S, CNAM. Courriel : camille.paloque_berges@cnam.fr