Aller la navigation | Aller au contenu

DOSSIER

Emmanuel Marty et Gabriel Gallezot

L’analyse et la visualisation de données en sciences de l’information et de la communication : vers une convergence des questionnements et des pratiques de recherche ?

Article

Texte intégral

1Ce dossier aura, du moins peut-on l’espérer, pointé la diversité des recherches menées par les chercheurs du laboratoire I3M tout en dessinant ses champs d’investigation et ses axes structurants. En guise de conclusion, nous souhaitons à présent interroger un phénomène traversant l’ensemble des recherches en sciences de l’information et de la communication et qui, à ce titre, a donné lieu à une réflexion commune dans le cadre d’un cycle de séminaires mensuels du laboratoire I3M : la croissance exponentielle du volume de données désormais produites quotidiennement par les activités humaines, du fait du développement sans précédent de dispositifs socio-techniques numériques en tous genres. La première question corollaire à ce développement est de savoir si les liens entre technique et société y ont gagné, ou pas, en intelligibilité. Nous entendons y apporter quelques pistes de réponse par le prisme de l’analyse et de la visualisation de données, que nous considérons comme ayant une certaine portée heuristique.

2L’objectif est ici de montrer comment la collecte, le traitement, la diffusion, mais surtout la mise en sens de ces données soulèvent des problèmes qui se posent désormais avec acuité dans des objets et terrains de recherche très diversifiés des sciences de l’information et de la communication, en même temps qu’ils constituent une nouvelle opportunité de dialogue entre des approches théoriques et méthodologiques jusqu’ici relativement étanches.

Le développement des données et outils numériques : une chance pour la recherche en sciences humaines et sociales

3Depuis une vingtaine d’années, la production nativement numérique et la numérisation croissante de données de tous ordres (textuelles, chiffrées, relationnelles, etc.) a considérablement facilité leur archivage, leur circulation, leur consultation et leur manipulation, dans des agencements dont la diversité n’a d’égale que celle des fins auxquelles ces données sont convoquées. Journalisme, gestion de l’information, communication, culture, littérature, politiques publiques, droit ou encore marketing : la recherche scientifique relative à ces domaines est confrontée à une masse considérable de données. Celles-ci sont porteuses de promesses pour la recherche en sciences humaines et sociales, mais paradoxalement, leur ampleur et leur caractère parfois chaotique peuvent décourager le chercheur. Pourtant, des méthodes et outils spécifiques ont été progressivement pensés et développés pour faciliter la (re)construction de sens à partir de volumes importants de données.

4Indexation, crawling, scraping ou aspiration de données, archivage et gestion de bases de données, statistique classique et analyse de données textuelles, analyse de contenu et traitement automatique des langues, graphes de réseaux et cartographie du web, ou encore infographie et interfaces de visualisation : ces « techniques intellectuelles » assistées par ordinateur, distinctes mais liées entre elles, se trouvent à la croisée de divers champs de recherche et concernent très directement les sciences de l’information et de la communication.

5En entrant par la méthodologie dans des problématiques, objets et terrains de recherche a priori hétérogènes, de nombreux points de convergence sont apparus dans les interrogations liées au maniement des données numériques. Ces convergences laissent entrevoir, bien plus qu’attendu, une véritable communauté d’intérêts scientifiques.

La recherche, prise dans la convergence numérique ?

6Le phénomène de convergence lié au numérique, popularisé par Henry Jenkins, est habituellement entendu comme un ensemble d’évolutions d’ordre technique, économique et socio-culturel contribuant à rendre plus floue la frontière entre médias, industries des télécommunications, ingénierie et développement informatiques. Les liens à la fois étroits et renouvelés entre les dispositifs techniques, les formats de diffusion de l’information, la nature et les usages de celle-ci, rendent la notion même d’information pour le moins polysémique, voire ambiguë. Le phénomène de convergence suscite donc de nombreuses interrogations en même temps qu’il ouvre considérablement le champ des possibles. Comme par un effet de miroir, cette convergence semble aujourd’hui gagner le milieu de la recherche en sciences humaines et sociales, comme l’a notamment montré Le Deuff (2012) dans une étude sur la convergence des différents types de « littératie ». L’avènement et la montée en puissance de ce que l’on appelle les digital humanities ou humanités numériques est également un marqueur tangible de cette convergence des questionnements et méthodes des SHS sur et par le numérique. Autre marqueur similaire, celui des digitals methods qui se répandent dans plusieurs disciplines, notamment en Science and technology studies.

7Mais ce mouvement de convergence est plus vaste que la transdiscipline des humanités numériques, car la numérisation des données et le développement des techniques mises au point pour les traiter (c’est-à-dire les collecter, les indexer, les catégoriser et les analyser pour en extraire du sens) inondent aujourd’hui l’ensemble des activités humaines quotidiennes (Flichy, 2013). La recherche en sciences de l’information et de la communication a donc de fait dû intégrer les dispositifs numériques dans ses pratiques, tout d’abord, bien avant d’éventuelles tentatives de formalisation méthodologique ou d’élaboration théorique sur le sujet. C’est précisément cette immixtion du numérique, progressive et parfois inconsciente, dans les terrains, objets et méthodes des SIC, qui a pu rapprocher des champs de recherche jusqu’ici relativement étanches.

8Plus précisément, les travaux relevant d’un héritage dit « informationniste » et ceux relevant d’une approche plus « communicationnelle » (aussi réductrices que soient ces catégorisations notamment au regard des origines des SIC), ont sans doute trouvé dans cette convergence un terrain d’échanges, voire de collaborations très fertiles. Si ces deux tendances renvoient à des champs, des problématiques et des terrains de recherche distincts (bibliométrie, scientométrie, infométrie, ou étude de systèmes et des dispositifs de médiation de la culture et du patrimoine pour la première ; étude des processus de production, des discours, des publics et des usages des médias, des industries culturelles et de la communication des organisations pour la seconde), ces frontières tendent bel et bien à s’estomper autour de notions telles que celles de data, d’indexation, de réseau ou autres clusters, voire autour de concepts-pivots tels que la littératie, précédemment mentionnée, la pertinence ou encore l’impact des algorithmes. On pourrait alors légitimement craindre qu’en résulte une sorte de confusion ou d’indistinction dans les questionnements et les approches scientifiques : il semble au contraire que de nouveaux territoires, plus ouverts mais aux contours néanmoins définis, soient en train d’émerger au sein de la discipline.

Vers de nouveaux territoires hybrides

9Les méthodes et outils d’agencement informationnel ou de redocumentarisation semblent converger autour de l’analyse de grands ensembles de données, et leur croisement permet sans aucun doute une herméneutique des corpus jusque-là impossible à appréhender. Ces digital methods permettent l’exploration de terrains variés, certes toujours “numériques”, mais offrent surtout un prisme pour des échanges transversaux sur des objets d’étude diversifiés et des théories mobilisées dans le cadre de ces analyses.

10Parmi les champs d’études à forte convergence ou forte hybridation des domaines ou des disciplines (et qui interrogent frontalement les méthodes endogènes à ce type d’analyses) le plus immédiat est sans doute celui de la “fabrication du sens”. Quelles sont les relations, les procès, les médiations entre données, informations, écrits, documents, lectures et connaissances en contexte “numérique” (l’ordre des notions introduites ici relève déjà d’une certaine épistémologie, le lecteur pourra les ordonner à souhait). De nombreux auteurs, notamment en SIC, se sont attelés à ce travail (on citera par exemple Souchier E. & al. 2003, Ghitalla F. & al. 2004, Pédauque R. T. & al. 2006). Dans la continuité de ces travaux il nous semble que l’engouement renouvelé par “l’ouverture des données“ pour “l’analyse et la visualisation” est particulièrement saillant dans les domaines de la “gestion de l’information”, le journalisme et l’analyse de discours.

11La documentation ou plus largement la gestion de l’information est confrontée, comme hier, à l’évolution des techniques intellectuelles. Là où l’index facilitait la classification et l’accès à des ouvrages ou un passage dans un ouvrage, les ontologies doivent faciliter la classification et l’accès à un ensemble d’unités informationnelles hétérogènes, dispersées et versatiles. Là où la recherche d’information consistait à se procurer un des rares écrits sur un sujet donné, les algorithmes des outils de recherche rendent les résultats abondants et parfois flous. Là où les seuls professionnels de la documentation disposaient des savoirs pour gérer les collections, les foules disposent d’outils “clés en main” pour la curation. Bref, qu’il s’agisse de préparer les données et d’aider à leur analyse dans le contexte de l’eScience, ou qu’il s’agisse de réaliser de l’infométrie ou de la fouille et cartographie de données sur des corpus issus du web, il convient de repenser de nombreux processus et activités.

12Le journalisme et les médias d’information se trouvent eux aussi aujourd’hui en prise avec des volumes considérables de données, qui ont initié de nouvelles pratiques journalistiques chez certains professionnels, de même qu’un questionnement sur les notions de data, de retraitement graphique (constitution de frises, diagrammes, infographies statiques et dynamiques, cartographies explorables) et de leur intelligibilité par les publics médiatiques (Parasie & Dagiral 2013). Cette question de l’intelligibilité renvoie pour sa part à celle du discours journalistique comme dispositif de médiation, accompagnant le processus d’appréhension des faits bruts dont le sens n’est sans doute pas si transparent qu’il y parait.

13L’analyse de discours, dans ses déclinaisons lexicales mais aussi sémantiques, stylistiques ou encore morpho-syntaxiques, a été impactée en profondeur par le développement des outils informatisés, comme le détaille Marchand (1998) (logiciels de statistique lexicale, lemmatiseurs, outils d’analyse énonciative, de construction d’ontologie, etc.), et par l’accroissement des matériaux d’analyse rendus accessibles numériquement (corpus médiatiques, archives diverses, notamment productions scientifiques, retranscriptions d’entretiens, questionnaires d’enquête, protocoles expérimentaux, etc.). Cette accessibilité des outils et des corpus requiert que l’on pose d’abord la question des enjeux et limites d’une objectivation de l’humain, celle également du statut du déclaratif dans un protocole de recherche, celle enfin du nécessaire dépassement de l’approche descriptive, replaçant les résultats statistiques et/ou graphiques dans leur statut d’indicateurs à l’intérieur d’un questionnement théorique plus vaste.

14D’autres pistes de recherche sont en plein développement, conjoint à celui du numérique, et sont investiguées par les sciences de l’information et de la communication : celles des usages et des usagers du web, de leur environnement et de leurs caractéristiques, celles de l’impact des dispositifs numériques dits intelligents, particulièrement dans le secteur de l’énergie et de la mobilité, celle, bien sûr, de la sécurité des données et de la vie personnelle, qui traverse les différents champs de recherche, tout autant que celle de changements de nature anthropologique initiés par ces nouvelles techniques. Entre perspectives de l’Homme augmenté, développement de l’hypersphère et stabilisation de nouvelles structures socio-sémiotiques telles que le formulaire, les interfaces normalisées ou les algorithmes de curation de l’information, se dessinent des interrogations autour des potentialités psycho-socio-anthropologiques des dispositifs numériques, oscillant entre outils d’émancipation et facteurs d’asservissement pour les sociétés humaines. Au-delà de la diversité des outils, champs et terrains de recherche comme des points de départ théoriques, c’est in fine à des questions de cet ordre que sont aujourd’hui confrontées les sciences de l’information et de la communication.

Bibliographie

FLICHY P. (2013) « Rendre visible l’information » Une analyse sociotechnique du traitement des données, Réseaux, 2013/2 N° 178-179, p. 55-89.

GHITALLA F., BOULLIER D., GKOUSKOU-GIANNAKOU P., DOUARIN L., NEAU A. (2004), « L’Outre-lecture : Manipuler,(s’) approprier, interpréter le Web. » , BPI.

LE DEUFF O. (2012) « Littératies informationnelles, médiatiques et numériques : de la concurrence à la convergence ? », Études de communication, 38, p. 131-147.

MARCHAND P. (1998). L’Analyse du Discours Assistée par Ordinateur. Paris : Armand Colin.

PARASIE S., DAGIRAL E. (2013) « Des journalistes enfin libérés de leurs sources ? Promesse et réalité du journalisme de données », Sur le journalisme/Sobre journalismo/About journalism, vol. 2, n° 1, p. 52-63.

PEDAUQUE R. T., SALAÜN J.-M. (2003), Le document à la lumière du numérique : C & F, 2006.

SOUCHIER E., JEANNERET Y., LE MAREC J. « Lire, écrire, récrire : objets, signes et pratiques des médias informatisés ». BPI.

Pour citer ce document

Emmanuel Marty et Gabriel Gallezot, «L’analyse et la visualisation de données en sciences de l’information et de la communication : vers une convergence des questionnements et des pratiques de recherche ?», Les Cahiers de la SFSIC [En ligne], Collection, 10-Varia, DOSSIER,mis à jour le : 20/04/2020,URL : http://cahiers.sfsic.org/sfsic/index.php?id=669.

Quelques mots à propos de : Emmanuel Marty

Quelques mots à propos de : Gabriel Gallezot