Aller la navigation | Aller au contenu

DOSSIER

Gino Gramaccia

Une taxinomie heuristique pour l’exploration numérique de ressources documentaires

Article

Texte intégral

1Le processus éditorial dans l’espace numérique, à la différence de l’édition papier, ouvre des perspectives complexes et diversifiées. Un article scientifique publié dans une revue en ligne peut faire l’objet de multiples extensions numériques, de son dépôt sur archive ouverte comme HAL à son classement dans des listes de métadonnées comme Isidore (Epron, Vitali-Rosati, 2018, p. 31). Cette extension ou diversification des supports numériques multiplie, pour les lecteurs-chercheurs, et sous certaines conditions liées au modèle économique, les opportunités de consultation ou d’extraction de fragments particulièrement utiles à la recherche de données.

La taxinomie heuristique

2La prospection de données au moyen d’un moteur de recherche doit répondre à des critères méthodologiques destinés à assurer la progression cohérente de la recherche. La toute première activité repose sur la sélection des métadonnées. Le site de Wikipédia résume de manière exhaustive les principaux concepts opératoires relatifs à cette notion. Ainsi « Les notices contiennent des informations sur la source du document (titre, auteur, date, sujet, etc.), la nature du document (monographie, périodique, etc.), son contenu informationnel (descripteurs, mots-clés, résumé) et sa localisation physique (la cote). Pour un document numérique, ces notices s’appellent des métadonnées et sont contenues dans le document lui-même »1.

3L’accès aux données numérisées est aujourd’hui grandement optimisé grâce à des moteurs de recherche comme Isidore (dans le domaine des sciences humaines et sociales). Dans le cas d’Isidore, l’accessibilité repose sur une typologie de catégories de disciplines et de ressources, et plus précisément sur ce que nous proposons d’appeler une taxinomie heuristique. Cette première classification doit permettre au chercheur de contenus, que nous appellerons, un chercheur lexical, d’identifier, de hiérarchiser, via les métadonnées, un parcours sémantique qui doit lui permettre de construire son corpus documentaire. Ce modèle de repérage et de mise en cohérence des données extraites du web doit intégrer ce que nous proposons d’appeler une taxinomie heuristique, autrement dit d’une classification des catégories, qui peuvent exprimer en mots-clefs, en mesure d’aider à la recherche progressive d’éléments de corpus. La sélection et l’emploi de métadonnées trouveront toute leur pertinence dans un tel contexte méthodologique, lequel relève d’une démarche qui emprunte aux notions classiques et fondamentales en épistémologie. Les catégories de cette taxinomie sont les suivantes :

  1. La problématique

  2. La discipline

  3. Les hypothèses

4Ces catégories constituent des cadres sémantiques des mots-clefs insérés et du classement des documents obtenus et permettent d’organiser le champ d’investigation, autrement dit la problématique de la recherche.

La problématique

5Pour De Bruyne, Herman et Schoutheete, la problématique correspond « à la vision globale de l’objet de la recherche et du domaine d’objets (discipline scientifique) où elle se déroule, elle est la base plus ou moins explicitée des questions qui sont posées à la réalité » (De Bruyne et al., 1974, p. 49). Elle résulte des premiers phénomènes observables (pratiques, faits, événements) d’un terrain susceptible d’interpeller l’attention et l’intuition d’un chercheur sensibilisé à ce type de questionnement. Elle doit regrouper, au plan de la méthode, les catégories de la taxinomie heuristique sur laquelle reposent l’interrogation et le cheminement de la recherche : la discipline, l’objet, les hypothèses, etc.

6Sa construction résulte ensuite du croisement, puis du classement de données obtenues au moyen de mots-clefs ou syntagmes-clefs. Précisons qu’en linguistique, le syntagme est une expression nominale ou verbale constitutive d’une phrase. Pour prendre l’exemple que nous retiendrons dans notre démonstration, l’expression : « La réinsertion sociale par l’activité économique » est un syntagme nominal. Dans le cas de l’utilisation d’une plateforme comme Isidore pour une recherche en sciences humaines et sociales, il est recommandé de lancer la recherche à partir d’un syntagme nominal : l’avantage, pour la problématique, est d’en proposer un premier cadrage sémantique suffisamment précis pour faire apparaître un échantillon pertinent de titres de documents (sur Isidore ou Google).

La discipline

7Pour examiner une problématique, en explorer les orientations d’analyse ou ce qui, du point de vue des phénomènes observables, peut justifier un choix pertinent de mots-clefs, il est conseillé d’identifier les cadres disciplinaires scientifiques auxquels cette problématique peut être rattachée. La discipline scientifique est un corps constitué du savoir auquel se réfère une communauté d’auteurs, de chercheurs, d’enseignants. Le cadre disciplinaire détermine le point de vue selon lequel l’investigateur lexical souhaite constituer son corpus documentaire, progressivement affiner sa problématique, et construire son objet de recherche.

8L’orientation disciplinaire s’inscrit dans un processus hiérarchique qu’il importe d’identifier préalablement à la recherche lexicale. Pour plus de pertinence, une recherche au moyen de mots-clefs doit s’inscrire dans le champ d’une spécialité disciplinaire telle qu’elle s’applique à un domaine d’objet. Par domaine d’objet, il faut entendre ici le domaine spécifique auquel s’intéressent les chercheurs d’une communauté scientifique. Dans le champ des sciences humaines ou du langage, on peut parler, par exemple de sociologie ou de philosophie [disciplines génériques] des sciences [domaine d’objet], de sociologie des organisations, de géographie urbaine, de sémiotique de l’image… Dans ces exemples, les organisations, le phénomène urbain et l’image seront ensuite spécifiés en objets de connaissance au moyen des hypothèses. On parlera par exemple, à propos d’une approche sociologique des organisations, d’analyse stratégique, de lien social, de conflit… Pour P. de Bruyne, J. Herman, M. de Schoutheete, « L’objet de connaissance construit est une traduction spécifique du réel, c’est un objet répondant à des lois de composition autonomes, construit par des méthodes explicites » (1974, p. 51).

9Dans l’histoire de sa construction, une discipline, toujours en quête de sa cohérence interne, peut toutefois croiser et investir d’autres champs disciplinaires en fonction du caractère pluriel de l’objet étudié. Dans le cas, par exemple, de la souffrance au travail, ou encore de la précarité, des objets très actuels pour les chercheurs qui s’intéressent aux problématiques liées au management et à l’organisation du travail, plusieurs champs disciplinaires peuvent être investis : la sociologie, ou encore la psychosociologie, si l’objectif est de rendre compte des jeux de pouvoir au sein d’un collectif de travail, une approche économique, si l’on souhaite vérifier les vertus d’une politique de rentabilité liée au licenciement2, ou encore les très nombreuses spécialités des sciences de l’information et de la communication.

10Dans cette typologie heuristique, les disciplines et leur croisement permettent l’orientation vers le bouquet de revues ou les plateformes susceptibles d’aider au fléchage de la recherche par spécialité et par suite d’aider à la construction, progressive et réflexive, des hypothèses de la recherche. L’identification d’un auteur passe par le chemin obligé de l’identification disciplinaire, autrement dit de ses spécialités de recherche. En résumé du cheminement de la quête lexicale numérique, nous obtenons, par étapes :

  • Cadrage disciplinaire générique ;

  • Domaine d’objet ;

  • Objets de connaissance ou objet construit ;

  • Auteurs du domaine d’objet.

11La saisie, ainsi hiérarchisée, des mots-clefs permet la construction progressive du corpus documentaire et la construction des hypothèses de la recherche.

Les hypothèses

12Une hypothèse est une proposition explicative d’une question de recherche en attente d’être vérifiée par les moyens théoriques et les techniques de l’enquête. Elle s’inscrit dans le processus disciplinaire et s’applique aux objets préalablement identifiés. Par sa valeur heuristique, elle constitue le point de départ de la recherche et permet de formuler, de structurer et d’orienter la problématique. Tout en étayant la problématique, l’hypothèse peut être formulée et identifiée à l’aide des résumés disponibles dans les documents repérés sur la plateforme numérique. La formulation de l’hypothèse emprunte aux concepts théoriques tels qu’ils peuvent être identifiés et justifiés dans les documents repérés.

13Il faut distinguer toutefois deux types d’hypothèse :

  • L’hypothèse exploratoire : ce type d’hypothèse peut être en mesure de rendre compte d’une première interprétation théorique des données obtenues, souvent de manière intuitive, par l’observation du terrain d’investigation. Elle permet de fournir une direction à l’étude, au risque d’être invalidée par des résultats d’enquête imprévus. Elle permet de fixer les objectifs de la recherche.

  • L’hypothèse opératoire : à ce stade de la recherche scientifique, une hypothèse est dite opératoire si elle permet d’orienter et de structurer la recherche vers les résultats attendus. Sont mobilisés les concepts ou les paradigmes relevant de la spécialité théorique concernée par la recherche.

Conclusion

14Les supports numériques offrent aujourd’hui au chercheur de données, ou plus simplement dit, au « fouilleur de texte », d’innombrables opportunités d’accès aux connaissances. Les revues scientifiques au format numérique, en accès ouvert ou payant, regroupées en bouquets ou agrégation de revues, les plateformes et les moteurs de recherche comme Isidore en SHS, les réseaux sociaux de chercheurs comme Academia.edu ou ResearchGate, les archives ouvertes pluridisciplinaires comme HAL, voilà en substance un univers multidisciplinaire qu’il est impossible d’investir sans le recours à une méthodologie d’investigation conforme aux normes épistémologiques d’une recherche de type scientifique : l’utilisation d’un mot-clef ou d’un syntagme-clef n’est pas concevable en dehors d’un parcours de fouille hiérarchisé selon les critères d’une recherche scientifique. Du cadrage disciplinaire à la formulation des hypothèses en passant par la problématique, le mot-clef prend tout son sens métaphorique d’ouverture de serrure dans la procédure hiérarchisée d’une démarche scientifique. Tel est le sens que nous donnons à cette courte étude.

Bibliographie

EL HADDANI Mouna, 2018, Les bons réflexes de la recherche, in Archimag, n° 318, octobre 2018, p. 19

DE BRUYNE Paul, HERMAN Jacques, DE SCHOUTHEETE Marc, 1974, Dynamique de la recherche en sciences sociales, P.U.F.

IBEKWE-SANJUAN Fidelia, 2007, Fouille de textes – Méthodes, outils et applications, Lavoisier.

Webographie

Isidore : https://www.rechercheisidore.fr/

Notes

1 https://fr.wikipedia.org/wiki/Métadonnée

2 Le procès en correctionnelle de France Télécom (mai 2019) à la suite d’une vague de suicides en 2005 donne lieu à des plaidoiries qui opposent précisément ces approches disciplinaires.

Pour citer ce document

Gino Gramaccia, «Une taxinomie heuristique pour l’exploration numérique de ressources documentaires», Les Cahiers de la SFSIC [En ligne], Collection, 16-varia, DOSSIER,mis à jour le : 26/04/2020,URL : http://cahiers.sfsic.org/sfsic/index.php?id=841.

Quelques mots à propos de : Gino Gramaccia

Professeur émérite à l’Université de Bordeaux, Membre du Laboratoire MICA – Université Bordeaux Montaigne. Courriel : gino.gramaccia@u-bordeaux.fr