Établir un état de l’art des outils informatiques pour le traitement d’un corpus textuel numérisé
Projet en cours
porté par Michel Bernard enseignant et chercheur du centre Hubert de Phalèse, de l’Université Paris 3 Sorbonne nouvelle.
Durée estimée : de mars 2015 à novembre 2016.
Établir un état de l’art des outils informatiques pour le traitement d’un corpus textuel numérisé
De nombreuses équipes de chercheurs en littérature produisent ou constituent aujourd’hui des corpus (textes, images) qu’ils utilisent pour leurs travaux, le plus souvent à l’intérieur d’une équipe et sous une forme le plus souvent rudimentaire (fichiers de traitement de texte ou PDF, sans balisage ni uniformisation, sans droits).
La question d’un partage de ces fichiers via le Web se pose très souvent, soit qu’il s’agisse de mettre à disposition des chercheurs d’une équipe la même bibliothèque numérique, soit que l’on envisage de communiquer certains de ces documents à un plus large public. Aucun des outils qui existent aujourd’hui (TXM-portail, Philologic, Voyant Tools, WikiSource, Gallica, Google livres, DropBox, Google Drive, etc.) ne permet de remplir complètement un cahier des charges dont les principales prescriptions seraient les suivantes :
- Open source et installation aisée sur son propre serveur
- Ajout facile de fichiers, à partir de formats divers. Assistance à la préparation et au balisage des fichiers.
- Gestion fine des droits d’accès selon les textes et les utilisateurs (cf. Frantext ou Google livres)
- Fonctionnalités avancées de recherche d’occurrences et de traitements statistiques
- Possibilité d’afficher des données multimédia (fac-similés, lectures orales, etc.)
Ce projet ne vise pas au développement d’un nouveau logiciel mais à opérer un inventaire et une veille aussi complets que possible dans ce domaine, pour identifier les logiciels les plus utiles, les associer et susciter des développements complémentaires. Il s’agit d’établir un état de l’art de l’offre logiciel pour l’édition et l’exploitation de corpus textuels en cherchant à dégager les grands principes qui déterminent à la fois la construction des outils comme les choix des usagers.
Cet état de l’art, qui choisit la perspective de l’usage, pose aussi les questions de la temporalité de ces outils informatiques d’exploration scientifique et d’édition de textes, de leur coût humain et financier, de leur utilité à la fois au public comme à la communauté scientifique, de leur développement et de leur mise en réseau.
Ce projet s’inscrit dans des recherches menées au sein du centre de recherche Hubert de Phalèse. Il faut envisager ce projet en coordination avec le projet porté par Baptiste Bohet Statistiques et représentations graphiques des données textuelles des 100 « grands romans » de la littérature de langue française