Apprentissage incrémental et classification d’images : application à la transcription interactive pour le patrimoine écrit ancien | Stage, LIFAT-CESR (RTR DIAMS)
Dans le cadre du partenariat entre le LIFAT-RFAI et le CESR-BVH, la recherche sur les algorithmes et méthodes d’apprentissage pour la transcription de livres imprimés anciens se poursuit. À ce titre, les travaux menés bénéficient en 2022 du financement d’un stage de 3 mois par le Réseau thématique de recherche DIAMS (RTR ; groupes Human in the Loop et Patri-Num), encadré par Thierry BROUARD (LIFAT-RFAI).
Informations sur le stage
- Formation : niveau bac+5 en informatique
- Dates : entre le 15 avril et le 15 juillet 2022, 3 mois
- Lieu du stage : dans les locaux du LIFAT (64 av. Jean Portalis, 37200 Tours) avec déplacements possibles dans les locaux du CESR (59 rue Néricault-Destouches, BP 12050 – 37020 Tours Cedex) – 30 mn entre les deux sites via le tramway
- Disciplines : Informatique / apprentissage, Patrimoine écrit (documents anciens)
- Candidatures : CV et lettre de motivation à adresser par email à Thierry Brouard, thierry.brouard@univ-tours.fr
Présentation & contexte
Depuis de nombreuses années, le CESR et le LIFAT collaborent sur des thématiques de recherche, mais aussi dans le cadre d’enseignements. Au fil des années, le LIFAT a contribué à la construction du système d’information du CESR, et plus particulièrement du programme « Bibliothèques Virtuelles Humanistes » (BVH) à travers différents projets, notamment de transcription de documents anciens. Les deux principaux logiciels, AGORA et RETRO, ont plus de 15 années d’existence, et ont déjà fait l’objet d’évolutions majeures, en particulier à l’occasion de deux bourses successives « Digital Humanities » financées par Google en 2011 et 2012. Cependant, ces outils reposent sur des technologies aujourd’hui dépassées, au vu des avancées des techniques reposant sur l’apprentissage profond.
Dans le cadre de ses travaux de recherche et de valorisation du Patrimoine Écrit, l’équipe du programme BVH numérise et diffuse en ligne des documents patrimoniaux du XVe au XVIIe siècle conservés dans les établissements partenaires. À l’issue des traitements et des enrichissements selon ses chaînes de production actuelles, les numérisations en mode image (corpus BVH-Fac-similés), les éditions textuelles en XML-TEI (corpus BVH-Epistemon), ainsi que les bases de données spécialisées (iconographie, matériel typographique, Bibliotheques françoises, etc.) sont diffusées en ligne pour la recherche et la consultation sur sa bibliothèque virtuelle.
Les traitements de ces corpus numériques nécessitent l’évolution de l’infrastructure de données, et de l’infrastructure informatique, afin qu’elles répondent aux évolutions des spécificités d’études et d’analyse des documents anciens. Cela inclut des outils de gestion et de production des données (images, textes, métadonnées et tous contenus produits pour la communication et la valorisation de ces premiers) tels qu’AGORA et RETRO, mais également la mise en œuvre des technologies pour permettre l’indexation, la sécurisation, le stockage et l’échange avec les partenaires (Equipex+ Biblissima+, bibliothèques et établissements conservateurs des documents, etc.) et les communautés. Dans ce contexte, une refonte quasi complète de RETRO a été entamée dès juillet 2020, sous la direction de Thierry Brouard (LIFAT), prenant la suite de Jean-Yves Ramel, sur ce projet. Un étudiant de L3 informatique (Tours), Fabien Castilla, a posé les premières bases de la nouvelle version, en terme d’interactions utilisateur. Une preuve de concept a été produite, via un autre projet réalisé par Guillaume Ciret (PRD DI5 Polytech Tours), entre septembre 2020 et avril 2021, pendant lequel le processus de clustering a été revu et intégré au prototype. Un mécanisme de classification automatique est en projet, afin de donner au logiciel la capacité d’apprendre à transcrire, sous la supervision d’un humain, des ouvrages.
Sujet du stage 2022 : Apprentissage incrémental et classification d’images : application à la transcription interactive pour le patrimoine écrit ancien
RETRO conservera son cœur de métier. Il contiendra donc toujours une approche de type clustering1. Celle-ci sera couplée à un premier classifieur, de type CNN (Réseau neuronal convolutif), jouant le rôle d’expert apprenant à reconnaître les caractères, chargé de libérer, peu à peu, l’utilisateur de la tâche d’étiquetage, afin de le réorienter vers celui de vérificateur. Les tâches de reconnaissance optique de caractères sont bien appréhendées par des classifieurs reposant sur des réseaux de neurones profonds ; l’ajout de cet élément ne devrait donc pas poser de nouveaux problèmes. Toutefois, les caractères anciens présentent des particularités en termes de formes, de dégradations, et de ligature. Deux voies sont alors à explorer : un réseau qui est dédié à la classification de caractères déjà segmentés (c’est actuellement AGORA qui segmente), et un réseau dont la tâche serait de localiser et étiqueter (dans ce cas, il se peut donc que le périmètre d’AGORA se trouve modifié).
La principale difficulté réside dans le fait que la constitution de la base de connaissances permettant d’entraîner le modèle se fait au fil de l’eau. Page après page, l’opérateur visualise, corrige, et valide une transcription. Dès cet instant, de nouvelles connaissances fiables sont disponibles, et peuvent donc être incorporées au modèle. La question est comment ? Une réponse simple consiste à accumuler ces connaissances sous la forme d’une base d’apprentissage classique, et lorsqu’on estime avoir une masse critique suffisante, lancer un réapprentissage total du modèle. Mais dans ce cas on se prive d’enseignements, telles que les confusions commises. Un autre problème intrinsèque est la distribution des connaissances. Selon les langues, certains caractères sont plus présents que d’autres. Il est important que l’on constate une sorte d’équilibrage de l’erreur, même si on admettra sans doute qu’un caractère vu dans 0.2 % des cas ne puisse pas être reconnu de manière extrêmement fiable.
L’objectif est d’aboutir à un logiciel le plus « transparent » possible pour l’utilisateur, accumulant toutes les connaissances utiles dans le but de réaliser le mieux possible la transcription tout en attirant l’attention de l’utilisateur sur les difficultés ou les incertitudes résiduelles. La partie « apprentissage » constitue donc l’élément principal de ce stage.
Missions et objectifs du stage
On attend du stagiaire qu’il réalise un état de l’art relatif à l’apprentissage incrémental de modèles. Un point d’entrée sera, par exemple, [1, 2], afin de cartographier ces méthodes. Une seconde phase consiste à établir un scénario d’utilisation du logiciel, de façon à inventorier l’ensemble des connaissances que l’on peut mobiliser pour intégrer dans l’apprentissage. Enfin, il faut faire la fonction entre les deux résultats, de façon à proposer une première méthode d’apprentissage incrémental appliqué à la transcription. Un début d’intégration du résultat dans le logiciel actuel serait très apprécié. La réalisation technique s’effectuera donc en python, dans le respect des standards liés au projet actuel. Bien que ce projet soit centré sur l’apprentissage, il est possible que certains développements annexes soient à réaliser, en lien direct avec l’incorporation du module d’apprentissage à l’intérieur de l’application (notamment la captation de l’information utile pour l’apprentissage).
Références
[1] Incremental Learning in Deep Convolutional Neural Networks Using Partial Network Sharing, S. S. Sarwar, A. Ankit, K. Roy, 2019, DOI : 10.1109/ACCESS.2019.2963056
[2] Comparing Incremental Learning Strategies for Convolutional Neural Networks V. Lomonaco, D. Maltoni, IAPR Workshop on Artificial Neural Networks in Pattern Recognition, 2016 DOI: 10.1007/978-3-319-46182-3_15
Thierry Brouard, Jean-Yves Ramel (LIFAT-RFAI, Tours)
Avec la collaboration de Rémi Jimenes, Toshinori Uetani, Sandrine Breuil (CESR-BVH, Tours)