Dernière mise à jour à 14h54 le 28/05
La Chine est l'une des quatre civilisations anciennes du monde, dont l'histoire est enregistrée dans une documentation antique volumineuse. Pourtant et malheureusement, depuis l'époque moderne, plus de 4 millions de livres anciens chinois ont été perdus à l'étranger pour diverses raisons.
La ? Maison du Dharma ? d'Alibaba, l'Université du Sichuan et l'Université de Californie à Berkeley ont récemment annoncé avoir passé plus de deux ans à donner des instructions à l'intelligence artificielle pour qu'elle reconnaisse puis numérise les livres anciens chinois, en les pla?ant sur une plate-forme en ligne ouverte à tous.
Le nom de ce projet est ? Han Dian Chong Guang ?, ce qui signifie ? Que les précieux livres anciens perdus resplendissent à nouveau ?. Il a identifié plus de 200 000 pages de livres anciens avec une précision de 97.5%, recouvrant des dictionnaires anciens de plus de 30 000 caractères.
La technologie moderne éclaire le chemin vers la ? maison ? des livres anciens chinois
La documentation ancienne chinoise dispose d'un système des connaissances vaste et complexe : de l'écriture ossécaille à la documentation culturelle des minorités en passant par les littératures de différentes dynasties, couvrant plusieurs disciplines de connaissances comme les expériences dans la gestion des catastrophes naturelles, des guerres et des épidémies, ainsi que les connaissances sur la médecine, la culture alimentaire, les vêtements etc.
La Bibliothèque d'Asie de l'Est de l'Université de Californie à Berkeley est l'une des trois plus grandes bibliothèques consacrée à l'Asie de l'Est aux états-Unis. Plus de 40% des 900 000 volumes sont des livres chinois. Les chercheurs chinois qui l'ont visité pour la première fois ont toujours le sentiment de traverser le ? trou de ver ? de l'histoire. Si ces documents ne peuvent pas être renvoyés en Chine, il faudra les numériser.
Un défi sans précédent
Les premiers livres numérisés comptent 200 000 pages, dont plus de 40 livres précieux des dynasties Song (960-1279) et Yuan (1279-1368). Au début, tout le monde était très confiant en ce projet, dont les difficultés n'ont émergé qu'après le démarrage.
Tout d'abord, il existe de nombreux supports de livres chinois anciens, tels que du papier, du tissu, du bambou, du bois, des os, et des tablettes de pierre, rendant les travaux d'identification plus difficiles. La plupart des papiers anciens sont incomplets, couverts de taches, annotés de remarques et dont la mise en page est très compliquée. La police de caractères est aussi devenue un fardeau, les écritures sont spelndides mais difficiles à identifier. L'outil OCR (Image Text Recognition) dont dispose l'équipe a une précision de reconnaissance de seulement 40%, ce qui n'est évidemment pas suffisant.
Beaucoup de travaux acharnés créatifs et innovants
étant donné un manque d'expérience dans le domaine, on ne peut qu'essayer par nous-mêmes. ? C'est comme apprendre aux enfants à lire. C'est vraiment difficile, mais il y a aussi des parties simples. Nous le faisons lentement, de facile à difficile ?.
Des résultats pionniers sans précédent, y compris des travaux acharnés créatifs et innovants de chercheurs chinois.
L'algorithme de reconnaissance, développé par Alibaba pour remplacer les travaux manuels, a réduit considérablement la charge de travail des spécialistes, qui doivent classifier les données d'identification. Parmi les 97,5% des contenus reconnus par la machine, environ 1% (environ 10 000 mots) doivent être saisis par les experts ; les 2,5% restants (25 000 mots) du texte que la machine ne peut pas reconna?tre seront tous remis à un expert pour des travaux manuels.
C'est un projet difficile mais avec une grande signification. La difficulté d'identification est énorme, mais chacun porte en lui la volonté de redonner une vivacité aux livres anciens, en protégeant le patrimoine culturel par la technologie.
La ? Maison du Dharma ? d'Alibaba, l'Université du Sichuan, l'Université de Californie à Berkeley, la Bibliothèque nationale de Chine et la Bibliothèque du Zhejiang continueront d'investir en main-d'?uvre et en ressources matérielles pour augmenter le nombre des livres numérisés, pour qu'ils resplendissent à nouveau.