rapport de synthèse - accessibilité des documents scientifiques aux non voyants

rapport de synthèse - accessibilité des documents scientifiques aux non voyants rapport de synthèse accessibilité des documents scientifiques aux non voyants fernando chesa, nicolas mutel mission handicap universite claude bernard lyon i bâtiment 702 43, boulevard du 11 novembre 1918 69622 villeurbanne cedex enseignants responsables : jean beney, jean-marie pinon resume pour les non voyants, l'informatique offre de nouveaux outils d'accès à l'information, lesquels tendent à remplacer les moyens " traditionnels " en ce domaine, fastidieux et nécessitant l'intervention constante d'intermédiaires humains. les principaux modes de présentation de l'information existant sous forme électronique sont la synthèse sonore et le texte braille, consulté à l'aide d'une imprimante particulière ou d'une plage tactile. le world wide web s'impose aujourd'hui comme un standard pour la diffusion d'information mais ne résout pas tous les problèmes d'accessibilité, notamment du fait de la représentation de formules sous une forme graphique non traduisible. l'objectif de notre projet est une solution d'accessibilité à l'information scientifique par une personne aveugle. cette dernière peut décider de consulter des données disponibles sur son ordinateur ou via un réseau (au sein d'une base de données et/ou sur l'internet). l'objet de notre travail est la mise à disposition de celles-ci sous une forme navigable pour un non voyant. a cet effet, un état de l'art des formats porteurs d'informations scientifiques a été nécessaire, à la suite duquel nous avons décidé d'étendre les capacités des navigateurs standards à l'aide d'un prototype composé d'un traducteur de fichiers latex en braille et français parlé, associé à un système de navigation tenant compte du profil de chaque utilisateur. mots clefs non voyant, braille, synthèse sonore, tex, traduction, formalismes mathématiques, profils utilisateur, accessibilité. abstract computer sciences offer new tools which allow blind people to access information. these tools have tended to replace the "traditional" means, which are tiresome and require the intervention of a third party. the main modes of presenting this electronic information are through sound synthesis and braille text, which is read by way of either a special printer or a tactile range. the world wide web is, at this moment, the accepted standard for the diffusion of information but does not solve all the accessibility problems, particularly because of the representation of formulae in a non translatable graphic form. our objective in this project is to provide a solution to this problem by providing access to scientific information by any blind person. the user can then decide either to consult data available on his computer, or via a network (within a database and/or on the internet). the goal of our project is to make this data available through a navigable interface which can be used by any blind user. firstly we did an in depth study about existing mark-up standards carrying scientific information. we then decided to extend the capacities of the standard navigators using a prototype made up of a translator of latex files in braille and spoken french, linked with a system of navigation which takes into account the profile of each user. key words blind, braille, sound synthesis, latex, translation, mathematical formalisms, user profiles, accessibility.i introduction l'objectif du présent projet consiste en des propositions de solutions d'accessibilité aux documents scientifiques par une personne non voyante. cette dernière peut désirer consulter un document contenant des informations scientifiques disponibles via le réseau (dans une base de documents scientifiques et/ou sur l'internet). notre travail consiste à rendre accessible ledit document et en permettre une consultation navigable par toute personne aveugle. notre problématique concerne donc l'accès à l'information scientifique (formalismes utilisés, outils d'accès existants...) et la conception de nouveaux outils informatiques qui permettront cette accessibilité (traducteurs, afficheurs...) ce projet est réalisé au sein de la mission handicap de l'université lyon i, sous la responsabilité de m. décoret. faisant suite à un état de l'art et une étude stratégique, le prototype d'un traducteur du langage latex vers braille et français parlé, comportant un système d'affichage et de navigation, sont réalisés et testés jusqu'à la fin du mois de juin 1998, avec pour objectif de démontrer la faisabilité d'un produit logiciel complet, à réaliser pendant les années qui suivent. ii encadrement du projet le présent projet de fin d'etudes constitue le lot n°2 d'un ensemble plus complexe : le projet applicatif n°4 (" système d'accès à l'information pédagogique adapté aux non voyants : utilisation de la parole et du son "), sous partie du projet nte-spi-santé commandé en 1997 par la région rhône-alpes. la description du pa4 sus cité est la suivante : le projet applicatif concerné est composé de quatre lots : 1. le premier a pour objet la conception d'un moteur intelligent de recherche et de filtrage d'informations dans les bases de données spi et santé pour une consultation par les personnes déficientes de la vue (via l'interface dont nous avons la charge) ; 2. notre pfe constitue le lot numéro deux ; 3. le troisième lot consiste en des spécifications d'une interface multimédia mettant en œuvre l'ensemble des compétences sensorielles de l'aveugle (conception dont nous profitons) ; 4. le quatrième lot concerne la gestion des interactions avec l'utilisateur non voyant sous forme vocale, à partir d'outils existants (état de l'art dont nous bénéficions également) ([jeribi 97]). iii etude de l'existant : etat de l'art trois types de données principaux composent l'information scientifique : des données purement textuelles (déjà accessibles aux non voyants grâce aux systèmes commercialisés), graphiques ou composées de formules. c'est ce dernier type en particulier que nous nous proposons de traiter puisque notre projet n'a pas pour objet ou moyen la description sémantique des images. a travers les langages de marquage, les données scientifiques ne sont pas composées de texte pur mais décrites de façon textuelle. les modes de présentation actuels d'un document électronique à un non voyant sont le braille et la synthèse vocale. les outils correspondants ne transcrivent malheureusement que des chaînes de texte pur, ce qui a exclu jusqu'ici le non voyant de l'accessibilité aux formules mathématiques et chimiques. notre état de l'art consiste donc en une étude des formats existants ainsi qu'une analyse des solutions déjà mises en œuvre pour résoudre les problèmes d'accès a ces formats. langages de marquage et formalismes scientifiques sur les réseaux étendus, trois langages de marquage principaux portent l'information scientifique : html mathml (xml) latex le premier est un format d'échange de fichiers sur le web, issu du métalangage de description sgml. il ne contient une définition mathématique que dans ses versions les plus récentes, lesquelles sont peu utilisées dans cet objectif. par ailleurs le métalangage xml, amené à remplacer sgml, possède une définition de type de données (dtd) mathématique appelée mathml. il existe encore peu de documents écrits dans ce format émergeant. enfin, latex est un format ancien (associé au traitement de textes du même nom) dans lequel on dispose de grandes quantités de documents : c'est une norme de fait pour les documents mathématiques. latex est un support immuable, au contraire d'html et mathml, lesquels sont dédiés à un support réseau en constante évolution. outre l'intégration du format latex dans les versions nouvelles de l'éditeur d'équations de microsoft wordÓ (mathtypeÓ), des traducteurs vers latex à partir des deux autres formats sus cités existent ou sont à l'œuvre. ainsi, latex est un format de documents pertinent et non réducteur pouvant servir de base à un processus de traduction dans un objectif d'accessibilité des documents scientifiques, à condition qu'une possibilité de consultation des autres formalismes sus cités soit également offerte. un cas particulier : les formules chimiques la chimie présente des difficultés particulières de mise à disposition au non voyant, dues notamment à la représentation graphique répandue des formules associées. bien qu'il ne soit pas impossible de rendre accessible un dessin, la tâche est particulièrement ardue puisqu'elle nécessite une analyse du formalisme vectoriel éventuellement employé pour une transcription de la structure chimique représentée. l'accessibilité de la chimie est donc soumise à l'usage (souvent " alternatif " au dessin) de la notation chimique linéaire standard par exemple, laquelle met en œuvre de simples formules décrites de façon textuelle [panico 94]. certains objets ne posent pas de problème d'accessibilité, notamment les descriptions (naturellement linéaires) de réactions chimiques, lesquelles sont couramment décrites sous forme textuelle en langage latex (ou équivalent). travaux en cours des études et réalisations sont à porter à l'actif de divers groupes de travail concernant les deux modes d'accessibilité au document latex (braille et synthèse vocale). trois projets de transcription en braille ont abouti ou sont en cours : tci software research (nouveau mexique, etats unis) : nemeth filterÓ université de franche comté : tex2braÓ et abrotexÓ université de linz (autriche) : labradoorÓ les deux premiers produits présentent des inconvénients qui les rendent non utilisables dans le contexte de notre projet : le premier, non intégrable, est dédié au code braille américain nemeth ; le deuxième, encore peu documenté, nécessite une intervention humaine. le troisième produit (labradoorÓ), bien que dédié au braille germanique, offre par contre des perspectives d'ouverture. un processus de collaboration entre ses auteurs et nous est en cours de mise en place. dans le cas de la synthèse vocale, un produit réalisé aux etats unis par t.v. raman, appelé asterÓ (audio system for technical readings), est particulièrement notable : il réalise la synthèse vocale complète d'un document latex en langue anglaise. son intégration au sein d'un système plus complexe n'est pas envisageable mais il est issu d'un travail de conception particulièrement bien réalisé et documenté, comprenant une étude des méthodes de résolution des ambiguïtés des mathématiques orales et du mode de navigation dans une formule [raman 94]. iv présentation du prototype objectifs du prototype l'objectif technique du pfe consiste en la réalisation d'un prototype dont l'intérêt stratégique est la preuve de faisabilité d'un produit complet (conforme à l'étude effectuée) ainsi que la validation du système proposé. de plus, l'étude du degré d'automaticité et de rapidité effectives de la traduction au sein du prototype cible doit permettre d'évaluer les besoins en stockage de l'information finale dans le cas d'une traduction jugée trop lente par l'utilisateur testeur. cycle de développement notre méthode de conception systémique repose sur le cycle en spirale de l'assurance qualité, notre projet étant une première étape d'étude dans le cadre de la réalisation d'un produit final. l'objet du pfe est l'accomplissement des tâches " etude préalable – conception – développement – validation " après lesquelles on disposera d'un produit logiciel intermédiaire. fonctionnalités du prototype on propose de réaliser un prototype disposant de quelques fonctionnalités simples et représentatives démontrant la faisabilité du produit final. ce produit intermédiaire doit permettre de consulter la partie mathématique éventuelle de tout fichier html ainsi que tout document latex associé à ce dernier, à l'aide d'un navigateur commun tel que internet explorerÓ ou netscape communicatorÓ. la navigation " multimodale " au sein du document (entre braille et synthèse vocale) est requise. l'analyse du marquage initial du document est absolument nécessaire pour une navigation efficace. dans cette optique, on différencie deux types de marquage : le marquage " de structure " (qui permet de naviguer dans la structure même du document initial (titre, chapitres, paragraphes, notes de bas de page…) et le marquage " syntaxique " qui permettra la navigation au sein d'un bloc de texte ou à l'intérieur d'une formule mathématique sous forme vocale ou en braille. v traducteur tex vers braille et synthèse sonore format de départ : dvi ou tex le langage latex comprend deux types de fichier de données : tex et dvi. les fichiers d'extension tex présentent quelques problèmes d'analyse et de traduction puisqu'on peut y trouver des macrocommandes dont l'usage rend ardue l'analyse syntaxique du document, ainsi que l'analyse lexicale (du fait d'extensions possibles du langage natif). dvi (device independent) est le format de sortie de latex. ce type de document (généré par une simple ligne de commande et conçu pour l'impression) ne comprenant pas de macros, il fut l'objet des premiers essais de traduction de latex vers braille [arr 88]. cette idée n'est pas totalement applicable car le fichier dvi ne contient pas la structure logique de la formule mathématique, ne comprenant qu'une information destinée à l'impression. l'analyse doit donc s'orienter vers une traduction à partir du format tex. une phase de pré traitement du document (située au-delà des objectifs de réalisation de notre prototype) peut apporter une solution au premier problème (les macros) permettant de les traiter et de les supprimer. le traitement des extensions possibles du langage latex est beaucoup plus problématique, aucun traducteur existant à partir de latex ne tenant compte de cette possibilité. développement du traducteur le traducteur est développé en langage c ansi grâce à l'apport des outils lex et yacc, respectivement pour les phases d'analyse lexicale et d'analyse syntaxique du document latex. ce mode de conception est commun au sein de ce type de traducteurs/interprètes : le fichier à traduire étant transmis via l'entrée standard, on réalise l'analyse lexicale, consistant à interpréter l'entrée en séparant les unités lexicales (mots et séparateurs du langage à traduire). ces dernières sont évaluées à partir de notre grammaire du langage latex mathématique lors de la phase d'analyse syntaxique, laquelle nous donne le résultat de la traduction, soit en braille, soit en français écrit selon les options qui sont indiquées à la ligne de commande. pour le premier mode, la traduction est réalisée en deux phases : la première permet la représentation du code braille sous une forme numérique correspondant à la somme des valeurs associées à chacun des six points braille. la deuxième phase consiste en une traduction directe de chaque code numérique en un caractère ascii correspondant d'après une table de correspondance. la chaîne ascii est destinée à la sortie standard pour être transmise à la plage tactile ou l'imprimante braille. cette dernière conversion est nécessaire car les dispositifs braille commercialisés ne sont pas standardisés : certains caractères ascii ont une signification différente selon le fabriquant ou le pays d'origine du dispositif [lamport 86] [beney 92]. le schéma du traducteur est le suivant : exemple de traduction le processus de traduction d'une formule mathématique est effectué comme suit. soit la formule mathématique à rendre accessible : celle-ci est représentée ainsi en langage latex : $$\lim_{y \to \infty} \int_{0}^{y} f(x)dx = 0$$ lors de la première phase de traitement, chaque élément lexical est séparé, puis analysé et traduit par l'analyseur syntaxique. si une synthèse sonore est requise, la traduction est la suivante : " la limite lorsque y tend vers l'infini de l'intégrale de zéro à y de f de x d x est égale à zéro " si une sortie braille est requise, l'analyseur syntaxique retourne en sortie le code numérique correspondant au résultat de la traduction après conversion. une table correspondant à une imprimante et un code braille américains permet de réaliser la chaîne : lim;y_ô~c2ç#"y"f8x0dx7# cette chaîne ascii dirigée vers l'imprimante est l'équivalent de la formule en braille français : marquage syntaxique il s'agit de la description des blocs de données séparés par le marquage " de structure " : blocs de textes, formules, tableaux, etc. vi conception de l'interface les différents modules de l'interface du prototype sont développés en visual c++ 5Ó. on souhaite permettre à l'utilisateur non voyant de naviguer au sein d'un document scientifique disponible à travers un navigateur standard (netscape communicatorÓ, internet explorerÓ, etc.). si on dispose d'un module transcrivant les documents latex en texte équivalent à une sortie braille et en français prononçable par une synthèse vocale, il est nécessaire d'apporter au prototype les modules : en amont de cette traduction : l'adaptation de notre produit à un navigateur un mécanisme de " convergence " des différents formalismes vers latex en aval de cette traduction : la gestion du profil de chaque utilisateur pour un parcours multimodal du document la navigation à l'aide du marquage " de structure " du document la mise en œuvre d'un " afficheur " pour la consultation en braille la mise en œuvre d'un produit de synthèse vocale en amont de la traduction du fichier latex adaptation à un navigateur l'objet de cette adaptation est l'association des extensions de fichiers à consulter (.tex, .htm[l], .mml) à des exécutables permettant de les rendre accessibles de façon transparente à un utilisateur non voyant. notre prototype étant soumis à d'importantes contraintes de rapidité et de simplicité de conception, la technologie " plug-in " à été préférée à une " applet " java (pourtant plus facilement portable). " convergence " des différents formalismes bien qu'aucun traducteur de mathml vers latex n'existe pour le moment, le w3c en a fait une de ses priorités stratégiques visant à conquérir les milieux scientifiques. il existe des traducteurs de documents html en latex dont la mise en œuvre est aisée mais qui nécessitent une adaptation puisqu'ils ne sont compatibles qu'à des systèmes unix. ladite adaptation d'un traducteur permet l'accessibilité des parties mathématiques des documents html [goosens 96] [miner 97]. en aval de la traduction du fichier latex gestion du profil utilisateur certains non voyants affichent de nettes préférences pour une consultation en braille (aveugles " tardifs " surtout), sous forme vocale (aveugle de naissance surtout) ou en fonction du type de données. ainsi l'utilisateur doit pouvoir décider dans quel mode lui seront présentées la structure du document, les données purement textuelles et les formules, matrices, tableaux… bien qu'établi au départ pour chaque type de donnée, le mode de présentation de tout bloc peut être changé en cours de consultation par l'utilisateur, dont le profil sera mis à jour de manière statistique. navigation au sein de la structure de document l'extraction du marquage " de structure " du fichier permet de représenter l'organisation globale du document sous forme d'un arbre qui fait office d'index lors de la navigation. les feuilles de cet arbre sont des blocs du document latex initial (divisé en sous fichiers équivalents à chaque bloc) ne comportant qu'un marquage " syntaxique " (formules, blocs de textes ; tableaux…) " affichage " braille les blocs du documents initial destinés à une représentation en braille sont simplement envoyés à un " afficheur " à partir duquel les données scientifiques, sous forme textuelles, sont transférées par le système à la plage tactile de l'utilisateur. synthèse vocale une extension de l'état de l'art permet de constater l'existence de deux types majeurs de synthèse vocale : les synthèse " en ligne ", modulaires et purement logicielles (mbrolaÓ par exemple) dont les caractéristiques sont une grande facilité d'utilisation et une lenteur relative ; les synthèses " système " liées à un module d'aide au non voyant (jawsÓ par exemple), dont le contrôle total est malaisé mais qui sont très rapides de fonctionnement. le prototype fonctionne avec une synthèse " en ligne " mais le produit visé devrait pouvoir bénéficier de produits de synthèse vocale sans cesse plus simple d'usage et rapides. vii conclusion le développement du présent projet permet d'ouvrir de nouvelles perspectives d'accessibilité de l'information scientifique aux personnes non voyantes, ce qui permet notamment l'amélioration de l'intégration de cette communauté. le prototype présenté dans ces pages devrait voir le jour fin juin 1998, la poursuite de l'étude pouvant s'effectuer dans le cadre de collaborations mises en œuvre avec l'équipe de travail de l'université de linz, laquelle dispose d'un produit particulièrement avancé de traduction de latex vers braille. l'étude menée au cours du pfe servira de base technique à un futur système complet de traduction, affichage et navigation multimodale, lequel devrait, à terme, permettre l'accès de l'information scientifique par des non voyants dans les mêmes conditions que des voyants. références bibliographiques notation mathématique. paris. association valentin haüy, 1973. 75 p. arrabito r. et jÜrgenen h. computerized braille typesetting : another view of mark-up standard. electronic publishing, 1988. beney j., boulicault j.f. et martinez y. techniques de compilation. département informatique. insa-lyon, 1992 goossens michel. latex – html aller et retour. cahiers gutenberg n° 19, 1996. jeribi l., rumpler b., pinon j.m. système d'accès à l'information pour les non voyants - moteur intelligent de recherche et de filtrage d'information, projet région rhône alpes 97, journées nte - mars 98 chassey le camp france lamport lesley. latex user's guide & reference manual. addison-wesley, 1986 miner rob. html math overview. 1997.http://www.w3.org/math/ raman t.v. audio system for technical readings. phd. dissertation : cornell university, 1994. 129 p. panico r. et richer j. c. nomenclature uicpa des composés organiques.paris. masson, 1994. 230 p. prud'homme christophe. comparaison latex2html, hyperlatex. cahiers gutenberg n° 26, 1997, p. 109-120. roegel denis. les formats de fichier dvi, gf, tfm et vf : que contiennent-ils et comment les visualiser? cahiers gutenberg n° 26, 1997, p. 71-95. tombre karl. documentation générale à propos de (la)tex. 1997. http://www.loria.fr/services/tex/general.html a gentle introduction to sgml. http://www-tei.uic.edu/orgs/tei/sgml/teip3sg/index.html#toc netscape corporation. plug-in guide 1998 : http://devedge.netscape.com/library/documentation/communicator/plugin/contents.htm world wide web journal : xml:principles, tools and techniques. 1997.http://www.w3j.com/xml/

rapport de synthèse - accessibilité des documents scientifiques aux non voyants  Précédent 26  Précédent 25  Précédent 24  Précédent 23  Précédent 22  Précédent 21  Précédent 20  Précédent 19  Précédent 18  Précédent 17  Précédent 16  Précédent 15  Précédent 14  Précédent 13  Précédent 12  Précédent 11  Précédent 10  Précédent 9  Précédent 8  Précédent 7  Précédent 6  Précédent 5  Précédent 4  Précédent 3  Précédent 2  Précédent 1  Suivant 28  Suivant 29  Suivant 30  Suivant 31  Suivant 32  Suivant 33  Suivant 34  Suivant 35  Suivant 36  Suivant 37  Suivant 38  Suivant 39  Suivant 40  Suivant 41  Suivant 42  Suivant 43  Suivant 44  Suivant 45  Suivant 46  Suivant 47  Suivant 48  Suivant 49  Suivant 50  Suivant 51  Suivant 52  Suivant 53  Suivant 54  Suivant 55  Suivant 56  Suivant 57