les nouvelles technologies d'aide aux non-voyants et mal-voyants

les nouvelles technologies d'aide aux non-voyants et mal-voyants les nouvelles technologies d'aide aux non-voyants et mal-voyants : ii. la lecture par ordinateur de documents écrits : du vocal à l'oral gérard uzan économiste, ergonome laboratoire d'ergonomie informatique université paris 5 - rené descartes quotidiennement, nous sommes confrontés à un volume de plus en plus important d'informations qu'il faut explorer, consulter, chercher, sélectionner, extraire, réorganiser et traiter pour des actes aussi simples que téléphoner, se déplacer, feuilleter un journal, trouver et consulter des articles… l'activité de recherche recourt intensivement à l'information écrite (livres, revues, documents de travail, appels à communications, documents administratifs, etc.). c'est pourquoi en tant que déficient visuel, j'ai été confronté à la problématique de l'accès à l'information écrite. cet accès pose trois questions fondamentales : - y a-t-il de l'information écrite là où la personne se trouve, quel est son objet ? - sera-t-il possible d'y accéder et dans quel délai ? - quel degré d'altération ou de perte résultera de la " mise en accessibilité " par le système technique utilisé ? après avoir rapidement entrevu les différentes technologies utilisées jusqu'à présent et leurs limites, nous nous focaliserons sur les multiples formes prises par le processus de lecture et ses incidences technologiques. 1. rendre accessible, reproduire intégralement, communiquer immédiatement : évolution ou diffraction technologique ? actuellement il n'existe pas encore de réponse technologique à la première question, le déficient visuel devant s'en remettre à l'assistance humaine. deux techniques tentent depuis longtemps de répondre aux deux dernières questions : l'impression braille-relief et l'enregistrement sur bandes magnétiques. les techniques de réalisation de documents braille-relief sont plus axées sur l'intégrité des contenus (par exemple les planches en relief de coupes musculaires ou osseuses destinées aux élèves kinésithérapeutes). la réduction de l'altération des informations requiert un important travail préalable de re-présentation. de plus, ces techniques nécessitent un équipement encore lourd et coûteux concentré sur un faible nombre de centres d'impression (tel que celui de l'association valentin haüy). la technique d'enregistrement paraît beaucoup plus facile à mettre en œuvre en raison de la pluralité des lieux d'enregistrement (un enregistrement peut être effectué à domicile par de très nombreuses personnes) et la facilité de " clonage " des bandes magnétiques par duplication. de plus, par les fonctionnalités spécifiques du magnétophone (saut, répétition, marquage, vitesse variable), les délais de consultation répondent plus efficacement aux préoccupations de délais. cependant l'altération est souvent importante lorsque le lecteur humain doit " reformuler " l'information non-textuelle ou textuelle non-linéaire du document. le degré d'altération dépend de la dominante topographique, topologique ou sémantique de la reformulation, elle-même dépendante de la maîtrise communicable par la personne lectrice du domaine traité par le document. aussi efficace que soient l'organisation, les moyens humains et les équipements (d'impression braille-relief et/ou d'enregistrement-duplication) mis en œuvre, les importants volumes nécessaires de stockage et les temps incompressibles de préparation ont orienté ces moyens techniques sur la constitution de fonds documentaires (bibliothèque en braille ou sonore, cours d'instituts spécialisés, documents stables tel que le réseau du métro parisien en braille,…). mais ils sont peu adaptés à la lecture immédiate de documents écrits dont la consultation doit être rapide, par exemple, en situation ordinaire de travail. l'assistance humaine, lorsqu'elle est possible, leur est préférée. le développement des ordinateurs dotés de terminaux braille ou vocaux pour la rédaction et la consultation de documents informatiques a été une première étape dans l'utilisation de la micro-informatique. l'accès par le scanner de documents écrits (dits " en noir ") apparaissait comme une nouvelle étape majeure pour l'autonomie et surtout l'élargissement du " domaine des documents consultables ". cet élargissement s'explique par le raccourcissement du différé, c'est-à-dire de l'intervalle de temps entre la prise en main du document écrit et sa lecture. cette réduction de délai dont l'objectif ultime est le temps réel doit permettre la connaissance de surface du document (ainsi la quatrième de couverture d'un livre ou l'introduction d'un rapport en anticipent l'intérêt pour leur éventuelle lecture). les systèmes techniques de lecture sont organisés autour d'une chaîne : un scanner connecté sur un ordinateur et piloté par un logiciel de " reconnaissance de caractères " (aussi appelé ocr), une interface ou logiciel de lecture transférant le texte à une synthèse vocale. 2. le processus de lecture : de la confusion à la complexité abordant certains aspects de la communication des déficients visuels sous l'angle du langage et des technologies, la lecture de documents écrits par scanner-ordinateur-synthéthiseur vocal pose la question de la transposition de l'écrit en oral, du visuel en auditif. cette présentation s'articulera donc autour de trois axes principaux : - la " vocalisation " est une forme réduite (voire minimale) par rapport à la communication " orale " d'un texte : il y a une distance à franchir pour les technologies, entre le vocal et l'oral. - organisée autour de la structure du document écrit, de la perception, du traitement sémantique et de la motricité des mains et des yeux du lecteur, l'interactivité " visuelle " doit être reconstruite en " auditif ", mais différemment. - conséquemment, les systèmes technologiques ne peuvent être limités à la fonction de " transmodalité ", c'est-à-dire ici la présentation vocale strictement isomorphe d'un document écrit, mais incorporer une logique propre de navigation et de présentation " enrichie ". conversation, interpellation, communications techniques ou opératives, etc., le dialogue direct entre plusieurs locuteurs fait le plus souvent appel aux modalités auditives (échanges vocaux et sonores), visuelles (gestuelles expressives ou figuratives, expression des visages, présentation, observation d'objets, etc.), tactiles (gestuelles de contact telles que poignées de mains, manipulations d'objets, etc.) et même olfactives. cette dynamique " multimodale " qui caractérise l'interaction de dialogue direct est altérée lorsque le vecteur technologique ne retient qu'une modalité (telle l'audition pour le téléphone) ou un sens de communication (comme dans le cas de la télévision), ou lorsque le support des contenus échangés désynchronise l'émission et la réception comme dans les communications par écrit, ou encore lorsque les interlocuteurs sont déficients sensoriels (par exemple visuel). s'appuyant sur les propriétés fondamentales telles que la mémoire, la désynchronisation et la délocalisation entre locuteur(s), le développement des documents écrits et des techniques de leur production ont permis d'établir d'autres propriétés telles que l'ubiquité d'un même document ou l'utilisation imbriquée de représentations (textuelles, figuratives, conceptuelles). devenu déficient visuel en cours de vie, il m'est apparu indispensable de formaliser les difficultés de communication, sources d'affaiblissement du niveau d'information, tout particulièrement dans la recherche et la consultation de documents écrits, d'explorer les potentialités technologiques d'accès et de concrétiser certaines d'entre elles. économiste de formation, les documents que je devais consulter offraient une diversité structurelle qui les rendaient difficilement communicables par le truchement de cassettes enregistrées par des personnes ou par des systèmes informatiques de lecture : en effet, de tels documents écrits ne sont pas organisés selon un modèle narratif séquentiel. ils ne comportent pas uniquement du texte linéairement rédigé " au kilomètre " mais incorporent aussi des illustrations (images, graphiques, diagrammes), des tableaux, des équations. le texte est souvent organisé pour mettre en relief certains de ses contenus (encadrés, stylisation, alinéas, phrases-clés de marges, notes de bas de pages, etc.). comme les éléments illustratifs, il acquiert alors une valeur discursive, mnémonique et/ou de " navigation ". la lecture visuelle d'un texte ne s'effectue pas séquentiellement mais provient d'une interaction entre les réflexions du lecteur et les sollicitations structurelles et/ou sémantiques du texte. cette interaction permet au lecteur de lire selon différents niveaux d'exploration ou de repérage (texte intégral, plan, idées-forces repérées/mises en relief, mots importants du texte, extractions de références,…) et à différents degrés de densité sémantique (phrases-clés, chapitres, plans, tables des matières/sommaire, résumés, etc.). le livre comporte aussi des aides à la navigation telles que les index, tables des matières, paginations, indexations, titres et/ou résumés de chapitres, etc. pour retrouver ces possibilités de navigation dans un système de lecture informatisé, la métaphore du magnétophone s'avérait pertinente mais insuffisante. il devait y être incorporé une analyse structurelle du texte, analyse permise par le traitement informatique. ainsi, l'analyse et le traitement du texte doivent intégrer les possibilités de navigation propres à l'activité de lecture : " monter " ou " descendre " rapidement dans le texte ou dans son plan, passer immédiatement au chapitre suivant ou revenir au précédent, faire une pause (pour réfléchir ou enchâsser une autre tâche par exemple) ou rechercher une expression avec une localisation contextualisée. les systèmes techniques de lecture vocale de textes nécessitent un scanner lorsque le texte n'existe pas directement sous forme de " document informatique " (fichier). le scanner transforme un document papier en une image numérisée dans l'ordinateur, celle-ci est ensuite " reconnue " grâce au logiciel de reconnaissance de caractères, c'est-à-dire transformée en texte, en chaîne de caractères formant une page. les pages forment alors un " livre " reconstitué mais dont les liens, ou séparateurs topologiques, ont disparu : le texte est " mis à plat ". à travers la plupart des interfaces ou logiciels de vocalisation, le texte est restitué. cette lecture se fait sur un mode séquentiel : elle est alors parfois difficile du fait de la déstructuration du texte, et le plus souvent longue et fastidieuse. l'analyse du texte, faite par le logiciel de lecture, a pour but de communiquer oralement le texte, et de laisser au lecteur déficient visuel une capacité d'intervention et de " pilotage " de la lecture (on pourrait dire ici de son audition). très peu de logiciels font une telle analyse qui constitue l'une des formes concrètes d'assistance automatisée. l'objectif de cette assistance est de compenser les pertes et les déstructurations issues de la scannérisation, recomposer la partie cognitive de l'activité du lecteur déficient visuel et étendre les possibilités de navigation ouvertes par l'utilisation des systèmes informatiques. en miroir à la présentation concrète réalisée avec l'ordinateur lors de la séance de travail, la difficulté sera ici de restituer par écrit la mise en relief des effets d'assistance à la compréhension du texte lu, obtenus par le prétraitement pour l'énonciation (prosodie, découpage, enrichissement, pause, sélection de longueur variable en lecture rapide,…) et pour la manipulation du système de navigation qui souligne la nécessité d'asservir le système de lecture à la réflexion (activité cognitive) de l'utilisateur avec un respect de la structure du texte. les objectifs sont à la fois de rendre compte de l'intégrité du texte, d'optimiser le temps de lecture, et d'éviter les risques de " papillonnement " du lecteur (effet dit de " fragmentation " ou de discontinuité cognitive). concrètement, le système d'assistance doit permettre au lecteur de remonter/redescendre, aller directement à un chapitre, aller à une page puis revenir immédiatement à la phrase initiale, aller de tête de chapitre en tête de chapitre (construisant ainsi une table des matières auditive sans existence visuelle), focaliser la lecture par la recherche d'expressions-clés, etc. même si cet exposé écrit ne " parlera " pas, deux exemples simples permettent de saisir la distinction vocale/orale au niveau des machines et d'illustrer la différence entre la lecture implicitement séquentielle et la navigation cognitive (en effet les déficients visuels font explicitement la différence entre " lire ", " consulter " et " feuilleter " un livre). un premier exemple. les rôles de la stylisation et leur traduction : de la transposition à la communication dans des textes écrits, les auteurs peuvent mettre en relief des expressions pour en souligner l'importance, la singularité, leur valeur conceptuelle ou indicatrice, etc. pour cela, plusieurs méthodes peuvent être utilisées. l'une d'entre elles consiste à styliser d'une façon singulière l'expression concernée : par exemple en gras ou en italique. dans une logique strictement vocale transmodale, on pourrait associer à un style typographique (par exemple le gras), un son ou une hauteur de voix (par exemple basse), ou encore une voix différente ou colorée (réverbérée, métallique, vibrée, flangerisée, intermodulée,…). une autre façon de faire, plus prometteuse, consiste à envisager comment une personne communiquerait oralement le texte sans être ventriloque ni à la fois soprano et baryton : la mise en relief peut alors être obtenue par isolement, enchâssement, répétition, ajout, commentaire, pause-reprise. de plus, une citation et un mot-clé peuvent être tous deux en italique dans un même texte : l'attribut italique n'est alors pas spécifique d'une citation ou d'un mot-clé mais comme délimiteur visuel ; pourtant en oral, une citation et un mot-clé seront " exprimés " différemment. restituer le document, c'est y être fidèle, mais plus précisément à quoi ? aux intentions, idées ou représentations des auteurs (niveau sémantique), à l'organisation de la communication incorporée dans le document (niveau logique, et topologique) ou à sa concrétisation visuelle par l'agencement, l'illustration et la graphie (niveau topographique et typographique) ? le feed-back du niveau graphique est pertinent pour maîtriser la réalisation de textes destinés à des voyants, c'est-à-dire écrire. dans la diversité et en l'absence de normes, il ne constitue plus en lecture auditive qu'une collection de traces et donc d'indices de la logique de communication visuelle. pour le lecteur-auditeur, il double son traitement sémantique par une tâche déductive de reconnaissance structurelle. instrument de navigation visuelle, il devient source de confusion ou " bruit informationnel " dans la restitution orale. cette recomposition au niveau logique peut être " prise en charge " par l'analyse du texte incorporée dans l'interface. le fondement de cette analyse est le repérage des indices (élémentaires) et de leurs conjonctions ; l'analyse ne comporte pas de référentiel absolu " inter-document ", mais complète les indices graphiques par des indices lexicologiques et topologiques (mots de liaison, terminologie et pratique rédactionnelle liées au domaine ou au genre du texte, us et coutumes éditoriales,…) ou le temps (rythmes, durées, délais, pauses) projetés dans le texte (symboles visibles de marquage et ponctuation, longueur des phrases et paragraphes et leur rapport, découpages et espaces libres). la distinction étymologique entre " log… " (parole-discours, lois et règles d'organisation) et " graph… " (écrit pour être vu) n'est pas, ici, une simple figure rhétorique ! restituer fidèlement le texte en oral, est-ce l'énoncer au plus proche de la voix humaine dans une langue donnée (niveau phonétique) ou suivre la diversité et la complexité des contextes et compenser des altérations (niveau lexico-syntaxique) ? un deuxième exemple. la lecture prise dans une activité être tenu en haleine par un roman en première lecture nous invite à le suivre de la première à la dernière page… il n'en va pas nécessairement de même pour des documents de travail : leur utilisation souvent contrainte par le temps (délai, échéance) implique un repérage des contenus, un accès rapide à certaines parties, une consultation quasi-simultanée de plusieurs documents et de plusieurs parties d'un même document. ainsi, travaillant sur la " représentation ", j'ai dû sélectionner et passer au scanner un certain nombre de livres et d'articles traitant de cette notion et dont la lecture, la confrontation, et l'extraction de certains contenus (avec ou sans reformulation), étaient indissociablement liées à une démarche de type " revue de question ". toutes ces fonctionnalités apparaissent indispensables, particulièrement celles de repérage. retrouver un plan sans faire appel à des " balises " (caractères invisibles, marqueurs dans les documents informatiques appelés aussi tags) est, dans cette perspective, une fonctionnalité majeure. source de confusion, le mot " lire " désigne deux processus distincts dans l'utilisation des systèmes informatisés : - dire que la machine " lit le texte ", cela signifie qu'elle énonce à haute voix et le plus clairement possible, le texte ; - dire que le déficient visuel lit un texte avec une machine, cela signifie qu'il organise et contrôle auditivement les informations (collecte, contenu, flux, qualité) connexes à leur assimilation. à chacune de ces deux assertions correspond respectivement un rattachement du système technique à la partie émettrice (chaîne primaire, ici matérialisée par le livre) ou réceptrice (chaîne secondaire, ici le lecteur-auditeur). dans le premier cas, il est en terminaison d'une " mise à disposition " et dans le second, un assistant auditif et cognitif. médiateur interactif, il assure distinctement ces deux rôles, leur repérage lors de l'élaboration de nouvelles fonctionnalités permet de les préciser. le multilinguisme donne un exemple concret de la pertinence ergonomique de cette distinction : pour de nombreux fabricants, la synthèse vocale est un " terminal " vocal comme l'écran en est un visuel ou qu'une imprimante en est un d'impression ; rendre l'ordinateur parlant est sa fonction assignée mais il n'est pas dédié à une utilisation précise. élargir par de nouvelles langues une synthèse vocale c'est pour les fabricants étendre leur " marché " en augmentant le nombre de sous-marchés " nationaux " globalement homogénéisés sur le modèle suivant : un territoire (zone de distribution) = un peuple (cible culturellement circonscrite) = une langue (utilité ou valeur d'usage commune). la rationalité économique prévaut ! concrètement, il en résulte qu'un déficient visuel ne peut utiliser qu'une langue à la fois, même si elle est choisie parmi plusieurs… mais d'un point de vue ergonomique comment se comporte une synthèse vocale francophone lorsqu'elle doit lire (c'est-à-dire dire à haute voix) un texte en français comprenant des citations en anglais ? en lecture visuelle, le lecteur bascule mentalement d'une langue à l'autre ; le programme d'analyse du texte, quant à lui, doit basculer automatiquement. la combinaison analyse du texte-synthèse vocale bilingue participe alors à la transformation du " terminal d'ordinateur " en " terminal de lecture ". la réflexion sur la mise en place d'un " assistant parlant intégré " a rapidement conduit à la logique d'une langue de communication utilisateur-ordinateur, distincte des langues d'énonciation du document fixant ainsi la langue des dialogues et des " enrichissements " (par exemple sur la langue maternelle de l'utilisateur ou celle en usage sur un site). l'existence d'une langue de communication sélectionnable à tout instant mais stable, indépendante et distincte des langues multiples de lecture sélectionnées automatiquement selon les parties de texte à lire s'inscrit dans la réduction des tâches préalables de discrimination ou de recomposition qui accompagnent une lecture " active " (réduction des doubles tâches, isoler du texte les dialogues ou enrichissements enchâssés, les comprendre, agir en conséquence et… poursuivre le fil des pensées provoquées par le contenu du texte). disposer d'un scanner, d'un ordinateur doté d'un logiciel de reconnaissance de caractères et d'un synthétiseur vocal, accessible aux déficients visuels par une interface, ne suffit donc pas pour faire une efficiente aide technique de lecture. en effet, polarisés sur la fonction de lecture, nous avons pu y découvrir plusieurs niveaux de complexité, mis en relief à travers la modalité auditive : prise dans des activités plus englobantes (par exemple professionnelles, pédagogiques ou de vie quotidienne), la lecture s'effectue dans la diversité de but (" traiter " des documents de travail, entretenir les liens sociaux, combler des temps morts ou des lacunes, etc.) et des contraintes (délais, lecture collective, délocalisation, etc.). lire une phrase, un texte, un document écrit ne constitue pour la personne comme pour la machine ni le même degré d'effort, ni la même tâche. restaurer, restituer, explorer, chercher, retrouver, comprendre, reformuler, agréger, représenter, confronter, assimiler forment les tâches de recomposition et d'appropriation. l'efficacité de l'aide technique à la lecture dépend du partage et de la répartition de ces tâches entre le lecteur-auditeur et le système technique. le lecteur réel du binôme machine-personne est la personne ; la machine doit coordonner son double rôle : celui d'être la voix qui sort du livre et celui d'un co-opérateur de l'activité cognitive en procurant une assistance de " manipulation " du texte par la personne. être en prolongement du livre, c'est respecter ou recréer son organisation en tant que support structuré d'informations écrites, et en tant que contenu " rédigé ", sémantiquement articulé par un ou des auteurs. naviguer, c'est alors disposer de plusieurs niveaux d'accès et d'écoute sur les deux plans (structure logique support et contenu). bibliographie barthes, roland, " le grain de la voix ", Œuvres complètes, t. 2, paris, 1972. denis, m., image et cognition, paris, puf, 1994. goffman, e., stigmates, paris, éditions de minuit, 1993. hatwell y., toucher l'espace, lille, presses universitaires de lille, 1986. richard, j-f., " les modèles de compréhension basés sur les structures de connaissances ", revue de psychologie française, 36-2, 1991. spérandio, j-c., ergonomie de la synthèse vocale comme modalité d'interface informatique pour les aveugles, rapport auprès du ministère de la recherche, paris, 1996.

les nouvelles technologies d'aide aux non-voyants et mal-voyants  Précédent 562  Précédent 561  Précédent 560  Précédent 559  Précédent 558  Précédent 557  Précédent 556  Précédent 555  Précédent 554  Précédent 553  Précédent 552  Précédent 551  Précédent 550  Précédent 549  Précédent 548  Précédent 547  Précédent 546  Précédent 545  Précédent 544  Précédent 543  Précédent 542  Précédent 541  Précédent 540  Précédent 539  Précédent 538  Précédent 537  Précédent 536  Précédent 535  Précédent 534  Précédent 533  Suivant 564  Suivant 565  Suivant 566  Suivant 567  Suivant 568  Suivant 569  Suivant 570  Suivant 571  Suivant 572  Suivant 573  Suivant 574  Suivant 575  Suivant 576  Suivant 577  Suivant 578  Suivant 579  Suivant 580  Suivant 581  Suivant 582  Suivant 583  Suivant 584  Suivant 585  Suivant 586  Suivant 587  Suivant 588  Suivant 589  Suivant 590  Suivant 591  Suivant 592  Suivant 593