les nouvelles technologies d'aide aux non-voyants et mal-voyants
les nouvelles technologies d'aide aux non-voyants et mal-voyants
les nouvelles technologies d'aide aux non-voyants et mal-voyants : ii.
la lecture par ordinateur de documents écrits : du vocal à l'oral
gérard uzan
économiste, ergonome
laboratoire d'ergonomie informatique
université paris 5 - rené descartes
quotidiennement, nous sommes confrontés à un volume de plus en plus important d'informations qu'il
faut explorer, consulter, chercher, sélectionner, extraire, réorganiser et traiter pour des actes
aussi simples que téléphoner, se déplacer, feuilleter un journal, trouver et consulter des
articles…
l'activité de recherche recourt intensivement à l'information écrite (livres, revues, documents
de travail, appels à communications, documents administratifs, etc.). c'est pourquoi en tant que déficient
visuel, j'ai été confronté à la problématique de l'accès à l'information
écrite.
cet accès pose trois questions fondamentales :
- y a-t-il de l'information écrite là où la personne se trouve, quel est son objet ?
- sera-t-il possible d'y accéder et dans quel délai ?
- quel degré d'altération ou de perte résultera de la " mise en accessibilité
" par le système technique utilisé ?
après avoir rapidement entrevu les différentes technologies utilisées jusqu'à présent
et leurs limites, nous nous focaliserons sur les multiples formes prises par le processus de lecture et ses incidences
technologiques.
1. rendre accessible, reproduire intégralement, communiquer immédiatement : évolution
ou diffraction technologique ?
actuellement il n'existe pas encore de réponse technologique à la première question, le
déficient visuel devant s'en remettre à l'assistance humaine. deux techniques tentent depuis longtemps
de répondre aux deux dernières questions : l'impression braille-relief et l'enregistrement sur bandes
magnétiques.
les techniques de réalisation de documents braille-relief sont plus axées sur l'intégrité
des contenus (par exemple les planches en relief de coupes musculaires ou osseuses destinées aux élèves
kinésithérapeutes). la réduction de l'altération des informations requiert un important
travail préalable de re-présentation. de plus, ces techniques nécessitent un équipement
encore lourd et coûteux concentré sur un faible nombre de centres d'impression (tel que celui de l'association
valentin haüy).
la technique d'enregistrement paraît beaucoup plus facile à mettre en œuvre en raison de la pluralité
des lieux d'enregistrement (un enregistrement peut être effectué à domicile par de très
nombreuses personnes) et la facilité de " clonage " des bandes magnétiques par duplication.
de plus, par les fonctionnalités spécifiques du magnétophone (saut, répétition,
marquage, vitesse variable), les délais de consultation répondent plus efficacement aux préoccupations
de délais. cependant l'altération est souvent importante lorsque le lecteur humain doit " reformuler
" l'information non-textuelle ou textuelle non-linéaire du document. le degré d'altération
dépend de la dominante topographique, topologique ou sémantique de la reformulation, elle-même
dépendante de la maîtrise communicable par la personne lectrice du domaine traité par le document.
aussi efficace que soient l'organisation, les moyens humains et les équipements (d'impression braille-relief
et/ou d'enregistrement-duplication) mis en œuvre, les importants volumes nécessaires de stockage et les
temps incompressibles de préparation ont orienté ces moyens techniques sur la constitution de fonds
documentaires (bibliothèque en braille ou sonore, cours d'instituts spécialisés, documents
stables tel que le réseau du métro parisien en braille,…). mais ils sont peu adaptés à
la lecture immédiate de documents écrits dont la consultation doit être rapide, par exemple,
en situation ordinaire de travail. l'assistance humaine, lorsqu'elle est possible, leur est préférée.
le développement des ordinateurs dotés de terminaux braille ou vocaux pour la rédaction
et la consultation de documents informatiques a été une première étape dans l'utilisation
de la micro-informatique. l'accès par le scanner de documents écrits (dits " en noir ")
apparaissait comme une nouvelle étape majeure pour l'autonomie et surtout l'élargissement du "
domaine des documents consultables ". cet élargissement s'explique par le raccourcissement du différé,
c'est-à-dire de l'intervalle de temps entre la prise en main du document écrit et sa lecture. cette
réduction de délai dont l'objectif ultime est le temps réel doit permettre la connaissance
de surface du document (ainsi la quatrième de couverture d'un livre ou l'introduction d'un rapport en anticipent
l'intérêt pour leur éventuelle lecture).
les systèmes techniques de lecture sont organisés autour d'une chaîne : un scanner connecté
sur un ordinateur et piloté par un logiciel de " reconnaissance de caractères " (aussi
appelé ocr), une interface ou logiciel de lecture transférant le texte à une synthèse
vocale.
2. le processus de lecture : de la confusion à la complexité
abordant certains aspects de la communication des déficients visuels sous l'angle du langage et des technologies,
la lecture de documents écrits par scanner-ordinateur-synthéthiseur vocal pose la question de la
transposition de l'écrit en oral, du visuel en auditif.
cette présentation s'articulera donc autour de trois axes principaux :
- la " vocalisation " est une forme réduite (voire minimale) par rapport à la communication
" orale " d'un texte : il y a une distance à franchir pour les technologies, entre le vocal et
l'oral.
- organisée autour de la structure du document écrit, de la perception, du traitement sémantique
et de la motricité des mains et des yeux du lecteur, l'interactivité " visuelle " doit
être reconstruite en " auditif ", mais différemment.
- conséquemment, les systèmes technologiques ne peuvent être limités à la
fonction de " transmodalité ", c'est-à-dire ici la présentation vocale strictement
isomorphe d'un document écrit, mais incorporer une logique propre de navigation et de présentation
" enrichie ".
conversation, interpellation, communications techniques ou opératives, etc., le dialogue direct entre
plusieurs locuteurs fait le plus souvent appel aux modalités auditives (échanges vocaux et sonores),
visuelles (gestuelles expressives ou figuratives, expression des visages, présentation, observation d'objets,
etc.), tactiles (gestuelles de contact telles que poignées de mains, manipulations d'objets, etc.) et même
olfactives. cette dynamique " multimodale " qui caractérise l'interaction de dialogue direct est
altérée lorsque le vecteur technologique ne retient qu'une modalité (telle l'audition pour
le téléphone) ou un sens de communication (comme dans le cas de la télévision), ou
lorsque le support des contenus échangés désynchronise l'émission et la réception
comme dans les communications par écrit, ou encore lorsque les interlocuteurs sont déficients sensoriels
(par exemple visuel).
s'appuyant sur les propriétés fondamentales telles que la mémoire, la désynchronisation
et la délocalisation entre locuteur(s), le développement des documents écrits et des techniques
de leur production ont permis d'établir d'autres propriétés telles que l'ubiquité d'un
même document ou l'utilisation imbriquée de représentations (textuelles, figuratives, conceptuelles).
devenu déficient visuel en cours de vie, il m'est apparu indispensable de formaliser les difficultés
de communication, sources d'affaiblissement du niveau d'information, tout particulièrement dans la recherche
et la consultation de documents écrits, d'explorer les potentialités technologiques d'accès
et de concrétiser certaines d'entre elles.
économiste de formation, les documents que je devais consulter offraient une diversité structurelle
qui les rendaient difficilement communicables par le truchement de cassettes enregistrées par des personnes
ou par des systèmes informatiques de lecture : en effet, de tels documents écrits ne sont pas organisés
selon un modèle narratif séquentiel. ils ne comportent pas uniquement du texte linéairement
rédigé " au kilomètre " mais incorporent aussi des illustrations (images, graphiques,
diagrammes), des tableaux, des équations. le texte est souvent organisé pour mettre en relief certains
de ses contenus (encadrés, stylisation, alinéas, phrases-clés de marges, notes de bas de pages,
etc.). comme les éléments illustratifs, il acquiert alors une valeur discursive, mnémonique
et/ou de " navigation ".
la lecture visuelle d'un texte ne s'effectue pas séquentiellement mais provient d'une interaction entre
les réflexions du lecteur et les sollicitations structurelles et/ou sémantiques du texte. cette interaction
permet au lecteur de lire selon différents niveaux d'exploration ou de repérage (texte intégral,
plan, idées-forces repérées/mises en relief, mots importants du texte, extractions de références,…)
et à différents degrés de densité sémantique (phrases-clés, chapitres,
plans, tables des matières/sommaire, résumés, etc.).
le livre comporte aussi des aides à la navigation telles que les index, tables des matières, paginations,
indexations, titres et/ou résumés de chapitres, etc. pour retrouver ces possibilités de navigation
dans un système de lecture informatisé, la métaphore du magnétophone s'avérait
pertinente mais insuffisante. il devait y être incorporé une analyse structurelle du texte, analyse
permise par le traitement informatique.
ainsi, l'analyse et le traitement du texte doivent intégrer les possibilités de navigation propres
à l'activité de lecture : " monter " ou " descendre " rapidement dans le texte
ou dans son plan, passer immédiatement au chapitre suivant ou revenir au précédent, faire
une pause (pour réfléchir ou enchâsser une autre tâche par exemple) ou rechercher une
expression avec une localisation contextualisée.
les systèmes techniques de lecture vocale de textes nécessitent un scanner lorsque le texte n'existe
pas directement sous forme de " document informatique " (fichier). le scanner transforme un document
papier en une image numérisée dans l'ordinateur, celle-ci est ensuite " reconnue " grâce
au logiciel de reconnaissance de caractères, c'est-à-dire transformée en texte, en chaîne
de caractères formant une page. les pages forment alors un " livre " reconstitué mais dont
les liens, ou séparateurs topologiques, ont disparu : le texte est " mis à plat ". à
travers la plupart des interfaces ou logiciels de vocalisation, le texte est restitué. cette lecture se
fait sur un mode séquentiel : elle est alors parfois difficile du fait de la déstructuration du texte,
et le plus souvent longue et fastidieuse. l'analyse du texte, faite par le logiciel de lecture, a pour but de communiquer
oralement le texte, et de laisser au lecteur déficient visuel une capacité d'intervention et de "
pilotage " de la lecture (on pourrait dire ici de son audition). très peu de logiciels font une telle
analyse qui constitue l'une des formes concrètes d'assistance automatisée.
l'objectif de cette assistance est de compenser les pertes et les déstructurations issues de la scannérisation,
recomposer la partie cognitive de l'activité du lecteur déficient visuel et étendre les possibilités
de navigation ouvertes par l'utilisation des systèmes informatiques.
en miroir à la présentation concrète réalisée avec l'ordinateur lors de la
séance de travail, la difficulté sera ici de restituer par écrit la mise en relief des effets
d'assistance à la compréhension du texte lu, obtenus par le prétraitement pour l'énonciation
(prosodie, découpage, enrichissement, pause, sélection de longueur variable en lecture rapide,…)
et pour la manipulation du système de navigation qui souligne la nécessité d'asservir le système
de lecture à la réflexion (activité cognitive) de l'utilisateur avec un respect de la structure
du texte.
les objectifs sont à la fois de rendre compte de l'intégrité du texte, d'optimiser le temps
de lecture, et d'éviter les risques de " papillonnement " du lecteur (effet dit de " fragmentation
" ou de discontinuité cognitive). concrètement, le système d'assistance doit permettre
au lecteur de remonter/redescendre, aller directement à un chapitre, aller à une page puis revenir
immédiatement à la phrase initiale, aller de tête de chapitre en tête de chapitre (construisant
ainsi une table des matières auditive sans existence visuelle), focaliser la lecture par la recherche d'expressions-clés,
etc.
même si cet exposé écrit ne " parlera " pas, deux exemples simples permettent
de saisir la distinction vocale/orale au niveau des machines et d'illustrer la différence entre la lecture
implicitement séquentielle et la navigation cognitive (en effet les déficients visuels font explicitement
la différence entre " lire ", " consulter " et " feuilleter " un livre).
un premier exemple. les rôles de la stylisation et leur traduction : de la transposition à la
communication
dans des textes écrits, les auteurs peuvent mettre en relief des expressions pour en souligner l'importance,
la singularité, leur valeur conceptuelle ou indicatrice, etc. pour cela, plusieurs méthodes peuvent
être utilisées. l'une d'entre elles consiste à styliser d'une façon singulière
l'expression concernée : par exemple en gras ou en italique. dans une logique strictement vocale transmodale,
on pourrait associer à un style typographique (par exemple le gras), un son ou une hauteur de voix (par
exemple basse), ou encore une voix différente ou colorée (réverbérée, métallique,
vibrée, flangerisée, intermodulée,…). une autre façon de faire, plus prometteuse, consiste
à envisager comment une personne communiquerait oralement le texte sans être ventriloque ni à
la fois soprano et baryton : la mise en relief peut alors être obtenue par isolement, enchâssement,
répétition, ajout, commentaire, pause-reprise. de plus, une citation et un mot-clé peuvent
être tous deux en italique dans un même texte : l'attribut italique n'est alors pas spécifique
d'une citation ou d'un mot-clé mais comme délimiteur visuel ; pourtant en oral, une citation et un
mot-clé seront " exprimés " différemment. restituer le document, c'est y être
fidèle, mais plus précisément à quoi ? aux intentions, idées ou représentations
des auteurs (niveau sémantique), à l'organisation de la communication incorporée dans le document
(niveau logique, et topologique) ou à sa concrétisation visuelle par l'agencement, l'illustration
et la graphie (niveau topographique et typographique) ?
le feed-back du niveau graphique est pertinent pour maîtriser la réalisation de textes destinés
à des voyants, c'est-à-dire écrire. dans la diversité et en l'absence de normes, il
ne constitue plus en lecture auditive qu'une collection de traces et donc d'indices de la logique de communication
visuelle. pour le lecteur-auditeur, il double son traitement sémantique par une tâche déductive
de reconnaissance structurelle. instrument de navigation visuelle, il devient source de confusion ou " bruit
informationnel " dans la restitution orale. cette recomposition au niveau logique peut être " prise
en charge " par l'analyse du texte incorporée dans l'interface. le fondement de cette analyse est le
repérage des indices (élémentaires) et de leurs conjonctions ; l'analyse ne comporte pas de
référentiel absolu " inter-document ", mais complète les indices graphiques par
des indices lexicologiques et topologiques (mots de liaison, terminologie et pratique rédactionnelle liées
au domaine ou au genre du texte, us et coutumes éditoriales,…) ou le temps (rythmes, durées, délais,
pauses) projetés dans le texte (symboles visibles de marquage et ponctuation, longueur des phrases et paragraphes
et leur rapport, découpages et espaces libres). la distinction étymologique entre " log… "
(parole-discours, lois et règles d'organisation) et " graph… " (écrit pour être vu)
n'est pas, ici, une simple figure rhétorique !
restituer fidèlement le texte en oral, est-ce l'énoncer au plus proche de la voix humaine dans
une langue donnée (niveau phonétique) ou suivre la diversité et la complexité des contextes
et compenser des altérations (niveau lexico-syntaxique) ?
un deuxième exemple. la lecture prise dans une activité
être tenu en haleine par un roman en première lecture nous invite à le suivre de la première
à la dernière page… il n'en va pas nécessairement de même pour des documents de travail
: leur utilisation souvent contrainte par le temps (délai, échéance) implique un repérage
des contenus, un accès rapide à certaines parties, une consultation quasi-simultanée de plusieurs
documents et de plusieurs parties d'un même document. ainsi, travaillant sur la " représentation
", j'ai dû sélectionner et passer au scanner un certain nombre de livres et d'articles traitant
de cette notion et dont la lecture, la confrontation, et l'extraction de certains contenus (avec ou sans reformulation),
étaient indissociablement liées à une démarche de type " revue de question ".
toutes ces fonctionnalités apparaissent indispensables, particulièrement celles de repérage.
retrouver un plan sans faire appel à des " balises " (caractères invisibles, marqueurs
dans les documents informatiques appelés aussi tags) est, dans cette perspective, une fonctionnalité
majeure.
source de confusion, le mot " lire " désigne deux processus distincts dans l'utilisation des
systèmes informatisés :
- dire que la machine " lit le texte ", cela signifie qu'elle énonce à haute voix et
le plus clairement possible, le texte ;
- dire que le déficient visuel lit un texte avec une machine, cela signifie qu'il organise et contrôle
auditivement les informations (collecte, contenu, flux, qualité) connexes à leur assimilation.
à chacune de ces deux assertions correspond respectivement un rattachement du système technique
à la partie émettrice (chaîne primaire, ici matérialisée par le livre) ou réceptrice
(chaîne secondaire, ici le lecteur-auditeur). dans le premier cas, il est en terminaison d'une " mise
à disposition " et dans le second, un assistant auditif et cognitif. médiateur interactif, il
assure distinctement ces deux rôles, leur repérage lors de l'élaboration de nouvelles fonctionnalités
permet de les préciser.
le multilinguisme donne un exemple concret de la pertinence ergonomique de cette distinction : pour de nombreux
fabricants, la synthèse vocale est un " terminal " vocal comme l'écran en est un visuel
ou qu'une imprimante en est un d'impression ; rendre l'ordinateur parlant est sa fonction assignée mais
il n'est pas dédié à une utilisation précise. élargir par de nouvelles langues
une synthèse vocale c'est pour les fabricants étendre leur " marché " en augmentant
le nombre de sous-marchés " nationaux " globalement homogénéisés sur le modèle
suivant : un territoire (zone de distribution) = un peuple (cible culturellement circonscrite) = une langue (utilité
ou valeur d'usage commune). la rationalité économique prévaut !
concrètement, il en résulte qu'un déficient visuel ne peut utiliser qu'une langue à
la fois, même si elle est choisie parmi plusieurs… mais d'un point de vue ergonomique comment se comporte
une synthèse vocale francophone lorsqu'elle doit lire (c'est-à-dire dire à haute voix) un
texte en français comprenant des citations en anglais ? en lecture visuelle, le lecteur bascule mentalement
d'une langue à l'autre ; le programme d'analyse du texte, quant à lui, doit basculer automatiquement.
la combinaison analyse du texte-synthèse vocale bilingue participe alors à la transformation du "
terminal d'ordinateur " en " terminal de lecture ".
la réflexion sur la mise en place d'un " assistant parlant intégré " a rapidement
conduit à la logique d'une langue de communication utilisateur-ordinateur, distincte des langues d'énonciation
du document fixant ainsi la langue des dialogues et des " enrichissements " (par exemple sur la langue
maternelle de l'utilisateur ou celle en usage sur un site). l'existence d'une langue de communication sélectionnable
à tout instant mais stable, indépendante et distincte des langues multiples de lecture sélectionnées
automatiquement selon les parties de texte à lire s'inscrit dans la réduction des tâches préalables
de discrimination ou de recomposition qui accompagnent une lecture " active " (réduction des doubles
tâches, isoler du texte les dialogues ou enrichissements enchâssés, les comprendre, agir en
conséquence et… poursuivre le fil des pensées provoquées par le contenu du texte).
disposer d'un scanner, d'un ordinateur doté d'un logiciel de reconnaissance de caractères et d'un
synthétiseur vocal, accessible aux déficients visuels par une interface, ne suffit donc pas pour
faire une efficiente aide technique de lecture. en effet, polarisés sur la fonction de lecture, nous avons
pu y découvrir plusieurs niveaux de complexité, mis en relief à travers la modalité
auditive : prise dans des activités plus englobantes (par exemple professionnelles, pédagogiques
ou de vie quotidienne), la lecture s'effectue dans la diversité de but (" traiter " des documents
de travail, entretenir les liens sociaux, combler des temps morts ou des lacunes, etc.) et des contraintes (délais,
lecture collective, délocalisation, etc.). lire une phrase, un texte, un document écrit ne constitue
pour la personne comme pour la machine ni le même degré d'effort, ni la même tâche. restaurer,
restituer, explorer, chercher, retrouver, comprendre, reformuler, agréger, représenter, confronter,
assimiler forment les tâches de recomposition et d'appropriation. l'efficacité de l'aide technique
à la lecture dépend du partage et de la répartition de ces tâches entre le lecteur-auditeur
et le système technique.
le lecteur réel du binôme machine-personne est la personne ; la machine doit coordonner son double
rôle : celui d'être la voix qui sort du livre et celui d'un co-opérateur de l'activité
cognitive en procurant une assistance de " manipulation " du texte par la personne. être en prolongement
du livre, c'est respecter ou recréer son organisation en tant que support structuré d'informations
écrites, et en tant que contenu " rédigé ", sémantiquement articulé
par un ou des auteurs. naviguer, c'est alors disposer de plusieurs niveaux d'accès et d'écoute sur
les deux plans (structure logique support et contenu).
bibliographie
barthes, roland, " le grain de la voix ", Œuvres complètes, t. 2, paris, 1972.
denis, m., image et cognition, paris, puf, 1994.
goffman, e., stigmates, paris, éditions de minuit, 1993.
hatwell y., toucher l'espace, lille, presses universitaires de lille, 1986.
richard, j-f., " les modèles de compréhension basés sur les structures de connaissances
", revue de psychologie française, 36-2, 1991.
spérandio, j-c., ergonomie de la synthèse vocale comme modalité d'interface informatique pour
les aveugles, rapport auprès du ministère de la recherche, paris, 1996.
les nouvelles technologies d'aide aux non-voyants et mal-voyants Précédent 562 Précédent 561 Précédent 560 Précédent 559 Précédent 558 Précédent 557 Précédent 556 Précédent 555 Précédent 554 Précédent 553 Précédent 552 Précédent 551 Précédent 550 Précédent 549 Précédent 548 Précédent 547 Précédent 546 Précédent 545 Précédent 544 Précédent 543 Précédent 542 Précédent 541 Précédent 540 Précédent 539 Précédent 538 Précédent 537 Précédent 536 Précédent 535 Précédent 534 Précédent 533 Suivant 564 Suivant 565 Suivant 566 Suivant 567 Suivant 568 Suivant 569 Suivant 570 Suivant 571 Suivant 572 Suivant 573 Suivant 574 Suivant 575 Suivant 576 Suivant 577 Suivant 578 Suivant 579 Suivant 580 Suivant 581 Suivant 582 Suivant 583 Suivant 584 Suivant 585 Suivant 586 Suivant 587 Suivant 588 Suivant 589 Suivant 590 Suivant 591 Suivant 592 Suivant 593