Catégories Intelligence Artificielle

Le traitement automatique du langage est la réalisation la plus probante de l’intelligence artificielle


Jerome Thomas - Transformation digitale et Traitement Automatique du Langage - IA

On parle beaucoup d’intelligence artificielle au point de ne plus savoir exactement ce que le terme veut dire. Selon Jérôme Thomas que j’ai rencontré récemment, le traitement automatique du langage — ce que l’on désigne en anglais par l’acronyme NLP comme « Natural Language Processing » — et la compréhension automatique du langage ce que l’on désigne par l’acronyme « Natural Language Understanding » — font partie des cas d’usage les plus probants de l’intelligence artificielle. Pourquoi ? Voici la question que Jérôme et moi avons évoquée récemment.

I/ Présentation de Jérôme Thomas

Diplômé de Telecom Paris puis de l’Insead, Jérôme a commencé sa carrière au CERN puis chez General Electric comme Ingénieur R&D. Puis il a rejoint rapidement l’industrie Telecom ou il a participé aux déploiements des réseaux mobiles en Europe avec la mise en place de plateformes de services à valeur ajoutée. Au départ dans une start-up française qui fut pionnière de la convergente Téléphonie — Informatique (Ferma), il a ensuite rejoint des entreprises technologiques et de services numériques telles que Unisys et plus récemment Capgemini au rayonnement international. Depuis dix ans, il assure la direction commerciale de grands clients des secteurs Communications et Énergie et participe à la transformation digitale des acteurs économiques en impliquant l’écosystème le plus large possible afin de favoriser l’émergence d’innovations pratiques avec le souci premier de l’expérience utilisateur, couplé à la sécurisation des infrastructures déployées et des données ainsi partagées. Il est également auditeur en Intelligence Economique de l’IHEDN.

II/ La différence entre le traitement automatique du langage et la compréhension automatique du langage

Selon Jérôme, le traitement automatique du langage désigne le fait de prendre un signal vocal et de le mettre en relation avec un mot du dictionnaire (le plus souvent une action). Donc c’est au départ un enjeu de traitement de signal sonore, lequel donne lieu à bon nombre d’applications.

À l’inverse, la compréhension automatique du langage vient s’ajouter au traitement automatique du langage. Pour cela, il faut ajouter un élément de contexte comme une grammaire qui peut être lui-même propre à l’univers auquel se destine ce service (accueil SNCF versus, passage d’ordre en bourse). Ainsi, dans un message vocal, les mots employés font partie d’un contexte syntaxique et grammatical. Si l’intelligence artificielle connaît quelques règles syntaxiques et sait les appliquer, alors, elle parvient à transcrire un signal sonore en vocable écrit tout en respectant les règles de grammaire et l’univers fonctionnel cible. Au contexte grammatical s’ajoute le contexte d’usage et de situation. Par exemple, une machine peut apprendre que son utilisateur n’a pas d’expérience militaire. Cette information de contexte s’avère utile : le mot « supprimer » veut dire effacer dans le langage courant (univers de la messagerie vocale et du répondeur téléphonique) mais dans le langage militaire, il signifie tout autre chose. Donc, connaître l’usage quotidien de l’utilisateur aide de la machine à choisir des mots qui correspondent le mieux à sa pensée — une fois que celle-ci s’est matérialisée par un signal sonore déterminé. Puis, la couche applicative se charge de traduire ces signaux en décision à prendre. Il s’agit de la finalité recherchée par le concepteur d’un service ou d’une application.

Ainsi, lorsque l’on écoute sa messagerie vocale, l’utilisateur peut décider de supprimer le message qu’il vient d’écouter, rappeler le correspondant, ou passer au message suivant au moyen de mots simples qui peuvent être prélevés au sein d’une phrase prononcée par un utilisateur quelconque (technique dite de « word spotting »).

La question de la maturité

Cette technologie apparaît dès les années 60 et 70 notamment sous la houlette du département de défense américain (DoD). Mais, il apparaît qu’obtenir des résultats probants requiert des capacités de calcul très importantes. C’est pour cette raison que les progrès récents observés par la mise en œuvre de cette technologie sont étroitement corrélés à ceux de la puissance informatique tant au niveau des centres de calcul (type Cloud) ou des équipements terminaux (smartphone ou tablettes).

Selon Jérôme, on distingue cinq étapes :

  • Dans une première étape, l’ensemble de l’intelligence est embarquée dans le mainframe qui correspond à la forme informatique des années 60 et 70.
  • Dans une seconde étape, la virtualisation des capacités informatiques permet une première mise en commun et partage des capacités de calcul entre différents processus fonctionnant en parallèle.
  • Dans une troisième étape, c’est le cloud qui permet de disposer de capacités informatiques encore supérieures.
  • Dans une quatrième étape, grâce à l’avènement du cloud, on assiste à l’émergence du Big Data et à la collecte de données d’apprentissage venant de toute part (genre, langues, contexte, etc..). Ces données massives collectées en permanence notamment par les Gafas sont précieuses parce qu’elles permettent à la machine d’améliorer ses algorithmes de manière continue.
  • Enfin, la dernière étape apparaît avec la sophistication des smartphones qui donne une capacité de traitement automatisé du langage à la portée de tous et dans la poche de chacun (exemple des lunettes Afflelou qui permettent aux étrangers de se promener dans le métro à Tokyo et de pouvoir interagir avec des locaux dans leur langue et obtenir de façon instantanée une conversation d’un genre nouveau en termes d’expérience utilisateur mais qui prend subitement du sens, on y revient plus loin).

III/ L’avantage concurrentiel des GAFA

Pourquoi les GAFA ont-elles pris l’ascendant sur d’autres acteurs de l’informatique alors même qu’il s’agit d’une technologie qui leur est largement antérieure ? Autrement dit, que Facebook prenne l’ascendant sur IBM en matière de réseaux sociaux paraît logique : ces derniers n’existaient pas vraiment avant que Facebook les démocratise. Mais j’ai davantage de difficulté à comprendre pourquoi Facebook, Amazon, Google ou Apple ont pu prendre l’ascendant sur des acteurs historiques des télécommunications comme France Télécom, AT&T, parmi d’autres.

Jérôme a répondu que la clé réside dans l’accès gratuit (ou à prix très réduit) à certains services dans un premier temps qui se poursuit par l’accès (gratuit) aux données qui découlent du service rendu. Les GAFA ont réussi à se constituer un avantage concurrentiel en imaginant une manière nouvelle d’acquérir des données. Car, traditionnellement, l’acquisition de données est un processus long, coûteux et chronophage. Chez Unisys, à titre d’exemple, une équipe dédiée fut constituée pour les acquérir pendant plusieurs mois impliquant un processus d’enrôlement complexe et coûteux en « temps projet ». On trouve dans d’autres entreprises des équipes dotées de la même mission.

En réalité, il suffit de considérer l’application Siri (qui nous écoute en permanence sauf à bloquer volontairement cette fonction) pour comprendre comment une entreprise comme Apple s’accapare une quantité de données vocales en provenance de tous les pays ou les I-phone sont distribués. En effet, dès qu’un utilisateur se tourne vers Siri, voici que la firme de Cupertino parvient à mettre la main sur une nouvelle donnée vocale sur un échantillonnage immense. Google en rachetant Android (co-fondé par Rich Miner qui fut un temps à la tête de l’innovation du groupe Orange) a très vite aussi compris, lui aussi, la puissance que représentait ce lien direct avec chaque utilisateur de mobile pour établir des transactions dont une partie est consciente (la publicité), l’autre beaucoup mois (les données personnelles collectées). C’est ainsi que les GAFA parviennent à capturer une multiplicité d’expression, d’accent, de langue, qu’aucune équipe dédiée au sein d’entreprises établies ne pourra jamais égaler. L’acquisition des données reste déterminante pour entraîner les moteurs algorithmiques. Et si les GAFA ont réussi ce tour de force c’est aussi parce qu’ils disposaient des ressources techniques et informatiques à la fois pour recueillir ces données mais aussi pour les catégoriser et les traiter. Non contents de réaliser cette prouesse au travers du mobile, les GAFAs ont également investi les maisons en dotant les enceintes connectées des mêmes capacités et caractéristiques. Sur ce terrain certains acteurs européens ont bien conscience de ce nouvel enjeu et réagissent en proposant eux aussi (c’est le cas d’Orange avec son enceinte connectée « Djingo » qui sera commercialisée d’ici la fin 2019 et dont la promesse comporte en plus une dimension de « protection de la vie privée » qui est l’axe choisi par certains acteurs pour se différencier et la singularité des nations européennes plus avancées sur ce domaine (cf. RGPD). 

IV/ Comment réussir un projet de traitement automatique du langage ?

Plusieurs risques sont à prendre en compte. D’une part, la collecte des données de qualité et en grande quantité s’annonce déterminante. Il s’agit en particulier d’embrasser tout l’univers des possibles en termes de data. En outre, le contexte dans lequel la source émet un signal est important. Parler dans un téléphone dans un aéroport très bruyant donne lieu à un signal différent que prononcer les mêmes mots dans un parc arboré ou près d’un étang. Il faut donc réussir à filtrer le signal utile de l’environnement en général perturbateur. Enfin le troisième sujet porte sur le multilinguisme. Car très souvent les clients voyant une application fonctionner dans leur langue aimeraient la voir fonctionner aussi dans d’autres afin de séduire un maximum de clients.

V/ Les cas d’usage futur du traitement automatique du langage

Jérôme m’a parlé notamment de la traduction instantanée. Celle-ci est déjà proposée par Microsoft sur Skype. Mais, dans un avenir proche, on peut imaginer que des capacités informatiques soient intégrées aux lunettes afin de projeter une information en réalité augmentée sur les verres des lunettes. Afflelou y travaille actuellement. Cela permettrait ensuite d’entrer dans un dialogue entre la machine et les acteurs. Enfin, on peut s’attendre également à un usage massif du traitement automatique du langage avec la généralisation des objets connectés notamment dans les maisons et puis progressivement dans des entreprises et des sites industriels. Ainsi, au lieu d’avoir à apprendre à utiliser un objet pour s’en servir, il suffirait de lui parler pour qu’il exécute l’ordre que l’on vient de lui communiquer oralement. Nous avons notamment imaginé que l’utilisation des drones pouvait se prêter à des commandes vocales. Enfin, nous avons identifié une utilisation de commandes vocales pour finaliser des paiements, une méthode qui se diffuse notamment aux États-Unis :

US Voice Payments Adoption
US Voice Payments Adoption

De manière générale, le traitement automatique du langage revient à modifier et enrichir l’interface personne-machine. Là où très souvent, nous avions recours à un écran tactile ou un clavier pour exprimer un ordre, nous pourrons, demain, comme le montrent d’ailleurs les assistants vocaux de Google, d’appel d’Amazon, d’Apple, et bientôt d’Orange et recourir tout simplement à la voie.

Voici donc quelques-uns des cas d’usage traitement automatique du langage. On voit très bien que celui-ci s’est largement diffusé et s’est introduit dans notre quotidien. C’est pour cette raison-là qu’il fait partie des cas d’usage de l’intelligence artificielle les plus matures et les plus probants tout en étant aussi l’un des plus naturels car ce qui donna à l’origine à l’humain cette capacité cognitive, c’est bien le langage.

Quelques références pour aller plus loin :

Aucun commentaire

Laisser un commentaire