Les systèmes informatiques multi-modaux devront gérer plusieurs types d'entrée. Les premier défi est d'organiser, de comprendre et rechercher les données multi-modales disponibles d'une manière robuste, efficace et intelligente. Le deuxième défi est de développer des systèmes qui reflètent le comportement humain et sont intuitivement interactive.
Les trois dernières décennies ont vu des changements dramatiques dans la façon dont nous vivons et travaillons. Nous avons créé une société alimentée par des informations délivrées presque instantanément presque partout. Nous comptons sur l'information technologique (TI) pour aider à l'acquisition de ces données, et pour stocker, traiter et les transmettre de plus en plus efficacement, à moindre coût et rapidement. L'énorme quantité de données est seulement un défi; un autre fait face à la gamme croissante de formats ou modalités disponibles. Il y a dix ans, la plupart du contenu numérique est venu sous la forme de texte; aujourd'hui elle inclut également la parole, audio, images, vidéo et autres formes.
Les ordinateurs personnels modernes ont des capacités multimédias, et de nombreux outils plus électroniques sont maintenant intelligents ou multi-usages, y compris les ordinateurs portables, les smartphones et les capteurs et les écrans intelligents, qui ajoutent au volume global et un ensemble de données numériques, ainsi que le nombre de personnes qui peut générer et accéder. Le défi est d'organiser, de comprendre et de rechercher cette information multi-modale de manière robuste, efficace et intelligente.
Explorer les sens
La communication humaine et de la cognition est intrinsèquement multi-modale - les gens perçoivent le monde à travers les cinq sens primaire et s'exprimer de diverses manières, y compris avec la voix, les gestes, le regard, les expressions faciales, la posture du corps, le toucher et le mouvement. Les systèmes informatisés sont loin derrière les humains dans leur capacité à gérer toutes ces entrées. Les ordinateurs sont efficaces dans le traitement de grands ensembles de données bien structurées, mais sont actuellement incapables de faire face à des tâches qui sont faciles pour les humains, par exemple la création et la compréhension du langage naturel ou l'interprétation des informations visuelles telles que l'expression du visage.
L'objectif de l'interaction multi-modale est d'utiliser tous les différents types d'informations contenues dans la communication humaine efficace pour permettre à un plus naturel, l'interaction en temps réel entre les machines et les gens.
L’interaction multi-modale a pour contrepartie l'informatique multimodal qui améliore la capacité des systèmes informatiques pour acquérir, traiter et présenter des modes différents de données manière efficace et fiable. De tels systèmes ont plusieurs objectifs: analyser et interpréter l'information multi-modale, même quand elle est grande, dispersée, bruyant et peut-être incomplète; d'organiser les connaissances recueillies pour permettre l'interrogation puissant; et pour produire une sortie visuelle convaincante pour afficher des informations complexes en temps réel.
Principaux défis de l'informatique multi-modale
Figue.1 YAGO représentation
des connaissances
|
Des systèmes qui peuvent interpréter l'information multi-modale Conception est une tâche avec de nombreux composants.
L’acquisition, l’organisation et la récupération multi-modale informations
Recherche documents numériques d'aujourd'hui repose sur l'utilisation de mots-clés et des descriptions de texte simple. Médias y compris les fichiers audio et vidéo, l'image et sont consultables que par l'utilisation des annotations créées manuellement, ce qui est contraignant et peut créer des biais pour certains types de recherche. Bien que de nombreux types de ressources en ligne sont disponibles pour les utilisateurs professionnels et occasionnels, il y a peu d'intégration entre les différentes sources et formats.
À l'avenir, la connaissance sera automatiquement acquise, classé et maintenu en permanence par un ensemble de méthodes qui peuvent traiter le langage naturel, et de reconnaître et d’analyser le contenu vidéo. Ces systèmes seront également en mesure d'effectuer d’autres fonctions pour améliorer l’organisation, tels que inférer les relations entre les éléments d'information, et en utilisant le contexte pour extraire la signification des mots ambigus (de désambiguïsation sémantique; la figure1.). Des sciences et de l’ingénierie, notamment la médecine et les sciences de la vie , bénéficiera de ces applications comme le nombre et la diversité des publications scientifiques se développe.
Environnements virtuels réalistes
L'objectif est de créer des environnements virtuels pour une meilleure présentation des données multi-modales. L'aspect visuel peut être programmé à partir des principes ou peut incorporer le traitement sophistiqué des images existantes telles que des images statiques, des vidéos ou des analyses en trois dimensions. Ces méthodes nécessitent des techniques de l’infographie, le traitement d'images, vision par ordinateur, et combinatoire et géométrique de calcul pour générer à grande échelle, intégrée, environnements virtuels physiquement précis et visuellement riches.
Une exigence connexe est pour la création de personnages humains comme virtuels qui ressemblent et parlent de manière réaliste, montrent des émotions convaincantes et imitent le comportement des personnes réelles. personnages virtuels offrent une interface puissante et intuitive à travers laquelle de présenter des données multi-modales complexes, et peuvent être utilisés pour remplir des environnements de réalité virtuelle.
Reflétant humain à humain communication
Une approche pour accéder à l'information stockée est de concevoir un système qui interagit avec les utilisateurs d'une manière qui reflète le comportement humain et le dialogue. Un système qui recrée, la communication quotidienne naturelle de personne à personne, dans lequel le système et l'utilisateur humain combinent le même spectre de modalités d'entrée et de sortie, est dite symétrique . Un bon exemple concerne les conducteurs et les passagers voyageant dans une voiture: plutôt que de briser leur attention pour accéder aux services de voiture de pointe (par exemple, la navigation par satellite, de divertissement ou à quatre roues motrices), une interface naturalisée permettrait d'accéder facilement à l'aide des commandes vocales associées à des algorithmes prédictifs. Ces technologies de créer des modèles de calcul de la tâche courante combinée avec le contexte, telles que l'état et la charge cognitive de l'utilisateur, pour comprendre les besoins de l'utilisateur et de fournir des réponses multimodales appropriées.
Infrastructure autonome Conception, systèmes multi-modaux autonomes fiables est une chose; cependant, ils doivent être pris en charge par les plates-formes appropriées qui sont auto-organisé et capable de fonctionner de façon indépendante sur une gamme d'infrastructures, fournissant ainsi fiable à tout moment de l'informatique et de la communication et partout. Toute saisie manuelle de ces systèmes doit être limitée à l'installation et le remplacement des composants matériels.
Ces systèmes seront capables de fournir personnalisé, et de l'information en temps opportun et de la communication pertinente. Cependant, ils doivent respecter la vie privée légitimes préoccupations des utilisateurs tout en les tenant responsables de leurs actions. De tels systèmes sont une plate-forme nécessaire pour atteindre les objectifs énoncés précédemment.
Perspectives d'avenir
L'avenir multi-modal est déjà autour de nous sous la forme de smartphones, systèmes de positionnement global et des jeux d'ordinateur, même hyper-réalistes; aller vers l'avant, ce sera encore plus banal - disponible à tout moment et en tout lieu. Dans notre vision, ces systèmes seront auto-organisation et autonome, en utilisant des interfaces naturelles pour fournir des informations personnalisées rapidement et avec précision, mais ils doivent également respecter la vie privée des utilisateurs légitimes concerne. La priorité est de développer des principes pour la conception et le fonctionnement de ces systèmes qui gèrent les énormes quantités d’informations multi-modal en toute sécurité et en toute sécurité.
Des chercheurs de l'Institut Max Planck pour l’informatique ont récemment mis au point une nouvelle approche de marqueurs moins à la capture des performances humaines complexes (spatio-temporelle ment géométrie cohérente, de mouvement et de texture) de multi-vues vidéo. Une nouvelle approche pour construire des bases de connaissances exhaustives qui tapent les plus profondes sources et des relations d'information en ligne, pour répondre aux questions au - delà des moteurs de recherche à base de mots-clés d'aujourd'hui, a été proposé