dimanche 27 décembre 2015

Système convertit automatiquement les signaux vidéo 2D à la 3D

En exploitant le logiciel de rendu graphique que les pouvoirs jeux vidéo de sport, les chercheurs du MIT et de l'Institut de recherche informatique Qatar (qcri) ont mis au point un système qui convertit automatiquement la vidéo 2-D des matchs de football en 3-D.
La vidéo convertie peut être lu sur tout dispositif 3-D - un commercial TV 3-D, le nouveau système de carton de Google, qui transforme les smartphones en affiche 3-D, ou des écrans à usage spécial tels que Oculus Rift.
Les chercheurs ont présenté le nouveau système la semaine dernière à l'Association pour la conférence Multimédia Computing Machinery.
"Toute la télévision ces jours-ci est capable de la 3-D», explique Wojciech Matusik, professeur agrégé de génie électrique et informatique au MIT et l'un des co-développeurs du système.«Il n'y a tout simplement pas de contenu. Nous voyons donc que la production de contenu de haute qualité est la principale chose qui devrait se produire. Mais est très difficile sport. Avec des films, vous avez artistes qui peignent la carte de profondeur. Ici, il n'y a pas de luxe de l'embauche de 100 artistes pour faire la conversion. Cela doit se faire en temps réel ".
Le système est un résultat d'une collaboration entre qcri et d'informatique du MIT et Laboratoire d'Intelligence Artificielle.Rejoindre Matusik sur le papier de conférence sont Kiana Calagari, un associé de recherche au qcri et premier auteur;Alexandre Kaspar, un étudiant diplômé du MIT en génie électrique et informatique; Piotr Didyk, qui était un postdoc dans le groupe de Matusik et est maintenant chercheur à l'Institut Max Planck pour l'informatique; Mohamed Hefeeda, chercheur principal à qcri; et Mohamed Elgharib, un postdoc qcri. Qcri également aidé à financer le projet.
Réduction à zéro dans
Dans le passé, les chercheurs ont essayé de développer des systèmes à usage général pour la conversion vidéo 2D en 3-D, mais ils ont pas très bien fonctionné et ont eu tendance à produire des artefacts visuels bizarres qui nuisent à l'expérience de visionnement.
«Notre avantage est que nous pouvons développer pour un domaine de problème très spécifique», explique Matusik.«Nous développons un pipeline de conversion pour un sport spécifique. Nous tenons à le faire à la qualité de l'émission, et nous tenons à le faire en temps réel. Ce que nous avons remarqué est que nous pouvons tirer parti de jeux vidéo."
Les jeux vidéo d'aujourd'hui stockent généralement très détaillées des cartes 3-D de l'environnement virtuel que le joueur navigue. Lorsque le joueur lance un mouvement, le jeu ajuste la carte en conséquence et, à la volée, génère une projection 2-D de la scène 3-D qui correspond à un angle de vue particulier.
Les chercheurs du MIT et qcri essentiellement couru ce processus en sens inverse. Ils ont mis le match de football Microsoft "FIFA13" très réaliste de jouer encore et encore, et utilisés de jeux vidéo l'analyse de l'outil de Microsoft PIX pour stocker en permanence des captures d'écran de l'action. Pour chaque capture d'écran, ils ont également extrait la carte 3-D correspondant.
En utilisant un algorithme standard pour mesurer la différence entre deux images, ils triaient sur la plupart des captures d'écran, en gardant seulement ceux qui a le mieux saisi la gamme des angles de vision et configurations possibles de joueurs que le jeu présenté; le nombre total de captures d'écran toujours couru pour les dizaines de milliers. Puis ils stockés chaque capture d'écran et la carte associée 3-D dans une base de données.
Puzzle
Pour chaque image de la vidéo 2-D d'un match de football réelle, le système recherche les 10 ou si les captures d'écran de la base de données qui correspondent le mieux à elle. Puis il se décompose toutes ces images, la recherche des meilleurs matchs entre les petites régions du flux vidéo et les petites régions des captures d'écran. Une fois qu'il a trouvé ces matchs, il superpose les informations de profondeur à partir des captures d'écran sur les sections correspondantes du flux vidéo. Enfin, il assemble les morceaux ensemble.
Le résultat est un effet 3-D très convaincant, sans artefacts visuels. Les chercheurs ont mené une étude de l'utilisateur dans lequel la majorité des sujets a donné l'effet 3-D une note de 5 ("excellent") sur un à cinq points («mauvais» à «excellent») l'échelle; le score moyen était de 4 («bon») et 5.
Actuellement, les chercheurs affirment que, le système prend environ un tiers de seconde pour traiter une image de la vidéo. Mais trames successives pourraient toutes être traitées en parallèle, de sorte que le troisième retard-de-un-second doit être engagés qu'une seule fois. Un délai de diffusion d'une seconde ou deux serait probablement constituer un tampon adéquat pour permettre la conversion à la volée. Même ainsi, les chercheurs travaillent à réduire le temps de conversion vers le bas encore.