Facebook décrit les progrès de la technologie de vision par ordinateur et d’identification d’objets


Alors que les systèmes d’apprentissage automatique se sont beaucoup améliorés pour identifier les objets dans des images fixes, l’étape suivante de ce processus consiste à identifier les objets individuels dans la vidéo, ce qui pourrait ouvrir de nouvelles considérations en matière de placement de marque, d’effets visuels, de fonctionnalités d’accessibilité, etc.

Google a développé son outils sur ce front depuis un certain temps, ce qui a conduit à de nouvelles avancées dans les options de YouTube, y compris la capacité de taguer produits affichés dans des clips vidéo et offrent des options d’achat direct, facilitant ainsi des opportunités de commerce électronique plus larges dans l’application.

Et maintenant, Facebook l’est aussi franchir les étapes suivantes, avec un nouveau processus qui est bien meilleur pour distinguer les objets individuels dans les images vidéo.

Exemple Facebook DINO

Comme expliqué par Facebook:

«En collaboration avec des chercheurs de l’Inria, nous avons développé une nouvelle méthode, appelée DINO, pour former des Transformateurs de Vision (ViT) sans supervision. Outre la mise en place d’un nouvel état de l’art parmi les méthodes autocontrôlées, cette approche conduit à un remarquable résultat unique à cette combinaison de techniques d’IA. Notre modèle permet de découvrir et de segmenter des objets dans une image ou une vidéo sans aucune supervision et sans avoir d’objectif ciblé par segmentation.  »

Cela automatise efficacement le processus, ce qui constitue une avancée majeure dans la technologie de la vision par ordinateur.

Et comme indiqué, cela ouvrira une gamme de nouvelles opportunités potentielles.

«La segmentation des objets permet de faciliter des tâches allant de l’échange de l’arrière-plan d’un chat vidéo à l’enseignement de robots qui naviguent dans un environnement encombré. Il est considéré comme l’un des défis les plus difficiles de la vision par ordinateur, car il nécessite que l’IA comprenne vraiment ce qu’il y a dans une image. Cela se fait traditionnellement avec un apprentissage supervisé et nécessite de grands volumes d’exemples annotés. Mais notre travail avec DINO montre qu’une segmentation très précise peut en fait être résolue avec rien de plus qu’un apprentissage auto-supervisé et une architecture appropriée. « 

Cela pourrait aider Facebook à fournir de nouvelles options, comme YouTube, dans le marquage des produits pour l’affichage associé dans le contenu vidéo, tandis que, comme le note Facebook, il existe également des applications liées à la RA et des outils visuels qui pourraient conduire à des fonctions Facebook beaucoup plus avancées et plus immersives.

Et cela pourrait également intégrer davantage de collecte et de personnalisation des données.

En 2017, au tout début de ses efforts de reconnaissance vidéo, Facebook a noté que les progrès de la technologie conduiraient à une capacité accrue de présenter un contenu plus pertinent aux utilisateurs en fonction de leurs habitudes de visionnage.

«L’inférence de l’IA pourrait classer les flux vidéo, personnaliser les flux pour les fils d’actualité des utilisateurs individuels et supprimer la latence de la publication et de la distribution de vidéos. La personnalisation de la vidéo de réalité en temps réel pourrait être très convaincante, augmentant encore une fois le temps que les utilisateurs passent dans l’application Facebook. « 

Bien sûr, Facebook ne serait probablement pas aussi ouvert dans ses objectifs maintenant, en essayant d’amener les utilisateurs à consacrer plus de temps à du contenu – mais c’est bien sûr son objectif, fournir l’expérience la plus convaincante et la plus précieuse pour tous les utilisateurs, afin de maximiser le temps d’engagement et d’augmenter son utilité et sa valeur.

Ce qui lui offre également plus d’opportunités publicitaires – et encore une fois, il est facile de voir comment ces outils avancés de reconnaissance vidéo pourraient être une aubaine majeure pour l’activité publicitaire de Facebook. En effet, dans l’exemple YouTube, il prévoit en fait de baliser tous les éléments de tous les clips vidéo, pas seulement ceux où le créateur attribue un tag, afin de fournir plus d’options de produits achetables dans l’application.

Que YouTube franchisse cette étape ou non, nous devrons attendre et voir, mais il est intéressant de considérer les implications plus larges de ces avancées et comment elles pourraient changer votre processus de marketing et de promotion.

Et puis il y a AR. Avec Facebook développant ses propres lunettes AR, il est également possible que cette technologie puisse être utilisée pour mieux identifier les objets dans votre vision du monde réel, afin de fournir une assistance, des promotions et d’autres informations.

Il existe un large éventail de cas d’utilisation potentiels, et il est intéressant de voir comment les outils de Facebook se développent sur ce front.

Vous pouvez lire l’intégralité du document de recherche DINO et des idées ici.



Vous pouvez lire l’article original (en Anglais) sur le sitewww.socialmediatoday.com