Reconnaissance de gestes par des techniques de Deep Learning
Detail de l'annonce :
RECONNAISSANCE DE GESTES PAR DES TECHNIQUES DE DEEP LEARNING
Réf ABG-103061
Stage master 2 / Ingénieur
Durée 5 mois
Salaire net mensuel 560€
13/02/2022
IMT Nord Europe
Lieu de travail
Villeneuve d'Ascq Les Hauts de France France
Champs scientifiques
* Informatique
* Science de la donnée (stockage, sécurité, mesure, analyse)
Mots clés
Data Science, Deep Learning, Reconnaissance de geste, traitement
d'images, Vision
Date limite de candidature
30/04/2022
ÉTABLISSEMENT RECRUTEUR
SITE WEB :
https://imt-nord-europe.fr
Une école d'ingénieur sur deux sites Lille et Douai. Ce stage sera
réalisé sur le site de Lille (Villeneuve d'Ascq)
DESCRIPTION
La modélisation du comportement humain est un problème à
l’intersection des différents domaines, comme la vision par
ordinateur, l’apprentissage automatique, l'infographie et la
réalité virtuelle et augmentée. Les besoins de reconnaissance
fiable et précise pour des applications d’interactions
homme-machine, telles que l'interaction avec un monde de réalité
virtuelle ou augmentée, ont particulièrement attiré l'attention de
la communauté de la vision par ordinateur. En effet, un système de
reconnaissance des gestes efficace agissant comme interface avec un
monde virtuel peut améliorer la qualité de l'interaction avec
l'ordinateur.
L’analyse de geste en générale fait l’objet de nombreuses
recherches car cette information est exploitée dans plusieurs cadres
applicatifs. Parmi ces applications, nous pouvons citer le maintien de
personnes à domicile (détection de chute de personnes), l’aide au
diagnostic médical (auto-rééducation), le renforcement de
l’interaction (reproduction des gestes de la main en environnement
virtuel), et la détection de comportements suspects (détection de
vols, de conflits).
L'apprentissage profond (deep learning) est devenu l'une des
techniques les plus efficaces pour la compréhension d'images et de
vidéos, en particulier depuis l'apparition des réseaux de neurones
convolutifs (CNN), les réseaux récurrents (RNN) et d’autres
réseaux dérivés comme LSTM, 3D-CNN, etc. Récemment, des réseaux
de neurones basés sur des transformateurs, basés sur un mécanisme
d'auto-attention, ont montré des résultats exceptionnels dans
différents domaines tels que la compréhension du langage et la
modélisation de séquences. L'application de tels modèles à
différents types de données, comme les données visuelles, est
nécessaire pour repousser les limites des réseaux de neurones
convolutifs et récurrents communs.
L’objectif de ce sujet de stage est de développer une technique de
reconnaissance de geste de la main basés sur l'architecture
Transformer. Une focalisation sur des gestes de la main capturés
d’un point de vue egocentrique afin de permettre l’interaction
intuitive dans une application HCI.
RÉFÉRENCES:
[1] Théo Voillemin, Hazem Wannous, and Jean-Philippe Vandeborre. 2d
deep video capsule network with temporal shift for action recognition.
In 2020 25th International Conference on Pattern Recognition (ICPR),
pages 3513–3519, 2021.
[2] A. D’Eusanio, A. Simoni, S. Pini, G. Borghi, R. Vezzani, and R.
Cucchiara, “A transformer-based network for dynamic hand gesture
recognition,” in Proc. Int. Conf. 3D Vis., Nov. 2020, pp. 1–10.
[3] Théo Voillemin, Hazem Wannous, and Jean-Philippe Vandeborre.
FirstPiano : A new egocentric hand action dataset oriented towards AR
application. Accepted in 21st International Conference on Image
Analysis and Processing (ICIAP 2021), Lecce, Italie, MAY 23-27 2022.
PROFIL
Le(la) candidat(e) devra être un(e) étudiant(e) M2 ou équivalent,
idéalement en Informatique, Image et/ou Vision ou Intelligence
Artificielle avec les éléments suivants :
* Connaissances des techniques de base de Machine Learning et
expérience avec un framework existant comme sklearn, tensorflow,
pytorch ou autre ;
* Bon niveau de programmation en Python;
* Fort intérêt par la vision par ordinateur, et le traitement
d'images;
PRISE DE FONCTION
01/03/2022