Contexte - Chaire Luxant-ANVI de l'Université de Lille

Contexte

L’objectif général du projet est de progresser scientifiquement et technologiquement dans la maîtrise des architectures de traitement de l’information émergentes que sont les architectures neuromorphiques comme technique d’intelligence artificielle embarquée pour la vidéoprotection. Les cas d’étude pratiques viendront des domaines du retail et des transports.

The goal of the project is to make progress, both scientifically and technologically, towards the mastery of the emerging neuromorphic information processing architectures as embedded artificial intelligence for videoprotection. We will apply this technology to retail and transportation case studies.

Contexte marché et réglementaire

La branche Prévention-Sécurité compte les entreprises intervenant dans le domaine de la sécurité, la télésurveillance, l’intervention et la sécurité aérienne et aéroportuaire. En 2019, l’ensemble des 11 976 entreprises de la profession a généré un chiffre d’affaires de 7,95 milliards d’euros hors taxes. Et particulièrement, le chiffre d’affaires de la télésurveillance s’établit à 1,045 milliards d’euros. Près des deux tiers de ce montant sont réalisés par des structures employant plus de 500 salariés.

Les métiers de la sécurité et de la sûreté sont régis par un ensemble de réglementations et de cadres juridiques particuliers. C’est une filière qui est également fortement impactée par l’usage des technologies du numérique tels que la main courante électronique, les drones, les portiques, la ronde par vidéosurveillance, etc. La filière et les métiers se transforment au travers de cet usage du numérique et évoluent de manière importante pour répondre aux exigences de sécurité et de sûreté des biens et des personnes.

Le sentiment croissant d’insécurité, la menace terroriste et le lancement d’installation massive de caméras de vidéoprotection par les services publics (état, collectivités, hôpitaux, etc) ont permis au marché de la télésurveillance de se développer rapidement depuis une vingtaine d’années après avoir été un outil de lutte contre le vol et la fraude. Le marché de la vidéoprotection est également dopé par l’arrivée de nouvelles technologies comme la gestion à distance des installations sur tablette ou smartphone, une meilleure interopérabilité des systèmes qui permet aux équipements de communiquer ensemble. C’est un secteur qui a fortement évolué grâce au numérique. Fin des années 1990, avec l’arrivée des caméras IP et de l’enregistreur numérique avec disque dur, le marché de la vidéosurveillance se démocratise. Dans les années 2000, les systèmes de traitement et d’analyse se développent tels que la reconnaissance faciale, l’analyse de contenu vidéo (VCA - Video Content Analysis).

Les récents progrès du traitement automatisé des images permettent donc de proposer des systèmes de « vidéosurveillance intelligente », que ce soit aux municipalités, aux opérateurs de transport ou encore aux centres commerciaux.

Aujourd’hui, l’intelligence artificielle (IA) est une solution pour traiter les volumes considérables de données enregistrées et doit pouvoir pallier aux insuffisances matérielles et cognitives des opérateurs humains pour rendre la vidéoprotection efficiente et autonome. En effet, les opérateurs disposent de volumes importants de données constitués par l’ensemble des images provenant des caméras et diffusées sur plusieurs moniteurs. Ils se retrouvent souvent incapables de repérer des éléments jugés pertinents dans leur tâche de surveillance et de mobiliser leur capacité d’attention dans une submersion d’images.

Le développement des technologies vidéo et l’intégration de ces technologies dans les métiers de la vidéoprotection implique un changement de travail des opérateurs et une expertise plus accrue.

Aujourd’hui, le groupe Luxant, leader du marché de la sécurité privée s’est engagé dans le développement et l’intégration des technologies numériques et innovantes au services de ses clients et de ses salariés. Il est également acteur de la formation professionnelle au travers de l’entreprise Luxant Institut qui forme 1200 de personnes dans les métiers de la sécurité dont 200 dans les métiers de la vidéoprotection.. Enfin depuis 2018, le groupe Luxant a investi dans la création d’une start-up dédiée à l’innovation et à la Recherche & Développement de produits. Luxant Innovation est la seule entreprise française de R&D pour le secteur de la sécurité privée. Elle conçoit, prototype et réalise des produits connectés et intelligents dans le domaine de la sécurité. Elle traite des sujets tels que l’Internet des Objets, la fabrication additive avec un partenaire plasturgiste régional, la vision et la cybersécurité, etc. Aujourd’hui, il nous semble indispensable d’être un acteur technologique d’avenir en nous orientant vers les technologies d’intelligence artificielle de rupture telles que les architectures neuromorphiques appliquées dans le contexte de la vidéoprotection et d’aller au-delà des technologies matures au travers de cette chaire.

Contexte scientifique

Le domaine de l’intelligence artificielle a connu des progrès considérables ces dernières années, en particulier avec le développement des algorithmes d’apprentissage artificiel (machine learning) basés sur les réseaux de neurones profonds (deep learning). Il est attendu que ces technologies aient un impact majeur sur la société et le monde économique dans les années à venir, et l’intérêt des industriels comme des acteurs institutionnels pour celles-ci n’est plus à démontrer. Dans ce contexte, il est essentiel que la France puisse se positionner comme un acteur incontournable du domaine, en développant une recherche de pointe et originale. Les actions d’envergure nationale sur le sujet (appels ANR spécifiques, instituts 3IA…) se multiplient, mais le soutien aux acteurs locaux du domaine est également essentiel pour promouvoir les spécificités de la recherche locale dans le domaine et diffuser le savoir au sein du tissu socio-économique local.

La vision par ordinateur est une branche de l’intelligence artificielle qui s’intéresse spécifiquement à l’analyse et l’interprétation des contenus visuels : photographies, vidéos, modèles 3D, imagerie médicale… Véritables médiateurs entre le monde physique et la machine, les algorithmes de vision par ordinateur participent à un large éventail d’applications dans les domaines de la sécurité et de la défense, du marketing et du commerce, de la médecine, de la culture et du divertissement… Depuis déjà plusieurs années, la communauté scientifique en vision par ordinateur bénéficie des avancées du deep learning, mais participe aussi activement à celles-ci. Le deep learning constitue ainsi l’outil principal et un objet d’étude central de la communauté, comme l’atteste par exemple le nombre de publications qui y sont liées dans les conférences majeures du domaine (par exemple, 24,4 % des articles d’une des conférences majeures du domaine, CVPR, en faisaient leur principal objet d’étude¹). Les algorithmes de deep learning reposent essentiellement sur l’apprentissage automatique de modèles statistiques à partir de très grandes quantités de données. Ce principe leur confère performance et adaptabilité, mais présente également deux inconvénients majeurs :

la disponibilité des données : les algorithmes d’apprentissage employés sont très majoritairement supervisés, c’est-à-dire qu’ils nécessitent une intervention humaine pour annoter l’ensemble des données utilisées avec les informations nécessaires pour inférer le modèle statistique ;
le coût calculatoire et énergétique : l’inférence de modèles statistiques complexes à partir de très grandes quantités de données nécessite une puissance de calcul considérable, souvent à travers des circuits dédiés (GPU notamment), ce qui implique un coût énergétique très important.

Le premier problème est reconnu par la communauté scientifique comme l’un des enjeux majeurs du domaine (« we expect unsupervised learning to become far more important [than supervised learning] in the longer term »²) et nécessite le développement d’algorithmes capables d’inférer des modèles statistiques précis à partir de données « brutes », sur lesquelles l’humain n’aurait pas à intervenir en amont. Ceci est un frein à l’adoption de ces technologies hors du monde académique dans la mesure où tout nouveau cas d’usage nécessite un travail humain important dont le coût peut s’avérer prohibitif, en particulier pour les petites structures (PME notamment). Le second problème – le coût énergétique des algorithmes de deep learning – est un autre frein majeur à l’adoption à large échelle de ces technologies, dans un contexte d’épuisement annoncé des ressources énergétiques fossiles et de lutte contre le réchauffement climatique. À titre d’exemple, les data centers seuls représentaient 3 % de la consommation mondiale d’énergie (soit plus que certains pays) en 2017, et il était attendu que cette consommation double tous les quatre ans³. Ainsi, il est nécessaire de développer une nouvelle génération de modèles de réseaux de neurones qui permette de réduire à la fois le coût humain et le coût énergétique du deep learning.

De plus, des études récentes⁴ ont démontré que les systèmes basés sur le deep-learning souffrent d’une vulnérabilité grave à un type d’attaques appelé « Adversarial Examples ». Ces attaques consistent à un bruit additif de faible intensité que l’attaquant conçoit au préalable et rajoute à l’entrée du système résultant en une altération totale du système intelligent victime, compromettant ainsi son intégrité. Pour les systèmes de surveillance automatique, les caméras intelligentes qui assurent la localisation et le tracking sont particulièrement vulnérables à ces attaques⁵ et leur robustesse est un défi technologique majeur. Ces attaques ont été testées dans des conditions réalistes, et représentent ainsi une vraie menace à la sécurité des systèmes intelligents déployés.

Une approche alternative aux réseaux de neurones profonds classiques est l’usage de réseaux de neurones impulsionnels. Ces modèles, plus proches de la réalité biologique, ont l’avantage de contourner à la fois les deux inconvénients et la vulnérabilité sus-mentionnés :

ils disposent de règles d’apprentissage non-supervisées, en particulier la STDP (spike-timing dependant plasticity), directement inspirées des règles d’apprentissage biologiques observées en neurosciences et ne nécessitant pas d’intervention humaine lourde sur les données ;
ils peuvent être implémentés grâce à des composants matériels dédiés à ultra-basse consommation énergétique, qui promettent de réduire de plusieurs ordres de grandeur le coût énergétique pour l’inférence et l’utilisation des modèles statistiques. On appelle les architectures matérielles implémentant des réseaux de neurones impulsionnels les architectures neuromorphiques.

En effet, avec la fin de la loi de Moore, et donc des progrès exponentiels de l'électronique pendant 50 ans, la communauté de l'architecture des ordinateurs s'accorde⁶ sur deux pistes technologiques de rupture pour les futures innovations : l'informatique quantique et les architectures neuromorphiques⁷. L'informatique quantique est encore très lointaine et ne semble pas pouvoir être utilisable dans les systèmes embarqués avant très longtemps. Par contre, les architectures neuromorphiques, qui traitent l'information sous forme de trains d'impulsions électriques comme dans le cerveau, sont tout à fait adaptées au traitement de signaux naturels comme la vidéo et forment une piste très intéressante pour l'intelligence artificielle embarquée du fait de leur remarquable frugalité énergétique. Des dispositifs matériels commencent à arriver sur le marché (caméras impulsionnelles, processeurs et cartes de calcul neuromorphiques) qui permettent de lancer des expérimentations sur site à très court terme. Mais le potentiel de rupture technologique à long terme est encore plus important avec des gains en consommation d'énergie de plusieurs ordres de grandeur et une capacité d'apprentissage non supervisé permettant d'envisager des caméras complètement autonomes en énergie, à bas coût et capables de s'adapter aux changements dans leurs conditions d'utilisation de manière autonome. En outre, les réseaux de neurones impulsionnels semblent aussi plus résistants aux attaques par exemples adverses et nous allons nous attacher à le démontrer dans le contexte de la vidéoprotection dans nos travaux.

L'Université de Lille fait partie des pionniers de ces nouvelles technologies neuromorphiques depuis la recherche sur les nanocomposants et les circuits électroniques (IEMN : ERC de Fabien Alibart, brevets de François Danneville et Christophe Loyer, etc) jusqu'aux architectures neuromorphiques de traitement de l'information pour la vision (CRIStAL : équipes Émeraude et FOX partenaires de cette chaire). Cette thématique de recherche est, depuis 2011, l'un des axes principaux de l'IRCICA⁸, Unité de Service et de Recherche interdisciplinaire CNRS - Université de Lille, que nous proposons comme lieu d'hébergement de la chaire Luxant-ANVI. Cette expérience de près de 10 ans nous a permis d'organiser en 2019 les journées nationales du GdR BioComp⁹, le Groupement de Recherche du CNRS qui regroupe les équipes françaises travaillant sur le calcul bio-inspiré. Nous avons aussi été lauréats en 2020 d'un projet de recherche européen CHIST-ERA, le projet Aprovis3D¹⁰ qui porte sur l'utilisation exclusive d'architectures neuromorphiques pour le contrôle d'un drone destiné à suivre l'érosion des côtes méditerranéennes. Nous avons aussi été lauréats du prix recherche fondamentale au concours Matikem Biomimétisme - Inspiration du Futur en 2017¹¹. Enfin l'I-Site a reconnu l'intérêt de ces travaux en sélectionnant la proposition de thèse interdisciplinaire PEARL sur l'utilisation des réseaux de neurones impulsionnels pour la classification automatique d'images de microfossiles de radiolaires en codirection avec Taniel Danelian du laboratoire ÉcoÉvoPaléo¹².

1 https://towardsdatascience.com/latest-computer-vision-trends-from-cvpr-2019-c07806dd570b

2 Deep Learning. Y. LeCun, Y. Bengio & G. Hinton. Nature 521, 436-444. 2015.

3 https://www.forbes.com/sites/forbestechcouncil/2017/12/15/why-energy-is-a-big-and-rapidly-growing-problem-for-data-centers

4 Systems: A Survey," in IEEE Internet of Things Journal, vol. 7, no. 6, pp. 5103-5115, June 2020, doi: 10.1109/JIOT.2020.2975654.

5 Thys, Simen et al. “Fooling Automated Surveillance Cameras: Adversarial Patches to Attack Person Detection.” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (2019): 49-55.

6 HiPEAC Vision 2019, High Performance and Embedded Architecture and Compilation, https://www.hipeac.net/vision

Traitement neuro-inspiré de l’information, Alain Cappy. ISTE Editions, 2020. www.istegroup.com/fr/produit/traitement-neuro-inspire-de-linformation/

8 https://ircica.univ-lille.fr/projects/bio-inspired-architectures

9 https://gdr-biocomp.fr/

10 https://www.chistera.eu/projects/aprovis3d

11 https://ceebios.com/2017/10/25/29-juin-au-31-octobre-2017-concours-biomimetisme-inspiration-du-futur-hauts-de-france/

12 https://www.pearl-phd-lille.eu/en/researchers/publication-results