DÉVELOPPEMENT D'UN SYSTÈME DE CAPTATION DU MOUVEMENT ADAPTÉ À LA PERFORMANCE commentaire
ANTOINE VILLERET  
 
 

La performance

«  La performance, c'est ce qui n'a pas de demeure,
qui n'a pas encore de tradition, même récente,
qui n'a pas encore de place dans l'institution.
Une sorte de matrice de tous les arts.»

Jochen Gerz

Ce chapitre définit la performance, discute des différentes formes qu'elle peut prendre et en présente le champ d'étude auquel je me restreins.

1.1 Définition de la performance

Daniel Charles place le geste au centre de sa définition de performance :
«  Ce vocable [...] s'applique a toute manifestation artistique dans laquelle l'acte ou le geste de l'exécution a une valeur pour lui-même et donne lieu a une appréciation esthétique distincte. »11 Daniel Charles, « Esthétiques de la performance », Encyclopedia Universalis, volume Création et culture, 1983, pp. 197-210.

Si la définition de Charles est générale, Allan Kaprow distingue quant à lui deux types de performances :
« Mais actuellement il y a deux types de performance faites couramment par les artistes : une a prédominance théâtrale, et une non-théâtrale moins reconnue. Elles correspondent, d'une manière intéressante, aux deux sens que le mot performance possède en anglais: l'un se réfère au milieu artistique, par exemple le fait de jouer du violon ; l'autre relève de la pratique d'un métier ou d'une fonction, comme le fait d'exécuter une tâche, un service ou un devoir _dans le sens d'une machine très performante. »22 Allan Kaprow, Je Kelley et Jacques Donguy, L'art et la vie confondus, 1996, p.208.

Cette séparation des performances en deux catégories que l'on pourrait qualifier respectivement de théâtrale et de non-théâtrale n'est pas présente chez tous les auteurs et Olivier Lussac propose une définition intermédiaire ou la performance est alors une interface entre l'art et la « vie réelle » :
« Une performance invite a des conditions réelles et concrètes de réalisation, à des possibles tirés des champs de la musique, de la danse, du théâtre ou des arts visuels, mais dans le but de déplacer leurs frontières vers la vie réelle. »33 Olivier Lussac, « Performance Denitions », in artperformance.

1.2 Différentes formes de performances

La performance en tant que genre artistique et modèle conceptuel revêt plusieurs formes que les artistes ont a cœur de distinguer. Selon Lussac cette « expérience artistique [est] appelée dans les années soixante, happening, événement fluxus, art-action, performance non-théâtrale. »44 Olivier LussacHappening & Fluxus : Polyexpressivité et pratique concrète des arts, L'Harmattan, coll. Art & Sciences de l'art, 2004, pp. 184-210.

5 Ibid.
La ramification de ce genre artistique traduit le fait que ses frontières soient floues, elles évoluent avec les artistes. A ce sujet Lussac dit :
« Il s'agit de la performance dont les définitions sont sans doute flottantes mais nécessaires à sa compréhension comme nouvelle forme artistique. »5

Les différences entre ces formes de performances se situent dans la définition de l'espace, de l'action et du temps dans lesquelles elles évoluent. Kostellanetz utilise les mots ouvert et fermé pour qualifier l'espace; et variable et fixe pour le temps et l'action et propose ainsi une différenciation entre les genres happening pur, happening scénique, performance scénique et environnement cinétique.66 Ibid.

1.3 Transversalité de la performance

La performance se distingue du théâtre conventionnel par le fait que le propos ne passe pas essentiellement par les mots. De la même manière, elle se distingue du concert et du spectacle de danse conventionnels car ni la musique ni la danse n'en sont l'élément structurel principal.

Un élément commun a toutes les formes de performances est le mélange des différents arts : visuel, sonore, plastique, chorégraphique… Ce mélange vient d'un rejet de la séparation des arts effectuée a la Renaissance et va plus loin que les fusionnements établis au XIXe siecle. Ce mélange amène lui aussi plusieurs appellations en fonction des relations établies ou non entre ces arts. Stanley Gibb cité par Daniel Charles dans l'article « De Juan Miro a Francis Miroglio : Graphisme de la projection »77 Cahiers du CREM, Centre de recherches en esthétique musicale éditeur, numéro spécial 6-7, Rouen, 1988, pp.99-106. distingue trois termes : mutimédia, mixed-media et inter-media. Dans les œuvres multimédias, les différentes composantes artistiques gardent leurs indépendance respectives.

Les mixed-media quant à eux tendent à donner à chaque composante une même importance, c'est le cas de l'opéra selon Lussac.88 Op. cit.,p. 199.

L' intermedia, pour sa part, tisse des relations étroites entre les arts. Une transversalité apparaît ou les formes d'art se contaminent entre elles. Ces contaminations sont rendues plus fortes par l'utilisation des nouvelles technologies.

Il est possible aujourd'hui qu'un geste induise une transformation sonore, que le son d'un instrument transforme une vidéo qui, elle-même visionnée par un danseur, influencera la chorégraphie.

1.4 Conclusion

En conclusion je citerai cet extrait de la définition de la performance d'Olivier Lussac qui me semble résumer assez bien ce qui a été développé dans ce chapitre :
« Penser la performance comme une forme d'art requiert de considérer toutes les modalités qui la mettent en jeu, c'est-a-dire effectivement sa présence, son existence plurielle et son rapport a la vie (voir Auslander : 1999), parce qu'elle met en question les frontières même de l'art. La performance dépasse le cadre des arts contemporains.Elle puise ses racines, dans le domaine du rituel et du jeu (Turner [1987] et Schechner [1987, 1995, 2002 et 2003]), et se prolonge comme activité du corps (Phelan [1996, 1998], Schneider [1997] et Jones [1998]), comme enjeu de la représentation dans une culture médiatisée (Sayre, Benamou [1977]) et Auslander, [1999]) et dans une société du capitalisme avancé (dont les textes de Benamou, Hassan,Palmer, Jameson, Carlson… suggèrent l' avènement).  »99 Olivier Lussac, « Performance Denitions », in artperformance.

Je ne suis pas attaché a l' étude d'une forme de performance en particulier, en revanche je place mon travail dans le cadre de l' intermédia et je tisserai des liens importants entre les différentes formes d'arts, sans non plus me limiter a telle ou telle pratique. En particulier, je ne centre pas mon étude seulement sur les relations entre geste et son.

 

Les gestes

« Le temps est réel dans l'art technologique et virtuel dans la peinture ; inversement l'image de l'ordinateur est virtuelle alors que la peinture est réelle. »1010 Jacques Mandelbrojt, « La pensée gestuelle dans la peinture, la poésie,la musique... et la science », in ACROE, JIM'09 (14e journées d'informatique musicale), 2009.
Jacques Mandelbrojt


 

2.1 Définition du geste

Les termes geste et mouvement sont des notions difficiles à définir car elles prennent un sens différents selon le contexte. Du point de vue des sciences physiques, le terme mouvement désigne le déplacement d'un corps ou d'un objet par rapport a un repère. Si une personne fait signe de la main, la main aura un mouvement par rapport au corps de cette personne. Ce mouvement est crée par un geste. Mais tout mouvement n'est pas forcément la conséquence d'un geste. Si cette même personne est assise dans un train roulant entre Paris et Nice, la personne sera en mouvement par rapport au plancher des vaches pourtant elle n'est pas entrain d'effectuer un geste. Geste et mouvement sont donc lies mais ne sont pas synonymes.

Pour éclaircir la définition du geste, Jensenius11 11 Alexander Refsum JenseniusACTION-SOUND (Developing Methods and Tools to Study Music-Related Body Movement), Thèse de doctorat, Department of Musicology, University of Oslo, 2007, 261 p., chap.4. propose de différencier trois types de gestes : les gestes de communication, ceux de contrôle et enfin ceux faisant référence à une image mentale.

Les gestes de communication sont des mouvements du corps porteurs de signification. La langue des signes est notamment basée sur ce genre de gestes. On peut classer dans cette catégorie les gestes traduisant une émotion ou un affect bien que l'information qu'ils véhiculent puisse être produite de manière inconsciente.

Les gestes de contrôle sont également des gestes du corps mais dépourvus de signification intrinsèque et dont le seul but est de modifier un paramètre d'un système. Un geste de contrôle peut être la rotation d'un bouton pour changer le volume d'une chaîne hifi ou la pression sur le bouton de la cafetière pour préparer le café. Ces gestes sont au centre des interfaces homme-machines et plus particulièrement homme-ordinateur. On s'efforce aujourd'hui de rendre les gestes à effectuer intuitifs ce qui tend à les rapprocher des gestes communicatifs. Par exemple, les gestes des turntablistes sont intrinsèquement des gestes de contrôle (contrôle du crossfader, de la rotation du vinyle) mais ils contiennent l'intention musicale de l'interprète, et la communiquent au public.

Lorsque l'on décrit un son, on utilise souvent la métaphore du mouvement. On parle de son qui monte, du mouvement d'une ligne mélodique. Ces gestes ne décrivent pas le déplacement d'un corps ou d'un objet mais y font référence en appelant des images mentales ; en cela ils constituent la troisième partie définie par Jensenius.

Il est également intéressant d'introduire la notion de geste discret. Ces gestes n'induisent pas le mouvement d'un membre mais sont présents notamment chez les musiciens dans la préparation d'un geste de production sonore. Le violoniste appuiera de manière différente sur sa mentonnière selon son intention musicale. Ce geste n'est pas directement visible pourtant il conditionne le résultat sonore. On peut également trouver ces gestes chez les danseurs dans les gestes immobiles. Encore une fois ces gestes sont sans mouvement mais résultent de la circulation d'énergies dans le corps contrôlée par le danseur.

2.2 Capter les gestes de la performance

Comme nous l'avons vu dans notre première partie, la performance se décline en de nombreuses formes qui incluent elles-mêmes différentes formes d'art. De plus, l'intégration du geste comme élément déclencheur de processus fait partie intégrante de l'écriture de la performance.

Il y a des gestes communs à certaines performances. Par exemple deux performances musicales mettant en scène une percussion induiront probablement les mêmes gestes de percussion d'une baguette sur une peau. Mais la captation de ce geste peut être pertinente pour une performance et ne pas l'être pour l'autre.

En ce sens, il me paraît vain d'établir un catalogue des gestes de la performance. Au contraire je préfère une approche pragmatique au cas par cas et mettre en place pour chaque performance un système de captation du geste adapté.

Un tel système se décompose en deux parties. Une partie de traitement et de compréhension de l'information gestuelle et une partie établissant des liens entre ces informations triées et des systèmes de génération d’événement. Ces événements peuvent être des sons, des images, des mouvements, des odeurs, de la chaleur. . . Chacun de ces systèmes générateurs d’événements peut a son tour être a l'origine de la modification d'un autre système.

L'interprète lui-même peut être considéré comme un générateur d’événements

multiples (sons, mouvements, odeurs. . .). Il est alors possible d'influer ses gestes avec des stimuli qui eux-mêmes sont déclenchés par les gestes. . . Il se crée alors une boucle d'interaction complexe.

2.3 Relations entre gestes et génération d’événements

La boucle d'interaction évoquée ci-dessus est définie par le choix des relations entre les différents éléments. Ces relations, que l'on appelle mapping12 12 Mapping : ensemble des règles qui régissent l'action d'un ou plusieurs paramètres sur d'autres paramètres (de contrôle généralement). Par exemple, on peut mapper la position du corps d'un danseur dans l'espace scénique sur la position du son dans l'espace de projection. Ainsi si le danseur se déplace sur la droite, le son se déplacera sur la droite également ou ailleurs en fonction de la règle de mapping que l'on aura choisi., sont toujours difficiles à établir de manière pertinente. De plus avec les possibilités quasi-infinies qui sont offertes aujourd'hui par les systèmes informatiques, il est très facile de mettre en place un mapping complexe et illisible pour le spectateur.

Je pense qu'il est toujours nécessaire de faire savoir au spectateur que ce sont bel et bien les performeurs qui contrôlent en partie ce qui est donné à voir ou à entendre. Cela peut se faire d'une manière tres basique, en utilisant des correspondances «  naturelles » entre gestes et synthèse sonore, par exemple un geste ascendant donnera un son à la hauteur ascendante ou un geste plus rapide augmentera soudainement le volume sonore. On peut imaginer le même genre de mapping simple pour la vidéo.

J'appelle «  mickey mousing »13 13 Mickey mousing : désigne au départ une esthétique de bande son, souvent dans le genre du dessin animé, ou chaque événement visuel se traduit par un son. On trouve cette esthétique dans les cartoons. Par extension, je l'utilise pour qualifier des mappings simple ou chaque action a une conséquence bien définie et facilement reconnaissable. ces mappings ou la conséquence d'un geste suit de très près celui-ci en étant toujours synchrone. S'il est bien que le spectateur se rende compte grâce au « mickey mousing » que les gestes des performeurs agissent par exemple sur le son ou la vidéo, je pense qu'il ne faut pas en abuser car ce genre de mapping est souvent pauvre et lassant. Il est intéressant que le spectateur se demande en permanence s'il a bien compris le mécanisme, cela permet notamment de maintenir l'attention.

2.4 Conclusion

Ce chapitre a défini le geste et a montré sa diversité au sein de la performance. J'ai également posé la problématique du mapping, pour laquelle je préconise la simplicité et l'efficacité. La complexité est amenée par la diversité des gestes ainsi que par multiplicité des média mis en jeu et les relations qui les lient. Dans la suite je m'intéresserai aux gestes visibles, en excluant donc les gestes discrets, et je proposerai des techniques pour les capter à l'aide d'une caméra vidéo.

 

État de l'art des techniques : Les systèmes de captation du mouvement dans le spectacle vivant

« PeRColate also includes a number of objects [. . .] designed to crash your computer, but only after making some kind of interesting sound or image. »
Presentation de PeRColate

Le spectacle vivant a besoin de système de captation du mouvement notamment pour faciliter les échanges entre les différentes formes d'art en créant des relations entre geste et transformations sonores ou visuelles. Aujourd'hui il existe deux sortes de systèmes de captation du mouvement pour le spectacle : les systèmes a capteurs embarques et les systèmes de captation vidéo. Ce chapitre présente les avantages et inconvénients de chacun.

3.1 Intrusion

Les systèmes de capteurs embarqués nécessitent l’équipement des objets ou personnes dont on veut capter le mouvement. Souvent on utilise plusieurs type de capteurs places a différents endroits sur un même performeur, avec tous les soucis d’intégration aux costumes que cela pose ainsi que le besoin d'ajouter des batteries et des émetteurs sans-fil pour éviter les câbles de raccordement a l'ordinateur. De la, on voit apparaître deux esthétiques : les systèmes discrets que l'on intègre complètement pour qu'ils soient invisibles pour les spectateurs et les systèmes (( assumes )) qui font alors partie intégrante du costume.

Si certains systèmes de captation vidéo nécessitent la mise en place de marqueurs, actifs (leds infra-rouges) ou passifs (simples réflecteurs), ce n'est que dans un soucis de précision de la captation de la position des différentes parties du corps. Ceci est utile pour animer des modèles tri-dimensionnels. La captation vidéo, telle que je l'envisage, se doit d'être non-intrusive, c'est-a-dire qu'elle ne doit pas gêner, physiquement ou seulement visuellement, l'utilisateur. Le choix du type de système influence dans tous les cas l’esthétique de l’œuvre. En effet, un dispositif embarque comme le Metainstrument de Serge De Laubier impose une gestuelle particulière, et il (( se voit )). Mais ce dispositif est conçu pour comme un instrument de musique | la façon de le tenir rappelle d'ailleurs celle d'un accordéon | et en cela il est normal qu'il induise sur la gestuelle du musicien et qu'on ne cherche pas a le cacher, au contraire, on tente de le mettre en valeur en soignant son design. A contrario un dispositif de captation vidéo n'empêchera pas le performeur de faire tous les gestes qu'il désire mais certains risquent de ne pas être vus par la camera a cause des problèmes de visibilité et recouvrement.

3.2 Visibilité et recouvrement

La captation vidéo est tributaire des conditions d’éclairage qui, en spectacle vivant, changent souvent durant une représentation. Pour s'en prémunir, il est envisageable de filmer dans le proche infra-rouge. Ainsi on peut éclairer la scène avec de la lumière infra-rouge, invisible pour l'il humain, et de manière optimale pour la captation vidéo sans gêner la scénographie.

Dans la pratique, la plupart des cameras sont sensibles aux infrarouges (jusqu'à environ 800 nm). Les cameras couleurs possèdent cependant souvent des filtres anti-infrarouge alors que les cameras noirs et blancs n'en sont pas équipées et ont une meilleure sensibilité. Pour éviter que la captation vidéo ne pâtisse des changements de lumière, il faut filtrer la lumière visible. Pour cela, il est possible de placer devant la camera un filtre de lumière visible, utilise en photographie infra-rouge.

Par ailleurs, la captation vidéo souffre également des problèmes de recouvrement lorsque le performeur est cache par un autre ou derrière un élément de décor. Il n'est pas rare dans les spectacles chorégraphiques que les danseurs « jouent » avec des éléments de décors présents sur scène, comme des pendillons, derrière lesquels ils peuvent momentanément disparaître. Dans ce cas, on peut songer à multiplier les caméras pour éviter les angles morts mais cela alourdit le dispositif.

Il est pourtant intéressant de capter ces gestes caches pour les spectateurs afin de les donner à voir ou à entendre d'une manière détournée en les utilisant pour contrôler des paramètres de synthèse sonore par exemple. Il se pose alors la question de savoir comment seront perçues ces transformations par le spectateur qui n'en connaîtra pas la cause.

3.3 Fréquence d’échantillonnage du mouvement

3.3.1 L’échantillonnage du mouvement

Des lors que l'on numérise un signal quel qu'il soit on est confronte au choix d'une fréquence d’échantillonnage adaptée. Dans le cas de capteurs embarques, le mouvement est transforme en signal électrique par les capteurs et est ensuite échantillonné et quantifié par une interface. Les meilleures interfaces échantillonnent à 1 kHz et quantifient sur 16 bit, avec une exception pour la Rimas Box du CNMAT qui numérise 8 entrées analogiques a 5 512; 5 Hz sur 24 bit. Ces caractéristiques sont elles suffisantes pour capter tout type de gestes ? Ne sont-elles pas au contraire sur-dimensionnées ? Cela dépend évidemment du geste que l'on souhaite capter et ce que l'on veut en faire par la suite. Selon les tests que Charles Verron a effectués et qu'il rapporte dans son mémoire de stage DEA ATIAM14 14 Charles Verron, mémoire de stage de DEA ATIAM, mémoire de DEA, Université Paris 6, 2004, p.15., le spectre du signal délivre par un accéléromètre place sur la baguette d'un percussionniste s'etend jusqu'a 1 200 Hz, une fréquence d’échantillonnage d'au moins 2 400 Hz est alors nécessaire à la numérisation de ce signal.

3.3.2 Le double échantillonnage de la vidéo

En ce qui concerne la vidéo, l’échantillonnage est double. Il y a tout d'abord un échantillonnage spatial, comme en photographie numérique. L'image qui se forme sur le capteur photosensible est « discrétisée » par les cellules de celui-ci. Plus la résolution_le nombre de pixels par unité de surface_ est élevée plus la caméra est sensible aux mouvements de faible amplitude. Mais l'image est aussi dans ce cas plus lourde a traiter. Ensuite, il y a un échantillonnage temporel. Un mouvement continu est retranscrit par un nombre ni d'images. Plus la fréquence d'image_le nombre d'images par unité de temps_est élevée plus la caméra est sensible aux mouvements a forte dynamique, dont l’accélération varie rapidement. Dans ce cas, les images ne sont pas plus lourdes a traiter mais il y en à plus dans le même temps, donc le traitement doit également être plus rapide.

Les systèmes de captation du mouvement destines a l'industrie de l'animation,tels ceux de Vicon, proposent, pour les plus performants, une résolution de 4 7043 456 pour une cadence de 120 images par seconde, cette cadence pouvant être augmentée jusqu’à 2 000 fps en réduisant la résolution15 15 Données issues de la brochure du système T160 de Vicon.

16 Nicolas Rasamimanana, Geste instrumental du violoniste en situation de jeu : analyse et modélisation, Thèse de Doctorat, Université Pierre et Marie Curie_Paris 6, Paris, 2008, p.43.
. Ces résolutions semblent donc être nécessaire pour capter de manière optimale des mouvements pour de l'animation. De plus Rasamimanana16 compare ces systèmes à ceux à capteurs embarqués et les considère meilleurs à la fois sur la précision des données mais aussi pour la gène occasionnée – le système de Vicon nécessite toutefois la pose de marqueurs. Ces systèmes sont malheureusement hors de prix pour des productions artistiques aux budgets de plus en plus réduits.

3.3.3 Fréquence d'image pour le contrôle de vidéo

D'un point de vue technique et dans le cadre d'un mapping des gestes vers un système de synthèse ou de transformation vidéo, il paraît nécessaire d'effectuer la captation à une fréquence d'images au moins égale à la fréquence de restitution. Celle-ci dépend du système de restitution utilise (écran LCD, cathodique, vidéoprojection) mais elle se situe généralement aux alentours de 60 Hz. De plus, il est souvent nécessaire de filtrer les données extraites de la captation vidéo afin d’éliminer les erreurs. Pour cela il peut alors être intéressant d'augmenter la fréquence d'images a la captation quitte à réduire ensuite le débit en faisant par exemple une moyenne des données captées sur deux ou trois images consécutives. Cette technique se rapproche des techniques de sur-échantillonnage utilisés en traitement audio-numérique.

3.3.4 Fréquence d'image pour le contrôle de la génération de son

Les systèmes de synthèse ou de transformation sonore fonctionnent à des fréquence d’échantillonnage supérieures ou égales à 44,1 kHz. Il est impossible d'atteindre cet ordre de grandeur pour la fréquence d'images d'une camera. Mais par contre, on peut s’intéresser à la latence induite par la fréquence d'images ainsi qu'au découpage temporel opéré par l'obturateur de la camera. Une camera classique délivre 25 images par seconde, soit une image toutes les 40 ms. Cela induit que les changements sur la synthèse sonore se feront toutes les 40 ms. On peut bien sûr interpoler les valeurs de contrôle entre deux images mais le temps de réaction du système sera de 40 ms. Ce temps est très long pour l'oreille.

Pour une bonne réactivité, on a souvent besoin d'un temps de latence inférieur à 10 ms. Il faut donc plus de 100 images par seconde pour effectuer un mapping des gestes vers un système de synthèse sonore qui paraisse réactif. Le capteur photosensible de la camera n'est expose à la lumière traversant l'objectif que pendant une fraction de la période séparant deux images. Si l'obturateur reste ouvert trop longtemps face a des mouvements rapides, les images risquent d'être floues. Au contraire, si on réduit le temps d'exposition, les images seront plus nettes mais une partie du mouvement ne sera pas « vue » par la

caméra. Ainsi, augmenter la cadence d'images permet de mieux décrire le mouvement.

3.4 Conclusion

Ce chapitre a montre que les systèmes de captation vidéo du geste sont moins intrusifs que les systèmes à capteurs embarques mais il se pose des problèmes de recouvrement. De plus, les réflexions sur le dimensionnement de ces systèmes ont montre qu'une cadence d'au moins 100 fps est nécessaire pour utiliser le geste pour contrôler des paramètres de synthèse sonore ou vidéo.

État de l'art des systèmes de captation vidéo

Ce chapitre retrace l'histoire des systèmes de captation vidéo du mouvement utilises dans le spectacle vivant, des tous premiers travaux de Kurenniemi aux derniers logiciels d'analyse du mouvement.

4.1 Solutions matérielles

Les premiers systèmes de captation vidéo du mouvement pour le spectacle vivant sont apparus dans les années 70/80 avec notamment le DIMI-O (1971) de Erkki Kurenniemi17 17 Voir une vidéo de description du système, et une vidéo de son utilisation dans une performance en 2002.
ou encore le VNS (Very Nervous System, 1982) de David Rokeby. Ces systèmes étaient basés sur des machines dédiées, à la différence des solutions logicielles d'aujourd'hui qui peuvent être installées sur tout type de machine (ou presque). De ce fait, ils manquaient de souplesse et les technologies de l’époque limitaient à la fois les possibilités de la captation (fréquence d'image, résolution) mais aussi celles de mapping et chaque application demandait le développement d'une nouvelle machine. Avec les progres rapides des systèmes informatiques, on voit apparaître à la fin des années 90 les premiers logiciels de captation vidéo du mouvement. Rokeby lui même porta son VNS sous forme de logiciel ce qui donna naissance au softVNS.

4.2 Solutions logicielles

Selon Jensenius18 18 Alexander Refsum Jensenius,  op. cit., p. 136. il existe de nombreux logiciels d'analyse vidéo du mouvement pour la vidéo-surveillance, le sport ou la médecine mais ces logiciels sont souvent inadaptés au spectacle. La résolution et la fréquence d'image des systèmes de vidéo-surveillance sont trop faibles du fait de leur application qui nécessite souvent l'enregistrement en continu des cameras. Quant aux logiciels d'analyse sportive ou médicale, bien qu'ils puissent avoir une très bonne fréquence d'images19 19 Cf. le système développé par la société Eyenetics., ils ne supportent pas l'audio, ne fonctionnent pas forcement en temps-réel et ne permettent pas d'envoyer les informations sur les mouvements captés à un autre logiciel. Il existe cependant des logiciels spécialisés dans l'analyse du mouvement par la vidéo pour des applications artistiques. En voici une liste que j'ai voulue la plus exhaustive possible tout en la limitant aux logiciels dédiés au spectacle vivant.

4.2.1 Librairies pour Max

L'environnement de programmation audio et vidéo Max/MSP/Jitter s'est vu doter de plusieurs solutions d'analyse vidéo. Les tout premiers semblent être les outils de la librairie Nato qui donna naissance à Jitter (maintenant complètement intégré à Max de Cyclin'74).

Le softVNS de Rokeby se présente comme un objet pour Max/MSP mais celui-ci demande une configuration matérielle spécifique (carte d'acquisition vidéo notamment). Singer développa de son coté Cyclops au début des années 2 000, distribué par la suite par Cycling'74. Ces outils sont devenus désuets et sont maintenant remplacés par des solutions logicielles beaucoup plus modulaires, faciles à mettre en œuvre et moins coûteuse.

Jean-Marc Pelletier développe la librairie cv.jit, une suite d'objets et d'abstractions d'analyse vidéo pour Jitter. Ces objets sont une implémentation de certaines fonctions de la librairie de vision par ordinateur OpenCV développée par Intel. L'avantage de cv.jit est d'être modulaire, c'est a dire que chaque objet réalise une fonction particulière et il suffit d'appeler uniquement ceux dont on a besoin. On optimise ainsi les ressources en calcul et on peut mieux contrôler la chaîne de traitement a la différence de Cyclops ou de softVNS qui intègrent toutes les fonctions dans un seul objet.

4.2.2 Librairies pour Pure Data

Pure Data dispose de GEM (Graphics Environment for Multimedia),une librairie permettant le traitement d'images_ et notamment la synthèse grâce à OpenGL_dans cet environnement de programmation modulaire.

Depuis peu Jean-Yves Gratius développe la librairie Cvlib pour PureData. Cette librairie implémente quelques fonctions de la librairie OpenCV à la manière de la librairie cv.jit pour Max.

Pure Data et toutes les librairies qui l'accompagnent ont l'avantage par rapport à Max d'être gratuit et open-source mais souffrent également de ce statut. La documentation est parfois limitée et le développement évolue suivant les disponibilités et les envies des développeurs. De plus, Pure Data intègre moins d'objet « haut niveau » que Max, c'est-à-dire que pour réaliser une fonction qui, dans Max, est réalisable avec peu d'objets il est souvent nécessaire dans PureData de développer des sous-programmes complexes.

4.2.3 BigEye de STEIM

BigEye fait également parti des précurseurs et proposait l'extraction de points d’intérêt (jusqu'à 16) d'un flux vidéo (de 12 a 25 fps) sur les systèmes 8 et 9 de Macintosh.

4.2.4 TrackThemColors

TrackThemColors est un module complémentaire (Xtra) pour Director permettant de faire du suivi vidéo simple. Il n'est plus développe a ce jour, la dernière version date de 2001 environ.

4.2.5 Isadora

Selon sa description,20 20 Mark Coniglio, Isadora user's manual, 2006, p. 14. Isadora est un logiciel permettant la manipulation interactive en temps-réel de média numériques. Il intègre quelques outils de suivi comme la détection de taches où on se demande ce qui est réellement détecté... Toutefois les tests n'ont pu être faits que sous Windows et il semblerait que la version pour OS X soit plus performante.

4.2.6 Eyecon

EyeCon est un logiciel prêt à l'emploi, il suffit de définir avec la souris les zones de l'image avec lesquelles on veut interagir et puis de leur attribuer une action : envoi de messages MIDI, OSC ou DMX, déclenchement d'une vidéo, d'une animation Flash, d'un son. Il est assez facile a prendre en main mais il est payant, ne fonctionne que sous Windows et ne semble pas être très bien optimisé. Lors du test sur ma machine personnelle EyeCon a utilise 100 % des ressources du processeur sur lequel il à été démarré et cela dès l'ouverture du logiciel.

4.2.7 Eyesweb

EyesWeb est un environnement de programmation modulaire spécialisé dans l'analyse du mouvement à partir de vidéo. EyesWeb est développé dans le cadre du projet de recherche d' Infomus Lab à l'universite de Gène s’intéressant aux systèmes d'interaction multimodaux et aux gestes expressifs. Il est gratuit mais ne fonctionne que sous Windows et son développement est assez lent.

4.2.8 Autres Librairies

Outre les environnements de programmation précités intégrant des outils de captation du mouvement, il existe également des librairies proposant des fonctions de captation du mouvement. Parmi celles-ci on trouve OpenCV, la librairie open source de vision informatique développée par Intel. Cette librairie à servie de base à plusieurs des logiciels sus-cités (entre autre Eyesweb, cv.jit et CVlib). AR Toolkit est une autre librairie intégrant des algorithmes de suivi de mouvement et spécialisée pour le développement d'applications de réalité augmentée (suivi de position/orientation, reconnaissance de patterns...).

Plus récemment sont apparues des librairies open-source de traitement d'images et de vision informatique utilisant les ressources des processeurs graphiques (GPU*) pour accélérer le traitement et libérer le processeur de l’unité centrale (CPU*). Parmi celles-ci on trouve GPUCV, OpenVIDIA et GPU4vision,pour ne citer que les plus connues. Avec l'apparition de nouveaux langages de programmation utilisant les processeurs graphiques tels que CUDA et prochainement OpenCL, ces librairies ne devraient que s’améliorer dans les prochaines années.

4.3 Conclusion

La création d'art numérique à besoin d'outils réactifs, qui puissent s'adapter rapidement à différents cas de figure. Dans ce cadre il me semble que les logiciels sont mieux adaptés que les systèmes matériels. De plus les environnements de programmation modulaire tels que Max, Pure Data ou encore Eyesweb sont plus souples, mais aussi plus complexes à prendre en main, que des logiciels « clef en main » tels que Eyecon. Toutefois ces environnements de programmation modulaire sont limités par les capacités de calcul de l'ordinateur et c'est pourquoi il y a fort à parier qu'on verra des librairies de vision informatique utilisant les ressources des cartes graphiques se développer de plus en plus et être bientôt intégrées dans les environnements de programmation modulaire.

 
 
 

Antoine Villeret a suivi un cursus musical au CNR de Chalon-sur-Saône (composition électroacoustique et trombone). S’intéressant aux techniques du son et entre à l’ENS Louis Lumière en 2006. Très tôt il se passionne pour le spectacle vivant faisant appel à la technologie.
Depuis 2005, il intervient sur des projets mêlant art et technologie en se spécialisant dans la programmation d’application temps réel. En collaboration avec Thierry Coduys, il réalise notamment un séquenceur de spatialisation pour la sculpture Singing Cloud de Shilpa Gupta au Laboratoire ainsi que les traitements en temps réel pour la reprise à la Cité de la musique de l’opéra To be sung de Pascal Dusapin. Il collabore également avec la compagnie Les choses de rien depuis 2008 où il assure la régie technique du spectacle Bull (informatisation et automatisation de la régie, pilotage des robots…).
Parallèlement à cela il continue ses activités d’ingénieur du son en sonorisant notamment des festivals de jazz.

Frédéric Mathevet fait partie du comité éditorial de L'autre Musique_Revue.
Il est docteur en esthétique et enseigne les arts plastiques dans une école.
Il est également artiste plasticien.