Projet Microfaune - Évaluation de la biodiversité grâce au deep learning

Contexte : Biodiversité Urbaine

Ce projet a été réalisé au travers de l’association Wazo dans le cadre du Fonds des Initiatives Résidentes de la Cité internationale dans la dynamique de Data for Good.

Son but est d’améliorer et d’utiliser les méthodes récentes de machine learning et deep learning pour l’évaluation de la biodiversité urbaine. Plus précisément, nous avons mis en place un algorithme de détection de chants d’oiseaux à partir d’enregistrements audio. Les enregistrements ont été réalisés dans le parc de la Cité internationale et le micro financé par le Fonds des Initiatives Résidentes.

Accomplissements

Data for Good permet de mettre en relation des spécialistes du traitement de données avec un projet. Grâce à ce dispositif, l'équipe de Wazo a pu être complétée par une équipe multi-compétences et accélérer le traitement des données collectées lors de l’enregistrement réalisée à la Cité.

Le travail du collectif a abouti à 3 choses principales :

  1. Une plateforme d’annotation permettant de labéliser la présence de chants d’oiseaux sur les enregistrements (les utilisateurs annotent des portions de piste son en indiquant quant on y entend un chant d'oiseau). Elle permet également de visualiser les performances du modèle de deep learning et de comprendre ses forces et faiblesses de manière à itérer et l’améliorer.
  2. Un algorithme de deep learning permettant la détection de chants d’oiseaux. La détection se fait en s'appuyant sur la labellisation réalisée par les utilisateurs.
  3. Une base de données labélisée qui sera mise à disposition en open-source.

Il s’agit d’une première étape permettant de détecter les moments où des chants d’oiseaux sont présents sur les enregistrements. La suite sera axée sur l’identification des espèces qui chantent (environ une cinquantaine d’espèces à la Cité internationale, exemple Figure 5.).

Plateforme d’annotation

Nous avons constaté qu’une tâche qui paraît simple, comme l’annotation de la présence de chants d’oiseau, pose certaines difficultés comme par exemple :

  • Le regroupement des sons d’oiseaux proche dans le temps.
  • Le rapport signal sur bruit parfois faible pouvant donner des avis contrastés entre les annotateurs.

Pour cela, la plateforme d’annotation que nous avons construite sous forme de Web App (Figure 2.) permet de réaliser une review des annotations par plusieurs personnes. Cela permet d’assurer la qualité des labels de la base de données.

Figure 2. Interface d’annotation.

On voit sur la figure 2 que la plateforme d’annotation permet aussi d’afficher les prédictions du modèle en plus du spectrogramme du son. Cela permet une évaluation qualitative des modèles (et donc la compréhension des erreurs permettant une itération sur les modèles ou la comparaison entre différents modèles).

Prétraitement et Modèle

Les pistes audio de la base de données sont tout d’abord converties en spectrogrammes (représentation temps/fréquence, comme sur la Figure 2.) qui est le format d’entrée du modèle. Les spectrogrammes sont considérés comme des images, et les architectures de deep learning utilisées sont similaire à des réseaux pour du traitement d’images.

Nous travaillons également sur une autre piste consistant à l'augmentation des données de notre base : des extraits d'enregistrements faits à la Cité sans oiseaux ont été ajoutés à des extraits de bases de données externes avec présence d’oiseaux. L’évaluation du gain de performance liée à l’augmentation est en cours d’évaluation.

Le modèle que nous avons créé est inspiré de l'article de Morfi & Stowell (2018) et contient des couches convolutionnelles et récurrentes. Son architecture est résumée dans la Figure 3.

Figure 3. Architecture du modèle utilisée (issu de Morfi & Stowell, 2018).

Le modèle permet d’entraîner à partir de données labélisées de manière globale (un label présence/absence de chants d’oiseaux pour un extrait de 10s), puis de faire des prédictions locales : à quel moment dans l’extrait un oiseau chante-t-il ? Ces prédictions locales sont visualisées sur notre plateforme d’annotation (en bleu sur la Figure 2.).

Base de données

La base de données est labélisée grâce à la plateforme d’annotation et permet d’obtenir des labels temporels indiquant le début et la fin des chants d’oiseaux. Cela est une amélioration par rapport aux bases de données existantes qui comportent des labels à l’échelle de l’extrait sonore (par exemple 5 ou 10 secondes).

De manière à assurer la qualité de la base de données, un système de review est utilisé sur la plateforme d’annotation. Les données qui n’ont pas encore été labellisées le seront par notre équipe et éventuellement par le biais de crowd-sourcing.

Fiches scientifiques

En outre, des fiches scientifiques concernant les espèces d’oiseaux présents sur le site de la Cité sont en cours de développement. Ces fiches sont issues du travail de prétraitement réalisé sur les échantillons audio et comprendront un exemple sonore, une photo d’un individu de l’espèce et la représentation spectrogramme de son chant. Cela permet de visualiser les caractéristiques sonores de son chant, tel que la bande de fréquence.

Conclusion

La finalisation de l’annotation de la base de données est en cours et la mise à disposition de la v1 sera bientôt possible. Cela permettra à des chercheurs en bioacoustique, par exemple, d’utiliser ces données.

La suite du projet pour porter sur le développement d’un algorithme permettant l’identification de l’espèce qui chante et non seulement la détection de la présence d’un oiseau. Pour rendre le problème plus abordable, il sera possible dans un premier temps de réduire le nombre de classes (nombre d’espèces d’oiseaux possible à identifier) en se focalisant sur la cinquantaine d’espèces présentes à la Cité (voir Figure 4.).

Figure 5. Exemples d’espèces présentes à la Cité

Références

Morfi, Veronica, and Dan Stowell. “Deep learning for audio event detection and tagging on low-resource datasets.” Applied Sciences 8.8 (2018): 1397.

Informations

Le projet sur Github.

Intervenants

Un travail d’équipe au sein de l’écosystème Data For Good a rendu ce projet possible. La Figure 6. montre la liste des intervenants qui ont travaillé sur ce projet.