Skip to main content

Blog

Learn About Our Meetup

5000+ Members

MEETUPS

LEARN, CONNECT, SHARE

Join our meetup, learn, connect, share, and get to know your Toronto AI community. 

JOB POSTINGS

INDEED POSTINGS

Browse through the latest deep learning, ai, machine learning postings from Indeed for the GTA.

CONTACT

CONNECT WITH US

Are you looking to sponsor space, be a speaker, or volunteer, feel free to give us a shout.

DES PROFESSEURS DE L’INSTITUT VECTEUR PRÉSENTENT LEUR NOUVEAU MODÈLE MUSICAL DE TRANSFERT DE STYLE À L’ICLR

Par Ian Gormely

L’intelligence artificielle, tout particulièrement les domaines de
l’apprentissage automatique et de l’apprentissage profond, bouleverse à peu
près tous les secteurs d’activité imaginables, même le monde des arts. Ainsi, de
nombreux artistes adoptent la technologie pour ses possibilités créatives.

“La caméra n’a pas empêché les gens de peindre, mais elle a changé ce à quoi ils s’intéressaient”, souligne Sageev Oore, membre du corps professoral de l’Institut Vecteur, professeur agrégé d’informatique à l’Université Dalhousie et pianiste de jazz.

Sageev Oore et son collègue Roger
Grosse
, ainsi qu’une équipe de chercheurs
affiliés à l’Institut Vecteur, dont Sicong Huang, Qiyang Li, Cem Anil et Xuchan
Bao, comptent parmi un nombre infime mais croissant de personnes qui explorent
les interactions possibles entre l’IA et la musique. Le TimbreTron, un modèle musical
de transfert de style dévoilé récemment dans l’article TimbreTron:
A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
, en est une illustration.

Cet article que Sageev Oore et Roger Grosse présentent ce mois-ci à l’International Conference on Learning Representations (ICLR), l’une des principales conférences mondiales sur l’apprentissage automatique, explique la méthode pour “prendre un enregistrement musical joué par un instrument et le faire sonner comme s’il était joué par un autre instrument, tout en préservant autant que possible le contenu, y compris la hauteur, le rythme et, dans une certaine mesure, l’expression”, indique Roger Grosse.

Le timbre, le son associé à un instrument donné, est extrêmement difficile à modéliser. Mais les deux professeurs et leur équipe ont contourné le problème en transformant les formes d’onde d’un morceau de piano en images, plus particulièrement en spectrogrammes CQT. Au moyen d’un modèle de transfert de style appelé CycleGAN, ils ont transformé le spectrogramme pour piano en un spectrogramme pour clavecin de la même pièce. Ils ont ensuite utilisé le modèle WaveNet de Deepmind, une filiale de Google, pour recréer la forme d’onde audio, sauf que ce qui était autrefois du piano sonne maintenant comme du clavecin. Le système permet également aux utilisateurs de changer le tempo d’un morceau sans modifier la hauteur (ce qui annule “l’effet voix d’écureuil “) ou de changer la hauteur sans affecter le tempo.

Le projet a vu le jour parce que Sicong Huang souhaitait travailler sur un projet d’intelligence artificielle lié à la musique. À l’époque, le modèle CycleGAN était nouveau et semblait la chose à essayer, se souvient Roger Grosse, qui ne se considère pas comme un musicien. Il a fait appel à Sageev Oore qui avait déjà travaillé sur la musique et l’apprentissage machine, notamment lors d’un mandat pour le projet Magenta de Google visant à intégrer l’apprentissage machine aux domaines créatifs. “C’est vraiment dans ses cordes.”

Compte tenu des intérêts divergents de Sageev Oore, il n’est pas surprenant qu’il ait des raisons différentes, bien que complémentaires, de vouloir y participer. Son côté informaticien s’intéresse au contrôle que les programmeurs sont en mesure d’exercer lorsqu’ils recréent une trame sonore et jusqu’où ils peuvent aller. “Nous comprenons mieux l’espace sonore et nous comprenons mieux les systèmes de réseaux neuronaux nécessaires pour contrôler et générer un espace sonore.”

Cela dit, “d’un point de vue créatif, ce qui est vraiment intéressant, c’est de briser l’outil,” affirme Sageev Oore, rappelant ce que Doug Eck de Magenta dit souvent. Au départ, les logiciels de correction de hauteur comme Auto-Tune ont été commercialisés pour réparer numériquement les voix pour qu’elles sonnent justes. Mais les artistes comme Cher ou T-Pain s’intéressaient davantage aux façons d’altérer la voix humaine. De la même manière, Sageev Oore est curieux d’entendre d’autres sons que le TimbreTron pourrait générer. “S’il ne produit pas exactement le son d’un piano, mais qu’il crée quelque chose qui ressemble à un croisement entre un clavecin et un piano, ça pourrait être encore plus intéressant.”