L’industrie musicale recourt de plus en plus à l’intelligence artificielle, avec l’idée de prédire les futurs succès.
En 2018, Stephen Malkmus, le leader de Pavement, fameux groupe rock Lo-Fi des années 1990, entend à la radio Harness Your Hopes, une chanson qu’il a écrite vingt ans plus tôt en face B de Spit On a Stranger, un EP passé quasiment inaperçu, si bien que lui-même l’a oublié. Il pense entendre une chanson des Rolling Stones, tellement il ne la reconnaît pas. C’est tout dire. Rééditée, elle a connu en 2008 une deuxième vie mais uniquement chez les aficionados. Or voici que, quelques années plus tard, elle se retrouve numéro 1 des écoutes du groupe (28 millions de streamings) largement au-dessus des 21 millions de Cut Your Hair, le tube de Pavement. Comment passe-t-on ainsi du statut de rareté à celui de standard ?
C’est Damon Krukowski, le batteur de l’ancien groupe new yorkais Galaxie 500, qui a levé le lièvre. Il leur est arrivé la même chose avec Strange, un morceau peu populaire autrefois, jamais sur aucune playlist, devenu du jour au lendemain une valeur sûre. Le bond a eu lieu en janvier 2017, au moment même où Spotify activait son « Autoplay » dans les préférences des abonnés. Un système qui repère de la musique ressemblant à ce que vous venez d’écouter. Or Strange est un peu plus rapide, plus fort, plus régulier, en somme plus classique que la plupart des morceaux de Galaxie 500, réputé pour sa dream pop. Idem pour Pavement. Damon Krukowski a contacté la plate-forme et compris que c’était ainsi, par la grâce des algorithmes, que Strange ou Harness Your Hopes devenaient des tubes – sur Spotify mais aussi par effet boule de neige sur Apple Music, YouTube ou TikTok.
A Jyväskyla, à 200 kilomètres au nord d’Helsinki, Geoff Luck, un chercheur et musicien finlandais, va plus loin. Il a créé une intelligence artificielle qui prétend pouvoir discerner les tubes de demain. Pour en attester (et persuader investisseurs et clients potentiels), il publie chaque mercredi sur le site Internet de sa start up, baptisée Hyperlive, le résultat de ses prédictions. « Nous avions dit que Yummy de Justin Bieber serait un hit. Il est monté numéro 2 au Top 100 de Billboard, peut-on ainsi y lire. Nous avions prédit que Wrong Direction d’Hailee Steinfeld ne marcherait pas fort. Après douze mois, cela reste un de ses singles les moins écoutés sur Spotify… » Magique ?
Mots-clés et émotions
Lorsque, en 2018, Geoff Luck lance sa société, cela fait vingt ans que ce pianiste et trompettiste travaille sur la façon dont la musique affecte nos comportements. « Nous avons recueilli énormément de data sur la santé, le confort, les réactions des gens. C’est à partir de là que nous travaillons. Et pour arriver à nos conclusions sur le succès que remporteront ou non ces morceaux auprès du public, nous prenons pour seule base leur contenu musical. »
Le système est simple. D’un côté, on définit un certain nombre de critères pour qualifier les morceaux – style, genre, rythme, séquençage, tonalité, vitesse… –, et de l’autre, on met en regard les émotions et les attitudes qu’ils provoquent chez l’auditeur en fonction de ceux-ci. On nourrit la machine de tous ces « data » et on regarde ce qui se passe.
C’est ce qu’a fait Pierre Lebecque, à Liège, en Belgique avec Musimap, une société basée à Liège, et qui, pionnière (elle a été créée en 2015), est sans doute aujourd’hui la plus avancée dans ce domaine. Après avoir étudié la sociologie et la musicologie à l’Université de Louvain-la-Neuve, et tout en exerçant ses activités de thérapeute familial, Pierre Lebecque a décortiqué avec un autre musicologue, le Français Oliver Lebeau, près d’un million de chansons. 400 styles, 1 200 mots-clés pour définir le genre des musiques (chaque morceau se voit attribuer un minimum de six genres). Et, côté réactions de l’auditeur, 256 mots pour définir les émotions.
« La question n’est pas de savoir quel sera le tube de demain. Mais quel morceau me va bien, maintenant », précise Pierre Lebecque qui dit ne faire qu’appliquer à la musique ce qu’il a appris en sociologie comportementale. « On étudie le rôle de la musique et la façon dont elle est utilisée… Notre but est de proposer un moteur de recommandations qui prenne en compte nos émotions. » Ce n’est pas rien : décalquez leur analyse sur les schémas classiques des sociologues du marketing, et vous obtenez un outil pour programmateurs et publicitaires incroyablement puissant.
« Révolution de l’audio »
Les plates-formes de streaming ont compris l’intérêt qu’elles pouvaient y trouver. En 2017, cherchant à « optimiser la recherche de musique et les capacités de recommandations », Spotify a ainsi racheté Niland, une start-up française créée quatre ans plus tôt par trois anciens de l’Institut de recherche et de coordination acoustique/musique (Ircam). Objectif, comme l’écrivait Spotify dans son communiqué : « Faire émerger le bon contenu pour le bon utilisateur au bon moment. »
Hyperlive en Finlande, Musimap en Belgique, Musiio à Singapour… Autant de start-up aux promesses industrielles qui ont trouvé naissance sur les bancs de l’université. L’Ircam a elle-même créé en 2019 Ircam Amplify, sa propre filiale, parce qu’elle ne voulait plus voir ses idées copiées et ses chercheurs s’en aller pour créer leurs propres aventures privées – Phonotonic, Audiogaming, Hyvibe, Mogees, Antescofo… chaque recherche de départ aboutissant le plus souvent à une application et à une entreprise.
« On vit une révolution de l’audio », s’enthousiasme Franck Madlener, le directeur de l’Ircam, alors qu’il nous fait visiter, en face du centre Pompidou, le labo (et ses 64 haut-parleurs) d’Ircam Amplify, installée au rez-de-chaussée de l’institution voulue par Pierre Boulez. « L’intelligence soutenue ici depuis 1977 a nourri la musique, mais cela va au-delà… Adossée à l’Ircam, Amplify est une fabrique de technologie avec une fonction de dissémination. C’est en quelque sorte l’Ircam dans votre vie quotidienne. »
Quel son pour remplacer le bruit du moteur des futures voitures électriques et sans chauffeur ? Quelle voix pour le répondeur de demain, pour votre robot domestique ? Quelle spatialisation pour vos podcasts ? Traduction simultanée, visios confortables, biofeedback (influence de la musique sur la santé) : le champ est immense. « Nous avons 120 briques logicielles – outil de spatialisation, capteur des acoustiques, transformateurs de voix en temps réel, analyseurs de “moods” [humeurs]… détaille Franck Madlener. Ce que je voudrais démontrer à ceux qui nous gouvernent, c’est que la recherche publique a toute sa valeur. L’idée est de sortir de notre mission d’origine sans pour autant la modifier. »
Un logiciel mesurant la fatigue dans la voix d’un professeur ? Un autre permettant de choisir une voix la plus proche possible de celle de l’acteur original pour le doublage d’un film ? Si les applications sont multiples, pour les acteurs de la musique, elles sont immédiates : « Pour les acteurs du secteur, c’est une question d’agilité. Il peut s’agir tout simplement de contrôler sur d’immenses quantités la qualité du son comme le contenu des textes, souligne Nathalie Birocheau, à la tête d’Ircam Amplify. Mais également d’analyser des metadata permettant à une compagnie de disques de retrouver un morceau au milieu des milliers de titres de son catalogue – dont elle ne sait plus toujours très bien, au fil des ans, ce qui s’y trouve. Ou encore de qualifier ces morceaux pour satisfaire la demande des auditeurs comme des annonceurs. »
Believe, florissante maison de production made in France qui s’est construite dès le début sur l’importance du numérique, est non seulement cliente mais aussi actionnaire à hauteur de 20 % d’Ircam Amplify. « Toute notre base est par exemple scannée avec des algorithmes qui nous génèrent le “mood” des morceaux : c’est gai, c’est triste, c’est une chanson à fredonner sous la douche, ou pour aller voir ma grand-mère… Cela permet d’être beaucoup plus fin dans la modélisation et les playlists », confie Isabelle Andres, directrice générale adjointe chargée des opérations de Believe.
« L’algorithme est une boîte noire »
Chez Musimap, à Liège, Pierre Lebecque, à 62 ans, aime jouer les poils à gratter. « Entre nous, je n’ai jamais rien trouvé d’aussi bête qu’une intelligence artificielle », s’amuse-t-il, pas fâché d’endosser ses habits de « musicologue au fond du couloir » au sein de la société qu’il a fondée. Il précise : « Un algorithme cherche un lien de probabilité entre deux paramètres, rien de plus… La machine, c’est un étudiant à l’université qui, chaque année, doit en apprendre un peu plus. On est à la version 1.4. Peut mieux faire… Néanmoins, il faut bien dire que cela marche. » Séduit, Quincy Jones, 87 ans, légendaire producteur de Thriller, de Michael Jackson, l’album le plus vendu de tous les temps, est devenu cet été actionnaire de Musimap ; et Andreas Spechtler, l’ancien président de Dolby, a rejoint ses équipes et y fait jouer ses réseaux.
Idem pour l’Ircam, ou après une mise initiale d’un peu plus d’un million d’euros et une levée de fonds de 1,8 millions en avril 2020, Amplify, sa start-up intégrée, s’apprête à lever de nouveau 1,2 million d’euros d’ici à l’été.
Que raconte cet...
Lire la suite sur lemonde.fr