Siri devient un parfait humain grâce au Machine Learning !
Par Franck Kévin
A défaut de pouvoir rivaliser avec la concurrence du point de vue de la qualité des informations proposées, Apple vient de faire de Siri, son assistant virtuel, le plus humain que l’on puisse trouver à l’heure actuel auprès du grand public. Une prochaine mise à jour de l’assistant le dopera en prestance, grâce au Machine Learning.
Structure de la voix de Siri
Peu de gens le savent, mais Siri n’est Siri que grâce à l’assemblage de bouts de segments audio pré-enregistrés en haute définition, afin de créer grâce à une IA des phrases cohérentes et compréhensibles par le commun des mortels. Si cette méthode est employée par la quasi totalité des fabricants lorsqu’ils s’attèlent à la création de leurs assistants virtuels, elle dispose cependant d’un grand nombre d’insuffisances.
En effet, cette méthode de collage mot à mot, si elle s’avère moins fastidieuse qu’autre chose, délivre une voix manquant de prosodie et peu ou pas du tout naturelle. Il devient donc facile de savoir en l’écoutant, que c’est une machine qui l’a produite.
Difficile pour une machine, qu’elle soit développée par Apple ou non, de véhiculer par le son de la voix de Siri, comme des humains, intonation, accentuation, ni modulation de la sonorité d’une phrase. Cette dernière dépendant du contenu et du contexte de la phrase.
Apple a la solution… comme bien souvent
Apple comme bien souvent, entend également révolutionner ce secteur, comme en témoigne un article de recherche. En effet, s’aidant du Machine Learning, la firme entend entraîner Siri au fur et à mesure, afin de le rendre à même de sélectionner lui-même les segments audio qui vont de paire pour créer des réponses sonnant plus naturelles.
La nouvelle itération de Siri jouit de cette fonctionnalité dans iOS 11, tout indique que nous y aurons donc probablement droit au sein de la version finale du système (aux USA du moins). Pour y parvenir, la firme affirme avoir travaillé avec une nouvelle actrice de voix, qui aurait enregistré jusqu’à 20h de contenu en anglais, générant ainsi 1 à 2 millions de segments de voix. De quoi rendre Siri votre prochain copain de débats…