L’ingénieur Mestafa Kamal, qui a réussi la prouesse de développer un premier modèle de reconnaissance vocale dédié à la langue Kabyle, revient dans cette interview sur son projet mais aussi sur l’importance de l’informatique dans le développement de notre langue.
VAVA innova : Qui est Mesṭafa Kamal ?
Mesṭafa Kamal : Je suis ingénieur d’État diplômé de l’École Nationale Supérieure d’Informatique d’Alger. J’ai soutenu en juin mon projet de fin d’études intitulé « Reconnaissance vocale basée sur le deep learning appliquée à la langue kabyle ».
Pourquoi vous avez choisi un thème en rapport avec la langue Kabyle en particulier ?
Mesṭafa Kamal : Cela fait des années que je suis de près et que je contribue à des projets de localisation et de numérisation en langue kabyle. Qu’il s’agisse des projets de Mozilla, de Tatoeba ou bien des travaux de localisation des plateformes numériques, j’ai essayé d’apporter ma contribution le plus souvent possible en tant qu’étudiant en informatique, en fonction de ma disponibilité. Par conséquent, j’ai voulu que mon projet de fin d’études s’inscrive dans la continuité de ces travaux initiés et qui sont toujours en cours.
J’ai rapidement pris conscience à travers mon implication dans ces travaux de l’importance de l’outil informatique dans l’enrichissement et le développement d’une langue, en l’occurrence la nôtre. Il fut une époque où l’écriture était le meilleur moyen de faire avancer ou perpétuer une langue, mais de nos jours, les plateformes numériques jouent un rôle plus important dans cela. Surtout qu’elles sont plus utilisées par les gens que les supports en papiers. C’est d’ailleurs notre motif principal, faire avancer le kabyle à travers l’outil informatique.
J’ai alors contacté Muḥend Belqasen, qui est l’instigateur de tous ces travaux de numérisation, et qui est en contact avec des ingénieurs de la fondation Mozilla. Suite à une rencontre et de multiples discussions sur les projets à envisager et leur faisabilité, j’ai pu avoir ce sujet.
Est-ce que cela veut dire que l’enjeu de numérisation de la langue kabyle est plus important que celui de son écriture ?
Je ne peux pas dire que c’est plus important, ni que la production de supports numériques en kabyle est plus importante que la production littéraire. La littérature, la science ou l’écriture de la langue sont d’un apport fondamental pour le développement et l’enrichissement de la langue. Toutefois, nous sommes à l’ère du numérique et les gens utilisent beaucoup plus -voire tout le temps – des appareils électroniques que des supports en papier. Et les kabyles, dans ce sens, préfèrent pour la plupart du temps la langue française pour toutes les interfaces graphiques de leurs appareils. Si la langue kabyle n’investit pas le monde numérique, il sera encore plus difficile de la promouvoir. C’est pour cela que sa numérisation devient une nécessité, surtout qu’actuellement, et dans l’avenir proche, le support informatique l’emporte sur le support en papier.
Parlez-nous un peu de votre projet. En quoi cela consiste techniquement ?
Il s’agit de produire un modèle de reconnaissance vocale, en d’autres termes la reconnaissance automatique de la parole pour la langue kabyle. La reconnaissance vocale est un problème traditionnel en informatique et de tels logiciels existent depuis des années pour d’autres langues, notamment pour l’anglais, le français ou l’allemand.
Pour l’utilisateur final, ce type de logiciel permet de transcrire textuellement ce qu’on lui dit oralement. Il peut avoir des applications comme le sous-titrage automatique des vidéos, la saisie automatique de documents, les commandes vocales pour les appareils électroménagers ou la recherche vocale sur les moteurs de recherches,… et tout cela en langue kabyle.
Techniquement, le processus de reconnaissance vocale passe par deux phases essentielles. La première est l’extraction de caractéristiques, qui sert à extraire des sons ou des phonèmes du signal sonore qui est introduit en entrée. Pour cela, nous utilisons la MFCC qui tente d’extraire ces sons tels qu’ils sont perçus par l’oreille humaine. La deuxième phase consiste à affecter ces sons à des lettres ou des syllabes. Et c’est là que l’apprentissage profond ou le deep learning intervient. Cette technique d’intelligence artificielle qui fait appel à un réseau de neurones sert dans ce cas à effectuer des relations entre les caractéristiques extraites par la MFCC et les lettres de la langue kabyle. Tout cela se fait via le moteur DeepSpeech de Mozilla. Au final, nous obtenons des mots qui correspondent au signal sonore introduit en entrée.
Cependant, il est nécessaire d’entrainer le réseau de neurones sur une énorme quantité de données pour qu’il apprenne à effectuer ces relations entre les phonèmes et les bonnes lettres. Dans mon projet, j’ai utilisé des données issues de la plateforme Common Voice de Mozilla.
Votre projet doit beaucoup à Common Voice justement…
Effectivement. Common Voice est un projet de la fondation Mozilla qui nous sert à collecter des échantillons de voix des différents dialectes de la langue kabyle. Une fois collectés, ces enregistrements nous permettront par la suite d’apprendre à la machine à comprendre cette langue, dans ses différents dialectes.
Au début de mon projet, je disposais de plus de 250 000 phrases en kabyle issues de la plateforme Common Voice. Pour chaque phrase, on peut avoir jusqu’à 30 lectures de la part des locuteurs volontaires. Ce qui représente plus de 260 heures d’enregistrements vocaux. Et c’est ce que j’ai utilisé pour l’entrainement de mon modèle de reconnaissance automatique de la parole.
Actuellement, nous sommes à plus de 500 heures d’enregistrement pour la langue kabyle, et si on refait des entrainements, nous allons naturellement obtenir un modèle de reconnaissance plus performant. Il faut savoir que plus on a de données, plus le modèle généré sera plus performant et pourra reconnaitre plus de mots et de phrases en langue kabyle.
Par conséquent, je souhaite inviter tous les locuteurs de la langue kabyle à participer à ce projet, contribuer en faisant don de leur voix pour atteindre un objectif de 1200 heures durant l’année prochaine.
Pour les gens qui contribuent déjà où ceux qui sont à venir, je voudrais attirer leur attention sur un détail très important. En effet, il est fort recommandé de garder son accent et le dialecte de sa région lorsqu’on lit des phrases sur Common Voice, pour que le corpus vocal contienne des échantillons de tous ces dialectes et accents. Soyez naturels et décontractés, et lisez une phrase telle que vous l’auriez prononcée dans une discussion ordinaire. Les dialectes kabyles étant différents dans la prononciation du « l », du « ɛ » ou d’autres lettres, alors que chacun les lise tel qu’il les dit chez lui. Il ne faut surtout pas s’efforcer de lire d’une manière « standard » ou censurer son propre dialecte. Sans cela, le modèle de reconnaissance vocale ne pourrait reconnaitre qu’un ensemble limité de dialectes kabyles.
De plus, il n’est pas nécessaire d’avoir un matériel sophistiqué, ou un microphone de bonne qualité pour s’enregistrer. Utilisez vos téléphones ou PC même s’ils génèrent des interférences ou que vous avez un bruit de fond.
Votre modèle de reconnaissance vocale a suscité beaucoup d’intérêt auprès du grand public. Votre sentiment ?
En effet, le projet a bien été accueilli par le public. Je suis content d’avoir participé à l’avancée de notre langue à travers un projet pouvant être intégré dans plusieurs applications de différents domaines. Ce projet est le fruit du travail de centaines de contributeurs kabyles sur Common Voice, que je ne manque jamais de remercier. J’espère que cela renforcera leur détermination à s’investir encore davantage dans ces projets et que d’autres contributeurs nous rejoindront pour renforcer notre communauté.
Quelle est la suite pour votre projet mais aussi pour vous ?
J’ai récemment publié une première version de mon projet et du modèle optimal que j’ai pu produire. Étant un produit libre et open source, n’importe qui peut avoir accès à mon dépôt GitHub pour télécharger, utiliser ou contribuer à améliorer le travail que j’ai fait jusque-là.
Je dois néanmoins refaire des essais, des entrainements et des tests sur la nouvelle version du jeu de données de Common Voice qui contient actuellement plus de 500 heures de voix. Et tout cela dans le but d’avoir un modèle de reconnaissance plus performant. Par la suite, je veux déployer ce modèle sous forme d’application Web ou mobile pour qu’il soit utilisé par le large public.
Pour ma part, je compte poursuivre mes études, et parallèlement continuer à contribuer à tous ces projets de numérisation de la langue kabyle.
Nous avons appris que vous avez eu des propositions justement de projets universitaires, notamment à l’international
En effet, ça m’a ouvert quelques portes.
Y a-t-il d’autres projets universitaires de fin d’études qui allient numérique et langue qu’on peut imaginer ?
Oui. Le projet le plus trivial après celui-ci serait la synthèse vocale, ou TTS (Text to Speech). Il s’agit de générer un modèle qui permet de produire un signal sonore à partir d’un texte, en d’autre termes, lire ce texte automatiquement. Ce type d’application est utilisé pour la lecture automatique de livres ou de documents numériques, mais trouve une application fort intéressante dans l’assistance de personnes malvoyantes lors de la manipulation de leurs appareils électroniques. Nous souhaitons également l’intégrer à une application de GPS en kabyle qui est en cours de réalisation. Des applications de ce genre existent aussi pour d’autres langues, mais il serait utile de concevoir une pour la langue kabyle, notamment lorsque les applications les plus courantes seront localisées en kabyles.
En plus de ce projet, nous avons un projet de traduction automatique du kabyle vers l’anglais ou le français, et ce, en utilisant des données de la plateforme Tatoeba. Les projets de numérisation de la langue kabyle n’en sont qu’à leur début, beaucoup d’autres projets nécessaires, utiles et surtout faisables vont suivre. Il est essentiel que les étudiants en informatique en fin de cycle s’investissent dans de tels projets pour faire avancer notre langue.
Vous êtes informaticien, mais également musicien et peintre …
Oui, dans mes heures de détente j’aime diversifier mes loisirs. Je joue souvent à la guitare et au mandole, seul ou en groupe, des airs de chants traditionnels ou modernes. Mais je me suis découvert une passion pour le dessin et la peinture et j’ai participé à la dernière édition du festival Raconte-Arts où j’ai réalisé des fresques murales de calligraphie kabyle, en tifinagh ou en latin. J’espère pouvoir participer à d’autres événements et contribuer à mettre en évidence la beauté de notre langue.
Un dernier mot ?
Je remercie le média Vava Innova d’avoir fait la promotion de mon projet dès l’instant où il a été rendu public et de m’avoir offert l’opportunité de m’exprimer par rapport à mon travail. Je tiens à remercier Abdelkrime Aries, Muḥend Belqasem et Alexandre Lissy de la fondation Mozilla pour leur aide et soutien tout le long de mon projet de fin d’études. Et je m’incline devant la communauté de contributeurs kabyles sur Common Voice qui son dévoués et déterminés à produire le plus grand corpus vocal de notre langue, sans lequel mon travail n’aurait pas été possible.
J’invite tous les locuteurs de les kabylophones à rejoindre la plateforme Common Voice pour contribuer à l’enrichissement du corpus vocal. Ceux qui maitrisent le kabyle à l’écrit peuvent également contribuer des phrases sur Sentence Collector.
Propos recueillis par Muyyud