Développé sur trois ans, WAXAL vise à responsabiliser les chercheurs et à soutenir la création d’une technologie inclusive à travers l’Afrique.
Développé sur trois ans, WAXAL vise à responsabiliser les chercheurs et à soutenir la création d’une technologie inclusive à travers l’Afrique.
Pour de nombreuses personnes dans le monde, parler à des appareils est devenu une seconde nature, que ce soit pour obtenir un itinéraire, consulter l'actualité ou dicter des notes vocales. Cependant, cette commodité disparaît souvent lorsque la technologie ne peut pas comprendre les langues locales – une réalité pour des centaines de millions de personnes, notamment en Afrique subsaharienne, où plus de 2 000 langues distinctes sont parlées. Le principal défi dans le développement d’une technologie vocale inclusive pour la région a été le manque de données vocales accessibles et de haute qualité.
Pour combler cette lacune, les chercheurs ont introduit WAXAL, un ensemble de données nommé d’après le mot wolof signifiant « parler ». Développé sur trois ans, WAXAL vise à responsabiliser les chercheurs et à soutenir la création d’une technologie inclusive à travers l’Afrique. L'ensemble de données couvre 21 langues, dont l'acholi, le haoussa, le luganda et le yoruba, et comprend plus de 11 000 heures de données vocales provenant de près de deux millions d'enregistrements. Il comprend environ 1 250 heures de parole transcrite pour la reconnaissance automatique de la parole (ASR) et plus de 20 heures d'enregistrements en studio pour les applications de synthèse vocale (TTS).
Le projet est un effort collaboratif dirigé par des institutions et des experts africains. L’Université Makerere en Ouganda et l’Université du Ghana ont collecté des données pour 13 langues, tandis que Digital Umuganda au Rwanda a dirigé la collecte de données pour cinq langues supplémentaires. Des enregistrements en studio de haute qualité ont été produits en partenariat avec Media Trust et Loud n Clear, et l'Institut africain des sciences mathématiques (AIMS) a fourni des ensembles de données multilingues pour les extensions futures. Le cadre garantit que les partenaires conservent la propriété des données qu'ils ont collectées tout en mettant des ressources à la disposition de la communauté mondiale de la recherche.
WAXAL capture des discours authentiques de manière éthique, combinant l'utilisation quotidienne du langage (comme les participants décrivant des images dans leur langue maternelle) avec des enregistrements vocaux professionnels pour le développement de la synthèse vocale. Au-delà du soutien à l’innovation en matière d’IA, WAXAL devrait contribuer à la préservation numérique des langues africaines. L'ensemble de données complet est publié sous licence ouverte et est disponible aujourd'hui sur Hugging Face, avec une méthodologie détaillée publiée dans un document de recherche d'accompagnement.