1. Les autres sources de données quantitatives sur les langues
Parmi les sources fréquemment citées sur le nombre de locuteurs des langues minoritaires, on retrouve deux sites : Ethnologue et L’aménagement linguistique dans le monde. Ceux-ci n’ont pas été pris en compte dans le travail de recensement, et posent plusieurs problèmes s’ils sont utilisés comme source ou référence, pour les raisons que nous allons expliquer ici.
Ethnologue est un site ayant pour vocation de faire l’inventaire des langues vivantes parlées dans le monde, sous forme de fiches signalétiques accompagnées de différentes informations telles que les classifications linguistiques, les lieux d’usage, le nombre de locuteurs, etc. Référençant plus de 7 000 langues, le site est très souvent cité dans les travaux de recherche ou documents de référence. L’accès aux informations se fait par souscription, allant de 40 à 200 $ par mois47.
Or, Ethnologue est un site mis en place par SIL International48, une organisation non gouvernementale américaine de confession chrétienne évangéliste, dont les objectifs principaux sont l’évangélisation et l’étude des langues minoritaires, et plus spécifiquement à la traduction de la Bible dans ces langues. Le site de SIL International mentionne qu’au mois de mars 2022, l’organisation est impliquée dans 1 631 « programmes linguistiques actifs » dans 98 pays et 1 341 communautés locales49.
Les données présentes sur Ethnologue viennent donc en partie des différents « programmes linguistiques » de SIL International, et en partie des contributeurs individuels, qui peuvent proposer des données selon un système similaire à Wikipédia. D’après la description du site, les internautes peuvent postuler en indiquant leurs qualifications, et après examen d’un éditeur du site, peuvent proposer des données sur une ou plusieurs langues50. Le statut de contributeur permet d’avoir accès gratuitement au site, selon un système de crédit où chaque proposition de donnée permet de renouveler l’accès gratuit au site et inversement, l’absence de proposition supprime cet accès.
Qu’il s’agisse des données issues des programmes de SIL International ou celles des contributeurs, il est impossible, à partir du seul accès à Ethnologue, de connaître l’origine des chiffres présentés, ni des méthodes de collecte des données. Cette absence de transparence ne permet pas de vérifier la méthodologie ni la fiabilité de ces informations, dont on ne peut d’ailleurs pas non plus savoir s’il s’agit d’estimations théoriques ou de mesures statistiques à partir d’études quantitatives de terrain.
Le site Joshua Project fonctionne sur un système similaire. Joshua Project est une organisation missionnaire chrétienne évangélique, basée aux États-Unis, qui a pour but de christianiser les « peuples non-atteints » (« unreached peoples »). À ce but, le site propose des informations détaillées sur les groupes ethnolinguistiques de chaque pays accompagné de leur degré d’évangélisation, du pourcentage d’adhérents au christianisme dans chaque groupe, du pourcentage d’évangélistes et du niveau d’avancement de la traduction de la Bible en chaque langue. En septembre 2023, le site de Joshua Project comptabilise 17 446 groupes de population, dont 7 391 sont considérés comme « non-atteints »51. Les statistiques ethniques et linguistiques pour chaque groupe sont basés sur un ensemble de sources, comprenant entre autres Ethnologue, ainsi que d’autres organisations évangélistes du même type (Etnopedia, World Christian Encyclopedia, Asia Harvest, etc.), mais aussi le World Factbook52, une publication de la CIA donnant différentes informations sur les pays du monde à partir des données des agences gouvernementales américaines53. Il est également possible pour les internautes de contribuer à la mise à jour des données. De la même façon qu’Ethnologue, le site de Joshua Project n’a pas de transparence concernant la nature, les méthodes de calcul ou les sources des données présentées sur les fiches de chaque groupe ethnolinguistique, et il est impossible de tracer les données ou de vérifier leur fiabilité par simple usage du site.
Enfin, Ethnologue et Joshua Project sont deux sources fréquemment citées par le site L’aménagement linguistique dans le monde, hébergé par la CEFAN54 de l’Université Laval au Québec. Réalisé par le linguiste canadien Jacques Leclerc, ce site recense les situations linguistiques des 195 pays du monde. Chaque fiche présente de nombreuses informations démographiques, linguistiques, ethniques, historiques, mais également politiques (articles de loi concernant les langues, historique des politiques linguistiques, etc.).
Le site L’aménagement linguistique dans le monde est très souvent cité comme source concernant le nombre de locuteurs des langues parlées en France dans différents documents et articles de recherche, en particulier pour les territoires des Outre-mer, sur lesquels il manque beaucoup d’informations dans le domaine de la statistique publique. Or, les chiffres cités sont le plus souvent issus d’Ethnologue et Joshua Project, ce qui rend impossible d’en vérifier l’origine ou la fiabilité. Par exemple, dans le cas de la Guyane française55, le site L’aménagement linguistique dans le monde donne une liste issue de Joshua Project de 22 groupes ethniques auxquels sont chacun associés une langue et un nombre de locuteurs. En plus du problème de transparence des chiffres, l’association d’un groupe ethnique à une langue pose déjà problème du point de vue méthodologique, car elle ne prend pas en compte le plurilinguisme des populations et utilise une approche essentialiste qui associe langue et ethnicité (on sait par exemple que le créole guyanais joue un rôle de langue véhiculaire parmi les différents groupes de population en Guyane). Pour citer un autre exemple, sur la page concernant la Guadeloupe56, le site L’aménagement linguistique dans le monde présente à la fois les données de Ethnologue et Joshua Project, qui en plus des problèmes généraux de transparence et méthodologie déjà évoqués, donnent des chiffres erronés concernant la population du territoire (les chiffres présentés ne correspondent ni l’un ni l’autre à la population totale recensée sur le territoire par l’INSEE la même année et ont un écart très important57).
L’utilisation de ces sources posent donc de nombreux problèmes méthodologiques et l’absence de transparence sur de nombreux sites entraîne donc à la fois les chercheurs, les acteurs publics et la population à se baser sur des données incorrectes, non-vérifiées ou biaisées. À l’inverse, on constate que cette situation est une conséquence vraisemblable de l’absence de données linguistiques accessibles et fiables sur de nombreux territoires, en particulier en Outre-mer, qui pousse différents acteurs à se diriger vers ces sources à défaut d’en trouver d’autres.
2. Enquêtes quantitatives et prestataires privés
Les enquêtes quantitatives régionales sur les langues ont la particularité d’être souvent réalisées par des prestataires privés. En effet, les collectivités territoriales et associations étant elles-mêmes limitées en effectifs, la collecte des données sur le terrain et le traitement des informations ne peut se faire en interne, et passe donc en général des cabinets de sondage, des sociétés de centre d’appels, cabinets d’études marketing, etc.
Dans le cadre des enquêtes réalisées à l’initiative des régions ou départements, le choix du prestataire qui va collecter les données sur le terrain se fait suite à un appel d’offres et est supervisé par un comité de pilotage (qui, lui, est généralement formé d’acteurs publics et d’experts ou chercheurs sur les langues étudiées).
Voici quelques exemples de prestataires privés commandités par des acteurs publics ou associatifs pour des enquêtes linguistiques :
-
IFOP
-
IPSOS
-
OpinionWay
-
Kantar TNS (anciennement TNS Sofres, entreprise de sondages)
-
SAGIS (groupe réunionnais de marketing et études)
-
Teleperformance (société privée de centre d’appels)
-
ED Institut (institut d’études marketing à Strasbourg)
-
Decryptis (cabinet d’études et de marketing)
-
SIADOC (société espagnole de recherche appliquée pour le développement communautaire à San Sebastian)
-
TMO Régions (institut d’études et de sondages d’opinion à Rennes)
-
Institut CSA (institut d’études marketing et d’opinion)
-
COHDA (institut d’études quantitatives à Bordeaux)
Dans de nombreux cas, les instituts livrent seulement des analyses finales (rapports présentant des résultats généraux), et non les données brutes, ce qui empêche de vérifier la qualité des données et potentiellement de les exploiter en dehors de ce rapport. Si le contrat de prestation ne prévoit pas de livrer les données et de trouver un moyen de sauvegarder celles-ci, elles sont donc rendues inaccessibles.
Ainsi, pour la plupart des enquêtes linguistiques qui ne sont pas issues de la statistique publique, on se trouve dans une situation où les rapports livrés par les prestataires à l’issue de ces enquêtes sont accessibles au public, mais les données sont perdues, car les acteurs publics eux-mêmes ignorent si elles ont été supprimées ou stockées quelque part par le prestataire. Ce phénomène est amplifié par le temps écoulé (les enquêtes des années 2000 sont encore plus difficiles à retrouver) et par la dispersion des enquêtes, qui sont trop nombreuses dans ce cas et avec des commanditaires trop différents les uns des autres pour que l’on puisse tracer les enquêtes. L’équipe de l’Adisp-Progedo, d’ailleurs, ne traite en général pas de ces enquêtes-là, à cause de la difficulté à retrouver les données58. De ce fait, ni les chercheurs ni le public ne peuvent accéder à ces informations, qu’il s’agisse de vérifier les méthodes ou bien d’exploiter les données plus précisément ou d’une autre façon que ce qui avait été fait dans les rapports d’enquête.
Or, depuis 2016, la loi du 7 octobre 2016 pour une République numérique59 oblige les acteurs publics à rendre accessibles leurs bases de données. Il y a donc également un problème de mis à jour des pratiques afin de s’adapter à cette situation. De plus, les structures de stockage de données telles que Progedo sont encore largement mal connues des pouvoirs publics.
Extrait de la page « Pour une République numérique » à propos de la loi du 7 octobre 2016 sur Gouvernement.fr60
Favoriser la circulation des données et du savoir (Titre I)
Ouverture par défaut des données publiques et des données d’intérêt général
La loi crée l’obligation pour les organismes publics de communiquer gratuitement en ligne leurs bases de données, sous réserve d’anonymisation et de protection du secret industriel et commercial, qui pourront ainsi être exploitées et réutilisées facilement par un particulier. Certains acteurs privés (entreprises titulaires des marchés publics, bénéficiaires de subventions publiques…) seront également tenus de communiquer des données d’intérêt général qui pourront concerner l’exploitation des services publics de transports, les transactions immobilières, ou encore la gestion et le recyclage des déchets. Les données issues de travaux de recherche scientifique financées par la puissance publique pourront également être accessibles librement après une courte période.
Libre accès aux résultats des travaux de recherche publique et autorisation de la fouille de textes et de données
Les résultats de travaux de recherche financés à plus de 50 % par des fonds publics pourront être mis en ligne en libre accès par leurs auteurs, après une période d’embargo de 6 à 12 mois. Cette mesure facilitera la libre diffusion de résultats de recherche dont la diffusion était auparavant restreinte et rendue payante par les éditeurs. Le projet de loi autorise également la fouille de textes et de données en ligne, une pratique essentielle dans le cadre de recherches en sciences humaines et sociales, qui était jusqu’à présent restreinte par les droits de propriété intellectuelle.
D’autre part, le recours systématique des acteurs régionaux et associatifs aux prestataires privés pour la réalisation de ce genre d’enquête montre également que les acteurs de la recherche publique, bien que souvent sollicités dans les comités de pilotage, ne sont que rarement les producteurs des données, malgré une compétence et une expertise qui pourraient être utilisées.
Les enquêtes FORA (Francoprovençal et occitan en Rhône-Alpes), datant 2009, fait partie des rares exemples d’enquêtes linguistiques régionales réalisées entièrement par des laboratoires de recherche. Commanditée par la Région Rhône-Alpes, en collaboration avec 4 laboratoires publics61, l’enquête a été réalisée par l’Institut Pierre Gardette, un centre de recherche de l’Université Catholique de Lyon. Les responsables de l’étude étaient d’ailleurs deux professeurs d’université en linguistique, Michel Bert et James Costa. L’enquête avait un échantillonnage d’environ 1 000 interrogés.
Sur un échantillonnage beaucoup plus petit, l’enquête sur la langue régionale en Bretagne gallo en 2016 montre aussi un exemple d’utilisation des acteurs de la recherche publique : commanditée par le Conseil Régional de Bretagne, l’enquête a été confiée au Laboratoire PREFICS de l’Université Rennes 2, et pilotée par plusieurs chercheurs et doctorants du laboratoire, ainsi qu’une ingénieure d’étude recrutée à ce but62.
Ces deux exemples montrent qu’il est possible d’envisager une participation plus importante des acteurs de la recherche publique dans la réalisation des enquêtes locales, à des échelles différentes.
L’Enquête sur le mal‐être et la détresse psychologique des personnes sourdes, malentendantes, devenues sourdes et/ou acouphéniques, réalisée en 2011 à l’initiative de l’Unisda63, montre également comment la société civile peut dans certain cas rediriger une enquête. Le prestataire de cette étude était TNS Sofres, une agence de sondage. Les questionnaires avaient été diffusés par le biais de plusieurs associations spécialisées sur les personnes sourdes, malentendantes et acouphéniques, dont Bucodes SurdiFrance. Cependant, l’exploitation des résultats par TNS-Sofres (qui avait, dans son rapport, agrégé sourds de naissance et personnes devenues sourdes) posait problème à l’association, qui a demandé à l’Unisda d’obtenir les données afin d’effectuer leur propre analyse :
« Au printemps de 2010, nous avons diffusé auprès de nos adhérents le questionnaire préparé par l’Unisda d’une enquête nationale sur la détresse psychologique des personnes sourdes, malentendantes, devenues sourdes et/ou acouphéniques. L’exploitation des résultats de cette enquête par TNS-Sofres à la demande de l’Unisda ne nous satisfaisait pas car en agrégeant sourds de naissance et personnes devenant sourdes, elle occultait l’importance de l’âge de survenue de la surdité sur la situation réelle des personnes interrogées. Nous avons obtenu que l’Unisda nous donne les fichiers des réponses à cette enquête, et c’est notre analyse de cette enquête que nous vous proposons ici. »64
Ainsi, bien que l’utilisation de prestataires privés soit très largement répandue dans les enquêtes locales, il est également possible de pouvoir évoluer vers plus de transparence et d’accessibilité des données pour le monde de la recherche et de la société civile, et d’éviter finalement la perte des informations, dommageable pour de nombreux acteurs.
3. Le cas particulier de la Langue des Signes Française (LSF)
Un autre constat en termes d’hétérogénéité des données est la difficulté à évaluer le nombre de locuteurs de la LSF (langue des signes française) sur le territoire. La LSF fait partie de la liste des langues de France, à laquelle elle a été ajoutée en 2002, en tant que langue « non‑territorialisée ».
En 2005, la LSF est officiellement reconnue comme une langue à part entière. La loi n° 2005-102 du 11 février 2005 pour l’égalité des droits et des chances, la participation et la citoyenneté des personnes handicapées, ajoute également que « tout élève concerné doit pouvoir recevoir un enseignement de la langue des signes française » et que le Conseil supérieur de l’éducation doit veiller à son enseignement65.
Cependant, il est très difficile d’évaluer le nombre précis de locuteurs de LSF en France, car il existe très peu d’études statistiques à ce sujet. La majorité des études considérant les sourds avant tout comme des personnes en situation de handicap, c’est-à-dire comme relevant de la santé (et non comme des personnes disposant d’une langue et culture), la question de la langue y apparaît comme secondaire. Parmi les enquêtes réalisées par les acteurs de la statistique publique, seules deux d’entre elles comprennent des questions relatives à la LSF : l’enquête Handicap Santé (2008-2009), menée par l’INSEE, et l’Enquête sur les pratiques culturelles (2018), menée par le Département des Études de la Prospective, des Statistiques et de la Documentation (DEPSD) du ministère de la Culture.
L’enquête Handicap Santé concernait les individus touchés par différents problèmes de santé et par des niveaux de handicap variés. Parmi les personnes interrogées ayant déclaré avoir une difficulté à parler, il a été demandé combien de personnes utilisaient ou comprenaient la LSF. Sans prendre en compte les critères de représentativité et de pondération, le nombre d’occurrence de réponse était de 132 personnes (volet institutions) et 498 personnes (volet ménages).
L’Enquête sur les pratiques culturelles, quant à elle, n’avait pas de question spécifique à la LSF, mais avait cependant une entrée relative à celle-ci pour la question « Langue parlée avec les parents à l’âge de 5 ans » : il était possible de répondre la LSF, ou la LSF conjointement avec le français. Sur les 6376 personnes interrogées, sans prendre en compte les critères de représentativité et de pondération, il y a eu 36 occurrences de personnes déclarant parler la LSF avec « l’adulte 1 » à l’âge de 5 ans, comme langue unique ou conjointement avec le français.
Dans les deux cas, le nombre d’occurrences dans ces enquêtes est trop faibles pour pouvoir pondérer les réponses et donner une estimation fiable et représentative du nombre de locuteurs de LSF au niveau national (le rapport du DEPSD concernant le volet linguistique de l’Enquête sur les pratiques culturelles mentionnait d’ailleurs que la LSF faisait partie du questionnaire, mais n’avait pas été comptabilisée dans les résultats à cause des effectifs de réponses trop réduits66). Par ailleurs, dans le cas de l’enquête sur les pratiques culturelles, la question portait sur la langue parlée pendant l’enfance, ce qui n’est pas forcément représentatif de la pratique d’une personne une fois passée à l’âge adulte (par exemple, certains sourds utilisent également l’oral de la langue vocale assorti ou non de la langue française parlée complétée, qui n’est pas une langue en soi mais un code manuel d’appui à l’oral de la langue française). Enfin, ces deux enquêtes ne concernent en fait pas les mêmes populations de pratiquants de la langue des signes : dans le premier cas, il s’agit d’une enquête sur les populations ayant des handicaps liés à la parole, tandis que le second cas concerne les enfants élevés par des parents pratiquant la LSF, ce qui comprend les enfants sourds mais aussi potentiellement des populations entendantes, telles que les enfants entendants nés de parents sourds (EEPS), qui représentent une population spécifique et très peu connue67.
Concernant la pratique de la LSF parmi les populations ayant des problèmes d’audition, en 2010, une enquête a été initiée par l’Union nationale pour l’Insertion Sociale du Déficient Auditif (Unisda) sur le mal‐être et la détresse psychologique des personnes sourdes, malentendantes, devenues sourdes et/ou acouphéniques. L’enquête disposait d’un échantillon de 2515 personnes, sélectionnées sur base de volontariat parmi les membres de diverses associations en lien avec le handicap sonore. En 2011, l’association Bucodes SurdiFrance a publié une analyse à partir des données de cette enquête68, en précisant un point qui n’avait pas été pris en compte dans les précédents rapports : l’âge de survenue de la surdité sur les personnes concernées. Cette analyse apporte des informations très intéressantes sur les pratiques langagières des personnes en situation de surdité : parmi les personnes dont la surdité est arrivée après l’âge de 18 ans, plus de 90 % d’entre elles utilisent la parole seule comme mode de communication. À l’inverse, c’est parmi les sourds de naissance que l’on observe la plus grande variété des pratiques de communication, avec 40 % d’entre eux utilisant la parole seule, un peu moins de 30 % utilisant conjointement la parole et la LSF, environ 10 % utilisant conjointement la parole et le LPC, et environ 15 % utilisant uniquement la LSF (on peut noter également un faible nombre utilisant les trois modes de communication à la fois). Il y aurait également un phénomène générationnel parmi les sourds de naissance, où la pratique de la LSF aurait diminué au profit du français oral appuyé par la LFPC dans les trente dernières années, alors que la pratique de la parole vocale serait plus constante avec une certaine augmentation.
Ainsi, il est très difficile de quantifier la pratique de la LSF au niveau national, car elle regroupe en réalité des populations très diverses (sourds et entendants), des âges d’apprentissages très divers (en fonction de l’âge de survenue de la surdité mais également des choix personnels et familiaux ; langue maternelle d’une minorité de sourds de naissance mais également de certains entendants ; langue apprise plus ou moins tardivement, au cours de la scolarité ou après), et des pratiques également diverses (la pratique des signes de la LSF chez les sourds est souvent associée à d’autres pratiques langagières telles que le français oral, appuyé ou non par la LfPC). Dès lors, si l’on veut évaluer la pratique de la LSF, il est nécessaire de prendre en compte cette complexité, car comme l’a montré l’exemple des enquêtes de l’INSEE et du DEPSD, la formulation des questions renvoie à différents types de populations locutrices de LSF et à différents modes d’apprentissage de cette dernière. Enfin, il existe également une grande hétérogénéité des niveaux de compétences en LSF : il est difficile d’évaluer par exemple combien d’apprenants entendants, en nombre toujours croissant, en ont une maîtrise comparable à celle des locuteurs sourds bons signeurs et, parmi les sourds eux-mêmes, notamment ceux ayant acquis tardivement la LSF après une éducation à large dominante oraliste, quel est exactement leur niveau de compétences.
