Géographie des prénoms

Cet article présente et commente l’application “Géographie des prénoms” accessible en cliquant sur ce lien

Mais où naissent les Jacky ?

Depuis plusieurs années, il est possible de récupérer la liste des prénoms attribués aux enfants dans chaque département depuis 1900 (sur cette page). Il est alors possible de tracer une carte de popularité des prénoms (comme celle des Décodeurs sur LeMonde.fr : Les prénoms les plus populaires depuis 1946).

Malheureusement, celles-ci ne reposent que sur des valeurs internes à chaque département (ou région). Or, plus que la popularité d’un prénom, qui ne représente que sa capacité à “faire mode”, je me demandais si ceux-ci pouvaient révéler une attache géographique (spoiler : oui). A partir des données INSEE, je me suis donc intéressé au pourcentage de naissance de chaque prénom dans une région vis-à-vis de sa moyenne nationale.

L’application propose deux modes de visualisation de ces données. Dans le premier, le survol d’une région permet d’afficher les dix prénoms ayant le plus grand écart de fréquence entre les échelles départementale et nationale. L’autre possibilité consiste à rechercher un prénom précis et voir apparaitre les variations de fréquence sur le territoire (avec un choix exquis des couleurs).

Les valeurs sont données en fréquence du prénom sur un million de naissance (pMn.)

Pour donner quelques exemples de résultats :

Limites à garder en tête

La liste des prénoms sur laquelle se base l’application à beau être importante, elle n’est pas exempte de biais. Et comme ce n’était pas suffisant, l’analyse réalisée en rajoute d’autres.

Le drame des Norbertine

L’aide indique que les données des prénoms excentriques ne sont pas fiables. Il ne s’agit pas d’un choix mais d’une limitation des données INSEE. Dans celle-ci, il y a anonymisation des prénoms donnés seulement une ou deux fois dans l’année dans un département sous l’appellation _prenoms_rares. En cherchant cette valeur, on se rend compte que 2% des naissances (il y a 75 Millions d’entrées au total) rentrent dans cette catégorie.

En conséquence, pour prendre l’exemple du titre : la carte “Norbertine” indique seulement trois naissances dans les territoires ultramarins, ce qui est le minimum pour apparaître dans le jeu. On peut supposer que des Norbertine sont également nées d’autres années (les chanceuses !) mais que, ne dépassant pas le seuil des deux naissances dans le même département, elles n’apparaissent pas sur la carte.

Génération·s

Nous sommes l’application où quatre générations coexistent. Les naissances sur lesquelles reposent l’application s’étendent de 1900 à 2016. Et de celles-ci, on s’intéresse à un pourcentage d’apparition de chaque prénom. En conséquence, la démographie d’un département influe sur les fréquences que l’on y trouve. On peut voir que les prénoms “classiques” (Marie ou Joseph) sont sous-représentés en région parisienne et sur-représentés en Lozère.

Je n’ai pas encore vérifié - je pense faire une version où l’année de naissance influe sur la pondération - mais on peut se douter que les fréquences de ces noms étaient identiquement hautes en début de XXème siècle et identiquement faible en fin. Cependant, le nombre de naissances par an en début et fin de siècle n’ayant sans doute pas évolué de la même façon (on peut supposer une augmentation bien plus forte en Île-de-France) les pourcentages se retrouvent biaisés.

Mettre l’accent où ça fait mal (en Haute-Garonne)

Cette partie s’intéresse à une anomalie qui n’est ni un biais ni une erreur : il s’agit de la présence des accents à l’état civil. J’ai fait le choix de ne pas regrouper sous un même label les noms avec et sans leurs accents. Après tout, Aime et Aimé ne sont pas le même prénom !

C’est au moment de la visualisation qu’il est apparu que la Haute-Garonne semble avoir (ou avoir eu) un traitement particulier des accents. Il suffit de voir : Léa vs Lea ou Léo vs Leo. Dans les deux cas la version sans accents est très présente en Haute-Garonne.

L’explication de cette différence m’échappe (il faudrait voir si l’absence d’accents est lié à une époque en particulier) mais je serais ravi de la connaître. De même si vous trouver d’autres faits intéressants, amusants ou les deux.

Informations techniques

Pour ceux qui souhaiteraient bidouiller les résultats ou obtenir des détails sur la réalisation très complexe de la page (au moins quelques heures).

Prendre l’R

La totalité de l’analyse a été effectué en R puis exporté en CSV pour l’affichage. L’objectif était, dès le départ, de fournir un fichier ZIP permettant de regarder en local les résultats, donc sans base de données. Cela explique le choix du chargement de fichiers CSV.

Pour la section Top 10, il s’agit simplement d’un CSV contenant le classe des plus grands écarts par département. C’est la section prénoms qui est plus intéressante. J’ai choisi d’exporter les résultats de chaque prénom dans un fichier à part qui est récupéré en AJAX en direct lorsque l’utilisateur interagit avec la barre de recherche. Cela permet d’éviter que chaque visiteur télécharge la base complète des prénoms.

Enfin, le dernier ajout est la section “Lien” qui permet de partager le résultat pour un prénom précis (#fame #baitClick). L’idée était de permettre des exemples dans cet article (pour dire, par exemple, les Adolphe sont étrangement proches de l’Allemagne). Il s’agit d’une simple lecture de l’URL (variable location.search en JS).

A la carte

Pour la réalisation de la carte, je me suis basé sur la librairie JQVMAP et surtout sur ce tutoriel pour obtenir la carte de France : Créer ses propres cartes.
La librairie n’est pas ultra intuitive (notamment pour gérer des versions mobiles) mais au moins elle est simple d’utilisation.


A dans environ dix mois !

Massal

Si vous avez des remarques, corrections, questions, je n’ai pas de sections commentaires mais j’ai un compte Twitter. Ce devrait être suffisant