CEPII - Language - Presentation

La base « Language » fournit de nouvelles séries pour la langue officielle commune (COL), la langue parlée commune (CSL) et la langue maternelle commune (CNL). Dans le cas de la proximité linguistique, LP1 et LP2, la base fournit les valeurs non ajustées qui servent à construire deux mesures différentes, appelées PROX1 et PROX2. Ces séries sont disponibles pour 195 pays.

L’archive zip comprend également un programme stata (do-file) qui permet de construire les séries LP1 et LP2. Il permet également de construire les deux variables à partir d’un autre ensemble de données. Ceci est particulièrement important dans le cas de LP1 et LP2 car ces deux variables dépendent des données utilisées. Ce programme permet également de construire un indice de Langue Commune (CL) unique, une variable qui dépend, à son tour, de LP et qui est donc également dépendante des données.

Merci de lire la publication associée. Si vous n’y trouvez pas la réponse à vos questions, contactez-nous.

Référence à citer : Melitz, J. et Toubal, F (2014) Native Language, Spoken Language, Translation and Trade. Journal of International Economics, Vol. 92, N°2: 351-363.

Responsable & contact : Jacques Melitz & Farid Toubal, language

cepii.fr

Licence : Etalab 2.0

Téléchargement

Language Data (STATA)

Méthodologie

Dans « Language », la mesure de la langue officielle commune (COL, en anglais) est un booléen (0 ou 1). La source d’information habituelle pour construire la variable COL est le World Factbook de la CIA. Bien que nous l'ayons également utilisée, nous avons adopté une définition légèrement plus large de la LCO (voir le document de travail).

En ce qui concerne la langue maternelle commune (CNL) et la langue parlée commune (CSL), le critère retenu est que toutes les langues soient parlées par au moins 4 % de la population dans deux pays. Les données sur la langue maternelle et la langue parlée proviennent de diverses sources décrites en détail dans le document de travail.

Nous avons construit deux mesures distinctes de la Proximité Linguistique, LP1 et LP2. LP1 s'inspire de l'idée de Fearon (2003) et Laitin (2000) de calculer les proximités linguistiques sur la base de la classification « Ethnologue des arbres linguistiques » entre arbres, branches et sous-branches. En ce qui concerne LP2, la source est une analyse de la similarité lexicale entre 40 mots qui a été compilée par le projet « Automated Similarity Judgment Program » (ASJP).