Qu'est-ce que les données du panel?

Les données de panel, également appelées données longitudinales ou données de séries chronologiques transversales dans certains cas particuliers, sont des données dérivées d'un nombre (généralement faible) d'observations au fil du temps sur un nombre (généralement important) d'unités transversales comme des individus , ménages, entreprises ou gouvernements.

Dans les disciplines de l'économétrie et des statistiques, les données de panel se réfèrent à des données multidimensionnelles qui impliquent généralement des mesures sur une certaine période de temps. À ce titre, les données du panel sont constituées des observations des chercheurs sur de nombreux phénomènes qui ont été collectés sur plusieurs périodes pour le même groupe d'unités ou d'entités. Par exemple, un ensemble de données de panel peut être un ensemble qui suit un échantillon donné d'individus au fil du temps et enregistre des observations ou des informations sur chaque individu de l'échantillon.

Exemples de base d'ensembles de données de panneau

Voici des exemples très basiques de deux ensembles de données de panel pour deux à trois personnes sur plusieurs années au cours desquelles les données collectées ou observées incluent le revenu, l'âge et le sexe:

Panel Data Set A

La personne

Année le revenu Âge Sexe
1 2013 20 000 23 F
1 2014 25 000 24 F
1 2015 27 500 25 F
2 2013 35 000 27 M
2 2014 42 500 28 M
2 2015 50 000 29 M

Panel Data Set B

La personne

Année le revenu Âge Sexe
1 2013 20 000 23 F
1 2014 25 000 24 F
2 2013 35 000 27 M
2 2014 42 500 28 M
2 2015 50 000 29 M
3 2014 46 000 25 F

L'ensemble de données de panel A et l'ensemble de données de panel B ci-dessus montrent les données collectées (les caractéristiques du revenu, de l'âge et du sexe) sur plusieurs années pour différentes personnes. L'ensemble de données du panel A montre les données collectées pour deux personnes (personne 1 et personne 2) sur une période de trois ans (2013, 2014 et 2015). Cet exemple de jeu de données serait considéré comme un panneau équilibré parce que chaque personne est observée pour les caractéristiques définies du revenu, de l'âge et du sexe chaque année de l'étude. En revanche, l'ensemble de données du panel B serait considéré comme un panneau déséquilibré car les données n'existent pas pour chaque personne chaque année. Les caractéristiques des personnes 1 et 2 ont été collectées en 2013 et 2014, mais la personne 3 n'est observée qu'en 2014, pas 2013 et 2014. 

Analyse des données du panel dans la recherche économique

Il existe deux ensembles distincts d'informations qui peuvent être dérivés des données de séries chronologiques transversales. La composante transversale de l'ensemble de données reflète les différences observées entre les sujets ou entités individuels, tandis que la composante de série chronologique qui reflète les différences observées pour un sujet au fil du temps. Par exemple, les chercheurs pourraient se concentrer sur les différences de données entre chaque personne dans une étude de panel et / ou les changements des phénomènes observés pour une personne au cours de l'étude (par exemple, les changements de revenu au fil du temps de la personne 1 dans les données de panel Définir A ci-dessus).

Ce sont les méthodes de régression des données de panel qui permettent aux économistes d'utiliser ces différents ensembles d'informations fournies par les données de panel. À ce titre, l'analyse des données du panel peut devenir extrêmement complexe. Mais cette flexibilité est précisément l'avantage des ensembles de données de panel pour la recherche économique par rapport aux données conventionnelles transversales ou chronologiques. Les données du panel donnent aux chercheurs un grand nombre de points de données uniques, ce qui augmente le degré de liberté du chercheur pour explorer les variables et les relations explicatives.