Étudiante en statistique, on me demande d'encadrer un étudiant en sciences humaines dans le traitement statistique d'un questionnaire qu'il a administré. J'étais contente de savoir que le bases de données étaient déjà créées, jusqu'au moment où je les ai vérifiées et ai remarqué quelques biais au traitement statistique :
- Les variables ont été nommées par le nom complet de la question (exemple : « est-ce que vous pensez que[...]? »).
- Les questions à choix multiples ont été codées en une seule variable pour toutes les modalités et non une variable par modalité.
- Certaines modalités ont été codées différemment selon les individus.
- Certaines lignes (individus) représentent en fait plusieurs personnes et pour le profil sociodémographique, donc pour ces variables on a le droit à plusieurs réponses différentes pour un même individu.
PEBKAC.
Pour les marques, gammes et modèle, au début il utilisait un champ de saisie. Va trier après la liste quand les espaces ne sont pas placés pareil, avec une casse aléatoire et les risques de fautes de frappes...