Dans le cours : Préparer votre carrière dans l'analyse de données

Connaître les bonnes pratiques dans la data

Dans le cours : Préparer votre carrière dans l'analyse de données

Connaître les bonnes pratiques dans la data

Avez-vous une approche des données ? Y avez-vous déjà réfléchi ? Après des années de travail avec des données sur des projets ou des rapports ad hoc, j’ai développé une approche bien définie pour tous les jeux de données sur lesquels j'ai travaillé. Je réalise certaines opérations sur tous les jeux de données. La procédure peut varier légèrement selon le logiciel que j’utilise, mais pour cet exemple j’utilise Microsoft Excel. Ce fichier de transactions a été exporté d’un logiciel que nous utilisons pour analyser nos transactions. Habituellement, quand nous travaillons sur un rapport ad hoc ou un projet, nous avons une idée de ce que nous allons livrer. Mais pour vous montrer que cette approche fonctionne avec tous les jeux de données, je n’ai pas de but précis en tête. Je veux juste en savoir plus sur ce jeu de données. Si je prends le temps en amont d’en découvrir plus sur ce jeu de données, j’obtiendrai de meilleurs résultats quand je me mettrai au travail pour atteindre l’objectif final du projet. Excel trie, filtre et exécute des commandes sur ce qu’il voit comme un jeu de données. La toute première chose que je fais est confirmer que les données sur lesquelles je travaille, la liste des transactions, est entièrement reconnue par Excel comme un jeu de données. C’est-à-dire qu’il n’y a pas de rupture dans les données. Pour ce faire, j’utilise mon raccourci préféré. Il sélectionne toutes les données qu’Excel voit dans la plage. Ce raccourci est simplement CTRL + A. Mais cela ne suffit pas. Il y a beaucoup de données, et j’ai tout sélectionné. Mais si je dézoome, je me rends tout de suite compte que j’ai un jeu de données incomplet. Comme vous le voyez, la colonne Z est vide et cela signifie qu’Excel va trier et filtrer uniquement ce qui se trouve à gauche. Pour corriger ce jeu de données, je fais un clic droit sur la colonne Z et je la supprime. Bien, je refais ce raccourci. Je clique sur une cellule, puis j’appuie sur CTRL + A et j’ai maintenant un jeu de données complet qui sera reconnu par Excel. Cela me permettra de trier, filtrer et exécuter toutes sortes de commandes de données plus facilement. Je vais faire CTRL + touche de début pour remonter jusqu’à A1. Avant d’aller plus loin, la première chose que je fais quand je travaille sur un jeu de données est d’en faire une copie. Je place ma souris en bas de la liste de transactions, sur l’onglet de la feuille de transactions, je maintiens la touche contrôle enfoncée, je fais glisser et je relâche l’onglet légèrement plus à droite. Je relâche ma souris et la touche contrôle. Cela crée une copie. Je la renomme « Copie de travail ». De cette façon, si je fais des erreurs, je pourrai toujours retrouver la liste de transactions de départ. Bien, maintenant regardons les données de plus près. Quand je vois des champs nommés « ID » comme TransactionID, je sais qu’il s’agit de champs essentiels de la base de données. Voyons combien il y en a. Je clique sur Tout sélectionner, qui sélectionne tout le contenu de la feuille, et je double-clique entre les en-têtes de colonnes A et B. Cela affiche toutes les données au format. Voilà. Je vois TransactionID, ProductID, ReferenceOrderID... Ce sont donc des champs essentiels et je me demande immédiatement : y a-t-il des doublons dans ce jeu de données ? Je sélectionne donc la colonne TransactionID parce que c’est ce qui doit impérativement être unique. Je sélectionne TransactionID et je veux mettre en évidence les doublons avant de voir ce que j’en fais s’il y en a. Je clique sur Mise en forme conditionnelle, Règles de mise en surbrillance des cellules, puis Valeurs en double. Je choisis le remplissage rouge clair et je clique sur OK. Je regarde alors mes données et je vois immédiatement des données en double. Donc si j’en fais le total ou si je compte le nombre d’enregistrements, j’obtiendrai une quantité d'informations exagérée. Il faut donc s’occuper de ces doublons. Je vais faire CTRL + touche de début pour remonter jusqu’à A1. Il est facile de traiter les doublons quand on sait quels champs sélectionner. Je sais que cette transaction est un doublon parce que le TransactionID est présent en double. Je les vois tous surlignés en rouge. On les trouve facilement maintenant que nous savons qu’il y a des doublons, mais dans un océan de données, ils peuvent être difficiles à trouver. Voilà. Supprimons maintenant les doublons. Cette commande les supprime vraiment, mais ce n’est pas un problème. J’ai fait une copie. Je vais dans Données, je choisis Supprimer les doublons, je vais Désélectionner tout pour cet exemple, et je choisis TransactionID. Je vais cliquer sur OK. Excel me dit qu'il a trouvé une tonne de doublons et qu’il va me laisser uniquement 1228 enregistrements qui sont uniques. Parfait. Je vais cliquer sur OK. J’ai maintenant un jeu de données intègre, sans ligne vide, sans colonne solide. Je sais que je n’ai pas de doublons parce que je les ai supprimés et j’ai une copie de travail donc je peux continuer à explorer ces données. Ce n’est pas une liste exhaustive d’approches mais des techniques que vous pouvez appliquer à chaque fois que vous commencez à travailler sur des jeux de données sur Excel.

Table des matières