Vous disposez d'un ensemble de données que vous avez collectées et vous vous apprêtez à vous lancer dans leur traitement. Permettez-moi cependant de vous mettre en garde ! Je vous conseille vivement de prendre quelques instants pour penser au pré-traitement des données. Cette étape, essentielle selon moi, vous permettra de vous assurer l'efficience du traitement de vos données et - par conséquent - la fiabilité de votre reporting.
Des données brutes à leur traitement
Lorsque vous collectez des données, vous récoltez des données brutes, non traitées. Qu’il s’agisse de données collectées au fil des années et cumulées sur vos serveurs, ou de données fraichement obtenues, le principe est le même.
Si les dispositions permettant d’assurer la fiabilité des données ne sont pas prises en amont de la collecte, ces données sont rarement exploitables en l’état. En effet, ces données peuvent avoir plusieurs problèmes : comporter des erreurs de saisie, de format, être manquantes, etc. C’est pourquoi traiter ces données en l’état est dangereux pour la consistance de vos indicateurs.
Entre les données primaires et le traitement des données, l’étape de pré-traitement des données me semble essentielle. Le pré-traitement des données est l’ensemble des opérations qui vont convertir les données primaires en un format exploitable pour traitement. L’intérêt du pré-traitement des données est de les rendre plus compréhensibles et plus adéquates pour une exploitation approfondie.
Les composantes du pré-traitement des données
Pré-traitement des données : structurer les entrées
Selon moi, la première composante du pré-traitement des données est la structuration de la base de données. En effet, lorsqu’une base de donnée vous est transmise, il est possible qu’elle ne réponde pas aux exigences du projet. À vrai dire, cela arrive même très régulièrement.
Dès lors, pour vous assurer que le traitement des données sera effectué dans les conditions optimales, il est nécessaire de procéder à la structuration des bases de données. Cette structuration passe par une catégorisation des données. Autrement appelé « labelling« , « étiquetage » ou « taggage« , cette opération consiste à attribuer des informations contextuelles complémentaires aux données.
Pré-traitement des données : corriger les entrées
La correction des données me semble être vraiment essentielle. Sans cela, vous pourriez baser vos traitements sur des données erronées. Au mieux, vous obtiendrez une erreur de résultat de votre algorithme. Au pire, vous obtiendrez des informations erronées sans vous en rendre compte. Ce qu’il faut surtout retenir, c’est qu’une base de donnée qui n’est pas clean est source d’erreurs parfois lourdes de conséquences. Comme le dit l’adage : « Garbage in = garbage out ».
Corriger les données est donc une étape importante du pré-traitement des données. Pour commencer, je vous invite donc à traquer les erreurs, les inconsistances, les invalidités présentes dans votre base de données. Quelques exemples d’erreurs courantes : les fautes d’orthographe (dans le nom d’une ville « Paris », « Pairs », « Pari », etc.), les erreurs de saisie (une personne âgée de 734 ans), etc.
Une fois cette étape réalisée, je vous suggère de revoir l’intégralité de vos canaux de collecte de données pour les corriger. En effet, s’il vous est possible de limiter la création d’erreurs en amont vous vous épargnerez ce travail fastidieux par la suite. Néanmoins, quand bien même vous avez limitées les erreurs, je vous conseille de toujours procéder à quelques vérifications au hasard. Le risque 0 n’existe pas.
Pré-traitement des données : quand les données manquent
Une autre composante du pré-traitement des données consiste à appréhender les données manquantes. En effet, il n’est pas rare que les bases de données dont vous disposez manquent de consistance. Cela peut arriver quand, par exemple, vous collectez de nouvelles données à partir d’une certaine date mais que pour toutes les saisies antérieures vous n’avez pas la possibilité de récupérer ces informations nouvelles.
Dès lors, la base de données manque de consistance. Selon moi, trois approches sont à votre disposition. La première consiste à ignorer toutes les entrées qui ne comportent pas l’ensemble des données. La seconde est de remplacer les données manquantes par une moyenne. La dernière est de récupérer les données de manière rétroactive lorsque cela est possible.
Par exemple, dans le cadre d’un projet client, je disposais d’une base de données dans laquelle toutes les entrées n’étaient pas intégralement renseignées. Néanmoins ces données étaient capitales pour le bon déroulement du projet. Dès lors, j’ai réalisé un script de récupération automatisée des informations manquantes. Imaginez-vous les conséquences si j’avais sauté l’étape de pré-traitement et m’étais lancé tête baissée dans leur traitement ? Le projet aurait été un échec.
Une fois que vous avez réalisé ces opérations de pré-traitement des données, vous disposez d’une base de données plus propres et optimisées. Dès lors, vous pouvez passer au traitement des données. C’est à ce moment que les vraies choses peuvent commencer !
—
Image by rawpixel.com