Le dédoublonnage pour les nuls

Le dédoublonnage pour les nuls

En tant que marketeur, vous recevez des bases de données de toutes formes, suite à un salon, suite à un rachat ou tout simplement via une acquisition de données. Elles sont censées être uniquement constituées de nouveaux contacts, mais comme toujours il y a des doublons.

Un dédoublonnage par un professionnel coûte cher et n’est pas adapté à de petites quantités. Voici quelques méthodes simple pour détecter et éliminer les doublons.

1-Le dédoublonnage brut avec Excel

Depuis Excel 2003, on a un outil de dédoublonnage fourni avec la solution. Il est d’une simplicité enfantine, très rapide et très efficace. Il suffit de cocher les cases qui ne doivent pas être identiques. C’est pratique pour dédoublonner des formulaires envoyés plusieurs fois par exemple.

Voici une liste avec un doublon en ligne 3 et 4, quelqu’un qui a validé deux fois son formulaire…

Numero Demande Titre Nom Prénom Societe Adresse CP Ville Date
1 catalogue; Mr MARTINET LUDOVIC TECHNITRAITE-FROID 135 RUE LES BENARDS 27260 LA CHAPELLE BAYVEL 05/06/2015 18:30
2 intervention; Mr BONNET MATTHIEU LA FERME DU COLOMBIER GROUALEUX 28250 DIGNY 06/06/2015 09:20
3 intervention; Mr VROMBOUT Arnaud SCA LA FLANDRE ROUTE DE L’AA 59143 HOLQUE 08/06/2015 08:23
4 intervention; Mr VROMBOUT Arnaud SCA LA FLANDRE ROUTE DE L’AA 59143 HOLQUE 08/06/2015 08:25
5 contrat; Mr VRIGNAUD CAMILLE KRONOFRANCE SAS ROUTE DE CERDON 45600 SULLY SUR LOIRE 08/06/2015 09:05
6 intervention; Mr DUVERGLAS Gérard CLAIRE FONTAINE 27 ROUTE DE LA LOIRE 44450 LA CHAPELLE BASSE MER 08/06/2015 09:14
7 catalogue; Mr PINEAU BEATRICE MAPES SERVICES VITRAGES 89 CHEMIN DU VIEUX MOULIN 77500 CHELLES 08/06/2015 09:48

 

On va chercher sur excel à éliminer les contenus rigoureusement identiques à l’exception du numéro et de la date de demande qui varie. Il faut donc décocher ces variables.

La simplicité de ce système est aussi son défaut, car il travaille avec des occurrences structement identiques. Pour lui, Gérard et GERARD sont deux items différents qu’il ne dédoublonnera pas.

2-Le dédoublonnage brut avec des champs objectifs : email, siret, siren

Si on possède une base de données correctement qualifiée, certains champs sont objectifs et on peut les considérer comme des  identifiants uniques. En effet, un email est unique, tout comme un siret. Si on retrouve ces champs dans deux fiches, la probabilité qu’elles soient des doublons est très forte.

Il suffit alors de procéder sur Excel à un dédoublonnage ou à une recherche verticale pour supprimer ou marquer les doublons.

Pour dédoublonner, on ne coche que la donnée objective par exemple le siret.

Pour marquer un doublons, on va rechercher si la données A1 de la liste 1 est déjà présente dans une des lignes de la liste 2

=RECHERCHEV(A1 ;liste2 !A ;B ;2 ;0)

Ce système est très pratique et ne demande que peu de ressources. Si votre base de données est bien qualifiée en siret, c’est un moyen efficace.

Attention : lorsque vous dédoublonnez avec Excel, il va garder la donnée qui a le numéro de ligne le plus petit. S’il détecte un doublon en ligne 5 et 25, c’est la ligne 5 qui sera gardée et la 25 supprimée. Il est donc important de mettre les données les plus « maître » ou les plus complètes dans le haut du tableau.

3-Le dédoublonnage par Matchcode

Cette technique est vieille comme le monde et consiste à fabriquer une sorte de siret maison qui va permettre de dédoublonner une adresse.

On part du principe que deux entreprises qui partagent les données suivantes : même code NAF, même code postal, même rue et même téléphone sont des doublons. Comme ces données sont formatées (le NAF et le code postal ont 5 caractères, le téléphone 10 et pour la rue, on ne va garder que les 5 derniers caractères.)

On va donc fabriquer pour chaque ligne un matchcode de 25 caractères construit comme suit :

=concatener(NAF ;CP ;DROITE(ADRESSE3 ;5) ;TELEPHONE)

NAF Téléphone Societe Adresse3 CP Ville Matchcode
7111Z 0245853274 TECHNITRAITE-FROID 135 RUE LES BENARDS 27260 LA CHAPELLE BAYVEL 7111Z27260NARDS0245853274
7111Z 0388549612 LA FERME DU COLOMBIER GROUALEUX 28250 DIGNY 7111Z28250ALEUX0388549612
7111Z 0242568974 SCA LA FLANDRE ROUTE DE DUNKERQUE 59143 HOLQUE 7111Z59143ERQUE0242568974
7111Z 0242568974 SCA LA FLANDRE CHEMIN DE DUNKERQUE 59143 HOLQUES 7111Z59143ERQUE0242568974
7111Z 0545859887 KRONOFRANCE SAS ROUTE DE CERDON 45600 SULLY SUR LOIRE 7111Z45600ERDON0545859887
7111Z 0523212565 CLAIRE FONTAINE 27 ROUTE DE LA LOIRE 44450 LA CHAPELLE BASSE MER 7111Z44450LOIRE0523212565
7111Z 0152968574 MAPES SERVICES VITRAGES 89 CHEMIN DU VIEUX MOULIN 77500 CHELLES 7111Z77500OULIN0152968574

 

On repère rapidement les lignes avec le même matchcode.

4-Le dédoublonnage sans voir la base à comparer ?

Il est très souvent impossible de comparer les bases directement. Par exemple, vous louez une base de données extérieure et vous ne voulez pas qu’ils écrivent à vos clients. Impossible de transmettre votre fichier pour des raisons de confidentialité. Idem pour l’autre camp.

Il existe plusieurs moyens de dédoublonner sans transmettre votre base.

-Transmission de données objectives comme le siret ou les siren.

Vous demandez au prestataire d’exclure toutes les entreprises qui ont un siret ou un siren identique à ceux que vous avez fourni.

-Transmission des domaines de vos emails.

Sur Excel, il vous suffit de convertir la colonne email de votre base.
Sélectionner la colonne, faites données > convertir > délimité > choisissez @ comme séparateur
Vous aurez tous les domaines dans une colonne.
Supprimez les fournisseurs d’accès internet (FAI) de la liste, car ils ne permettent pas d’identifier une et une seule entreprise.

aliceadsl.fr hotmail.com me.com numericable.fr voila.fr
aol.com hotmail.fr msn.com orange.fr wanadoo.fr
bbox.fr laposte.net neuf.fr orange-business.fr skynet.be
free.fr libertysurf.fr noos.fr outlook.fr yahoo.com
gmail.com live.fr nordnet.fr sfr.fr yahoo.fr

 

-Transmission d’un matchcode

Si vous définissez le même matchcode que votre prestataire, il pourrra dédoublonner assez facilement, sous réserve qu’il dispose des mêmes champs que vous.

-Criptage de vos données en MD5

Souvent utilisé pour le dédoublonnage email, cette technique allie confidentialité et efficacité.
Il vous suffit de convertir vos emails au format MD5 avec un simple tableau excel et une macro VBA.

Votre prestataire fait de même et il suffit de comparer les résultats. Attention à bien laisser une colonne ID lors de ce traitement sinon, il sera impossible d’exclure les données désignées comme doublon.

Voilà, vous savez tout sur le dédoublonnage pour les nuls