6 store Datakvalitetsproblemer, der hjemsøger næsten alle større organisationer

med fremkomsten af datasocialisering og datademokratisering organiserer, deler og stiller mange organisationer informationerne til rådighed på en effektiv måde for alle medarbejdere. Mens de fleste organisationer drager fordel af den liberale brug af sådan informationsmine ved deres medarbejders fingerspidser, står andre over for problemer med kvaliteten af de data, de bruger.

da de fleste organisationer også ser på at implementere systemer med kunstig intelligens eller forbinde deres forretning via tingenes internet, bliver dette især vigtigt.

forretningsanalytikere bestemmer markedstendenser, præstationsdata og præsenterer endda indsigt for ledere, der vil hjælpe med at styre virksomhedens fremtid. Og da verden bliver endnu mere datadrevet, er det meget vigtigt for forretnings-og dataanalytikere at have de rigtige data, i den rigtige form, på det rigtige tidspunkt, så de kan gøre det til indsigt.

den grundlæggende model, som en virksomhed følger ved implementering af datasocialisering, er:

datasocialisering

men mange gange ender forretningsanalytikere med at bruge størstedelen af deres tid på datakvalitet. Dette er et problem, fordi dataforberedelse og ledelse ikke er forretningsanalytikerens primære ansvar. Men de behøver heller ikke at være afhængige af det for at gøre det for dem.

nogle af de mest almindelige datakvalitetsrelaterede problemer, som analytikere og organisationer generelt står over for, er:

dubletter

flere kopier af de samme poster tager en vejafgift på beregningen og lagringen, men kan også producere skæve eller forkerte indsigter, når de ikke opdages. Et af nøgleproblemerne kan være menneskelig fejl — nogen indtaster simpelthen dataene flere gange ved et uheld — eller det kan være en algoritme, der er gået galt.

et middel, der foreslås for dette problem, kaldes “data deduplication”. Dette er en blanding af menneskelig indsigt, databehandling og algoritmer, der hjælper med at identificere potentielle duplikater baseret på sandsynlighedsscore og sund fornuft for at identificere, hvor poster ligner et tæt match.

ufuldstændige Data

mange gange fordi dataene ikke er indtastet korrekt i systemet, eller visse filer kan være blevet beskadiget, har de resterende data flere manglende variabler. For eksempel, hvis en adresse overhovedet ikke indeholder et Postnummer, kan de resterende oplysninger være af ringe værdi, da det geografiske aspekt af det ville være svært at bestemme.

inkonsekvente formater

hvis dataene gemmes i inkonsekvente formater, kan de systemer, der bruges til at analysere eller gemme oplysningerne, muligvis ikke fortolke dem korrekt. For eksempel, hvis en organisation vedligeholder deres forbrugers database, skal formatet til lagring af grundlæggende oplysninger forudbestemmes. Navn (fornavn, efternavn), fødselsdato (amerikansk/britisk stil) eller telefonnummer (med eller uden landekode) skal gemmes i nøjagtigt samme format. Det kan tage dataforskere en betydelig mængde tid til blot at afsløre de mange versioner af gemte data.

tilgængelighed

de oplysninger, som de fleste dataforskere bruger til at skabe, evaluere, teoretisere og forudsige resultaterne eller slutprodukterne, går ofte tabt. Den måde, hvorpå data siver ned til forretningsanalytikere i store organisationer — fra afdelinger, underafdelinger, filialer og endelig de teams, der arbejder på dataene-efterlader oplysninger, der måske eller måske ikke har fuld adgang til den næste bruger.

metoden til at dele og gøre informationen tilgængelig på en effektiv måde for alle medarbejdere i en organisation er hjørnestenen i deling af virksomhedsdata.

systemopgraderinger

hver gang datastyringssystemet får en opgradering, eller udstyret opdateres, er der chancer for, at information går tabt eller ødelægges. Det er altid tilrådeligt at foretage flere sikkerhedskopier af data og opgradere systemerne kun gennem godkendte kilder.

dataudrensning og lagring

med hvert ledelsesniveau i en organisation er der chancer for, at lokalt gemte oplysninger kan slettes — enten ved en fejltagelse eller bevidst. Derfor er det afgørende at gemme dataene på en sikker måde og kun dele en spejlkopi med medarbejderne.

” efterhånden som erhvervsbrugere bliver frustrerede over, at de ikke kan få svar, når de har brug for dem, kan de give op med at vente og vende tilbage til flying blind uden data. Alternativt kan de gå rogue og introducere deres eget analyseværktøj for at få de data, de har brug for, hvilket kan skabe en modstridende kilde til sandhed. I begge scenarier mister data sin styrke, ” skrev Brent Dykes.

hvis man ikke sørger for at undgå forkerte eller korrupte data, før man analyserer dem til forretningsbeslutninger, kan organisationen ende med at miste muligheder, indtægter, lide skade på omdømme eller endda underminere CSO ‘ ernes tillid.

Hvad Synes Du?

Tilmeld dig vores nyhedsbrev

få de seneste opdateringer og relevante tilbud ved at dele din e-mail.

Deltag I Vores Telegram Gruppe. Bliv en del af et engagerende online community. Deltag Her.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.