6 Principali problemi di qualità dei dati che perseguitano quasi tutte le principali organizzazioni

Con l’avvento della socializzazione dei dati e della democratizzazione dei dati, molte organizzazioni stanno organizzando, condividendo e rendendo disponibili le informazioni in modo efficiente a tutti i dipendenti. Mentre la maggior parte delle organizzazioni traggono profitto dall’uso liberale di tale miniera di informazioni a portata di mano dei propri dipendenti, altre si trovano ad affrontare problemi con la qualità dei dati utilizzati da loro.

Poiché la maggior parte delle organizzazioni guarda anche all’implementazione di sistemi con intelligenza artificiale o alla connessione della propria attività tramite Internet of things, questo diventa particolarmente importante.

Gli analisti aziendali determinano le tendenze del mercato, i dati sulle prestazioni e persino presentano approfondimenti ai dirigenti che aiuteranno a dirigere il futuro dell’azienda. E mentre il mondo diventa ancora più guidato dai dati, è di vitale importanza per gli analisti aziendali e dei dati avere i dati giusti, nella forma giusta, al momento giusto in modo che possano trasformarli in insight.

Il modello di base che un’azienda segue quando implementa la socializzazione dei dati è:

socializzazione dei dati

Tuttavia, molte volte, gli analisti aziendali finiscono per spendere la maggior parte del loro tempo focalizzato sulla qualità dei dati. Questo è un problema perché la preparazione e la gestione dei dati non è la responsabilità primaria dell’analista aziendale. Ma anche loro non hanno bisogno di dipendere da ESSO per farlo anche per loro.

Alcuni dei problemi più comuni relativi alla qualità dei dati affrontati dagli analisti e dalle organizzazioni in generale sono:

Duplicati

Più copie degli stessi record incidono sul calcolo e sull’archiviazione, ma possono anche produrre intuizioni distorte o errate quando non vengono rilevate. Uno dei problemi chiave potrebbe essere un errore umano — qualcuno semplicemente inserendo i dati più volte per caso — o può essere un algoritmo che è andato storto.

Un rimedio suggerito per questo problema è chiamato “deduplicazione dei dati”. Questa è una miscela di intuizione umana, elaborazione dei dati e algoritmi per aiutare a identificare i potenziali duplicati in base ai punteggi di verosimiglianza e al buon senso per identificare dove i record sembrano una corrispondenza ravvicinata.

Dati incompleti

Molte volte poiché i dati non sono stati inseriti correttamente nel sistema o alcuni file potrebbero essere stati danneggiati, i dati rimanenti presentano diverse variabili mancanti. Ad esempio, se un indirizzo non include affatto un codice postale, le informazioni rimanenti possono essere di scarso valore, poiché l’aspetto geografico di esso sarebbe difficile da determinare.

Formati incoerenti

Se i dati sono memorizzati in formati incoerenti, i sistemi utilizzati per analizzare o memorizzare le informazioni potrebbero non interpretarli correttamente. Ad esempio, se un’organizzazione sta mantenendo il database dei propri consumatori, il formato per la memorizzazione delle informazioni di base dovrebbe essere predeterminato. Nome (nome, cognome), data di nascita (stile US / UK) o numero di telefono (con o senza codice paese) devono essere salvati nello stesso identico formato. Si può prendere scienziati di dati una notevole quantità di tempo per svelare semplicemente le molte versioni dei dati salvati.

Accessibilità

Le informazioni che la maggior parte dei data scientist utilizza per creare, valutare, teorizzare e prevedere i risultati o i prodotti finali spesso vengono perse. Il modo in cui i dati si riversano sugli analisti aziendali delle grandi organizzazioni, dai dipartimenti, alle sottodivisioni, alle filiali e infine ai team che stanno lavorando sui dati, lascia informazioni che possono o meno avere accesso completo all’utente successivo.

Il metodo di condivisione e messa a disposizione delle informazioni in modo efficiente a tutti i dipendenti di un’organizzazione è la pietra angolare nella condivisione dei dati aziendali.

Aggiornamenti di sistema

Ogni volta che il sistema di gestione dei dati ottiene un aggiornamento o l’hardware viene aggiornato, ci sono possibilità di informazioni perdersi o corrotti. È sempre consigliabile effettuare diversi backup dei dati e aggiornare i sistemi solo tramite fonti autenticate.

Eliminazione e archiviazione dei dati

Con ogni livello di gestione in un’organizzazione, ci sono possibilità che le informazioni salvate localmente possano essere eliminate, per errore o deliberatamente. Pertanto, salvare i dati in modo sicuro e condividere solo una copia mirror con i dipendenti è fondamentale.

“Mentre gli utenti aziendali crescono frustrati dal fatto che non possono ottenere risposte quando ne hanno bisogno, possono rinunciare all’attesa e tornare a volare alla cieca senza dati. In alternativa, possono diventare canaglia e introdurre il proprio strumento di analisi per ottenere i dati di cui hanno bisogno, il che può creare una fonte di verità in conflitto. In entrambi gli scenari i dati perdono la loro potenza”, ha scritto Brent Dykes.

Se non si cura di evitare dati errati o corrotti prima di analizzarli per le decisioni aziendali, l’organizzazione può finire per perdere opportunità, entrate, subire danni alla reputazione o persino minare la fiducia del CXOS.

Cosa ne pensi?

Iscriviti alla nostra Newsletter

Ricevi gli ultimi aggiornamenti e le offerte pertinenti condividendo la tua email.

Unisciti al nostro gruppo Telegram. Essere parte di una comunità online coinvolgente. Iscriviti qui.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.