Tutti definiscono Big Data con un insieme di 3 o 4 o 10 V. Queste V ci stanno effettivamente dando la definizione del concetto di Big Data o stanno cercando di dirci qualcos’altro? Il motivo principale per utilizzare questa caratterizzazione basata su V è evidenziare le sfide che comportano questi Big Data. Sfide come: acquisizione, pulizia, cura, integrazione, archiviazione, elaborazione e molte altre.
Queste V forniscono le indicazioni per prepararsi alle probabili sfide. Le sfide che potrebbero presentarsi quando inizierai a gestire i tuoi Big Data che:
Queste V spiegano gli aspetti importanti dei Big Data e una strategia Big Data che l'organizzazione non può ignorare. Diamo un'occhiata a tutti i contributi delle V ai diversi attributi dei Big Data:
1. Volume:
100 terabyte di dati vengono caricati ogni giorno su Facebook; Akamai analizza 75 milioni di eventi al giorno per indirizzare gli annunci online; Walmart gestisce 1 milione di transazioni dei clienti ogni singola ora. Il 90% di tutti i dati mai creati è stato generato negli ultimi 2 anni.
Le cifre sopra riportate descrivono davvero cosa significa quando parliamo di grandi volumi di dati. Sono queste prime caratteristiche dei dati che li rendono un big data. Questo enorme volume di dati a sua volta rappresenta per noi una sfida in termini di archiviazione di questi dati.
Vedi anche: I migliori 19 strumenti gratuiti di data mining
2. Velocità:
Nel 1999, ogni minuto di ogni giorno, carichiamo 100 ore di video su YouTube, inviamo oltre 200 milioni di email e inviamo 300.000 tweet.
Sotto i numeri del volume c'è un tendenza ancora più ampia, ovvero che il 90% dei dati esistenti è stato creato solo negli ultimi due anni. Ciò descrive la velocità o la velocità con cui i dati vengono creati, archiviati, analizzati e visualizzati.
La sfida che devono affrontare le organizzazioni è far fronte all'enorme velocità con cui i dati vengono creati e utilizzati in tempo reale.
3. Varietà
In passato, tutti i dati creati erano dati strutturati, si adattavano perfettamente a colonne e righe, ma quei giorni sono finiti. Il 90% dei dati generati oggi non è strutturato e si presenta in tutte le forme e forme: dai dati geospaziali, ai tweet che possono essere analizzati per contenuto e sentiment, a dati visivi come foto e video.
La varietà descrive una delle sfide più grandi dei big data. Può non essere strutturato e includere tanti tipi diversi di dati, da XML a video fino a SMS. Organizzare i dati in modo significativo non è un compito semplice, soprattutto quando i dati stessi cambiano rapidamente.
4. Variabilità
La variabilità viene spesso confusa con la varietà. Un semplice esempio per distinguerlo è: pensa a Starbucks: ha così tanti gusti in Cold Coffee. Questa è varietà. Supponiamo che tu compri Cafe Mocha ogni giorno e che abbia un sapore e un odore leggermente diversi da ogni giorno precedente. È variabilità.
La variabilità nel contesto dei big Data si riferisce ad alcune cose diverse. Uno è il numero di incongruenze nei dati. Questi devono essere individuati mediante metodi di rilevamento di anomalie e valori anomali affinché venga eseguita un'analisi significativa. I Big Data sono variabili anche a causa della moltitudine di dimensioni dei dati risultanti da molteplici tipi e fonti di dati disparati. La variabilità può anche riferirsi alla velocità incoerente con cui i big data vengono caricati nel database.
Vedi anche: I migliori strumenti di pulizia dei dati offline
5. Veridicità
Ciò che è fondamentale per comprendere i Big Data è la loro natura disordinata e rumorosa e la quantità di lavoro necessaria per produrre un set di dati accurato prima ancora che l'analisi possa iniziare. È inutile se i dati analizzati sono imprecisi o incompleti.
Questa situazione si verifica quando i flussi di dati provengono da fonti diverse che presentano una varietà di formati con rapporti segnale-rumore variabili. Potrebbero essere pieni di questi errori accumulati nel momento in cui raggiungono Big Data Analytics.
La veracità consiste nel garantire che i dati siano accurati, il che richiede processi per evitare che i dati errati si accumulino nei tuoi sistemi. L'esempio più semplice sono i contatti che entrano nel tuo sistema di marketing automation con nomi falsi e informazioni di contatto imprecise. Quante volte hai visto Topolino nel tuo database? È la classica sfida "garbage in, garbage out".
6. Visualizzazione
Questa è la parte difficile dei Big Data, il cui fallimento rende inutile questo enorme volume di dati. Un compito fondamentale per qualsiasi sistema di elaborazione dei Big Data è trasformarne l’immensa portata in qualcosa di facilmente comprensibile e utilizzabile. Per il consumo umano, uno dei metodi migliori è convertirlo in formati grafici.
Gli attuali strumenti di visualizzazione dei big data devono affrontare sfide tecniche dovute a limitazioni della tecnologia in-memory e scarsa scalabilità, funzionalità e tempo di risposta. I grafici tradizionali non possono soddisfare la necessità di tracciare un miliardo di punti dati, quindi sono necessari diversi modi di rappresentare i dati come il clustering dei dati o l'utilizzo di mappe ad albero, sunburst, coordinate parallele, diagrammi di rete circolari o alberi a cono.
7 . Valore
Il valore è la fine del gioco. Il valore potenziale dei Big Data è enorme. Dopo aver preso in considerazione volume, velocità, varietà, variabilità, veridicità e visualizzazione, operazioni che richiedono molto tempo e impegno, è importante essere sicuri che la tua organizzazione ottenga valore dai dati.
Naturalmente , i dati di per sé non hanno alcun valore. Il valore sta nelle analisi effettuate su tali dati e nel modo in cui i dati vengono trasformati in informazioni e infine trasformandoli in conoscenza.
Le 7 V di cui sopra illustrano 3 aspetti importanti dei Big Data, ovvero definizione, caratteristiche e sfide. Ma quando le persone hanno iniziato a fare ricerche sui big data per inventare metodi per affrontare le suddette sfide delle 7 V, si sono imbattute in altre V. Anche se non svolgono un ruolo cruciale nei big data, completano l'elenco delle caratteristiche e delle sfide.
8. Validità
Simile alla veridicità, la validità si riferisce a quanto accurati e corretti siano i dati per l'uso previsto. La veridicità dei Big Data è una questione di validità, il che significa che i dati sono corretti e accurati per l’uso previsto. Dati chiaramente validi sono la chiave per prendere le decisioni giuste. La convalida dei dati è quella che certifica la trasmissione incorrotta dei dati.
9. Fattibilità
Pensate alle seguenti affermazioni:
Il nostro primo compito è valutare la fattibilità di tali dati perché, con così tante varietà di dati e variabili da considerare nella costruzione di un modello predittivo efficace, vogliamo testare e confermare efficacemente la rilevanza di una particolare variabile prima di investire nella creazione di un modello completo di tutte le funzionalità. In altre parole, vogliamo convalidare tale ipotesi prima di intraprendere ulteriori azioni e, nel processo di determinazione della fattibilità di un variabile, possiamo espandere la nostra visione per determinare se altre variabili – quelle che non facevano parte della nostra ipotesi iniziale – hanno un impatto significativo sui nostri risultati desiderati o osservati.
10. Volatilità
Quanti anni devono avere i tuoi dati prima che siano considerati irrilevanti, storici o non più utili? Per quanto tempo devono essere conservati i dati?
Quando parliamo di volatilità dei Big Data, possiamo facilmente ricordare la politica di conservazione dei dati strutturati che implementiamo ogni giorno nelle nostre attività. Una volta scaduto il periodo di conservazione, possiamo distruggerlo facilmente.
A causa della velocità e del volume dei big data, tuttavia, la loro volatilità deve essere attentamente considerata. Ora è necessario stabilire regole per l'attualità e la disponibilità dei dati, nonché garantire il rapido recupero delle informazioni quando richiesto.
11. Vulnerabilità
Ricordi l'hack di Ashley Madison nel 2015? Oppure ricordate che nel maggio 2016 CRN ha riferito che "un hacker chiamato Peace ha pubblicato sul dark web dati da vendere, che presumibilmente includevano informazioni su 167 milioni di account LinkedIn e 360 milioni di email e password per gli utenti di MySPace.
Big I dati portano con sé nuovi problemi di sicurezza. Soprattutto con queste caratteristiche diventa una sfida sviluppare un programma di sicurezza per i Big Data. Dopotutto, una violazione dei dati è una grande violazione.
Che cosa ci dice tutto questo sulla natura dei Big Data? Beh, è enorme e in rapida espansione, ma è anche rumoroso, disordinato, in continua evoluzione, in centinaia di formati e praticamente inutile senza analisi e visualizzazione.
Volume, velocità e varietà non sono solo i parametri chiave dei Big Data, ma sono anche la ragione per far nascere il concetto di Big Data e le principali caratteristiche di separazione tra i dati normali e i Big Data. Sebbene siano intrinseci ai Big Data stessi, la variabilità, la veridicità, la visualizzazione e il valore delle altre V sono attributi importanti che riflettono l'enorme complessità che i Big Data presentano a coloro che vogliono elaborarli, analizzarli e trarne vantaggio.
Senza dubbio, i Big Data sono una tendenza chiave che l’IT aziendale deve soddisfare con infrastrutture informatiche adeguate. Ma senza analisi ad alte prestazioni e data scientist in grado di dare un senso a tutto, corri il rischio di creare semplicemente grandi costi senza creare il valore che si traduce in vantaggio aziendale.
leggi: 0