I tipi di dati del Big Data

I tipi di dati

Agli albori di internet l’utilizzo principale era sostanzialmente lo scambio di e-mail e i dati digitali che viaggiavano attraverso la rete rappresentavano esclusivamente informazioni testuali. Il World Wide Web determinò l’esplosione dei contenuti quali immagini, audio, video, animazioni, eccetera. Oggi qualsiasi azione determina la creazione e la registrazione dei dati relativi. È quindi nata l’esigenza di immagazzinare i dati prodotti dall’ascolto di musica, lettura di libri, conversazioni tramite telefono cellulare, navigazione tramite web browser, acquisto con carta di credito, invio e ricezione di informazioni di geolocalizzazione e molte altre attività. Oltre alle conversazioni vocali sempre più spesso ottenute con l’ausilio della registrazione digitale, le conversazioni tramite social networks come Facebook o Twitter generano un’enorme mole di dati. L’avvento delle fotocamere digitali ha determinato un grande aumento di dati rappresentanti immagini e le videocamere più recenti salvano video direttamente in formato digitale. L’indiscusso successo di siti come YouTube ha incrementato notevolmente il numero di video circolanti sulla rete.

Un altro formato di dati in crescita esponenziale è quello prodotto dai sensori. Ormai ogni veicolo a motore, elettrodomestico, dispositivo elettronico contiene al suo interno numerosissimi sensori che producono e inviano informazioni in svariati formati. Questa tecnologia è conosciuta come Internet of Things (IoT) e rappresenta una delle più importanti tecnologie che determineranno un notevole impatto sull’utilizzo di futuri dispositivi e macchinari sia nell’ambito industriale che rivolti all’utente consumer.

In una sezione a parte approfondiremo i concetti portanti dell’Internet of Things.

I database non relazionali

I database non relazionali

Considerando le differenti tipologie di dati che vengono analizzati in ambito Big Data l’architettura di storage, ovvero il formato di memorizzazione, è stato considerevolmente ripensato. Mentre per i dati strutturati le tabelle e i database relazionali erano la scelta ideale quando si vogliono immagazzinare enormi quantitativi di dati non strutturati la scelta ricade sui database non relazionali.

Il concetto alla base di questa architettura di memorizzazione è sostanzialmente che i dati vengono conservati in documenti e non in tabelle. Le informazioni vengono aggregate per ogni oggetto in documenti spesso con associazioni di tipo Key-Value o JSON. Il documento aggregato raccoglie tutti i dati associati all’entità e viene trattato completamente senza l’esigenza di reperire ulteriori informazioni.

Per questo motivo il carico computazionale necessario all’aggregazione dei dati viene evitato avendo un documento completo già ottenuto in un’unica lettura. Non essendoci tabelle non esistono schemi predefiniti quindi i dati possono essere arricchiti successivamente senza rischi per l’integrità degli stessi. L’effetto negativo di questo meccanismo è dato dalla duplicazione delle informazioni anche se al giorno d’oggi il costo per sistemi storage di grandi dimensioni va sempre più diminuendo. L’assenza di uno schema predefinito permette inoltre di scalare orizzontalmente utilizzando sistemi distribuiti senza grandi difficoltà.

Indice articoli Big Data

Introduzione alla tecnologia Big Data

Introduzione

Una delle tecnologie emergenti in questi ultimi anni è sicuramente Big Data. L’importanza di conoscerne i concetti base è ormai chiara a tutti ma sarà sufficiente per competere con le sfide di domani?

Questo articolo si pone l’obiettivo di fornire un’introduzione a questa tecnologia per meglio approfondire le caratteristiche salienti negli articoli successivi.

Il concetto fondamentale alla base di Big Data è che durante le nostre attività su internet lasciamo delle traccie digitali (dati) che possono essere analizzate. Il significato che viene attribuito alla parola Big Data è sostanzialmente legato alla crescita esponeziale dei dati che vengono disseminati e registrati. Tutte le attività effettuate tramite internet come utilizzare social networks, leggere e scrivere e-mail, acquistare tramite e-commerce, ascoltare musica, leggere libri, ricercare su motori di ricerca e molte altre vengono adesso registrate e generano una quantità sempre cresente di dati.

L’analisi di questi dati permette di identificare molti aspetti del profilo del navigatore. Nei prossimi articoli approfondiremo i punti caratterizzanti del Big Data e il perchè è considerata una delle tecnologie emergenti del prossimo futuro.

Le quattro V del Big Data

Le quattro V

La tecnologia Big Data si basa su quattro concetti fondamentali meglio conosciuti come le quattro V:

  • Volume
  • Velocity
  • Variety
  • Veracity


Volume

Con volume si intende la mole di dati da immagazzinare e successivamente analizzare. Il volume di dati generato ogni secondo è enorme e si parla ormai di Zattabytes o Brontobytes.

I nuovi tools utilizzati nell’ambito del Big Data si basano su sistemi distribuiti per poter gestire enormi quantità di dati.

Velocity

Con velocity ci si riferisce alla velocità con cui i nuovi dati vengono generati e la velocità con cui si muovono nella rete. Pensiamo ad esempio ad un messaggio su un social network che diventa virale. La tecnologia Big Data permette di analizzare i dati non appena vengono generati senza nemmeno doverli precedentemente registrare su uno storage, questa tecnica è conosciuta come in-memory analytics.

Variety

Con variety si intende la varietà di dati che si possono analizzare. In passato venivano analizzati esclusivamente dati strutturati che ben si adattavano a tabelle e database relazionali. Al giorno d’oggi la maggior parte dei dati generati sono non strutturati (testi, immagini, video, audio, etc.). La tecnologia Big Data permette la gestione di dati disomogenei.

Veracity

Con veracity si intende la qualità del dato inteso come correttezza e attendibilità. Se pensiamo ad esempio ai dati generati dal social network Twitter i messaggi contengono un elevato numero di errori di battitura, hashtag, abbreviazioni, forme colloquiali, inoltre l’attendibilità di questi dati è tutta da verificare.

I numeri del Big Data

I numeri

Il nome della tecnologia Big Data è caratterizzato dalla parola Big. Anche se nel passato l’analisi dei dati ha sempre rappresentato un pilastro della profilazione dell’utente l’esplosione di attività effettuate tramite internet ha reso necessaria un’evoluzione della tecnologia.

Relativamente alla quantità di dati la crescita è esponenziale, si pensi che dall’inizio dell’era digitale fino al 2003 l’essere umano aveva generato cinque exabytes. Al giorno d’oggi vengono generati cinque exabytes ogni due giorni (Eric Schmidt – Executive Chairman, Google). Inoltre la tipologia di dati che vengono registrati si è notevolmente arricchita e quindi la gestione della registrazione degli stessi ha dovuto necessariamente adeguarsi rivoluzionando la propria architettura.

Per rendersi conto del significato dell’unità di misura sopraelencata riporto di seguito la tabella dei multipli del byte:

Multipli del byte
Nome Simbolo Multiplo
kilobyte kB 103
megabyte MB 106
gigabyte GB 109
terabyte TB 1012
petabyte PB 1015
exabyte EB 1018
zettabyte ZB 1021
yottabyte YB 1024

 

YASDB

YASDB – Yet another software development blog, comincio così la presentazione di questo blog dove condivido le mie idee, convinzioni e perplessità riguardanti temi tecnici e non nell’ambito dello sviluppo software.

Il mio obiettivo principale è approfondire e condividere una serie di argomenti tecnologici dal punto di vista dello sviluppo software. Alcuni di questi argomenti comprendono diverse tecnologie altri sono relativi a specifici linguaggi di programmazione.

Argomenti:

  • Big Data
  • Internet of Things
  • Algorithms
  • Wearables
  • Best practices
  • Design patterns
  • C#
  • Node.js
  • Angular.js

Buona lettura,
Luigi Minnaja