• Valerio Maria Murgolo

Modelli supervisionati e non supervisionati per il Data Mining

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.


I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.




I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo.


Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di "Clustering" o modelli di "Regole di associazione".


La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.


Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.


Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.


I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.


I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.


Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.


L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.


Anche il clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale.


In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.


Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..

in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.

Iscriviti alla newsletter per ricevere news, materiale, informazioni sulla Trasformazione Digitale, sull'Organizzazione Digitale e sul contatto con gli utenti.
Riceverai 1 mail a settimana con tutti gli aggiornamenti informativi.