Archivi categoria: Machine Learning

Tutti i miei articoli sul Machine Learning

Covid: analisi delle anomalie sui dati Campania (basic) – Dati al 15/3/2022

Nelle ultime due settimane si sta assistendo ad un aumento dei casi e delle percentuali di infezione, mentre fino al 28/02/2022 c’era una diminuzione dei positivi e della percentuale di positività, nonostante la diminuzione dei tamponi effettuati.

Ricordo che il 28/02/2022 c’è stato il ritorno alla zona bianca e l’ 8/03/2022 la festa delle donne.

Da come si può vedere dal sottostante grafico dei positivi giornalieri, mentre fino al 27/2/2022 c’era un andamento discendente dei casi, dal 28/2/2022 c’è un iniziale stabilizzazione e poi un aumento dei casi nella settimana successiva al 7/03/2022

Si può anche vedere come la % di positività dei giorni successivi l’8 Marzo è maggiore il 16%

Però dal grafico successivo si può vedere che l’aumento settimanale della percentuale di positività è già iniziato il 4/3/2022 con incrementi superiori al 20% rispetto alla settimana precedente.

Controllando gli indici Rt si può vedere che iniziano a crescere dal 6/7 Marzo, per poi andare sopra la soglia di 1 dall’ 8 Marzo.

Indice Rt calcolati dal sito dell’INFN

Andando a verificare i dati da Gennaio 2022, possiamo vedere che comunque non siamo arrivati ancora ai picchi di positività del 22-23% raggiunti nei giorni intorno al 10 Gennaio

Infine andando a controllare la mediana della positività settimanali, c’è stata una stabilizzazione sul 12% per alcune settimane, mentre nelle ultime due settimane è aumentata decisamente

Dal 24 al 30 Gennaio : 14.2%. Dal 31/01 al 06/03 circa 12-11% a settimana. La settimana del 7-13/03 15.75%. I giorni 14/15 Marzo : 18.5%

Covid: analisi delle anomalie sui dati Campania (basic)

Ultimo aggiornamento: 16-02-2022

In questo piccolo post, voglio mostrare una piccola analisi che ho fatto sui dati Covid della Campania, dove è stato trovato il primo caso di Omicron il 26 Novembre.

Inizio mostrardo un grafico dove metto in rapporto i tamponi effettuati (asse di sinistra) col tasso di positività, cioè la % di positivi sui tamponi effettuati (asse di destra).

Dati dal 6/12/21 al 09/02/22 [RIF1] (clicca per ingrandire)

Come si può vedere, negli ultimi giorni il tasso di positivà sta diminuendo (così come i tamponi effettuati) rimanendo stabile sopra il 10%, contro il 5-6% visto fino a Natale 2021. Si può anche vedere che quando c’è il minimo settimanale dei tamponi effettuati c’è anche una diminuzione della % di positività, al contrario di quello che si vedeva nelle settimane precedenti.

Dal 17/01/22 si possono vedere i due andamenti, i tamponi effettuati e la %positività, che seguono lo stesso modello: il lunedì c’è il valore massimo che man mano scende, per arrivare al minimo di domenica (ricordo che i dati pubblicati un dato giorno si riferiscono al giorno precedente).

Si può rappresentare l’andamento settimanale del tasso di positività tramite dei boxplot

Andamento della positività per settimana

Da come si può osservare, il tasso di positività nelle ultime tre settimane dell’anno passa da un valore mediano di 4.250% e di 4.740%, relativamente simile, al 6.140% nell’ultima settimana dell’anno, per poi continuare ad aumentare.

Si possono rilevare le anomalie live?

Mi sono posto questa domanda leggendo quest’intervista allo statistico Fenga, in cui parla di nowcasting, wavelet.. non vi parlerò di questi argomenti (anche perchè vorrei approfondire), però in ambito statistico, ovviamente di livello base, la prima cosa che viene in mente quando si parla di anomalie è il boxplot. Ora ho fatto un piccolo test facendo il boxplot dei dati dal 6/12/21 al 26/12/21

In rosso ho evidenziato le domeniche

Quello che si ottiene è questo:

Il boxplot evidenzia subito l’anomalia del 8,54% di positività del 26/12/21 e si può notare anche da questo confrontro tra due date dove ci sono stati gli stessi tamponi effettuati, ma la % dei positivi molto differente.

Anomalia visibile anche in questo scatterplot, dove vengono mostrati i vari giorni in base al numero di tamponi effettuati e la positività. Vedono i tamponi effettuati intorno ai 20k: si passa da una % positività compresa tra il 4 e il 6(circa), al 8.54 del 26/12/2021.

Nel grafico successivo, si può notare che la %positività ha una tendenza a salire, che come si è già visto dal grafico RIF1.

La statistica del Diff7G

Vedendo l’andamento settimanale nelle ultime settimane nel grafico RIF1, ho pensato a un semplice statistica che non fa altro che considerare la differenza del tasso di positività tra un giorno e lo stesso della settimana precedente: ad esempio confronto il 9/2/22 col 2/2/22. Così da:

  • Non aspettare la fine di una settimana per confrontare i boxplot dei dati settimanali
  • Confrontare per i giorni della settimana: la domenica con la domenica precedente ecc…

Quello che ottengo sembra abbastanza (concedetemelo) “buono” :

Andamento7g è una media mobile sugli ultimi 7giorni

Da come si può vedere negli ultimi giorni, c’è una diminuzione della positività che si può vedere anche dall’inclinazione della linea ‘Andamento7g’, oltre che dai valori di ‘Diff7G’ sempre sotto lo 0%, cioè in costante diminuzione.

Ora andiamo a usare questa semplice statistica con il Dicembre 2021:

Come si può vedere l’andamento è in salita. Diff7G dal 18/12/21 è sempre sopra lo 0%, in costante aumento: il 23/12/21 la positività 6.14% è più del doppio del 15/12/21 (che però era solo del 2.93%), mentre i giorni 26,28,29 e 30 Dicembre hanno un incremento di positività del 60% , che inizia a essere del 8% e oltre.

NB: Non so se questa semplice statistica può essere utile nell’individuare anomalie (cioè varianti più o meno diffusive). Non ho considerato i vaccinati, anche perchè l’omicron anche con la terza dose infetta anche se lievemente.

Machine Learning Framework: link

Ultimo aggiornamento: 05-09-2016

I vari framework di machine learning delle Big della Tech:

Infine un canale YouTube sul DeepLearning: DeepLearning.TV

Machine Learning: links

Ultimo aggiornamento: 05-09-2016

Per la rete ho trovato un serie di link utili, li scrivo come nota personale e anche perchè  del materiale  potrebbe servire a molti.

Video Lezioni:

Altro materiale utile:

Machine Learning – Alberi di decisione

Ultimo aggiornamento: 05-09-2016

Google Developers sul suo profilo Youtube sta pubblicando delle  video-tutorial sul machine learning. I primi due video parlano degli alberi di decisione (linko wikipedia inglese perchè è più completa).
Vedendo i video mi è tornata in mente la mia tesi, in cui ho analizzato le firme grafometriche e dove ho usato un albero di decisione “fatto a mano” per classificare. Così mi son messo a scrivere un pò di codice python per far pratica con i metodi automatici. Continue reading Machine Learning – Alberi di decisione

Deep learning: links

Ultimo aggiornamento: 05-09-2016

These are some useful links that I found about Deep Learning:

Classificazione pazienti con la SLA tramite SVM integration

Ultimo aggiornamento: 05-09-2016

Negli ultimi mesi ho lavorato al progetto di Reti Neurali il cui obbiettivo era quello di avere una buona classificazione di pazienti con la S.L.A.
Partendo dalla feature selection tramite il t-score e il cat-score, ho  utilizzato SVM con kernel lineare per la classificazione. Infine ho usato un approcio MultiView Learning per l’integrazione di più viste, provando a migliorare la classificazione delle singole viste.
Tutto ciò usando l’ambiente R

 

Lo script R che ho scritto per creare le k-fold: MakeKFold.r

Network Anomaly Detection con Conformal Prediction

Ultimo aggiornamento: 05-09-2016

Dopo mesi di lavoro, io con i colleghi Alessandro ed Emanuele  abbiamo finito il nostro lavoro di sperimentazione sull’applicazione del Conformal Prediction al network anomaly detection, per l’esame di Sicurezza del prof. De Santis (@Unisa)

Pochi mesi fa avevamo rilasciato il nostro codice in python, oggi rilasciamo anche le slide della nostra presentazione con i risultati degli esperimenti effettuati sul dataset MAWI.

Update: L’algoritmo di Conformal Prediction utilizza il concetto di p-value. Un bell’articolo che lo riguarda è questo di Wired