In questo libro ci occuperemo delle tecniche di machine learning, in particolare utilizzando il linguaggio di programmazione e analisi R. Questo testo presuppone una conoscenza almeno basilare del linguaggio R.
Nello specifico ci occuperemo:
- in generale delle tecniche di machine learning e delle fasi del processo di analisi
- come scegliere una tecnica di analisi
- performance degli algoritmi di machine learning, modelli di ricerca, tipi di dati più comuni nel machine learning
- problemi che possono affliggere i nostri dati e i modelli che costruiremo
- pulizia dati in vista dell’analisi
- regressione lineare e multipla, modelli predittivi basati sulla regressione
- sistemi di apprendimento automatico di tipo supervisionato: knn, SVM, alberi di decisione, Naïve Bayes e network neurali.
- metodi non supervisionati, iclustering e di analisi delle associazioni, e di riduzione della dimensionalità dei dati
- metodi ensemble quali bagging, boosting e random forest
- metodi semi-supervisionati, come l'allocazione latente di Dirichlet e i topic models.
- metodi di imputazione dei dati mancanti, tra gli altri tramite regressione, knn e hot deck
- misurare e verificare le performance degli algoritmi per migliorare i risultati delle nostre analisi.
- riepilogo dei pacchetti utilizzati nel corso del libro
- fonti di dati reperibili online per i test.
Nello specifico ci occuperemo:
- in generale delle tecniche di machine learning e delle fasi del processo di analisi
- come scegliere una tecnica di analisi
- performance degli algoritmi di machine learning, modelli di ricerca, tipi di dati più comuni nel machine learning
- problemi che possono affliggere i nostri dati e i modelli che costruiremo
- pulizia dati in vista dell’analisi
- regressione lineare e multipla, modelli predittivi basati sulla regressione
- sistemi di apprendimento automatico di tipo supervisionato: knn, SVM, alberi di decisione, Naïve Bayes e network neurali.
- metodi non supervisionati, iclustering e di analisi delle associazioni, e di riduzione della dimensionalità dei dati
- metodi ensemble quali bagging, boosting e random forest
- metodi semi-supervisionati, come l'allocazione latente di Dirichlet e i topic models.
- metodi di imputazione dei dati mancanti, tra gli altri tramite regressione, knn e hot deck
- misurare e verificare le performance degli algoritmi per migliorare i risultati delle nostre analisi.
- riepilogo dei pacchetti utilizzati nel corso del libro
- fonti di dati reperibili online per i test.