In questo libro ci occuperemo di text mining, ossia analisi dei testi, tramite il linguaggio di programmazione per l’analisi dati R. Questo libro presuppone una conoscenza delle strutture e procedure di base di R.
Questi sono i temi che tratteremo:
- panoramica generale le tecniche di text mining e le fasi del processo di analisi.
- fasi di preprocessing e normalizzazione dei testi.
- fasi di analisi dei testi tramite le funzioni di base
- l'analisi di un testo e di un corpus tramite il pacchetto tm
- machine learning su testi tramite metodi supervisionati, come la regressione logistica, il Naïve Bayes, il k-nn, il Support Vector Machine, gli alberi di decisione e i network neurali
- metodi non supervisionati come il clustering
- esempi di topic models e allocazione latente di Dirichlet
- creazione di un account su Twitter, estrazione e analisi dei tweet.
- funzioni e pacchetti specifici per la gestione delle stringhe
- manipolazione, sostituzione ed eliminazione di elementi all'interno dei nostri testi.
- altri pacchetti per il text mining per il parsing e al riconoscimento degli elementi di un testo
- identificazione della lingua dei testi
- visualizzazione dei dati nel text mining.
- Sentiment Analysis, sia tramite metodi non supervisionati che metodi supervisionati
- qualche nozione di analisi qualitativa tramite il metodo CAQDAS e il pacchetto per R RQDA
Questi sono i temi che tratteremo:
- panoramica generale le tecniche di text mining e le fasi del processo di analisi.
- fasi di preprocessing e normalizzazione dei testi.
- fasi di analisi dei testi tramite le funzioni di base
- l'analisi di un testo e di un corpus tramite il pacchetto tm
- machine learning su testi tramite metodi supervisionati, come la regressione logistica, il Naïve Bayes, il k-nn, il Support Vector Machine, gli alberi di decisione e i network neurali
- metodi non supervisionati come il clustering
- esempi di topic models e allocazione latente di Dirichlet
- creazione di un account su Twitter, estrazione e analisi dei tweet.
- funzioni e pacchetti specifici per la gestione delle stringhe
- manipolazione, sostituzione ed eliminazione di elementi all'interno dei nostri testi.
- altri pacchetti per il text mining per il parsing e al riconoscimento degli elementi di un testo
- identificazione della lingua dei testi
- visualizzazione dei dati nel text mining.
- Sentiment Analysis, sia tramite metodi non supervisionati che metodi supervisionati
- qualche nozione di analisi qualitativa tramite il metodo CAQDAS e il pacchetto per R RQDA