Text Mining Tools per l’analisi testuale

Tapor – Text Analysis portal For Research: un portale dove trovare interessanti tools per l’analisi dei testi da documenti in html, Xml, siti web etc. Si possono provare anche alcuni strumenti di analisi statistica multivariata per studiare occorrenze e correlazioni.

Canada Foundation for Innovation and the McMaster University Faculty of Humanities

TAPoRware+

TaLTaC2 sta per Trattamento Automatico Lessicale e Testuale per l’Analisi del Contenuto di un Corpus. TaLTaC2 è un software per l’analisi di una collezione di testi (corpus), finalizzata a descrivere e interpretare il suo contenuto e/o alcune sue proprietà. L’approccio adottato nel programma è noto in letteratura come “approccio lessicometrico” in quanto consente lo studio diretto di qualsiasi tipo di dati espressi in linguaggio naturale, da documenti a interviste, da rassegne stampa a messaggi, secondo i principi della “statistica testuale”.

Taltac

R (R-Project for Statistical Computing)
R è un linguaggio e un ambiente per il calcolo statistico e la grafica. R fornisce una vasta gamma di analisi statistiche (modelli lineari e non lineari, test statistici classici, analisi delle serie temporali, analisi dei cluster, ecc.) e di tecniche grafiche. Uno dei punti di forza di R è la facilità con cui si possono produrre grafici di qualità adatta alla pubblicazione, compresi i simboli e le formule matematiche. R è disponibile come Free Software in formato codice sorgente alle condizioni della licenza GNU della Free Software Foundation.

R

Stylo R package (Computational Stylistic Group).
In commercio sono disponibili numerosi software dedicati che integrano risorse statistiche, informatiche e linguistiche e che si riconoscono in vere e proprie scuole di pensiero. I prodotti disponibili sono solo parzialmente completi e, quindi, nella scelta di un software devono essere sempre chiari gli scopi perseguiti dalla ricerca.

CAQDAS
Nell’ambito delle scienze umane e sociali molti software offrono supporto per l’analisi del contenuto e per l’analisi quantitativa e qualitativa dei dati testuali. Le principali case di produzione di software per l’analisi statistica propongono anche moduli per l’analisi dei dati testuali (già integrati o da integrare), spesso presentati come moduli per il text mining, come nel caso di LexiQuest e Text Mining for Clementine di Spss e il Text Miner della Sas. I CAQDAS (Computer-Assisted Qualitative Data Analysis Software) sono un’intera e numerosa famiglia di software che offrono strumenti di interrogazione, ricerca, organizzazione e annotazione di materiali testuali (o multimediali) finalizzati all’analisi qualitativa del contenuto. Utilizzati prevalentemente per l’analisi del contenuto di matrice sociologica e psicosociale, questi prodotti si presentano come strumenti di ausilio per il ricercatore nella fase di ricodifica del testo in categorie concettuali e, essenzialmente, cercano di rendere più rapide le operazioni di ricerca di informazioni nei testi e di ricodifica automatica. Tra i più diffusi: Atlas.ti, dedoose, Ethnograph, MAXQDA, WordStat e due eredi del programma Nud*Ist: N6 e NVivo.

Analisi dei dati testuali
Alceste
Il software Alceste (Analyse des Lexèmes Co-occurents dans les Ènoncés d’un TExt) si propone come metodologia statistico-testuale finalizzata all’analisi del discorso, con applicazioni principali nell’ambito della semiotica e dell’analisi del contenuto. Si basa su metodi di classificazione gerarchica delle parole «piene» contenute in un corpus; la pertinenza, la significatività e la coerenza delle classi individuate lascia al ricercatore margini di valutazione e rielaborazione dei risultati. Il software contiene anche strumenti per l’individuazione di parole tipiche di ogni classe e per l’analisi fattoriale delle corrispondenze.

Iramuteq
Iramuteq è un software libero (licenza GNU GLP) per analisti dei dati e testuali. Si basa sul software R (IRaMuTeQ significa infatti interfaccia R per l’analisi Multidimensionale del Testo e dei Questionari) e sul linguaggio di programmazione Python. Può realizzare diversi tipi di analisi su grandi corpora (più di centinaia di milioni di occorrenze). Iramuteq riproduce il metodo di classificazione descritto da Reinert (1983, 1991), ovvero la classificazione gerarchica discendente riguardante una tabella che incrocia le forme piene e i segmenti del testo. Può fare analisi delle specificità a partire da segmenti definiti e analisi delle similitudini sulle forme piene di un corpus.

Lexico
Lexico è un software per l’analisi automatica dei testi che contiene tutte le principali funzioni di ricerca e analisi statistica lessicometrica (vocabolario di frequenza, concordanze, ecc.). Ha il vantaggio di essere interattivo e di lasciare all’utente il controllo dei diversi passaggi che conducono dall’individuazione delle unità di analisi alla produzione dei risultati. Oltre all’analisi per forme grafiche semplici, il software permette l’identificazione di segmenti ripetuti e ricerche di co-occorrenze. Tra le caratteristiche tipiche di questo software c’è la produzione di diagrammi di topografia testuale che permettono di visualizzare la presenza di unità testuali nel corpus in una logica di tipo sequenziale (per esempio cronologica).

Nooj
Nooj si presenta come una nuova elaborazione delle metodologie e degli strumenti del software Intex. Il software Nooj si propone come strumento di analisi linguistica che include una vasta proposta di risorse linguistiche: dizionari, grammatiche, parsers e taggers per l’analisi morfologica e sintattica. Inoltre produce concordanze di vario livello e complessità oltre alle principali elaborazioni di tipo lessicometrico.

Sphinx
Il software Sphinx ha come punto di forza una particolare attenzione all’intero percorso di indagine, per questo si propone come pacchetto integrato di risorse che, attraverso interfacce user-friendly, si occupano di tutti i diversi passaggi: disegno della ricerca, realizzazione del questionario, raccolta e analisi dei dati. Nell’ambito degli strumenti per l’analisi dei dati ha un modulo specifico per l’analisi statistica dei dati testuali che contiene tutte le principali funzionalità dell’approccio lessicometrico e produce rappresentazioni grafiche dei risultati elaborate ed efficaci.

Lemmatizzatori

Treetagger
TreeTagger è un software libero che effettua una annotazione grammaticale di tipo stocastico e consente di ottenere in maniera automatica l’analisi grammaticale e la lemmatizzazione di testi scritti in francese, inglese, tedesco, italiano, spagnolo, bulgaro, russo, greco e portoghese. La lemmatizzazione si basa su file di parametrizzazione e su fasi di training attraverso le quali lo strumento è in grado di apprendere modalità decisionali a partire dalle informazioni provenienti da corpora già lemmatizzati. La lemmatizzazione automatica segue regole di tipo stocastico e, di conseguenza, il risultato non si può considerare infallibile e necessita di una revisione manuale per disambiguare tutti gli errori di interpretazione che un lemmatizzatore automatico normalmente compie. Il software è disponibile per i tre principali sistemi operativi Windows, Linux e Mac

Wordsmith Tools
WordSmith Tools è un insieme di procedure per l’analisi linguistica che offre strumenti per l’organizzazione di corpora e per svolgere ricerche complesse attraverso operatori di tipo query. Il pacchetto integra una gamma di risorse statistiche per l’analisi dei dati e svolge tutte le principali elaborazioni di tipo lessicale. Risulta interessante per la possibilità di lavorare con testi codificati in XML e di effettuare la lemmatizzazione automatica dei corpora. Da qualche anno è possibile analizzare testi in diverse lingue.

…solo per l’Italiano
Gatto
Gatto (Gestione degli Archivi Testuali del Tesoro delle Origini) è un software lessicografico nato come strumento per la costruzione, la gestione e l’interrogazione del corpus di testi che è alla base del Vocabolario Storico della Lingua Italiana dell’Opera del Vocabolario Italiano (OVI-CNR). Gatto permette di effettuare ricerche lessicografiche su un archivio testuale preparato dall’utente a condizione che i testi, opportunamente codificati, siano disponibili su file unitamente ai relativi dati bibliografici. Le ricerche lessicografiche possono essere estese all’intero corpus, essere limitate a uno o più sottoinsiemi dei testi, essere svolte (alternativamente) su corpora diversi. Tra le funzioni di base ci sono le ricerche lessicografiche, la lemmatizzazione dei testi e la gestione di dati che, all’interno del programma, corrispondono a diversi ambienti: ricerche, lemmatizzazione, gestione della base di dati. Le parti del programma permettono di lemmatizzare i corpora mediante associazione di lemmi alle forme grafiche che vi compaiono, sia in riferimento a specifiche occorrenze delle forme sia definendo collegamenti generali tra forme e lemmi. Una lemmatizzazione a più livelli può essere ottenuta anche raggruppando forme o lemmi mediante iperlemmi, definibili all’interno di una struttura gerarchica. I testi, completi di lemmi e iper lemmi associati, possono essere esportati facilmente in altri software. Le opzioni disponibili consentono di adeguare i comportamenti del programma a esigenze molto diverse.

Immortale
Nell’ambito del lavoro di ricerca del Laboratorio di Linguistica Computazionale dell’Università Ca’ Foscari di Venezia, è stata sviluppata una suite di programmi predisposti per le operazioni di parsing. La suite analizza un testo dalla prima fase di verticalizzazione fino alla lemmatizzazione attraverso diversi software che lavorano in catena. I software principali che compongono la suite sono: Mulltoks, un tokenizzatore, che trasforma il testo da lineare a verticalizzato (un token per riga); Immortale (Italian Morphological Tagger and Lemmatizer), un analizzatore morfologico che procede al riconoscimento delle multiword utilizzando una serie di dizionari morfemici (radici, polirematiche, prefissi, suffissi, ecc.) e alla disambiguazione per assegnare una etichetta univoca in base al significato del token nel contesto; Distag, un software che procede con una disambiguazione semiautomatica basata su algoritmi in parte statistici e in parte sintattici; Lemma_xml, un lemmatizzatore che offre l’opportunità di interagire e modificare manualmente la lemmatizzazione operata dal software precedente presentando ogni parola nella sua collocazione nel testo prima di passare all’ultima analisi con il shallow_parser.

IntraText
IntraText è un sistema integrato di biblioteca digitale e gestione documentale basato sul Trattamento Automatico della Lingua (TAL), orientato alla qualità editoriale e alla razionalizzazione dei processi di elaborazione, pubblicazione, archiviazione, consultazione, distribuzione e controllo di testi e documenti. Tra gli altri, IntraText offre sistemi di ricerca full-text, di indicizzazione e di controllo del testo rispetto a liste di riferimento (per individuare, per esempio, inesattezze terminologiche ed errori). È possibile attivare la consultazione e la ricerca nei testi anche basate sulla lemmatizzazione. La lemmatizzazione è disponibile per testi in lingua italiana nell’ambito di elaborazioni specifiche richieste direttamente alla Èulogos SpA.

2 comments

  • NelSenso.it è un laboratorio web di esperimenti e soluzoni di trattamento automatico del testo, offre agli utenti registrati applicazioni gratuite per l’estrazione automatica di frasi e parole chiave da utilizzare per vari scopi: SEO (Search Engine Optimization di pagine web), categorizzazione automatica: Summazer è una applicazione web in grado di leggere un testo ed estrapolare le frasi con più alto contenuto informativo per generare un riassunto del testo elaborato, Clusterizer è un tool che permette la classificazione automatica di keywords e keyprhases in categorie auto-determinate. IRezer consente l’estrazione automatica delle keywords (Tags) più semanticamente rilevanti in un (iper)testo.
    Lingue supportate: Italiano, Inglese, Francese, Spagnolo, Portoghese, Tedesco, Russo, etc…

  • I tools descritti nel commento precedente sono sul nuovo sito http://www.nelsenso.net 😉

Leave a Reply

Your email address will not be published.