Il GIAT sviluppa proprie procedure per l’analisi dei dati testuali principalmente con il software R

R (R-Project for Statistical Computing)

R è un linguaggio e un ambiente per il calcolo statistico e la grafica. R fornisce una vasta gamma di analisi statistiche (modelli lineari e non lineari, test statistici classici, analisi delle serie temporali, analisi dei cluster, ecc.) e di tecniche grafiche. Uno dei punti di forza di R è la facilità con cui si possono produrre grafici di qualità adatta alla pubblicazione, compresi i simboli e le formule matematiche. R è disponibile come Free Software in formato codice sorgente alle condizioni della licenza GNU della Free Software Foundation.

In commercio sono disponibili numerosi software dedicati che integrano risorse statistiche, informatiche e linguistiche e che si riconoscono in vere e proprie scuole di pensiero. I prodotti disponibili sono solo parzialmente completi e, quindi, nella scelta di un software devono essere sempre chiari gli scopi perseguiti dalla ricerca.

CAQDAS

Nell’ambito delle scienze umane e sociali molti software offrono supporto per l’analisi del contenuto e per l’analisi quantitativa e qualitativa dei dati testuali. Le principali case di produzione di software per l’analisi statistica propongono anche moduli per l’analisi dei dati testuali (già integrati o da integrare), spesso presentati come moduli per il text mining, come nel caso di LexiQuest  e Text Mining for Clementine di Spss e il Text Miner della Sas. I CAQDAS (Computer-Assisted Qualitative Data Analysis Software) sono un’intera e numerosa famiglia di software che offrono strumenti di interrogazione, ricerca, organizzazione e annotazione di materiali testuali (o multimediali) finalizzati all’analisi qualitativa del contenuto. Utilizzati prevalentemente per l’analisi del contenuto di matrice sociologica e psicosociale, questi prodotti si presentano come strumenti di ausilio per il ricercatore nella fase di ricodifica del testo in categorie concettuali e, essenzialmente, cercano di rendere più rapide le operazioni di ricerca di informazioni nei testi e di ricodifica automatica. Tra i più diffusi: Atlas.ti, dedooseEthnograph, MAXQDA, WordStat e due eredi del programma Nud*Ist: N6 e NVivo.

Analisi dei dati testuali

Alceste

Il software Alceste (Analyse des Lexèmes Co-occurents dans les Ènoncés d’un TExt) si propone come metodologia statistico-testuale finalizzata all’analisi del discorso, con applicazioni principali nell’ambito della semiotica e dell’analisi del contenuto. Si basa su metodi di classificazione gerarchica delle parole «piene» contenute in un corpus; la pertinenza, la significatività e la coerenza delle classi individuate lascia al ricercatore margini di valutazione e rielaborazione dei risultati. Il software contiene anche strumenti per l’individuazione di parole tipiche di ogni classe e per l’analisi fattoriale delle corrispondenze.

Iramuteq

Iramuteq è un software libero (licenza GNU GLP) per analisti dei dati e testuali. Si basa sul software R (IRaMuTeQ significa infatti interfaccia R per l’analisi Multidimensionale del Testo e dei Questionari) e sul linguaggio di programmazione Python. Può realizzare diversi tipi di analisi su grandi corpora (più di centinaia di milioni di occorrenze). Iramuteq riproduce il metodo di classificazione descritto da Reinert (1983, 1991), ovvero la classificazione gerarchica discendente riguardante una tabella che incrocia le forme piene e i segmenti del testo. Può fare analisi delle specificità a partire da segmenti definiti e analisi delle similitudini sulle forme piene di un corpus.

Lexico

Lexico è un software per l’analisi automatica dei testi che contiene tutte le principali funzioni di ricerca e analisi statistica lessicometrica (vocabolario di frequenza, concordanze, ecc.). Ha il vantaggio di essere interattivo e di lasciare all’utente il controllo dei diversi passaggi che conducono dall’individuazione delle unità di analisi alla produzione dei risultati. Oltre all’analisi per forme grafiche semplici, il software permette l’identificazione di segmenti ripetuti e ricerche di co-occorrenze. Tra le caratteristiche tipiche di questo software c’è la produzione di diagrammi di topografia testuale che permettono di visualizzare la presenza di unità testuali nel corpus in una logica di tipo sequenziale (per esempio cronologica).

Nooj

Nooj si presenta come una nuova elaborazione delle metodologie e degli strumenti del software Intex. Il software Nooj si propone come strumento di analisi linguistica che include una vasta proposta di risorse linguistiche: dizionari, grammatiche, parsers e taggers per l’analisi morfologica e sintattica. Inoltre produce concordanze di vario livello e complessità oltre alle principali elaborazioni di tipo lessicometrico.

Sphinx

Il software Sphinx ha come punto di forza una particolare attenzione all’intero percorso di indagine, per questo si propone come pacchetto integrato di risorse che, attraverso interfacce user-friendly, si occupano di tutti i diversi passaggi: disegno della ricerca, realizzazione del questionario, raccolta e analisi dei dati. Nell’ambito degli strumenti per l’analisi dei dati ha un modulo specifico per l’analisi statistica dei dati testuali che contiene tutte le principali funzionalità dell’approccio lessicometrico e produce rappresentazioni grafiche dei risultati elaborate ed efficaci.

Taltac

TaLTaC2 (Trattamento Automatico Lessicale e Testuale per l’Analisi del Contenuto di un Corpus) è un software per l’analisi testuale di documenti o di dati espressi in linguaggio naturale, che utilizza in maniera integrata risorse sia di tipo statistico che di tipo linguistico. Il trattamento del testo avviene in modo automatico sia a livello lessicale che testuale e alcune fasi costituiscono una preparazione del corpus per le successive analisi, svolte con il software nella duplice logica di text analysis e di text mining. Tali analisi offrono rappresentazioni del fenomeno studiato sia a livello di unità di testo (parole) sia a livello di unità di contesto (frammenti/documenti). Le funzioni permettono di analizzare corpora di grandi dimensioni (oltre 150MB), di svolgere tutte le operazioni fondamentali di trattamento del linguaggio naturale, di ricerca ed estrazione d’informazioni dal testo, nonché di fare annotazioni sul vocabolario del corpus e categorizzazione automatica dei documenti a partire da query, di selezionare ed estrarre le informazioni più significative. Tutti gli output, sotto forma di corpora annotati o di matrici di dati, hanno formati idonei al passaggio ad altri pacchetti statistici di analisi testuale o di analisi qualitativa e quantitativa dei dati.

T-Lab

T-Lab è un software modulare costituito da un insieme di strumenti linguistici e statistici che consentono l’esplorazione, l’analisi, la comparazione, la rappresentazione grafica e l’interpretazione dei contenuti presenti nei testi. T-Lab propone una gamma di funzioni per l’analisi lessicale con un’architettura user-friendly. Nella fase di pre-processing T-Lab realizza i principali trattamenti automatici dell’approccio lessicometrico: normalizzazione del corpus, riconoscimento di sequenze fisse di parole, segmentazione in contesti elementari, lemmatizzazione, selezione delle parole chiave, ecc. La procedura di lemmatizzazione automatica dei testi opera in italiano, inglese, francese, spagnolo e latino.

TXM

TXM è un software libero che riconosce testi e corpora in formato Unicode e XML. La sua grafica si basa sugli ambienti CQP e R. E’ un software disponibile per Windows, Mac OS X e come portale web J2EE. TXM implementa la metodologia dell’analisi testuale fornendo strumenti sia per l’analisi qualitativa come per esempio concordanze lessicali basate sull’efficiente motore di ricerca CQP e il linguaggio di query CQL, liste di frequenza, istogrammi di occorrenze, che per l’analisi quantitativa come analisi fattoriale delle corrispondenze, clustering etc. Può essere utilizzato con una qualsiasi raccolta di documenti codificati Unicode in vari formati: TXT, XML, XML-TEI P5, XML-Transcriber, XML-TMX, XML-PPS, Europresse, etc. Applica vari strumenti NLP nei testi prima dell’analisi (ad esempio TreeTagger per la lemmatizzazione e il tagging).

Software per lo stemming

Porter

L’algoritmo di Porter è la base di uno stemmer, cioè di una procedura automatica di trasformazione delle parole dalla forma flessa alla radice (stem) molto diffusa nell’Information Retrieval (IR). Per ridurre un testo scritto in lingua inglese da forme a stems è disponibile una versione on-line.

Lemmatizzatori

Treetagger

TreeTagger è un software libero che effettua una annotazione grammaticale di tipo stocastico e consente di ottenere in maniera automatica l’analisi grammaticale e la lemmatizzazione di testi scritti in francese, inglese, tedesco, italiano, spagnolo, bulgaro, russo, greco e portoghese. La lemmatizzazione si basa su file di parametrizzazione e su fasi di training attraverso le quali lo strumento è in grado di apprendere modalità decisionali a partire dalle informazioni provenienti da corpora già lemmatizzati. La lemmatizzazione automatica segue regole di tipo stocastico e, di conseguenza, il risultato non si può considerare infallibile e necessita di una revisione manuale per disambiguare tutti gli errori di interpretazione che un lemmatizzatore automatico normalmente compie. Il software è disponibile per i tre principali sistemi operativi Windows, Linux e Mac

Wordsmith Tools

WordSmith Tools è un insieme di procedure per l’analisi linguistica che offre strumenti per l’organizzazione di corpora e per svolgere ricerche complesse attraverso operatori di tipo query. Il pacchetto integra una gamma di risorse statistiche per l’analisi dei dati e svolge tutte le principali elaborazioni di tipo lessicale. Risulta interessante per la possibilità di lavorare con testi codificati in XML e di effettuare la lemmatizzazione automatica dei corpora. Da qualche anno è possibile analizzare testi in diverse lingue.

…solo per l’Italiano

Gatto

Gatto (Gestione degli Archivi Testuali del Tesoro delle Origini) è un software lessicografico nato come strumento per la costruzione, la gestione e l’interrogazione del corpus di testi che è alla base del Vocabolario Storico della Lingua Italiana dell’Opera del Vocabolario Italiano (OVI-CNR). Gatto permette di effettuare ricerche lessicografiche su un archivio testuale preparato dall’utente a condizione che i testi, opportunamente codificati, siano disponibili su file unitamente ai relativi dati bibliografici. Le ricerche lessicografiche possono essere estese all’intero corpus, essere limitate a uno o più sottoinsiemi dei testi, essere svolte (alternativamente) su corpora diversi. Tra le funzioni di base ci sono le ricerche lessicografiche, la lemmatizzazione dei testi e la gestione di dati che, all’interno del programma, corrispondono a diversi ambienti: ricerche, lemmatizzazione, gestione della base di dati. Le parti del programma permettono di lemmatizzare i corpora mediante associazione di lemmi alle forme grafiche che vi compaiono, sia in riferimento a specifiche occorrenze delle forme sia definendo collegamenti generali tra forme e lemmi. Una lemmatizzazione a più livelli può essere ottenuta anche raggruppando forme o lemmi mediante iperlemmi, definibili all’interno di una struttura gerarchica. I testi, completi di lemmi e iper lemmi associati, possono essere esportati facilmente in altri software. Le opzioni disponibili consentono di adeguare i comportamenti del programma a esigenze molto diverse.

Immortale

Nell’ambito del lavoro di ricerca del Laboratorio di Linguistica Computazionale dell’Università Ca’ Foscari di Venezia, è stata sviluppata una suite di programmi predisposti per le operazioni di parsing. La suite analizza un testo dalla prima fase di verticalizzazione fino alla lemmatizzazione attraverso diversi software che lavorano in catena. I software principali che compongono la suite sono: Mulltoks, un tokenizzatore, che trasforma il testo da lineare a verticalizzato (un token per riga); Immortale (Italian Morphological Tagger and Lemmatizer), un analizzatore morfologico che procede al riconoscimento delle multiword utilizzando una serie di dizionari morfemici (radici, polirematiche, prefissi, suffissi, ecc.) e alla disambiguazione per assegnare una etichetta univoca in base al significato del token nel contesto; Distag, un software che procede con una disambiguazione semiautomatica basata su algoritmi in parte statistici e in parte sintattici; Lemma_xml, un lemmatizzatore che offre l’opportunità di interagire e modificare manualmente la lemmatizzazione operata dal software precedente presentando ogni parola nella sua collocazione nel testo prima di passare all’ultima analisi con il shallow_parser.

IntraText

IntraText è un sistema integrato di biblioteca digitale e gestione documentale basato sul Trattamento Automatico della Lingua (TAL), orientato alla qualità editoriale e alla razionalizzazione dei processi di elaborazione, pubblicazione, archiviazione, consultazione, distribuzione e controllo di testi e documenti. Tra gli altri, IntraText offre sistemi di ricerca full-text, di indicizzazione e di controllo del testo rispetto a liste di riferimento (per individuare, per esempio, inesattezze terminologiche ed errori). È possibile attivare la consultazione e la ricerca nei testi anche basate sulla lemmatizzazione. La lemmatizzazione è disponibile per testi in lingua italiana nell’ambito di elaborazioni specifiche richieste direttamente alla Èulogos SpA.

Lingua:

Ciao Lorenzo…

Una pagina in onore del Prof. Lorenzo Bernardi (1943-2014).

Highlights!

Highlights!

University of Trier, Germany, August 24-28

marzo: 2017
L M M G V S D
« mag    
 12345
6789101112
13141516171819
20212223242526
2728293031