[:it]Il GIAT sviluppa proprie procedure per l’analisi dei dati testuali principalmente con il software R
R (R-Project for Statistical Computing)
R è un linguaggio e un ambiente per il calcolo statistico e la grafica. R fornisce una vasta gamma di analisi statistiche (modelli lineari e non lineari, test statistici classici, analisi delle serie temporali, analisi dei cluster, ecc.) e di tecniche grafiche. Uno dei punti di forza di R è la facilità con cui si possono produrre grafici di qualità adatta alla pubblicazione, compresi i simboli e le formule matematiche. R è disponibile come Free Software in formato codice sorgente alle condizioni della licenza GNU della Free Software Foundation.
- Stylo R package (Computational Stylistic Group)
- Il pacchetto R UDPipe (UFAL) consente di eseguire operazioni di pretrattamento fondamentali per l’analisi preliminare di un corpus, quali tokenizzazione, tagging delle cosiddette POS (Part of Speech), lemmatizzazione e parsing delle dipendenze. Queste operazioni possono essere realizzate sfruttando modelli precostituiti (attualmente, esistono modelli in oltre 65 lingue), o lasciando la possibilità a ciascun utente di costruire il proprio modello per annotare i testi.
In commercio sono disponibili numerosi software dedicati che integrano risorse statistiche, informatiche e linguistiche e che si riconoscono in vere e proprie scuole di pensiero. I prodotti disponibili sono solo parzialmente completi e, quindi, nella scelta di un software devono essere sempre chiari gli scopi perseguiti dalla ricerca.
CAQDAS
Nell’ambito delle scienze umane e sociali molti software offrono supporto per l’analisi del contenuto e per l’analisi quantitativa e qualitativa dei dati testuali. Le principali case di produzione di software per l’analisi statistica propongono anche moduli per l’analisi dei dati testuali (già integrati o da integrare), spesso presentati come moduli per il text mining, come nel caso di LexiQuest e Text Mining for Clementine di Spss e il Text Miner della Sas. I CAQDAS (Computer-Assisted Qualitative Data Analysis Software) sono un’intera e numerosa famiglia di software che offrono strumenti di interrogazione, ricerca, organizzazione e annotazione di materiali testuali (o multimediali) finalizzati all’analisi qualitativa del contenuto. Utilizzati prevalentemente per l’analisi del contenuto di matrice sociologica e psicosociale, questi prodotti si presentano come strumenti di ausilio per il ricercatore nella fase di ricodifica del testo in categorie concettuali e, essenzialmente, cercano di rendere più rapide le operazioni di ricerca di informazioni nei testi e di ricodifica automatica. Tra i più diffusi: Atlas.ti, dedoose, Ethnograph, MAXQDA, WordStat , RQDA e due eredi del programma Nud*Ist: N6 e NVivo.
Analisi dei dati testuali
Alceste
Il software Alceste (Analyse des Lexèmes Co-occurents dans les Ènoncés d’un TExt) si propone come metodologia statistico-testuale finalizzata all’analisi del discorso, con applicazioni principali nell’ambito della semiotica e dell’analisi del contenuto. Si basa su metodi di classificazione gerarchica delle parole «piene» contenute in un corpus; la pertinenza, la significatività e la coerenza delle classi individuate lascia al ricercatore margini di valutazione e rielaborazione dei risultati. Il software contiene anche strumenti per l’individuazione di parole tipiche di ogni classe e per l’analisi fattoriale delle corrispondenze.
Iramuteq
Iramuteq è un software libero (licenza GNU GLP) per analisti dei dati e testuali. Si basa sul software R (IRaMuTeQ significa infatti interfaccia R per l’analisi Multidimensionale del Testo e dei Questionari) e sul linguaggio di programmazione Python. Può realizzare diversi tipi di analisi su grandi corpora (più di centinaia di milioni di occorrenze). Iramuteq riproduce il metodo di classificazione descritto da Reinert (1983, 1991), ovvero la classificazione gerarchica discendente riguardante una tabella che incrocia le forme piene e i segmenti del testo. Può fare analisi delle specificità a partire da segmenti definiti e analisi delle similitudini sulle forme piene di un corpus.
Lexico
Lexico è un software per l’analisi automatica dei testi che contiene tutte le principali funzioni di ricerca e analisi statistica lessicometrica (vocabolario di frequenza, concordanze, ecc.). Ha il vantaggio di essere interattivo e di lasciare all’utente il controllo dei diversi passaggi che conducono dall’individuazione delle unità di analisi alla produzione dei risultati. Oltre all’analisi per forme grafiche semplici, il software permette l’identificazione di segmenti ripetuti e ricerche di co-occorrenze. Tra le caratteristiche tipiche di questo software c’è la produzione di diagrammi di topografia testuale che permettono di visualizzare la presenza di unità testuali nel corpus in una logica di tipo sequenziale (per esempio cronologica).
Nooj
Nooj si presenta come una nuova elaborazione delle metodologie e degli strumenti del software Intex. Il software Nooj si propone come strumento di analisi linguistica che include una vasta proposta di risorse linguistiche: dizionari, grammatiche, parsers e taggers per l’analisi morfologica e sintattica. Inoltre produce concordanze di vario livello e complessità oltre alle principali elaborazioni di tipo lessicometrico.
Sphinx
Il software Sphinx ha come punto di forza una particolare attenzione all’intero percorso di indagine, per questo si propone come pacchetto integrato di risorse che, attraverso interfacce user-friendly, si occupano di tutti i diversi passaggi: disegno della ricerca, realizzazione del questionario, raccolta e analisi dei dati. Nell’ambito degli strumenti per l’analisi dei dati ha un modulo specifico per l’analisi statistica dei dati testuali che contiene tutte le principali funzionalità dell’approccio lessicometrico e produce rappresentazioni grafiche dei risultati elaborate ed efficaci.
Taltac
TaLTaC (Trattamento Automatico Lessicale e Testuale per l’Analisi del Contenuto di un Corpus) è un software per l’analisi testuale di documenti o di dati espressi in linguaggio naturale, che utilizza in maniera integrata risorse sia di tipo statistico che di tipo linguistico. Il trattamento del testo avviene in modo automatico sia a livello lessicale che testuale e alcune fasi costituiscono una preparazione del corpus per le successive analisi, svolte con il software nella duplice logica di text analysis e di text mining. Tali analisi offrono rappresentazioni del fenomeno studiato sia a livello di unità di testo (parole) sia a livello di unità di contesto (frammenti/documenti). Le funzioni permettono di analizzare corpora di grandi dimensioni (oltre 150MB), di svolgere tutte le operazioni fondamentali di trattamento del linguaggio naturale, di ricerca ed estrazione d’informazioni dal testo, nonché di fare annotazioni sul vocabolario del corpus e categorizzazione automatica dei documenti a partire da query, di selezionare ed estrarre le informazioni più significative. Tutti gli output, sotto forma di corpora annotati o di matrici di dati, hanno formati idonei al passaggio ad altri pacchetti statistici di analisi testuale o di analisi qualitativa e quantitativa dei dati.
T-Lab
T-Lab è un software modulare costituito da un insieme di strumenti linguistici e statistici che consentono l’esplorazione, l’analisi, la comparazione, la rappresentazione grafica e l’interpretazione dei contenuti presenti nei testi. T-Lab propone una gamma di funzioni per l’analisi lessicale con un’architettura user-friendly. Nella fase di pre-processing T-Lab realizza i principali trattamenti automatici dell’approccio lessicometrico: normalizzazione del corpus, riconoscimento di sequenze fisse di parole, segmentazione in contesti elementari, lemmatizzazione, selezione delle parole chiave, ecc. La procedura di lemmatizzazione automatica dei testi opera in italiano, inglese, francese, spagnolo e latino.
TXM
TXM è un software libero che riconosce testi e corpora in formato Unicode e XML. La sua grafica si basa sugli ambienti CQP e R. E’ un software disponibile per Windows, Mac OS X e come portale web J2EE. TXM implementa la metodologia dell’analisi testuale fornendo strumenti sia per l’analisi qualitativa come per esempio concordanze lessicali basate sull’efficiente motore di ricerca CQP e il linguaggio di query CQL, liste di frequenza, istogrammi di occorrenze, che per l’analisi quantitativa come analisi fattoriale delle corrispondenze, clustering etc. Può essere utilizzato con una qualsiasi raccolta di documenti codificati Unicode in vari formati: TXT, XML, XML-TEI P5, XML-Transcriber, XML-TMX, XML-PPS, Europresse, etc. Applica vari strumenti NLP nei testi prima dell’analisi (ad esempio TreeTagger per la lemmatizzazione e il tagging).
Software per lo stemming
Porter
L’algoritmo di Porter è la base di uno stemmer, cioè di una procedura automatica di trasformazione delle parole dalla forma flessa alla radice (stem) molto diffusa nell’Information Retrieval (IR). Per ridurre un testo scritto in lingua inglese da forme a stems è disponibile una versione on-line.
Lemmatizzatori
Treetagger
TreeTagger è un software libero che effettua una annotazione grammaticale di tipo stocastico e consente di ottenere in maniera automatica l’analisi grammaticale e la lemmatizzazione di testi scritti in francese, inglese, tedesco, italiano, spagnolo, bulgaro, russo, greco e portoghese. La lemmatizzazione si basa su file di parametrizzazione e su fasi di training attraverso le quali lo strumento è in grado di apprendere modalità decisionali a partire dalle informazioni provenienti da corpora già lemmatizzati. La lemmatizzazione automatica segue regole di tipo stocastico e, di conseguenza, il risultato non si può considerare infallibile e necessita di una revisione manuale per disambiguare tutti gli errori di interpretazione che un lemmatizzatore automatico normalmente compie. Il software è disponibile per i tre principali sistemi operativi Windows, Linux e Mac
Wordsmith Tools
WordSmith Tools è un insieme di procedure per l’analisi linguistica che offre strumenti per l’organizzazione di corpora e per svolgere ricerche complesse attraverso operatori di tipo query. Il pacchetto integra una gamma di risorse statistiche per l’analisi dei dati e svolge tutte le principali elaborazioni di tipo lessicale. Risulta interessante per la possibilità di lavorare con testi codificati in XML e di effettuare la lemmatizzazione automatica dei corpora. Da qualche anno è possibile analizzare testi in diverse lingue.
…solo per l’Italiano
Gatto
Gatto (Gestione degli Archivi Testuali del Tesoro delle Origini) è un software lessicografico nato come strumento per la costruzione, la gestione e l’interrogazione del corpus di testi che è alla base del Vocabolario Storico della Lingua Italiana dell’Opera del Vocabolario Italiano (OVI-CNR). Gatto permette di effettuare ricerche lessicografiche su un archivio testuale preparato dall’utente a condizione che i testi, opportunamente codificati, siano disponibili su file unitamente ai relativi dati bibliografici. Le ricerche lessicografiche possono essere estese all’intero corpus, essere limitate a uno o più sottoinsiemi dei testi, essere svolte (alternativamente) su corpora diversi. Tra le funzioni di base ci sono le ricerche lessicografiche, la lemmatizzazione dei testi e la gestione di dati che, all’interno del programma, corrispondono a diversi ambienti: ricerche, lemmatizzazione, gestione della base di dati. Le parti del programma permettono di lemmatizzare i corpora mediante associazione di lemmi alle forme grafiche che vi compaiono, sia in riferimento a specifiche occorrenze delle forme sia definendo collegamenti generali tra forme e lemmi. Una lemmatizzazione a più livelli può essere ottenuta anche raggruppando forme o lemmi mediante iperlemmi, definibili all’interno di una struttura gerarchica. I testi, completi di lemmi e iper lemmi associati, possono essere esportati facilmente in altri software. Le opzioni disponibili consentono di adeguare i comportamenti del programma a esigenze molto diverse.
Immortale
Nell’ambito del lavoro di ricerca del Laboratorio di Linguistica Computazionale dell’Università Ca’ Foscari di Venezia, è stata sviluppata una suite di programmi predisposti per le operazioni di parsing. La suite analizza un testo dalla prima fase di verticalizzazione fino alla lemmatizzazione attraverso diversi software che lavorano in catena. I software principali che compongono la suite sono: Mulltoks, un tokenizzatore, che trasforma il testo da lineare a verticalizzato (un token per riga); Immortale (Italian Morphological Tagger and Lemmatizer), un analizzatore morfologico che procede al riconoscimento delle multiword utilizzando una serie di dizionari morfemici (radici, polirematiche, prefissi, suffissi, ecc.) e alla disambiguazione per assegnare una etichetta univoca in base al significato del token nel contesto; Distag, un software che procede con una disambiguazione semiautomatica basata su algoritmi in parte statistici e in parte sintattici; Lemma_xml, un lemmatizzatore che offre l’opportunità di interagire e modificare manualmente la lemmatizzazione operata dal software precedente presentando ogni parola nella sua collocazione nel testo prima di passare all’ultima analisi con il shallow_parser.
IntraText
IntraText è un sistema integrato di biblioteca digitale e gestione documentale basato sul Trattamento Automatico della Lingua (TAL), orientato alla qualità editoriale e alla razionalizzazione dei processi di elaborazione, pubblicazione, archiviazione, consultazione, distribuzione e controllo di testi e documenti. Tra gli altri, IntraText offre sistemi di ricerca full-text, di indicizzazione e di controllo del testo rispetto a liste di riferimento (per individuare, per esempio, inesattezze terminologiche ed errori). È possibile attivare la consultazione e la ricerca nei testi anche basate sulla lemmatizzazione. La lemmatizzazione è disponibile per testi in lingua italiana nell’ambito di elaborazioni specifiche richieste direttamente alla Èulogos SpA.
[:en]Giat develops its own procedures for textual data analysis mainly with R.
R (The R project for Statistical Computing)
R is a language and environment for statistical computing and graphics. R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, time-series analysis, clustering, etc.) and graphical techniques. One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed. R is available as Free Software under the terms of the Free Software Foundation’s GNU General Public License in source code form. Many software that combine statistical, IT and linguistic resources are available both for free and in commerce. Every product is only in part complete, thus, choosing a software, it is necessary to have in mind the main goal of the research.
- Stylo R package (Computational Stylistic Group)
- The R package UDPipe (UFAL) allows to perform pre-processing operations that are fundamental for the preliminary analysis of a corpus, such as tokenization, parts of speech (POS) tagging, lemmatization, and dependency parsing. These operations can be carried out by exploiting pre-built templates (currently, templates exist in over 65 languages), or by leaving it to each user to build their own template for annotating texts.
CAQDAS
In human and social sciences many software support content analysis, qualitative and quantitative analysis of textual data. The software producers offer single modules (integrated and non integrated) for textual data analysis. Frequently they are presented as text mining modules, as for exemple LexiQuest and Spss module Text Mining for Clementine, and Sas Text Miner. CAQDAS (Computer-Assisted Qualitative Data Analysis Software) are part of a huge software family that offer research and query tools, corpora organization and short annotation. They are used mainly for content analysis in sociology and psychology; those products are helpful tools for researchers during the phase of recoding text in conceptual category. Basically they help to speed up the process of information retrieval and automatic recode. The most common are: Atlas.ti, dedoose, Ethnograph, MAXQDA, WordStat, RQDA and two softwares orginated from Nud*Ist: N6 e NVivo.
Analysis of Textual Data
Alceste
Alceste (Analyse des Lexèmes Co-occurents dans les Ènoncés d’un Text) is a textual data analysis software developed by the Image society, together with the French National Scientific Research Council (CNRS in French). Alceste proceed to a first analysis of the vocabulary of a corpus, and makes the dictionary of these words with their roots and frequencies. Then it cuts the text into homogeneous segments containing a sufficient number of words, and it proceeds to a classification of these segments by spotting stronger oppositions. This method allows extracting classes of meanings, made up of most specific words and phrases, the remaining classes represent the main ideas and themes of the corpus.The overall results, sorted according to their relevance, with several graphical representations and analysis reports, allow the user an easy and effective interpretation. It treats any type of text, in several languages and has many applications in different fields.
Iramuteq
Iramuteq is a free (as in free speech) software (licence GNU GPL) for data and textual manning. It’s based on R (IRaMuTeQ means R Interface for Multidimensional analysis of Texts and Questionnaire) and on the python programming language. It can perform different types of text analysis and visualization on large text corpora (over hundreds of millions of occurrences). One of its particularities is to reproduce Reinert Analysis (1983, 1991).
Lexico
Working with Lexico the user maintains control over the entire lexicometric process from initial segmentation to the publication of final results (segmentation, concordances, breakdown in graphic form, characteristic elements and factorial analyses of repeated forms and segments). The main improvement found in the last versions concerns an object-oriented program architecture. The different interactive modules are now able to exchange more complex data (forms, repeated segments, future co-occurrences). This new version allows for more precision in the characterization of different parts of a corpus according to their most frequently employed forms by isolating sections of the text in which this sort of distribution is particularly evident. Concretisation of these sections onto diagrams that represent the text allow the creation of a veritable textual topography.
Nooj
Nooj is a linguistic development environment that includes large-coverage dictionaries and grammars, and parses corpora in real time. It includes tools to create and maintain large-coverage lexical resources, as well as morphological and syntactic grammars. Dictionaries and grammars are applied to texts in order to locate morphological, lexical and syntactic patterns and tag simple and compound words. It can build complex concordances, with respect to all types of FiniteState and Context-Free patterns. Users can easily develop extractors to identify semantic units in large texts, such as names of persons, locations, dates, technical expressions of finance, etc.
Sphinx
Sphinx iQ offers a user-friendly environment that allows the management of all study, data collection and results communication projects. Sphinx opens and imports any kind of corpus as for example speeches, websites, non-directed interviews, focus groups, bibliographical bases, etc. It produces glossaries and lexical browsing to highlight specific subjects and associations (concordance and related lexicons). Sphinx analyses language structures thanks to syntax analysis (lemmatizer). It highlights textual specificities and view them on charts. Finally it can be useful in lexicometry: it measure and codify the text’s lexical features and create corresponding variables.
Taltac
TaLTaC is the acronym of Trattamento Automatico Lessicale e Testuale per l’Analisi del Contenuto (Italian for “Automatic Lexical and Textual Processing for the Analysis of Content”). Taltac is a software application for the automatic analysis of texts according to the logics of both Text Analysis (TA) and Text Mining (TM). Such an analysis allows to define a quantitative representation of the phenomenon under study, both at the level of text-units (words) and context-units (words). Consequently, both thelanguage and the contents of the text can be examined. The approach according to which the application has been designed makes it possible to carry out the analysis without actually reading the series of texts, that is, independently of the size of the corpus (the latter can be huge, and include as many as millions of words). Taltac originates from research carried out at the Universities of Salerno and Rome “La Sapienza” during the 1990s under the supervision of Sergio Bolasco, Professor of Statistics at the Department of geo-economic, linguistic, statistical and historical studies for regional analysis of “La Sapienza” University. It is the result of the cooperation of researchers and colleagues of several Italian and French universities. It employs both statistical and linguistic resources. These are highly integrated with each other and can be customized by the user. This allows – both at the lexical and textual level – for text analysis and information recovery and extraction according to the principles of data and text mining.
T-Lab
T-Lab software is an all-in-one set of linguistic and statistical tools for content analysis and text mining. Its interface is very user-friendly and many types of texts can be analysed: speech transcripts, newspaper articles, responses to open-ended questions, transcripts of interviews and focus groups, legislative texts, company documents, books, etc. T-LAB uses a kind of text-driven automatic approach which allows meaningful patterns of words and themes to emerge. Various measures and several analysis methods can be applied. Tables and charts can be easily browsed and interpreted. The user’s interface and the contextual help are in four languages: English, French, Spanish, Italian. T-LAB pre-processing steps include text segmentation, automatic lemmatisation and key-term selection. Subsequently, three sub-menus allow easy browsing between several tools for co-occurrence analysis, thematic analysis, comparative analysis.
TXM
TXM is free, open-source simple Unicode texts and XML aware text/corpus analysis environment and graphical client based on CQP and R. It is available for Microsoft Windows, Linux, Mac OS X and as a J2EE web portal. TXM implements the textometry text analysis methodology: It provides qualitative analysis tools: concordances of lexical patterns based on the efficient CQP full text search engine and its CQL query language, frequency lists, pattern occurrences histogram; and quantitative tools: factorial correspondance analysis, clustering and collocation statistics. It may be used with any collection of Unicode encoded documents in various formats: TXT, XML, various flavours of XML-TEI P5, XML-Transcriber, XML-TMX (aligned corpora), XML-PPS (Factiva), Europresse, etc. Applies various NLP tools on the fly on texts before analysis (e.g. TreeTagger for lemmatization and pos tagging). It is Open Source and based on the best open source components for text analysis: CQP, R and Java & XSLT libraries.
Stemmers
Porter stemmer
The Porter stemming algorithm (or Porter stemmer) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term normalisation process that is usually done when setting up Information Retrieval systems. An on-line version for texts (written in English) is available.
Lemmatizers
Treetagger
TreeTagger is a tool for annotating text with part-of-speech and lemma information. It was developed by Helmut Schmid in the TC project at the Institute for Computational Linguistics of the University of Stuttgart. In 1993/1994 the project collected textual material for German, French and Italian, developed a representation for texts and markups, along with a query language and a corpus access system for linguistic exploration of the text material. Texts and analysis results are kept separate from each other, for reasons of flexibility and extensibility of the system; this is possible because of a particular approach for storage and representation. Tool components under development, language-specific and general, range from morphosyntactic analysis to partial parsing, and from mutual information, t-score, collocation extraction and clustering to HMM-based tagging and n-gram tagging. Research on statistical models for noun phrases, verb-object collocations, etc. is going on. The TreeTagger is an open source software and it has been successfully used to tag German, English, French, Italian, Dutch, Spanish, Bulgarian, Russian, Greek, Portuguese, Galician, Chinese, Swahili, Latin, Estonian and old French texts and is adaptable to other languages if a lexicon and a manually tagged training corpus are available.
Wordsmith Tools
WordSmith Tools is an integrated suite of programs for looking at how words behave in texts. It allows to use the tools to find out how words are used in texts. The WordList tool provides a list of all the words or word-clusters in a text, set out in alphabetical or frequency order. The concordancer, Concord, gives a chance to see any word or phrase in context. With KeyWords it is possible to find the key words in a text. The tools have been used by Oxford University Press for their own lexicographic work in preparing dictionaries, by language teachers and students, and by researchers investigating language patterns in lots of different languages in many countries world-wide.
…only for Italian:
Gatto , suite Immortale, IntraText (Èulogos SpA)
[:]