| |
La Èulogos realizza corpora, corpora annotati e lessici derivati dallo spoglio di testi e corpora in lingua italiana e in altre lingue a caratteri latini. Dispone inoltre di liste di servizio (parole vuote, forme ecc.) delle principali lingue europee. Èulogos realizza corpora partendo da materiale fornito dal committente o reperendo essa stessa il materiale da fonti affidabili. Su questi corpora la Èulogos può procedere con operazioni di strutturazione, lessicalizzazione e può registrare i dati linguistici relativi a ogni singola occorrenza utilizzando annotazioni di diverso tipo. I lessici vengono realizzati utilizzando le informazioni lessicali disponibili, eventualmente associate o filtrate con fonti esterne per la realizzazione di lessici particolari. Per il materiale in lingua italiana sono possibili operazioni di lemmatizzazione con disambiguazione automatica. I dati possono essere integrati con i dati lessicali posseduti da Èulogos relativi alle liste di riferimento (VdB, LIF, VELI, LIP), dandone rappresentazione nel testo stesso con annotazioni specifiche. Materiale di esempio disponibile liberamente: - Corpus di conversazioni da chat-line in lingua italiana
- MYTH: Multilingual hYpertextual Thesaurus for Healthcare
(in collaborazione con CNR) - Surgical procedures
(from GALEN-IN-USE) - Nursing terminology
(from HHCC, NANDA, NIC93, NIC96, NOC, Omaha S., PCDS) - Archetypes of situations for clinical information
(from CEN/TC251/PT27)
|