WordNet

WordNet
Instancia de	lexical database (en) , rede de palavras (pt) , grafo de coñecemento, dicionário conceitual (pt) , rede semântica (pt) , base de datos e grafo
Tema principal	relação semântica (pt) e palabra
Licenza	Licenza BSD
	Linguas lingua inglesa ; ;
	Versións 3.1 versión estábel (xuño de 2011); 1.7 ; 1.6 ; 1.5 ; 1.7.1 ; 2.1 (marzo de 2005); 2.0 ; 3.0 (decembro de 2006); 1.0 (1998) ; ;
Datas e localizacións
Creación	1998
Persoas e organizacións
Desenvolvedor	Christiane Fellbaum
Fontes e ligazóns
Páxina WEB	wordnet.princeton.edu
	Descrito pola fonte WordNet: An Electronic Lexical Database (en) ; WordNet: a lexical database for English (en) ; ;
	[ Wikidata ]

WordNet é un léxico semántico para a lingua inglesa. Agrupa palabras inglesas en grupos de sinónimos chamados synsets, prové de definicións curtas e almacena as distintas relacións semánticas entre estes grupos de sinónimos. O propósito é dobre: producir unha combinación de dicionario e tesauro que se puidese empregar dunha forma máis intuitiva, e co obxectivo de soporta-la análise automática de textos e as apliacións da intelixencia artificial. A base de datos e ferramentas software son públicas baixo unha licenza tipo BSD e poden ser descargadas e empregadas libremente. A base de datos tamén pode ser consultada en liña.

WordNet foi creado e mantido polo Laboratorio de Ciencias Cognitivas da Universidade de Princeton baixo a dirección do profesor de psicoloxía George A. Miller. O seu densenvolvemento comezou en 1985. Ao longo dos anos, o proxecto recibiu preto de 3 millóns de dólares en doazóns, principalmente de axencias gobernamentais interesadas na tradución automática.

Contidos da base de datos

No ano 2005, a base de datos contiña 150.000 palabras organizadas en 115.000 synsets para un total de 203.000 pares con significados; comprimidos ocupan arredor de 12 megabytes de tamaño.

WordNet distingue entre nomes, verbos, adxectivos e adverbios, asumindo que estes son aloxados no cerebro humano dunha forma distinta. Cada synset contén un grupo de palabras sinónimas ou collocations (unha colocación é unha secuencia de palabras que van xuntas para formar un significado específico, tal como "préstamo de coche"); normalmente as palabras forman parte de varios synsets. O significado de cada synset é explicado en profundidade a través de glosas curtas. Un synset tipico de exemplo con glosa e:

bo, correcto, oportuno -- (o máis adecuado ou correcto para un propósito particular; "un bo momento para plantar tomates"; "o momento correcto para actuar"; "o momento é oportuno para grandes cambios sociais")

Cada synset esta conectado a outros synsets a través de varias relacións. Estas relacións poden variar dependendo do tipo de palabra:

Nomes
- sinónimos: synsets con significados similares
- hiperónimos: Y é un hiperónimo de X se cada X é un (tipo de) Y
- hipónimos: Y é un hipónimo de X se cada Y é un (tipo de) X
- termos coordinados: Y é un termo coordinado de X se X é Y comparten un hiperónimo
- holónimo: Y é un holónimo de X se X é parte de Y
- merónimo: Y é un merónimo de X se Y é parte de X
Verbos
- sinónimos
- hiperónimo: o nome Y é un hiperónimo do verbo X se a actividade X é un (tipo de) Y
- termos coordinados: aqueles termos compartindo un hiperónimo
Adxectivos
- sinónimos e nomes relacionados
- antónimos: adxectivos de significados opostos
Adverbios
- sinónimos e adxectivos raíz
- antónimos

WordNet tamén proporciona o polysemy count (contador polisémico) dunha palabra: o número de synsets que contén a palabra. Se unha palabra está presente en varios synsets (p.ex. ten varios significados), entón tipicamente algúns significados son máis comúns ca outros. WordNet contabiliza isto a través da frequency score (puntuación de frecuencia): nalgúns textos de exemplo todas as palabras foron semanticamente anotadas co synset correspondente, ademais de contabilizado con que frecuencia unha palabra aparecía cun sentido.

A interface da base de datos é quen de deducir a forma raíz dunha palabra a partir da entrada do usuario; soamente a forma principal se almacena na base de datos.

Limitacións

O contrario que outros dicionarios, WordNet non inclúe información acerca da etimoloxía, pronuncia e as formas dos verbos irregulares e contén soamente información limitada acerca do uso.

A información lexicográfica e semántica é mantida na actualidade en arquivos lexicograficos, os cales son procesados por un programa chamado muinho para producir a base de datos distribuída. Tanto o muinho como os arquivos lexicográficos están dispoñibles libremente, pero modificar e manter a base de datos é sen dúbida difícil.

Proxectos relacionados

O proxecto EuroWordNet ten producidas WordNets para varias linguas europeas relacionándoas entre elas; estas non son libremente accesibles a pesar de todo. O proxecto Wordnet Global intenta coordinar a produción e relación das WorNets en todas as linguas. Oxford University Press, que publica o Dicionario Oxford de Inglés ten anunciado plans para producir a súa propia WordNet.

O eXtended WordNet é un proxecto da Universidade de Texas en Dallas que pretende mellorar WordNet, facendo así a información contada nestas definicións dispoñible para sistemas de procesamento automático do coñecemento. Esta é libremente accesible baixo unha licenza similar á de WordNet.

O proxecto GCIDE produce un dicionario combinando o dicionario de dominio público Webster de 1913 con varias definicións de WordNet e material proporcionado por voluntarios. Ofrécese baixo a licenza copyleft GPL.