Share to: share facebook share twitter share wa share telegram print page

WordNet

WordNet

Instancia delexical database (en) Traducir, rede de palavras (pt) Traducir, grafo de coñecemento, dicionário conceitual (pt) Traducir, rede semântica (pt) Traducir, base de datos e grafo Editar o valor en Wikidata
Tema principalrelação semântica (pt) Traducir e palabra Editar o valor en Wikidata
LicenzaLicenza BSD Editar o valor en Wikidata
Datas e localizacións
Creación1998 Editar o valor en Wikidata
Persoas e organizacións
DesenvolvedorChristiane Fellbaum Editar o valor en Wikidata
Fontes e ligazóns
Páxina WEBwordnet.princeton.edu Editar o valor en Wikidata
Wikidata ]

WordNet é un léxico semántico para a lingua inglesa. Agrupa palabras inglesas en grupos de sinónimos chamados synsets, prové de definicións curtas e almacena as distintas relacións semánticas entre estes grupos de sinónimos. O propósito é dobre: producir unha combinación de dicionario e tesauro que se puidese empregar dunha forma máis intuitiva, e co obxectivo de soporta-la análise automática de textos e as apliacións da intelixencia artificial. A base de datos e ferramentas software son públicas baixo unha licenza tipo BSD e poden ser descargadas e empregadas libremente. A base de datos tamén pode ser consultada en liña.

WordNet foi creado e mantido polo Laboratorio de Ciencias Cognitivas da Universidade de Princeton baixo a dirección do profesor de psicoloxía George A. Miller. O seu densenvolvemento comezou en 1985. Ao longo dos anos, o proxecto recibiu preto de 3 millóns de dólares en doazóns, principalmente de axencias gobernamentais interesadas na tradución automática.

Contidos da base de datos

No ano 2005, a base de datos contiña 150.000 palabras organizadas en 115.000 synsets para un total de 203.000 pares con significados; comprimidos ocupan arredor de 12 megabytes de tamaño.

WordNet distingue entre nomes, verbos, adxectivos e adverbios, asumindo que estes son aloxados no cerebro humano dunha forma distinta. Cada synset contén un grupo de palabras sinónimas ou collocations (unha colocación é unha secuencia de palabras que van xuntas para formar un significado específico, tal como "préstamo de coche"); normalmente as palabras forman parte de varios synsets. O significado de cada synset é explicado en profundidade a través de glosas curtas. Un synset tipico de exemplo con glosa e:

bo, correcto, oportuno -- (o máis adecuado ou correcto para un propósito particular; "un bo momento para plantar tomates"; "o momento correcto para actuar"; "o momento é oportuno para grandes cambios sociais")

Cada synset esta conectado a outros synsets a través de varias relacións. Estas relacións poden variar dependendo do tipo de palabra:

  • Nomes
    • sinónimos: synsets con significados similares
    • hiperónimos: Y é un hiperónimo de X se cada X é un (tipo de) Y
    • hipónimos: Y é un hipónimo de X se cada Y é un (tipo de) X
    • termos coordinados: Y é un termo coordinado de X se X é Y comparten un hiperónimo
    • holónimo: Y é un holónimo de X se X é parte de Y
    • merónimo: Y é un merónimo de X se Y é parte de X
  • Verbos
    • sinónimos
    • hiperónimo: o nome Y é un hiperónimo do verbo X se a actividade X é un (tipo de) Y
    • termos coordinados: aqueles termos compartindo un hiperónimo
  • Adxectivos
    • sinónimos e nomes relacionados
    • antónimos: adxectivos de significados opostos
  • Adverbios
    • sinónimos e adxectivos raíz
    • antónimos

WordNet tamén proporciona o polysemy count (contador polisémico) dunha palabra: o número de synsets que contén a palabra. Se unha palabra está presente en varios synsets (p.ex. ten varios significados), entón tipicamente algúns significados son máis comúns ca outros. WordNet contabiliza isto a través da frequency score (puntuación de frecuencia): nalgúns textos de exemplo todas as palabras foron semanticamente anotadas co synset correspondente, ademais de contabilizado con que frecuencia unha palabra aparecía cun sentido.

A interface da base de datos é quen de deducir a forma raíz dunha palabra a partir da entrada do usuario; soamente a forma principal se almacena na base de datos.

Limitacións

O contrario que outros dicionarios, WordNet non inclúe información acerca da etimoloxía, pronuncia e as formas dos verbos irregulares e contén soamente información limitada acerca do uso.

A información lexicográfica e semántica é mantida na actualidade en arquivos lexicograficos, os cales son procesados por un programa chamado muinho para producir a base de datos distribuída. Tanto o muinho como os arquivos lexicográficos están dispoñibles libremente, pero modificar e manter a base de datos é sen dúbida difícil.

Proxectos relacionados

O proxecto EuroWordNet ten producidas WordNets para varias linguas europeas relacionándoas entre elas; estas non son libremente accesibles a pesar de todo. O proxecto Wordnet Global intenta coordinar a produción e relación das WorNets en todas as linguas. Oxford University Press, que publica o Dicionario Oxford de Inglés ten anunciado plans para producir a súa propia WordNet.

O eXtended WordNet é un proxecto da Universidade de Texas en Dallas que pretende mellorar WordNet, facendo así a información contada nestas definicións dispoñible para sistemas de procesamento automático do coñecemento. Esta é libremente accesible baixo unha licenza similar á de WordNet.

O proxecto GCIDE produce un dicionario combinando o dicionario de dominio público Webster de 1913 con varias definicións de WordNet e material proporcionado por voluntarios. Ofrécese baixo a licenza copyleft GPL.

A WordNet en galego

A Galnet é a WordNet da lingua galega http://sli.uvigo.gal/galnet/ Arquivado 03 de outubro de 2017 en Wayback Machine. e está desenvolvida polo Seminario de Lingüística Informática.

Véxase tamén

Outros artigos

Ligazóns externas

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya