ВордНет са НЛТК -ом: Проналажење синонима за речи у Питхону

Шта је Ворднет?

Ворднет је читач корпуса НЛТК -а, лексичка база података за енглески језик. Може се користити за проналажење значења речи, синонима или антонима. Може се дефинисати као семантички оријентисан речник енглеског језика. Увози се са следећом командом: | _+_ |

Статистика открива да постоје 155287 речи и 117659 синоним комплети укључени у енглески ВордНет.

Различите методе доступне са ВордНетом можете пронаћи ако откуцате дир (гуру)

['_ЛазиЦорпусЛоадер__ар__', '__,' __, '_, _ __ге__ ',' __гетаттр__ ',' __гетаттрибуте__ ',' __гт__ ',' __хасх__ ',' __инит__ ',' __ле__ ',' __лт__ ',' __модуле__ ',' __наме__ ',' __не__ ',' __нев__ ',' __ , '__редуце_ек__', '__репр__', '__сетаттр__', '__сизеоф__', '__стр__', '__субцлассхоок__', '__уницоде__', '__веакреф__', '_унлоад', 'субдир', 'уницоде_репр

Хајде да разумемо неке од функција доступних са ворднет -ом:

Синсет : Такође се назива скуп синонима или збирка синонимних речи. Погледајмо пример | _+_ |

Излаз: | _+_ |

Лексички односи : То су семантички односи који су узвраћени. Ако постоји однос између {к1, к2, ... кн} и {и1, и2, ... ин} онда постоји и однос између {и1, и2, ... ин} и {к1, к2 ,. ..кн}. На пример, синоним је супротан антониму или хиперними, а хипоним су тип лексичког појма.

Хајде да напишемо програм који користи питхон да пронађемо синоним и антоним речи „активни“ помоћу Ворднет -а. | _+_ |

Излаз кода:

{'динамички', 'борба', 'спреман за борбу', 'активни_глас', 'активни_агент', 'учествујући', 'жив', 'активан'}-Синоним

{'стативе', 'пассиве', 'куиет', 'пассиве_воице', 'ектинцт', 'дормант', 'инацтиве'} - Антоним

Објашњење кода

  1. Ворднет је корпус, па се увози из нтлк.цорпус
  2. Листа и синонима и антонима узима се као празна, што ће се користити за додавање
  3. Синоними речи актив се претражују у синсетима модула и додају се у синониме листе. Исти поступак се понавља и за други.
  4. Излаз се штампа

Закључак:

ВордНет је лексичка база података коју је користио велики претраживач. Из ВордНета се могу израчунати подаци о датој речи или фрази, нпр

  • синоним (речи истог значења)
  • хиперними (генерички израз који се користи за означавање класе специфичности (тј. оброк је доручак), хипоними (пиринач је оброк)
  • холоними (протеини, угљени хидрати су део оброка)
  • мероними (оброк је део дневног уноса хране)

ВордНет такође пружа информације о координатним терминима, изведеницама, чулима и још много тога. Користи се за проналажење сличности између било које две речи. Такође садржи информације о резултатима сродне речи. Укратко или укратко, можемо га третирати као Речник или Тезаурус. Улазећи дубље у ворднет, он је подељен на четири укупне подмреже као што су

  1. Именица
  2. Глагол
  3. Придев
  4. Прилог

Може се користити у области вештачке интелигенције за анализу текста. Уз помоћ Ворднет -а можете креирати свој корпус за проверу правописа, превод језика, откривање нежељене поште и још много тога.

На исти начин, можете користити овај корпус и обликовати га за рад на некој динамичкој функционалности. Ово је као да сте за вас направили корпус. Можете га користити на свој начин.