Войти при помощи GitHub  Войти при помощи VK  Войти при помощи Facebook

Итоги третьего года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


За три года работ по проекту создания нового электронного тезауруса русского языка достигнута главная цель — разработана концепция и инструменты создания первого открытого WordNet-подобного тезауруса русского языка; осуществлено его базовое наполнение. YARN (Yet Another RussNet) — открытый современный тезаурус русского языка.

Адрес проекта в Интернете https://russianword.net/.

Данные (в первую очередь семантические связи между словами) постоянно пополняются усилиями волонтеров, организован краудсорсинг, в котором приняло участие более 250 человек. Созданный ресурс успешно функционирует как проект, открытый для любых пользователей, интересующихся лексикографическими вопросами. При пополнении и чистке данных также успешно используются автоматические методы.

На декабрь 2015 г. в структуре данных тезауруса более 140 тысяч лексем, в том числе 22666 неоднословных выражений.

Количественными признаками ресурса является также число определений — более 124 тыс., примеров — более 12 тыс., синсетов — около 69 тыс., «сырых» пар синонимов — около 105 тыс., гипо-гиперонимических пар — около 30 тыс.

Реализованы все основные принципы проекта:

  • впервые предоставлена возможность широкому кругу лиц участвовать в создании тезауруса, с самого начала проекта открыт онлайн-доступ к средствам редактирования и данным;
  • активно используются автоматические методы выделения лексических единиц для включения в тезаурус и выявления отношений между ними;
  • в проект интегрировано несколько свободно распространяемых лексикографических ресурсов;
  • в словник включены неоднословные лексические единицы (коллокации, составные наименования);
  • в проекте поддерживается нескольких распространенных форматов для представления тезаурусов, что позволяет использовать инструменты, созданные для других WordNet-подобных тезаурусов, онтологий и словарей;
  • возможно предоставление открытого API (программного интерфейса) для автоматических запросов к тезаурусу.

За время работы интерфейсы YARN претерпели значительные изменения. Произведена их множественная коррекция, чему способствовали многочисленные отзывы пользователей, участвующих в краудсорсинге. В соответствии с заявленными на третий год результатами проведены следующие работы:

  1. Осуществлено финальное уточнение концепции открытого WordNet-подобного электронного тезауруса YARN, завершено описание форматов представления тезауруса в машиночитаемом виде.
  2. Окончательно определен формат представления гипо-гиперонимических связей для входящих в тезаурус слов разных частей речи (существительных, глаголов и прилагательных). Разработана методика построения родо-видовых отношений на основе трёх основных последовательных этапов: 1) соотнесение рода пары, 2) соотнесение вида пары, 3) соотнесение синсетов.
  3. Усовершенствован интерфейс электронного тезауруса YARN, созданы параллельные, упрощенные для пользовательской работы версии редактора синсетов и родо-видовых отношений. Принято решение о коррекции базы данных тезауруса в плане отражения отношений словообразовательной производности.
  4. Разработана методика выделения из текстов неоднословных лексических единиц (составных наименований) для тезауруса, произведена их выборка. В тестовом режиме выделены базовые синонимические отношения между неоднословными единицами и словами, входящими в тезаурус.
  5. Произведено базовое лексическое наполнение тезауруса. На этапе заявки предполагалось, что оно составит 30,000 - 50,000 слов, однако к моменту завершения проекта в тезаурусе содержится значительно больше единиц — более 140 тыс. слов и неоднословных выражений. Кроме того, разработана методика очистки синонимических рядов на основе трёх основных последовательных этапов: 1) выбор недостающих слов в синсете, 2) выбор лишних слов в синсете, 3) проверка исправленного синсета.
  6. Продолжена организация краудсорсинговой работы: усилиями волонтеров произведена группировка базового лексического наполнения тезауруса по синсетам, выделены гипо-гиперонимические связи для базового лексического наполнения тезауруса.
  7. Усовершенствованы и отредактированы методические указания и инструкции для пополнения тезауруса.
  8. На сайте проекта публикуется информация о ходе работы.
  9. За третий год проекта его участники выступили с докладами на 13 международных и российских научных конференциях и имеют 16 публикаций о ходе выполнения проекта - почти все в рецензируемых научных изданиях. Всего за время выполнения проекта опубликована 31 работа.

С окончанием работ по текущему гранту РГНФ работа по совершенствованию открытого электронного тезауруса YARN будет продолжена. Тезаурус необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта; возможно и его традиционное использование как лексикографического продукта. Созданный тезаурус является уникальным источником научной информации, он открыт для пользователей, что определяет дальнейшую стратегию его развития. В перспективе планируется интеграция данных двух крупных проектов — текущей версии YARN и создаваемого в Санкт-Петербурге тезауруса RussNet, что послужит новым стимулом для решения как теоретических, так и практических задач, стоящих перед лексикографическими коллективами. Обоснование этой идеи осуществлено в заявке на грант РГНФ 2016 г. (№ 16-04-12019, проект «Интеграция тезаурусов RussNet и YARN»).

С разработкой тезауруса YARN непосредственно связаны темы студенческих курсовых и выпускных работ, ряда магистерских диссертаций и трех диссертаций на соискание ученой степени кандидата наук, одна из которых завершена и в ближайшее время будет представлена в диссертационный совет.

27 декабря 2015, 15:57:08