Войти при помощи GitHub  Войти при помощи VK  Войти при помощи Facebook

Итоги первого года работы по проекту «Интеграция ресурсов RussNet и YARN» (поддержан грантом Российского гуманитарного научного фонда, № 16-04-12019)


Задача проекта - интеграция гетерогенных лексикографических данных. RussNet построен путём традиционного лексикографического подхода, YARN создан путём краудсорсинга с дополнительным применением автоматических методов построения тезаурусов. Интеграция включает в себя согласование концептуальных оснований двух ресурсов, схем данных, разработку автоматических методов выравнивания и сравнения единиц тезаурусов; методики, сценариев и инструментов редактирования и пополнения объединенного ресурса.

Основная часть работ 2016 г. - это редактирование и пополнение данных RussNet и представление их в консолидированном формате. Для этого была разработана "Методика по пополнению данных RussNet  для инкорпорирования в YARN".

Для процедуры корректировки использованы следующие ресурсы: подготовленная семантическая группа данных RussNet; корпус текстов кафедры математической лингвистики в менеджере Bonito; электронная версия толкового словаря МАС (http://feb-web.ru/feb/mas/mas-abc/01.htm); браузер WordNet 2.1; Викисловарь (https://ru.wiktionary.org/wiki/); Русский ассоциативный словарь (http://tesaurus.ru/dict/dict.php); Национальный корпус русского языка; корпусы системы Sketch Engine.

Имеющиеся данные RussNet представляют ядро лексико-семантической области, привязанной к определенной части речи, в сочетании с некоторыми элементами периферии. Они включают распределение по частотам значений частотных лексем из ядра области.

Для пополнения данных были выполнены следующие работы: (1) формирование синсетов ядра (базовых понятий) для имеющихся данных;  (2) пополнение синсетов имеющимися синонимами из  Викисловаря, включая информацию о семантически связанных лексемах (гипонимах, гиперонимах, антонимах); (3) корректировка словарного определения синсетов, приведение его к родовидовой форме; (4) поиск соотносимых синсетов в WordNet 2.1; (5) пополнение области синсетами других частей речи, которые выражают понятия описываемой семантической области.

Отредактированные данные по каждой из подготовленных семантических областей заносились в специальную таблицу “Шаблон для данных RussNet”.

Была разработана автоматизированная процедура выравнивания синсетов.

Модификация существующего инструмента редактирования YARN с учетом задачи интеграции ресурсов.

Существующий инструмент редактирования YARN предполагает создание синсетов “с нуля” с последующей модификацией. Для задач интеграции тезаурусов были разработаны процедуры сопоставления и выравнивания синсетов двух ресурсов, интерфейс редактирования дополнен функциями объединения синсетов. Кроме того, проведена работа по гармонизации наборов семантических отношений между синсетами в двух тезаурусах; реализован пилотный интерфейс установления связей, а также визуализация семантической сети тезауруса.

Начата пилотная интеграция глагольных синсетов.

25 января 2017, 00:18:11