Войти при помощи GitHub  Войти при помощи VK  Войти при помощи Facebook

Итоги второго года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


Второй год выполнения работ по проекту создания нового электронного тезауруса русского языка, показал, что созданный ресурс успешно функционирует как проект, открытый для любых пользователей, интересующихся лексикографическими вопросами.

YARN (Yet Another RussNet) - открытый современный тезаурус русского языка. Данные постоянно пополняются усилиями волонтеров, организован краудсорсинг, в котором приняло участие более 150 человек.

На ноябрь 2014 г. в структуре данных тезауруса:

  • 70600 существительных
  • 16961 глаголов
  • 11573 прилагательных (полный объём словника составляет 99134 лексемы)
  • определений — 78776
  • примеров — 11063
  • синсетов — 10175
  • «сырых» пар синонимов — 104906.

В соответствии с заявленными на второй год результатами проведены следующие работы:

Уточнены концепция и внутренний формат представления тезауруса. Определен формат представления гипо-гиперонимических связей для имен существительных. Созданы общие схемы верхних уровней существительных, глаголов и и прилагательных.

Усовершенствован интерфейс тезауруса: систематизирована выдача примеров; интегрирован поиск иллюстраций в лингвистических корпусах; решен вопрос выделения основного определения синсета; разработан интерфейс для выбора словарных помет и система активных элементов управления для добавления, редактирования, удаления слов и синсетов, выбора их атрибутов; разделены входы в редактор для разных частей речи; создан новый интерфейс для построения семантических связей между синсетами; создан интерфейс “шеф-редактора” тезауруса,

За год работы интерфейс редактора синсетов претерпел значительные изменения. Исправлен целый ряд ошибок и неудачных моментов, чему способствовали многочисленные отзывы конечных пользователей.

Уточнена инструкция для редактора тезауруса. Созданы ролики - видеоинструкции по работе с редактором тезауруса.

Осуществлена дополнительная выборка лексических единиц тезауруса (глаголов и имен прилагательных).

Базовый набор имен существительных сгруппирован по синсетам. Организован первичный краудсорсинг. Опубликованы аналитические материалы с обзором первых итогов краудсорсинга и возможностей оптимизации коллективной работы над тезаурусом. Для базового набора имен существительных выделены гипо-гиперонимические (вертикальные) связи.

 

Участники проекта приняли участие в ряде международных и российских научных конференций:

  • Компьютерная лингвистика и интеллектуальные технологии: Международная конференция «Диалог» (Москва, Бекасово, 4-8 июня 2014 г.) - выступление со стендовым докладом, выступление с устным докладом.
  • Европейская конференция по компьютерной лингвистике (14th Conference of the European Chapter of the Association for Computational Linguistics, Gothenburg, Sweden, 26–30 April 2014) - выступление на демо-секции.
  • AINL 2014: Искусственный интеллект и естественный язык (12-13 сентября 2014, Сколково) - организован круглый стол по тезаурусам русского языка на конференции , там же - выступление на демо-секции и постерной секции, http://ainlconf.ru/.
  • АИСТ’2014: 3-я международная научно-практическая конференция по анализу изображений, социальных сетей, и текстов (10-12 апреля 2014 г., Екатеринбург) - выступление с секционным докладом.
  • КИИ-2014: 14-я национальная конференция по искусственному интеллекту с международным участием (24-27 сентября 2014 г., Казань) - выступление со стендовым докладом.
  • «Научный сервис в сети Интернет: многообразие суперкомпьютерных миров», международная компьютерная конференция (22-27 сентября 2014 г., Абрау-Дюрсо) - выступление со стендовым докладом.
  • KESW 2014: 5-я международная научная конференции по инженерии знаний и Семантическому Вебу (29 сентября - 1 октября 2014 г., Казань) - выступление с секционным докладом.
  • RuSSIR 2014: конференция молодых учёных в рамках восьмой российской летней школы по информационному поиску (18-22 августа 2014 г., Нижний Новгород). Статья принята к публикации в сборнике Springer Lecture Notes in Computer Science, индексируется в базе цитирования Scopus. Ожидаемый срок публикации: I квартал 2015 г.

23 ноября 2014, 08:42:06