Войти при помощи GitHub  Войти при помощи VK  Войти при помощи Facebook

Итоги первого года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


Проект открытого электронного тезауруса русского языка получил название YARN (Yet Another RussNet), которое фигурирует в текущих публикациях и было представлено на ряде научных конференций. Сайт проекта: http://russianword.net. Редактор тезауруса YARN размещен в открытом доступе (страница редактора синсетов: http://russianword.net/editor).


Созданный ресурс необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта и на традиционное его использование как лексикографического продукта. Результаты работ создадут возможности для тестирования и наполнения контентом электронного тезауруса, работа с которым открыта для всех пользователей Интернета.


За 2013 г. достигнуты основные заявленные на первый год результаты. Созданы и получили существенное уточнение и развитие концепция и внутренний формат представления тезауруса. Разработана расширенная версия внутреннего XML-формата представления тезауруса. Написаны первичные инструкции для редактора тезауруса. Онлайн-инструмент редактирования тезауруса создан и размещен в Интернете, проведено его пробное тестирование. Осуществлена значительно большая, чем предполагалось, выборка лексических единиц (имен существительных) для ядра тезауруса. Проводится наполнение тезауруса синсетами, для этого организован первичный краудсорсинг силами участников проекта, студентов и магистрантов-лингвистов. В силу масштабности задач и сложности создания самого ресурса за первый год работы не все лексические единицы, составляющие ядро тезауруса, сгруппированы по синсетам (к концу ноября силами участников проекта и волонтеров создано около 600 синсетов, это количество все время. Кроме того, в текущем году не выделены семантические связи между синсетами, что требует серьезного развития интерфейса тезауруса. Эти задачи проработаны в концептуально-лингвистическом плане, их технологическое и организационное решение начато осенью 2013 г., однако полностью они будут решены на следующем этапе работы по проекту.

 

По основным положениям проекта коллектив принял участие в двух международных и одной общероссийской конференции:

  1. Конференция AINL 2013: Искусственный интеллект и естественный язык, Санкт-Петербург, 17-18 мая 2013. В рамках конференции был проведен круглый стол, на котором обсуждались перспективы развития WordNet-тезаурусов русского языка. В дискуссии приняли участие примерно 40 человек.
  2. «Диалог-2013: Компьютерная лингвистика и интеллектуальные технологии» (Бекасово, 29 мая — 2 июня 2013 г.). На конференции сделан коллективный доклад с главным программным материалом проекта.
  3. RuSSIR Young Scientist Conference (RuSSIR YSC 2013), Kаzan, Russia, September 16-20, 2013. С постером на тему выделения семантических связей для тезауруса выступил А.В.Луканин с соавторами.

23 ноября 2013, 08:38:32