Войти при помощи GitHub  Войти при помощи VK  Войти при помощи Facebook

Новости

Итоги первого года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


Проект открытого электронного тезауруса русского языка получил название YARN (Yet Another RussNet), которое фигурирует в текущих публикациях и было представлено на ряде научных конференций. Сайт проекта: http://russianword.net. Редактор тезауруса YARN размещен в открытом доступе (страница редактора синсетов: http://russianword.net/editor).


Созданный ресурс необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта и на традиционное его использование как лексикографического продукта. Результаты работ создадут возможности для тестирования и наполнения контентом электронного тезауруса, работа с которым открыта для всех пользователей Интернета.


За 2013 г. достигнуты основные заявленные на первый год результаты. Созданы и получили существенное уточнение и развитие концепция и внутренний формат представления тезауруса. Разработана расширенная версия внутреннего XML-формата представления тезауруса. Написаны первичные инструкции для редактора тезауруса. Онлайн-инструмент редактирования тезауруса создан и размещен в Интернете, проведено его пробное тестирование. Осуществлена значительно большая, чем предполагалось, выборка лексических единиц (имен существительных) для ядра тезауруса. Проводится наполнение тезауруса синсетами, для этого организован первичный краудсорсинг силами участников проекта, студентов и магистрантов-лингвистов. В силу масштабности задач и сложности создания самого ресурса за первый год работы не все лексические единицы, составляющие ядро тезауруса, сгруппированы по синсетам (к концу ноября силами участников проекта и волонтеров создано около 600 синсетов, это количество все время. Кроме того, в текущем году не выделены семантические связи между синсетами, что требует серьезного развития интерфейса тезауруса. Эти задачи проработаны в концептуально-лингвистическом плане, их технологическое и организационное решение начато осенью 2013 г., однако полностью они будут решены на следующем этапе работы по проекту.

 

По основным положениям проекта коллектив принял участие в двух международных и одной общероссийской конференции:

  1. Конференция AINL 2013: Искусственный интеллект и естественный язык, Санкт-Петербург, 17-18 мая 2013. В рамках конференции был проведен круглый стол, на котором обсуждались перспективы развития WordNet-тезаурусов русского языка. В дискуссии приняли участие примерно 40 человек.
  2. «Диалог-2013: Компьютерная лингвистика и интеллектуальные технологии» (Бекасово, 29 мая — 2 июня 2013 г.). На конференции сделан коллективный доклад с главным программным материалом проекта.
  3. RuSSIR Young Scientist Conference (RuSSIR YSC 2013), Kаzan, Russia, September 16-20, 2013. С постером на тему выделения семантических связей для тезауруса выступил А.В.Луканин с соавторами.

Новости проекта


В этом разделе публикуются новости. Напоминаем, что для обсуждения проекта существует список рассылки yarn_org.