Войти при помощи GitHub  Войти при помощи VK  Войти при помощи Facebook

Новости

Итоги первого года работы по проекту «Интеграция ресурсов RussNet и YARN» (поддержан грантом Российского гуманитарного научного фонда, № 16-04-12019)


Задача проекта - интеграция гетерогенных лексикографических данных. RussNet построен путём традиционного лексикографического подхода, YARN создан путём краудсорсинга с дополнительным применением автоматических методов построения тезаурусов. Интеграция включает в себя согласование концептуальных оснований двух ресурсов, схем данных, разработку автоматических методов выравнивания и сравнения единиц тезаурусов; методики, сценариев и инструментов редактирования и пополнения объединенного ресурса.

Основная часть работ 2016 г. - это редактирование и пополнение данных RussNet и представление их в консолидированном формате. Для этого была разработана "Методика по пополнению данных RussNet  для инкорпорирования в YARN".

Для процедуры корректировки использованы следующие ресурсы: подготовленная семантическая группа данных RussNet; корпус текстов кафедры математической лингвистики в менеджере Bonito; электронная версия толкового словаря МАС (http://feb-web.ru/feb/mas/mas-abc/01.htm); браузер WordNet 2.1; Викисловарь (https://ru.wiktionary.org/wiki/); Русский ассоциативный словарь (http://tesaurus.ru/dict/dict.php); Национальный корпус русского языка; корпусы системы Sketch Engine.

Имеющиеся данные RussNet представляют ядро лексико-семантической области, привязанной к определенной части речи, в сочетании с некоторыми элементами периферии. Они включают распределение по частотам значений частотных лексем из ядра области.

Для пополнения данных были выполнены следующие работы: (1) формирование синсетов ядра (базовых понятий) для имеющихся данных;  (2) пополнение синсетов имеющимися синонимами из  Викисловаря, включая информацию о семантически связанных лексемах (гипонимах, гиперонимах, антонимах); (3) корректировка словарного определения синсетов, приведение его к родовидовой форме; (4) поиск соотносимых синсетов в WordNet 2.1; (5) пополнение области синсетами других частей речи, которые выражают понятия описываемой семантической области.

Отредактированные данные по каждой из подготовленных семантических областей заносились в специальную таблицу “Шаблон для данных RussNet”.

Была разработана автоматизированная процедура выравнивания синсетов.

Модификация существующего инструмента редактирования YARN с учетом задачи интеграции ресурсов.

Существующий инструмент редактирования YARN предполагает создание синсетов “с нуля” с последующей модификацией. Для задач интеграции тезаурусов были разработаны процедуры сопоставления и выравнивания синсетов двух ресурсов, интерфейс редактирования дополнен функциями объединения синсетов. Кроме того, проведена работа по гармонизации наборов семантических отношений между синсетами в двух тезаурусах; реализован пилотный интерфейс установления связей, а также визуализация семантической сети тезауруса.

Начата пилотная интеграция глагольных синсетов.

Защита диссертации


Команда проекта Yet Another RussNet поздравляет коллегу, Юрия Александровича Киселёва, с успешной защитой диссертации на соискание учёной степени кандидата технических наук по специальности 05.13.17 на тему «Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов».

Желаем успехов и дальнейших побед!

Приложение для Android


Одной из задач проекта является пополнение тезауруса новыми синонимическими рядями, для чего была адаптирована краудсорсинговая методика на основе лексических замещений. Создано мобильное приложение для устройств на базе Android, при помощи которого можно помочь проекту, отвечая на несложные вопросы.

При разработке приложения использована библиотека Anko для построения пользовательского интерфейса, и движок Mechanical Tsar для назначения заданий и приёма ответов. Исходный код приложения открыт. Мы принимаем предложения и доработки на GitHub.

Get it on Google Play

Итоги третьего года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


За три года работ по проекту создания нового электронного тезауруса русского языка достигнута главная цель — разработана концепция и инструменты создания первого открытого WordNet-подобного тезауруса русского языка; осуществлено его базовое наполнение. YARN (Yet Another RussNet) — открытый современный тезаурус русского языка.

Адрес проекта в Интернете https://russianword.net/.

Данные (в первую очередь семантические связи между словами) постоянно пополняются усилиями волонтеров, организован краудсорсинг, в котором приняло участие более 250 человек. Созданный ресурс успешно функционирует как проект, открытый для любых пользователей, интересующихся лексикографическими вопросами. При пополнении и чистке данных также успешно используются автоматические методы.

На декабрь 2015 г. в структуре данных тезауруса более 140 тысяч лексем, в том числе 22666 неоднословных выражений.

Количественными признаками ресурса является также число определений — более 124 тыс., примеров — более 12 тыс., синсетов — около 69 тыс., «сырых» пар синонимов — около 105 тыс., гипо-гиперонимических пар — около 30 тыс.

Реализованы все основные принципы проекта:

  • впервые предоставлена возможность широкому кругу лиц участвовать в создании тезауруса, с самого начала проекта открыт онлайн-доступ к средствам редактирования и данным;
  • активно используются автоматические методы выделения лексических единиц для включения в тезаурус и выявления отношений между ними;
  • в проект интегрировано несколько свободно распространяемых лексикографических ресурсов;
  • в словник включены неоднословные лексические единицы (коллокации, составные наименования);
  • в проекте поддерживается нескольких распространенных форматов для представления тезаурусов, что позволяет использовать инструменты, созданные для других WordNet-подобных тезаурусов, онтологий и словарей;
  • возможно предоставление открытого API (программного интерфейса) для автоматических запросов к тезаурусу.

За время работы интерфейсы YARN претерпели значительные изменения. Произведена их множественная коррекция, чему способствовали многочисленные отзывы пользователей, участвующих в краудсорсинге. В соответствии с заявленными на третий год результатами проведены следующие работы:

  1. Осуществлено финальное уточнение концепции открытого WordNet-подобного электронного тезауруса YARN, завершено описание форматов представления тезауруса в машиночитаемом виде.
  2. Окончательно определен формат представления гипо-гиперонимических связей для входящих в тезаурус слов разных частей речи (существительных, глаголов и прилагательных). Разработана методика построения родо-видовых отношений на основе трёх основных последовательных этапов: 1) соотнесение рода пары, 2) соотнесение вида пары, 3) соотнесение синсетов.
  3. Усовершенствован интерфейс электронного тезауруса YARN, созданы параллельные, упрощенные для пользовательской работы версии редактора синсетов и родо-видовых отношений. Принято решение о коррекции базы данных тезауруса в плане отражения отношений словообразовательной производности.
  4. Разработана методика выделения из текстов неоднословных лексических единиц (составных наименований) для тезауруса, произведена их выборка. В тестовом режиме выделены базовые синонимические отношения между неоднословными единицами и словами, входящими в тезаурус.
  5. Произведено базовое лексическое наполнение тезауруса. На этапе заявки предполагалось, что оно составит 30,000 - 50,000 слов, однако к моменту завершения проекта в тезаурусе содержится значительно больше единиц — более 140 тыс. слов и неоднословных выражений. Кроме того, разработана методика очистки синонимических рядов на основе трёх основных последовательных этапов: 1) выбор недостающих слов в синсете, 2) выбор лишних слов в синсете, 3) проверка исправленного синсета.
  6. Продолжена организация краудсорсинговой работы: усилиями волонтеров произведена группировка базового лексического наполнения тезауруса по синсетам, выделены гипо-гиперонимические связи для базового лексического наполнения тезауруса.
  7. Усовершенствованы и отредактированы методические указания и инструкции для пополнения тезауруса.
  8. На сайте проекта публикуется информация о ходе работы.
  9. За третий год проекта его участники выступили с докладами на 13 международных и российских научных конференциях и имеют 16 публикаций о ходе выполнения проекта - почти все в рецензируемых научных изданиях. Всего за время выполнения проекта опубликована 31 работа.

С окончанием работ по текущему гранту РГНФ работа по совершенствованию открытого электронного тезауруса YARN будет продолжена. Тезаурус необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта; возможно и его традиционное использование как лексикографического продукта. Созданный тезаурус является уникальным источником научной информации, он открыт для пользователей, что определяет дальнейшую стратегию его развития. В перспективе планируется интеграция данных двух крупных проектов — текущей версии YARN и создаваемого в Санкт-Петербурге тезауруса RussNet, что послужит новым стимулом для решения как теоретических, так и практических задач, стоящих перед лексикографическими коллективами. Обоснование этой идеи осуществлено в заявке на грант РГНФ 2016 г. (№ 16-04-12019, проект «Интеграция тезаурусов RussNet и YARN»).

С разработкой тезауруса YARN непосредственно связаны темы студенческих курсовых и выпускных работ, ряда магистерских диссертаций и трех диссертаций на соискание ученой степени кандидата наук, одна из которых завершена и в ближайшее время будет представлена в диссертационный совет.

Поддержка HTTPS


Сайт теперь использует HTTPS и поддерживает протокол SPDY.

Рекомендуемый URI для входа: https://russianword.net/.

Вход через ВКонтакте


Рады сообщить, что у нас появилась возможность входа через ВКонтакте.

Экспорт синсетов в CSV


Нашим пользователям не всегда удобно обрабатывать XML-дамп нашего тезауруса, поэтому (пока) в качестве эксперимента мы начинаем публиковать часть данных в формате CSV.

Первым шагом является экспорт слов в синсетах: yarn-synsets.csv. Данный файл также доступен в сжатом виде: yarn-synsets.csv.xz (архиватор xz).

С наступившим Новым годом!

Обновление PostgreSQL до версии 9.4


Сегодня ночью состоится обновление PostgreSQL на нашем сервере с версии 9.3 на свежую 9.4, в связи с чем сайт http://russianword.net/ будет недоступен.

Ссылка на анонс новой версии: http://www.postgresql.org/about/news/1557/. Заявляется, что повышена скорость работы GIN-индексов и обновления материализованных представлений. Эти возможности используются у нас очень широко.

Ожидается, что после обновления все операции с синсетами будут выполняться быстрее.

Итоги второго года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


Второй год выполнения работ по проекту создания нового электронного тезауруса русского языка, показал, что созданный ресурс успешно функционирует как проект, открытый для любых пользователей, интересующихся лексикографическими вопросами.

YARN (Yet Another RussNet) - открытый современный тезаурус русского языка. Данные постоянно пополняются усилиями волонтеров, организован краудсорсинг, в котором приняло участие более 150 человек.

На ноябрь 2014 г. в структуре данных тезауруса:

  • 70600 существительных
  • 16961 глаголов
  • 11573 прилагательных (полный объём словника составляет 99134 лексемы)
  • определений — 78776
  • примеров — 11063
  • синсетов — 10175
  • «сырых» пар синонимов — 104906.

В соответствии с заявленными на второй год результатами проведены следующие работы:

Уточнены концепция и внутренний формат представления тезауруса. Определен формат представления гипо-гиперонимических связей для имен существительных. Созданы общие схемы верхних уровней существительных, глаголов и и прилагательных.

Усовершенствован интерфейс тезауруса: систематизирована выдача примеров; интегрирован поиск иллюстраций в лингвистических корпусах; решен вопрос выделения основного определения синсета; разработан интерфейс для выбора словарных помет и система активных элементов управления для добавления, редактирования, удаления слов и синсетов, выбора их атрибутов; разделены входы в редактор для разных частей речи; создан новый интерфейс для построения семантических связей между синсетами; создан интерфейс “шеф-редактора” тезауруса,

За год работы интерфейс редактора синсетов претерпел значительные изменения. Исправлен целый ряд ошибок и неудачных моментов, чему способствовали многочисленные отзывы конечных пользователей.

Уточнена инструкция для редактора тезауруса. Созданы ролики - видеоинструкции по работе с редактором тезауруса.

Осуществлена дополнительная выборка лексических единиц тезауруса (глаголов и имен прилагательных).

Базовый набор имен существительных сгруппирован по синсетам. Организован первичный краудсорсинг. Опубликованы аналитические материалы с обзором первых итогов краудсорсинга и возможностей оптимизации коллективной работы над тезаурусом. Для базового набора имен существительных выделены гипо-гиперонимические (вертикальные) связи.

 

Участники проекта приняли участие в ряде международных и российских научных конференций:

  • Компьютерная лингвистика и интеллектуальные технологии: Международная конференция «Диалог» (Москва, Бекасово, 4-8 июня 2014 г.) - выступление со стендовым докладом, выступление с устным докладом.
  • Европейская конференция по компьютерной лингвистике (14th Conference of the European Chapter of the Association for Computational Linguistics, Gothenburg, Sweden, 26–30 April 2014) - выступление на демо-секции.
  • AINL 2014: Искусственный интеллект и естественный язык (12-13 сентября 2014, Сколково) - организован круглый стол по тезаурусам русского языка на конференции , там же - выступление на демо-секции и постерной секции, http://ainlconf.ru/.
  • АИСТ’2014: 3-я международная научно-практическая конференция по анализу изображений, социальных сетей, и текстов (10-12 апреля 2014 г., Екатеринбург) - выступление с секционным докладом.
  • КИИ-2014: 14-я национальная конференция по искусственному интеллекту с международным участием (24-27 сентября 2014 г., Казань) - выступление со стендовым докладом.
  • «Научный сервис в сети Интернет: многообразие суперкомпьютерных миров», международная компьютерная конференция (22-27 сентября 2014 г., Абрау-Дюрсо) - выступление со стендовым докладом.
  • KESW 2014: 5-я международная научная конференции по инженерии знаний и Семантическому Вебу (29 сентября - 1 октября 2014 г., Казань) - выступление с секционным докладом.
  • RuSSIR 2014: конференция молодых учёных в рамках восьмой российской летней школы по информационному поиску (18-22 августа 2014 г., Нижний Новгород). Статья принята к публикации в сборнике Springer Lecture Notes in Computer Science, индексируется в базе цитирования Scopus. Ожидаемый срок публикации: I квартал 2015 г.

Итоги первого года работы по проекту «Новый открытый электронный тезаурус русского языка» (поддержан грантом Российского гуманитарного научного фонда, №13-04-12020)


Проект открытого электронного тезауруса русского языка получил название YARN (Yet Another RussNet), которое фигурирует в текущих публикациях и было представлено на ряде научных конференций. Сайт проекта: http://russianword.net. Редактор тезауруса YARN размещен в открытом доступе (страница редактора синсетов: http://russianword.net/editor).


Созданный ресурс необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта и на традиционное его использование как лексикографического продукта. Результаты работ создадут возможности для тестирования и наполнения контентом электронного тезауруса, работа с которым открыта для всех пользователей Интернета.


За 2013 г. достигнуты основные заявленные на первый год результаты. Созданы и получили существенное уточнение и развитие концепция и внутренний формат представления тезауруса. Разработана расширенная версия внутреннего XML-формата представления тезауруса. Написаны первичные инструкции для редактора тезауруса. Онлайн-инструмент редактирования тезауруса создан и размещен в Интернете, проведено его пробное тестирование. Осуществлена значительно большая, чем предполагалось, выборка лексических единиц (имен существительных) для ядра тезауруса. Проводится наполнение тезауруса синсетами, для этого организован первичный краудсорсинг силами участников проекта, студентов и магистрантов-лингвистов. В силу масштабности задач и сложности создания самого ресурса за первый год работы не все лексические единицы, составляющие ядро тезауруса, сгруппированы по синсетам (к концу ноября силами участников проекта и волонтеров создано около 600 синсетов, это количество все время. Кроме того, в текущем году не выделены семантические связи между синсетами, что требует серьезного развития интерфейса тезауруса. Эти задачи проработаны в концептуально-лингвистическом плане, их технологическое и организационное решение начато осенью 2013 г., однако полностью они будут решены на следующем этапе работы по проекту.

 

По основным положениям проекта коллектив принял участие в двух международных и одной общероссийской конференции:

  1. Конференция AINL 2013: Искусственный интеллект и естественный язык, Санкт-Петербург, 17-18 мая 2013. В рамках конференции был проведен круглый стол, на котором обсуждались перспективы развития WordNet-тезаурусов русского языка. В дискуссии приняли участие примерно 40 человек.
  2. «Диалог-2013: Компьютерная лингвистика и интеллектуальные технологии» (Бекасово, 29 мая — 2 июня 2013 г.). На конференции сделан коллективный доклад с главным программным материалом проекта.
  3. RuSSIR Young Scientist Conference (RuSSIR YSC 2013), Kаzan, Russia, September 16-20, 2013. С постером на тему выделения семантических связей для тезауруса выступил А.В.Луканин с соавторами.