Мы разрабатываем лингвистический сервис с открытым API и возможностью обращаться к функциям из любого языка программирования по протоколу HTTP/HTTPS. Сегодня всем желающим доступна для тестирования альфа-версия API с подробной документацией и примерами использования на языках Python и PHP.
Мы собираем корпус для перефразирования и строим с его помощью систему, распознающую похожие по смыслу предложения. В данный момент предложения автоматически извлекаются из заголовков новостей и размечаются участниками проекта.
Чтобы собрать качественный корпус, необходимо правильно обучить систему. Имея такой корпус, можно строить статистические модели для автоматического перефразирования. Это, в свою очередь, упростило бы решение таких задач в области автоматической обработки текста как извлечение информации, машинный перевод, информационный поиск, синонимизация текста и т.д.
Пользователь | Размечено пар |
---|---|
Nina | 8250 |
kat | 6059 |
anton | 2099 |
tanaya | 1624 |
Apelsin | 832 |
tatyana_bykova | 816 |
Йозеф | 684 |
CyberCat | 505 |
dtim | 495 |
AlexeySorokin | 426 |
На базе собранного корпуса в рамках конференции AINL 2016, посвященной искусственному интеллекту и естественным языкам, была проведена дорожка по распознаванию парафраз, в которой участникам предлагалось установить класс соответствия двух предложений. Списки участвовавших команд и результаты дорожки размещены на нашей странице.
Наша команда готова индивидуально исследовать вашу проблему в области обработки текстов и предложить ее решение. У нас есть успешный опыт решения задач по тематической кластеризации текстов и выделению ключевых сущностей и их атрибутов.
Всех желающих мы приглашаем присоединиться к нам и внести свой вклад в создание корпуса
Примите участие в тестировании нового сервиса для русского и английского языков
Вы можете свободно cкачать корпус и использовать его в своих проектах
Также доступен для скачивания большой корпус кластеров парафраз, который можно
использовать для генерации парафраз. Скачать ParaPhraser+.
Gudkov, V., Mitrofanova,
O. and Filippskikh, E. Automatically Ranked Russian Paraphrase Corpus for Text Generation. Proceedings of the
Fourth Workshop on Neural Generation and Translation, ACL, 2020, pp. 54-59
Вы можете помочь проекту, поделившись ссылкой на наш ресурс с вашими друзьями