Студентка НГУ Алёна Цанда разработала набор данных для краткого пересказа научных статей. Её разработка — первый датасет, необходимый для работы с русскоязычными текстами, которые находятся в открытом доступе.
«Главная задача нашего датасета — генерация краткого содержания. Существующие системы генерируют краткое содержание на основе лишь текстовой информации. Мы предполагаем, что графическая информация, которой сопровождаются почти все научные статьи, — таблицы, графики и рисунки с описаниями, — позволит улучшить качество аннотаций», — рассказала Алёна Цанда.
В датасете собрали 480 статей. Разработчик планирует его расширить математикой и физикой. Такие материалы обработать сложнее, так как в них содержится много формул, сообщается на портале «КП-Новосибирск»