Google випустила алгоритм для резюмування тексту
Команда Google Brain випустила алгоритм SummAE AI, який не просто робить вибірку пропозицій заданого тексту, а перефразовує фрагмент «своїми словами».
Система SummAE працює без контролю або при мінімальній участі людини і здатна витягувати короткий зміст текстів обсягом до 5 речень. За словами дослідників, якість зроблених нею резюме значно краща, ніж у існуючих аналогів.
SummAE складається з шумозаглуючого автокодировщика, який кодує пропозиції та абзаци цільового тексту, і декодера. Всього було навчено три версії SummAE на датасете ROCStories, що складається з більш ніж 98 тисяч текстових фрагментів для навчання, валідації та тестування нейромереж. Також було підготовлено по 3 анотації, зроблених людиною, для 1 тисячі валідаційних і тестових прикладів.
Для оцінки якості анотацій нейромережі використовувалися метрики ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Краща з навчених моделей значно перевершила еталонний генератор, а співробітники Amazon Mechanical Turk оцінили результати одного з них як природні і змістовні у 80 відсотках випадків.
Вихідний код системи SummAE разом з конфігураціями доступний на GitHub за посиланням на джерело.