Щотижня сканер шкідливих файлів Gmail обробляє понад 300 мільярдів вкладень. 63% шкідливих документів, які блокуються, щодня відрізняються один від одного. Для того, що б залишатися на крок попереду недавно було додано нове покоління сканерів документів, яке спирається на глибоке навчання (deep learning).
З моменту запуску нового сканера (кінець 2019 року) щоденне охоплення виявлення шкідливих офісних файлів збільшилося на 10%. Для окремих видів атак (adversarial, bursty) новий сканер поліпшив показник виявлення на 150%. Під капотом нового сканера використовується навчена модель TensorFlow TFX (TensorFlow Extended) і індивідуальний аналізатор документів для кожного типу файлів. Аналізатори документів відповідають за розбір документа, виявлення загальних шаблонів атак, витяг макросів, де-обфускація контенту і виконання інших функцій вилучення.
Для команди Google поліпшення детектування документів є одним з ключових напрямків, оскільки на шкідливі документи доводиться 58% шкідливих файлів, націлених на користувачів Gmail. Технологія все ще активно розвивається, наприклад зараз вона використовується тільки для сканування документів Office.
Більш докладну доповідь співробітники Google представили на конференції RSA 2020 .
Leave a Comment