Real-time прогнозирование
и поиск аномалий
в Т-Банке

Направление: Машинное обучение
Статус: Открыт набор
Заказчик: Т-Банк

Описание

Согласно последним данным, задача массового, real-time прогнозирования и поиска аномалий во временных рядах гетерогенного характера не может быть решена каким-то одним методом. Критерий «массовости» подразумевает необходимость построения алгоритма для тысяч, десятков и даже сотен тысяч рядов. Критерий «гетерогенности» подразумевает различную природу временных рядов — абсолютно разные характеристики, свойства и паттерны рядов. Real-time же требования к системе дополнительно накладывают требования к производительности алгоритма, исключая все «тяжеловесные» auto-ml подходы, требующие долгого переобучения и перебора гиперпараметров. Одним из способов решения такой задачи является meta-learning подход, в котором на вход алгоритму ставится классификатор, обученный по статистическим характеристикам временного ряда определять наиболее оптимальный алгоритм. В рамках данной работы вам предлагается реализовать такой подход на реальных (обезличенных) данных компании.

Почему это важный проект?

В случае успешной реализации, результаты работы будут внедрены в процесс real-time мониторинга сотен тысяч временных рядов в рамках работающего продукта компании.

Акименкова Мария

  • Data-scientist в команде Anomaly Analyzer
исследователь-разработчик Т-банка

Ментор проекта

Ожидаемый результат

Проведенное исследование включает разработку пайплайна прогнозирования, в котором используется классификатор временных рядов на основе различных архитектур, таких как классические методы машинного обучения, ResNet, CNN и трансформеры. Цель заключается в получении прогноза с использованием оптимальной модели.
В качестве данных будут предоставлены два датасета: реальные и синтетические. Исследователям будет также представлен текущий алгоритм, качество которого необходимо превзойти по заданным метрикам.
Пайплайн будет иметь ограничения по производительности, включая верхние пределы по инференсу и обучению модели на фиксированных вычислительных ресурсах. Кроме того, к работе будут предъявляться требования к архитектуре кода модели.