Поиск аномалий в каталогах ZTF с использованием бинарных классификаторов
Stars-2025-BigData002
Zwicky Transient Facility (ZTF) ежедневно предоставляет до 2 терабайт астрономических данных. С началом работы обзора Legacy Survey of Space and Time (LSST) обсерватории имени Веры Рубин ожидается увеличение объёма данных на порядок. При анализе таких массивов данных применение методов машинного обучения становится наиболее эффективным подходом, особенно в задачах классификации и поиска аномалий.
Одной из ключевых задач в рамках проекта SNAD (https://snad.space/) является поиск аномалий в астрономических каталогах. Метод поиска аномалий позволяет ранжировать объекты по степени "аномальности", что помогает экспертам сосредоточиться на наиболее необычных из них. Однако на практике математические выбросы далеко не всегда представляют интерес с точки зрения астрофизики. Часто в список «аномальных» попадают артефакты наблюдений — шумы, ошибки регистрации и другие технические особенности данных.
Для повышения эффективности поиска аномалий мы предлагаем использовать бинарные классификаторы, обученные различать определённые классы объектов (например, артефакт/не артефакт, сверхновая/не сверхновая). Предсказания этих моделей добавляются как новые признаки к исходному набору признаков, описывающему фотометрические данные. Это позволяет алгоритмам поиска аномалий автоматически учитывать информацию от классификаторов, не прибегая к ручному выбору порога решающей функции. Таким образом, методика сочетает преимущества обучения с учителем и без учителя, повышая точность и интерпретируемость результата.
В рамках работы реализованы и протестированы два бинарных классификатора:
Артефакт / не артефакт ("real-bogus") — модель, оценивающая вероятность того, что объект является артефактом. После добавления её предсказаний к признаковому описанию объектов наблюдается значительное снижение доли артефактов среди кандидатов, отобранных системой поиска аномалий. Это позволяет сократить требуемое время экспертов на визуальную проверку результатов;
Сверхновая / не сверхновая — классификатор, обученный по данным Bright Transient Survey. Для обучения была собрана выборка из 700 кривых блеска спектрально подтверждённых сверхновых. Добавление его предсказаний в алгоритм поиска аномалий позволило увеличить число обнаруженных сверхновых. Среди них были также галактики, в которых наблюдались две вспышки сверхновых в разные моменты времени — потенциально ценные объекты для изучения процесса звездообразования и космологии.
В дальнейшем планируется разработка бинарных классификаторов для других астрофизических классов, таких как активные ядра галактик, мериды и др. Интеграция предсказаний этих моделей в алгоритмы поиска аномалий должна ещё больше повысить эффективность системы, позволяя быстрее находить научно значимые объекты в больших астрономических каталогах.
This research has been supported by:
- "Российский научный фонд", grant 24-22-00233
- "Фонд развития теоретической физики и математики БАЗИС", grant 24-2-10-27-1