Инженерный тур. 1 этап
Задача имеет целью проверить навыки работы участников с алгоритмами классификации для создания модели, способной автоматически классифицировать группу животных на фото с фотоловушек. Здесь проверяются их компетенции в обработке данных и применении алгоритмов машинного обучения, а также способность погружаться в предметную сферу и применять алгоритмы компьютерного зрения в решении.
Задача помогает оценить участников по их знаниям и навыкам в области программирования, зоологии, обработки изображений, машинного обучения и применении технических решений для реальных проблем.
Задача посвящена классификации животных на укрупненные группы. Для этого участники получают доступ к уникальным данным — изображениям с фотоловушек, предоставленным исследовательскими организациями-партнерами. Решение задачи позволит снизить нагрузку на ученых, связанную с распознаванием видов, а следовательно, сделать мониторинг популяций более эффективным.
Почему это важно?
Мониторинг популяции диких животных — важная задача для мирового сообщества исследователей дикой природы. Ее решение помогает узнать, какие виды животных находятся под угрозой исчезновения, как они себя ведут в разные периоды жизни, где обитают и многое другое.
Для мониторинга животных используют различные инструменты, в том числе и фотоловушки — специальные камеры, устанавливаемые в лесу и реагирующие на движение в кадре. Каждый год с этих камер приходят сотни тысяч фотографий, на которых нужно найти и категоризировать животных. Это очень сложная и кропотливая работа, так как среди видов, общее число которых может достигать нескольких сотен, могут встречаться и такие, которые визуально друг от друга трудно различимы. К тому же в кадр в момент активации камеры может попасть лишь часть животного, и из-за того, что активность многих видов приходится на ночное время суток, некоторые фотографии могут быть смазанными или засвеченными из специфики работы камер в ночное время.
Датасет представляет собой набор изображений и файл train.csv с соответствием каждого изображения определенной группе животных: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/dataset.
Ниже представлена связь между индексом группы и ее наименованием:
- — заяц,
- — кабан,
- — кошки,
- — куньи,
- — медведь,
- — оленевые,
- — пантеры,
- — полорогие,
- — собачие,
- — сурок.
Обратите внимание, что в датасете присутствуют сложные примеры: фото, когда в кадр попала небольшая часть животного, а также ночные и смазанные снимки.
Разметка по группам производилась специалистами-исследователями, занимающимися мониторингом состояния популяции живой природы.
Данные разделены на тренировочную и тестовую выборки в соотношении примерно 70% / 30%.
Тестовая часть разбита на публичную и приватную в соотношении примерно 40% / 60%.
Это задача многоклассовой классификации, и в качестве метрики была выбрана macro F1 score (подсчет F1 по каждому классу с дальнейшим усреднением).
В файле представлен фрагмент кода для расчета метрики и оценки алгоритмов участников: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/ai-stage1.py.
Требуется разработать алгоритм для классификации группы животных по фото с фотоловушек и представить его результат работы в виде csv-файла с колонками image_name, predicted_class.
Ссылка на эталонное экспертное решение: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/baseline.ipynb.
Решением задачи будет csv-файл с предсказанием, загружаемый на платформу проведения соревнования для оценки качества решения.
Пример загружаемого файла с решением: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/sample_submission.csv.
А также решение, которое заняло самые высокие позиции в приватном лидерборде: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/best_submission.csv.
