search icon search icon ВЕРСИЯ ДЛЯ СЛАБОВИДЯЩИХ

Инженерный тур. 1 этап

Задача имеет целью проверить навыки работы участников с алгоритмами классификации для создания модели, способной автоматически классифицировать группу животных на фото с фотоловушек. Здесь проверяются их компетенции в обработке данных и применении алгоритмов машинного обучения, а также способность погружаться в предметную сферу и применять алгоритмы компьютерного зрения в решении.

Задача помогает оценить участников по их знаниям и навыкам в области программирования, зоологии, обработки изображений, машинного обучения и применении технических решений для реальных проблем.

Задача 1.1.(100 баллов)
Многоклассовая классификация животных по фото с фотоловушек
Темы: программирование, исследование данных, машинное обучение, компьютерное зрение

Условие

Задача посвящена классификации животных на укрупненные группы. Для этого участники получают доступ к уникальным данным — изображениям с фотоловушек, предоставленным исследовательскими организациями-партнерами. Решение задачи позволит снизить нагрузку на ученых, связанную с распознаванием видов, а следовательно, сделать мониторинг популяций более эффективным.

Почему это важно?

Мониторинг популяции диких животных — важная задача для мирового сообщества исследователей дикой природы. Ее решение помогает узнать, какие виды животных находятся под угрозой исчезновения, как они себя ведут в разные периоды жизни, где обитают и многое другое.

Для мониторинга животных используют различные инструменты, в том числе и фотоловушки — специальные камеры, устанавливаемые в лесу и реагирующие на движение в кадре. Каждый год с этих камер приходят сотни тысяч фотографий, на которых нужно найти и категоризировать животных. Это очень сложная и кропотливая работа, так как среди видов, общее число которых может достигать нескольких сотен, могут встречаться и такие, которые визуально друг от друга трудно различимы. К тому же в кадр в момент активации камеры может попасть лишь часть животного, и из-за того, что активность многих видов приходится на ночное время суток, некоторые фотографии могут быть смазанными или засвеченными из специфики работы камер в ночное время.

Описание данных

Датасет представляет собой набор изображений и файл train.csv с соответствием каждого изображения определенной группе животных: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/dataset.

Ниже представлена связь между индексом группы и ее наименованием:

  1. — заяц,
  2. — кабан,
  3. — кошки,
  4. — куньи,
  5. — медведь,
  6. — оленевые,
  7. — пантеры,
  8. — полорогие,
  9. — собачие,
  10. — сурок.

Обратите внимание, что в датасете присутствуют сложные примеры: фото, когда в кадр попала небольшая часть животного, а также ночные и смазанные снимки.

Разметка по группам производилась специалистами-исследователями, занимающимися мониторингом состояния популяции живой природы.

Данные разделены на тренировочную и тестовую выборки в соотношении примерно 70% / 30%.

Тестовая часть разбита на публичную и приватную в соотношении примерно 40% / 60%.

Критерии оценивания

Это задача многоклассовой классификации, и в качестве метрики была выбрана macro F1 score (подсчет F1 по каждому классу с дальнейшим усреднением).

В файле представлен фрагмент кода для расчета метрики и оценки алгоритмов участников: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/ai-stage1.py.

Решение

Требуется разработать алгоритм для классификации группы животных по фото с фотоловушек и представить его результат работы в виде csv-файла с колонками image_name, predicted_class.

Ссылка на эталонное экспертное решение: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/baseline.ipynb.

Ответ

Решением задачи будет csv-файл с предсказанием, загружаемый на платформу проведения соревнования для оценки качества решения.

Пример загружаемого файла с решением: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/sample_submission.csv.

А также решение, которое заняло самые высокие позиции в приватном лидерборде: https://disk.yandex.ru/d/MiCI_OW7U1r_Dg/best_submission.csv.

text slider background image text slider background image
text slider background image text slider background image text slider background image text slider background image