В современном мире объем данных растет экспоненциально. Большие данные предоставляют ценную информацию о поведении клиентов, рынков, производственных процессов. Умение работать с большими данными дает возможность извлекать ценные инсайты и принимать обоснованные бизнес-решения.
Машинное обучение позволяет автоматизировать процессы и улучшить эффективность работы в таких сферах, как финансы, медицина и производство. Алгоритмы машинного обучения могут обрабатывать и анализировать большие объемы данных гораздо быстрее и точнее, чем человек. Они используются в автономных автомобилях, рекомендательных системах, голосовых помощниках и многих других технологиях.
В рамках первого отборочного этапа участникам предстоит решить задачи по математике, информатике и программированию в предметном туре, освоить теорию машинного обучения через образовательный блок и развить свои компетенции в анализе данных в инженерном туре.
Задания второго этапа готовят участников к задачам финального тура. Участники познакомятся с платформой по проведению контеста.
Задания представляют из себя задачи по олимпиадному программированию и задачи по машинному обучению.
Заключительный этап пройдет очно в Санкт-Петербурге в Университете ИТМО. Участникам предстоит решить задания предметного тура по математике, информатике и программированию.
Финальная задача традиционно является классическим соревнованием по построению прогнозных моделей. Участники будут работать в команде и смогут проявить свои компетенции в ходе работы над решением задачи финального этапа.
Понимание данных: в первую очередь необходимо уметь изучить предоставленные данные и понять, какие переменные и признаки влияют на целевую переменную, которую необходимо предсказать.
Предобработка данных: часто данные требуют предварительной обработки, такой как заполнение пропущенных значений, масштабирование признаков, удаление выбросов и т.д.
Выбор модели: знание моделей для решения задачи. Это может быть классическая модель машинного обучения, нейронная сеть или другой алгоритм.
Обучение модели: знания по обучению моделей на тренировочных данных. Это включает в себя подгонку модели к данным и настройку параметров.
Оценка модели: знания по оцениванию результата на тестовых данных. Это позволяет понять, насколько точные и надежные предсказания делает модель.
Улучшение модели: если модель не дает достаточно хороших результатов, можно попробовать улучшить ее, изменяя параметры модели или использовать другую модель.
Предсказание на новых данных: после того, как модель была обучена и оценена, ее можно использовать для предсказания значений на новых данных.
Программирование на Python;
Аналитика данных;
Основы программирования;
Переобучение;
Основы алгоритмов и техник машинного обучения, базовые знания о структурах данных;
Базовая математическая подготовка.
Для участия на втором и заключительном этапах вам понадобится команда из 2-3 человек. Роли в команде распределяются командой самостоятельно.
Материалы кружков (Deep Learning)
Методическое пособие. Профиль «Большие данные и машинное обучение»
Онлайн-курс «Теория вероятностей для начинающих»
Онлайн-курс «Программирование на Python»
Онлайн-курс «Дискретные структуры»
Онлайн-курс «Основы статистики»
Онлайн-курс «Обучение на размеченных данных»
Онлайн-курс «Поиск структуры в данных»
Задания всех этапов профиля «Большие данные и машинное обучение» 2017
Учебно-методическое пособие по итогам Олимпиады НТИ 2015/16
Сборник по итогам Олимпиады КД НТИ 2019/20. БДиМО
Пособие с Олимпиады НТИ 2016/17 учебного года. БДиМО
Задачник 2017/18
Задачник 2018/19
Курс Алгоритмы программирования и структуры данных