Большие данные и машинное обучение
Профиль Большие данные и машинное обучение посвящен решению задач по анализу данных. В связи с социально-экономическими и технологическими возможностями современной жизни в мире ежедневно собираются огромные массивы данных о деятельности человека, которые нужно обрабатывать, анализировать и структурировать. Такая работа помогает в прогнозировании, моделировании и выявлении закономерностей деятельности человека. Большие данные являются полезным инструментом, благодаря которому можно улучшать качество жизни людей. Алгоритмически обрабатывать их возможно благодаря машинному обучению.
Для подготовки участникам Олимпиады предоставлены материалы:
- по программированию на Python;
- по использованию основных библиотек для анализа данных, основам машинного обучения, теории вероятностей;
- практикумы;
- сборники задач с предыдущих соревнований.
Материалы выложены на странице профиля и на сайте проекта «Академия искусственного интеллекта для школьников».
Знакомство с профилем начинается с «Урока НТО» по профилю Большие данные и машинное обучение, который проводится в общеобразовательных учреждениях. Материалы для проведения урока находятся на сайте https://nto-lesson.ru/ и доступны после регистрации на платформе «Талант».
Урок погружает участников в выполнение реальных задач, связанных с анализом больших объемов данных, а также знакомит с такими понятиями, как большие данные, машинное обучение и предлагает решить сложную задачу художественного переноса стиля на языке программирования Python с использованием инструмента визуализации Jupyter Notebook.
В рамках первого отборочного этапа необходимо решить задачи по математике и информатике на предметном туре, освоить теорию машинного обучения через образовательный блок и развить свои компетенции в анализе данных на инженерном туре.
Задачи второго этапа готовят участников к заключительному этапу и представляют собой задания по олимпиадному программированию и машинному обучению, знакомят с платформой по проведению контеста.
На заключительном этапе проходят соревнования в построении прогнозной модели. Здесь ставится цель — спрогнозировать, понравится ли предложенная запись пользователю социальной сети «Одноклассники» по имеющимся данным о пользователях, которые ежедневно просматривают ленту с записями и каким-либо образом взаимодействуют с записями. Для построения системы рекомендаций требуется предсказать тип взаимодействия.
Участникам предоставляется доступ к виртуальному серверу для вычислений (установлен Python 3.9 с Jupyter Notebook, SciPy, NumPy, Scikit Learn и Pandas), кроме того, они сами могут доустановить необходимые им библиотеки и языки. Доступ к серверу осуществляется с личного или выданного ноутбука через веб-интерфейс Jupyter Notebook.
Наряду с этим, в распоряжении участников находится набор данных, подготовленный партнером профиля — компанией VK. Он состоит из нескольких CSV-файлов:
topics.csv: — информация о записях социальной сети «Одноклассники». Каждая запись характеризуется признаками текста и изображения.users.csv— данные о пользователях социальной сети «Одноклассники». Каждый пользователь характеризуется датой рождения, полом и идентификатором города.train.csv— сведения о взаимодействии пользователей с записями социальной сети «Одноклассники». Тип взаимодействия равен L, если запись понравилась, а D — если запись не понравилась.test.csv— идентификаторы записей и пользователей, для которых требуется предсказать тип взаимодействия.
Решения загружаются на платформе Codeforces.
Участники загружают решение в тестирующую систему в виде текстового файла с ответами для объектов из проверочного набора данных (всего не более 50 решений на одну команду).
Для подготовки к заключительному этапу сформирована подборка материалов по машинному обучению и построению алгоритмов рекомендательных систем, на которые нацелена финальная задача.
Помимо этого, для эффективной подготовки к Олимпиаде проводятся вебинары по тематике профиля и разбор заданий второго этапа, которые доступны на канале университета.
Компетенции, приобретаемые благодаря участию в данном профиле Олимпиады, помогают участникам развить как hard skills:
- навыки программирования;
- умение строить алгоритмы и практические знания методов статистического анализа больших данных;
- знание как минимум языков программирования Python или R, основных библиотек, алгоритмов, их ограничений;
- базовые компетенции в теории вероятностей, статистике, математическом анализе и линейной алгебре,
так и soft skills:
- умение работать в команде;
- эмоциональный интеллект;
- самоорганизация;
- тайм-менеджмент;
- проявление лидерских качеств;
- принятие решений;
- самостоятельная работа с учебными материалами.
Все эти навыки и компетенции в равной степени помогают школьникам на пути к становлению гармоничной и развитой личности.
Победители и призеры профиля Большие данные и машинное обучение поступают в ведущие вузы России на специальности, связанные с информационными технологиями и принимают участие в научно-технологических проектных школах.
Участие школьников в данном профиле заметно повышает популярность и осознанность выбора профессии в области IT-технологий. Собственный реальный опыт в этой области дает возможность уже в школьном возрасте понять свое отношение и выбрать целевой профильный вуз, а значит, определить эффективную образовательную траекторию.
