search icon search icon ВЕРСИЯ ДЛЯ СЛАБОВИДЯЩИХ

Большие данные и машинное обучение

Профиль Большие данные и машинное обучение посвящен решению задач по анализу данных. В связи с социально-экономическими и технологическими возможностями современной жизни в мире ежедневно собираются огромные массивы данных о деятельности человека, которые нужно обрабатывать, анализировать и структурировать. Такая работа помогает в прогнозировании, моделировании и выявлении закономерностей деятельности человека. Большие данные являются полезным инструментом, благодаря которому можно улучшать качество жизни людей. Алгоритмически обрабатывать их возможно благодаря машинному обучению.

Для подготовки участникам Олимпиады предоставлены материалы:

  • по программированию на Python;
  • по использованию основных библиотек для анализа данных, основам машинного обучения, теории вероятностей;
  • практикумы;
  • сборники задач с предыдущих соревнований.

Материалы выложены на странице профиля и на сайте проекта «Академия искусственного интеллекта для школьников».

Знакомство с профилем начинается с «Урока НТО» по профилю Большие данные и машинное обучение, который проводится в общеобразовательных учреждениях. Материалы для проведения урока находятся на сайте https://nto-lesson.ru/ и доступны после регистрации на платформе «Талант».

Урок погружает участников в выполнение реальных задач, связанных с анализом больших объемов данных, а также знакомит с такими понятиями, как большие данные, машинное обучение и предлагает решить сложную задачу художественного переноса стиля на языке программирования Python с использованием инструмента визуализации Jupyter Notebook.

В рамках первого отборочного этапа необходимо решить задачи по математике и информатике на предметном туре, освоить теорию машинного обучения через образовательный блок и развить свои компетенции в анализе данных на инженерном туре.

Задачи второго этапа готовят участников к заключительному этапу и представляют собой задания по олимпиадному программированию и машинному обучению, знакомят с платформой по проведению контеста.

На заключительном этапе проходят соревнования в построении прогнозной модели. Здесь ставится цель — спрогнозировать, понравится ли предложенная запись пользователю социальной сети «Одноклассники» по имеющимся данным о пользователях, которые ежедневно просматривают ленту с записями и каким-либо образом взаимодействуют с записями. Для построения системы рекомендаций требуется предсказать тип взаимодействия.

Участникам предоставляется доступ к виртуальному серверу для вычислений (установлен Python 3.9 с Jupyter Notebook, SciPy, NumPy, Scikit Learn и Pandas), кроме того, они сами могут доустановить необходимые им библиотеки и языки. Доступ к серверу осуществляется с личного или выданного ноутбука через веб-интерфейс Jupyter Notebook.

Наряду с этим, в распоряжении участников находится набор данных, подготовленный партнером профиля — компанией VK. Он состоит из нескольких CSV-файлов:

  • topics.csv: — информация о записях социальной сети «Одноклассники». Каждая запись характеризуется признаками текста и изображения.
  • users.csv — данные о пользователях социальной сети «Одноклассники». Каждый пользователь характеризуется датой рождения, полом и идентификатором города.
  • train.csv — сведения о взаимодействии пользователей с записями социальной сети «Одноклассники». Тип взаимодействия равен L, если запись понравилась, а D — если запись не понравилась.
  • test.csv — идентификаторы записей и пользователей, для которых требуется предсказать тип взаимодействия.

Решения загружаются на платформе Codeforces.

Участники загружают решение в тестирующую систему в виде текстового файла с ответами для объектов из проверочного набора данных (всего не более 50 решений на одну команду).

Для подготовки к заключительному этапу сформирована подборка материалов по машинному обучению и построению алгоритмов рекомендательных систем, на которые нацелена финальная задача.

Помимо этого, для эффективной подготовки к Олимпиаде проводятся вебинары по тематике профиля и разбор заданий второго этапа, которые доступны на канале университета.

Компетенции, приобретаемые благодаря участию в данном профиле Олимпиады, помогают участникам развить как hard skills:

  • навыки программирования;
  • умение строить алгоритмы и практические знания методов статистического анализа больших данных;
  • знание как минимум языков программирования Python или R, основных библиотек, алгоритмов, их ограничений;
  • базовые компетенции в теории вероятностей, статистике, математическом анализе и линейной алгебре,

так и soft skills:

  • умение работать в команде;
  • эмоциональный интеллект;
  • самоорганизация;
  • тайм-менеджмент;
  • проявление лидерских качеств;
  • принятие решений;
  • самостоятельная работа с учебными материалами.

Все эти навыки и компетенции в равной степени помогают школьникам на пути к становлению гармоничной и развитой личности.

Победители и призеры профиля Большие данные и машинное обучение поступают в ведущие вузы России на специальности, связанные с информационными технологиями и принимают участие в научно-технологических проектных школах.

Участие школьников в данном профиле заметно повышает популярность и осознанность выбора профессии в области IT-технологий. Собственный реальный опыт в этой области дает возможность уже в школьном возрасте понять свое отношение и выбрать целевой профильный вуз, а значит, определить эффективную образовательную траекторию.

text slider background image text slider background image
text slider background image text slider background image text slider background image text slider background image