Мероприятия

Дата-кампус. Медиа


С 16 по 24 июня 2021 состоится онлайн-интенсив «Дата-Кампус. Медиа» для старшеклассников по применению анализа данных в социальных и гуманитарных исследованиях.
Форма проведения: онлайн
Цифровая гуманитаристика – быстроразвивающееся направление, объединяющее применение информационных технологий и математических методов в различных гуманитарных науках. Это направление отображает цифровой поворот и запросы науки, образования и общества в современных условиях. Знание подходов и методов цифровой гуманитаристики важно с точки зрения понимания современных возможностей обработки и визуализации данных гуманитарных наук и историко-культурных источников.

Для кого эта программа?
Для учащихся в возрасте от 14 до 18 лет, которые хотят получить представление об области цифровой гуманитаристики (Digital Humanities), обработке естественного языка (natural language processing) и научиться решать этими методами практические исследовательские задачи. Участники с базовыми навыками программирования на языке Python имеют преимущество при наборе в программу.

Что значит «медиа» в названии кампуса?
– «Дата-Кампус. Медиа» посвящен изучению методов анализа текстовых данных в самых разных медийных каналах: новостных лентах, электронных книгах, сайтах онлайн-кинотеатров и стриминговых музыкальных сервисов.
– для участников у нас есть несколько гигабайт региональных новостей, дневниковые записи за три последних столетия, несколько тысяч аннотаций художественных текстов всех жанров, тексты песен с середины прошлого века до наших дней, описания кинофильмов и целое море метаданных.

Чему учат на «Дата-Кампус. Медиа»?
- использовать для решения гуманитарных задач цифровые инструменты и методы Data Science;
- количественно анализировать текстовые данные на языке Python, применять инструменты обработки естественного языка (Natural Language Processing);
- работать в географически распределенной команде;
- пользоваться облачными сервисами и средствами вычислений, работая над реальным исследовательским проектом.

Содержание программы:

I. Методология применения компьютерной обработки данных в социальных и гуманитарных исследованиях. Какие могут быть исследовательские проекты с применением NLP и как их делать.

II. Извлечение информации из текстов. Специфика задач, подходы к решению, извлекаемая информация. Предобработка данных. Анализ частотности и значимости слов. Тематическое моделирование и анализ тональности.

III. Введение в методы автоматической обработки текстов с использованием Python. Прикладные пакеты для автоматической обработки и анализа текстов.

IV. Графическое представление результатов исследования. Визуализация данных с помощью пакетов Matplotlib и Seaborn.

Все участники выполняют учебный исследовательский дата-проект в составе команд. Тематические направления командных проектов:
1.        Исследование новостных сообщений
2.        Исследование дневниковых записей
3.        Исследование художественного текста
4.        Исследование музыкальных текстов
5.        Исследование метаданных кинофильмов

Примерное расписание: занятия (лекции, мастер-классы, командная работа, консультации по командным проектам) ежедневно онлайн с 09:00 до 17:00 по московскому времени с перерывами.

Преподаватели:
Илья Эдуардович Бойцов (инженер машинного обучения, руководитель команды машинного обучения в Rambler & Co. Аспирант НИУ ВШЭ (экономика, вероятностное моделирование в предсказании экономических кризисов). Спикер Data Science Conference – крупнейшей конференции по машинному обучению в Восточной Европе, участник соревнований Kaggle (Top 2% HomeCredit Default Risk competition; Top 5% Toxic comments classification), победитель хакатона Физтеха (Phystech.Genesis Hackathon), участник Self-driving cars perception project.)
Вячеслав Викторович Бакулин (дата-аналитик, руководитель команды машинного обучения в Центре прикладного анализа больших данных Томского государственного университета. Победитель всероссийской олимпиады НТИ в треке "Большие данные и машинное обучение". Победитель в 3 треках Data Science-соревнования Econophysica, Газпромнефть и Heriot Watt. 1 место в data-соревновании Сибур. Победитель соревнования Wallarm на Kaggle.)

Участие бесплатное. Количество мест ограничено. Участники с базовыми навыками программирования на языке Python имеют преимущество при наборе в программу; знание основ Python тестируется при регистрации.

Зарегистрируйся прямо сейчас: https://forms.gle/koUf1SqKeMmSX9ef8

Прием заявок до 31 мая 2021 года.
---
Организаторы:
- АНО ДПО "Открытое образование" (г. Москва)
- Департамент образования и молодежной политики Ханты-Мансийского автономного округа – Югры
- ФГБУК «Всероссийский центр развития художественного творчества и гуманитарных технологий» (г. Москва)