• Переключить сайт на версию для слабовидящих

Дататон: соревнование по анализу данных

Логотип дататона 2022

Дататон Института социально-гуманитарных наук

Присоединяйтесь к каналу в Телеграмм

Дататон - это как хакатон: форум для разработчиков, во время которого специалисты из разных областей разработки программного обеспечения (программисты, дизайнеры, менеджеры) сообща решают какую-либо проблему на время. Но его цель немного другая: "хакнуть" данные. Например, есть 2000 твитов; у половины из них был хэштег #юмор, но мы его удалили, а у половины хэштега не было. Задача: научить компьютерную программу догадываться, у каких твитов хэштег #юмор был.
Дататоны не обязательно нацелены на создание компьютерной программы. Прежде, чем к задаче приступят программисты, требуется анализ экспертов в различных областях науки. Инженеру нужно понять, что искать в данных, на какие признаки должна быть настроена программа. Дататоны в Центре цифровых гуманитарных исследований НИУ ВШЭ собирают участников самого разного возраста, из множества организаций, из разных городов. На последнем дататоне в Вышке одна из задач была отследить "корреляцию между законодательной активностью депутата и его шансами быть избранным повторно".

Итоги Первого открытого дататона Института социально-гуманитарных наук

Первый Дататон СоцГума прошел 3 апреля 2022 в СоцГуме и собрал 35 участников, объединившихся в семь проектных команд. Плодотворная работа с перерывами на кофе-брейк длилась с 14.00 до 17.30. Затем проекты были представлены экспертному жюри:
  • 🧐 Алексей Сергеевич Абрамов - призер областных соревнований по “Своей игре” и “Что? Где? Когда?”
  • 🧑‍🦰Лариса Валерьевна Басова - кандидат филологических наук, заведующий кафедрой русского языка
  • 👩‍🏫 Анастасия Юрьевна Башмакова - магистр лингвистики, специалист по R
  • 👨‍💻 Артем Александрович Бирюков - создатель паблика “Тюмень до нашей эры”, кандидат исторических наук
  • 👨‍🏫 Юрий Евгеньевич Карякин - доцент кафедры информационных систем ИМИКН, кандидат технических наук
  • 🕵‍♂️ Вячеслав Сергеевич Кулешов - доцент кафедры истории и мировой политики СоцГум, кандидат исторических наук
  • 🤓 Елена Владимировна Михалькова - доцент кафедры английского языка СоцГум, кандидат филологических наук, магистр прикладной информатики

Победителями стали:

Победители получили мерч от Just AI и книги об IT.

Большое спасибо нашим волонтерам Полине Табаринцевой и Артему Садыкову, которые были с нами весь день!

Это первый дататон в СоцГуме — будут и другие. С 21 по 24 июня ждем вас на Школу компьютерной лингвистики, а 25 июня — на «Свою игру», где уважаемые знатоки будут сражаться с искусственным интеллектом в ответах на вопросы.

Формат мероприятия

Когда. Собираемся 3 апреля 2022. Это воскресенье, середина учебного семестра, но зато мы точно не будем отвлекаться на пары и работу. Если в этот день будет действовать обязательный дистант для всех образовательных мероприятий, то мы перенесем дататон на другой день. Нам важно личное присутствие всех, кто из Тюмени. Участники не из Тюмени могут подключиться к конференции в Microsoft Teams.

Где. Встречаемся в 501 аудитории Института социально-гуманитарных наук ТюмГУ (г. Тюмень, ул. Ленина, 23). Если вы не из ТюмГУ, мы попросим вас заранее прислать свои ФИО, чтобы вас пропустила охрана.

Состав команд. На команды нужно будет поделиться непосредственно на дататоне. Но в каждой команде будет как минимум один IT-специалист, который обрабатывает данные и делает визуализацию результата - куратор команды. И еще один человек будет организовывать общение в команде - модератор. Собраться в команды нужно так, чтобы в каждой команде был один куратор и один модератор. Всего в команде должно быть не более 6 человек.

Взять с собой. Ноутбук. Желательно с браузером Google Chrome и логином/паролем к аккаунту Google, т.к. вы сможете запустить код проектов на Jupyter из наших репозиториев с данными (см. ниже задачи/трэки). А если нет возможности взять ноутбук? Команды будут сформированы так, чтобы в каждой был хотя бы один айтишник с ноутбуком. Правда, мы начнем с интенсива по языку программирования R, и без ноутбука вам будет почти нечем заняться. Возможно, у вас есть товарищ с ноутбуком, и вы будете сидеть вдвоем. Но тогда зарегистрируйте и вашего товарища тоже.

Расписание работы. Будем хакать данные в три подхода по два часа.
10:00-10:30 Регистрация участников
10:30-12:30 Первый подход: интенсив по языку программирования R. Выполняется индивидуально на своем ноутбуке под руководством преподавателя. R сегодня это альтернатива Python'у по части визуализации данных. Как и Python, он довольно прост и позволяет быстро начать проект. Интенсив проведет Анастасия Башмакова, магистр лингвистики. Помимо магистратуры, Анастасия окончила программу профессиональной переподготовки "Компьютерная лингвистика" от НИУ ВШЭ под руководством Татьяны Шавриной, лидера команды компьютерных лингвистов в Сбере. Также Анастасия недавно прошла стажировку в Университете Монклер (США) в лаборатории компьютерной лингвистики.
12:30-13:45 Обед
13:45-15:30 Второй подход: установка на задачу и мозговой штурм. Распределение по командам, распаковка датасетов и обсуждение, какую задачу команда ставит и какими методами будет ее решать. В зале будут эксперты, которые помогут с окончательным выбором.
15:30-16:00 Кофе-брейк
16:00-17:30 Третий подход: попITка решить поставленную задачу. Выделение признаков, построение диаграмм, анализ, подготовка презентаций.
17:30-18:30 Презентация итогов работы. Выбор лучших проектов. Вручение призов и сертификатов участникам.

Понятно, что за один день можно решить только небольшую задачу, но, во-перых, вы получите практические навыки работы с данными, а, во-вторых, код с вашего ноутбука никуда не денется - сможете работать с ним дальше. И даже использовать на других задачах. Ну и, в-третьих, коллаборация с IT - это не только весело, но и перспективно.

Трэки (задачи)

На первом Дататоне участники будут ставить задачи / прорабатывать гипотезы на основании одного из трех датасетов (на выбор):
  1. Датасет "Своя игра" (опубликован здесь). Как научить искусственный интеллект отвечать на вопросы "Своей игры" быстрее, чем это делают уважаемые знатоки? Такой эксперимент уже был для английского языка. Давайте теперь попробуем на русском. Результаты этого трека будут использованы в разработке реальной программы и протестированы на реальной игре, в режиме реального времени. Победителям (и кожаным ублюдкам) - памятные призы.
  2. Датасет названий команд (опубликован здесь). Любители играть в квизы и викторины часто называют свою команду как-нибудь повеселее. Вот несколько примеров: "Капитан Шрёдингер", "Чёрно-Белое море", "NewTone", "Минута Ворчания". В большинстве случаев название представляет собой игру слов (каламбур). А какие правила у этой игры? Еще никто не изучал русские каламбуры на корпусе из нескольких тысяч примеров.
  3. Датасет "Антропометрия тюменцев по фотографиям" (частично опубликован здесь и постепенно обновляется). Антропометри́я - метод исследования, заключающийся в измерении тела человека и его частей с целью установить возрастные, половые, расовые и другие особенности физического строения и дать количественную характеристику их изменчивости. Мы собрали фото из группы Вконтакте "Тюмень до нашей эры" и с помощью алгоритма искусственного интеллекта выбрали все фигуры людей. Каковы же физические особенности типичного тюменца на фотографии?

Кто может участвовать в дататоне?

Кто угодно, у кого есть интерес и ноутбук. Главное, чтобы это были представители широкого круга дисцпилин: историки, лингвисты, филологи, антропологи, урбанисты, медики и биологи, программисты и все, кого заинтересовали поставленные задачи.
Ну что, решились? Тогда заполняйте заявку. Регистрация нужна, чтобы вас пропустили в корпус в воскресенье.
Дедлайн подачи заявок на дататон: 27 марта 2022. Регистрация завершена.