Итоги Первого открытого дататона Института социально-гуманитарных наук
Первый Дататон СоцГума прошел 3 апреля 2022 в СоцГуме и собрал 35 участников, объединившихся в семь проектных команд. Плодотворная работа с перерывами на кофе-брейк длилась с 14.00 до 17.30. Затем проекты были представлены экспертному жюри:
🧐 Алексей Сергеевич Абрамов - призер областных соревнований по “Своей игре” и “Что? Где? Когда?”
Лариса Валерьевна Басова - кандидат филологических наук, заведующий кафедрой русского языка
👩🏫 Анастасия Юрьевна Башмакова - магистр лингвистики, специалист по R
🥈"Смешное название команды" (Дониёр Аллаёров, Анна Самофалова, Владимир Петров, Мария Чепорухина, Ирина Белякова, Роман Кувшанов) с гипотезой об игре слов в вопросах "Своей игры";
🥈"JavaSpirt" с гипотезой о том, что темы и двух первых слов в вопросе достаточно для самого быстрого поиска по базе вопросов "Своей игры";
Победители получили мерч от Just AI и книги об IT.
Большое спасибо нашим волонтерам Полине Табаринцевой и Артему Садыкову, которые были с нами весь день!
Это первый дататон в СоцГуме — будут и другие. С 21 по 24 июня ждем вас на Школу компьютерной лингвистики, а 25 июня — на «Свою игру», где уважаемые знатоки будут сражаться с искусственным интеллектом в ответах на вопросы.
Формат мероприятия
Когда. Собираемся 3 апреля 2022. Это воскресенье, середина учебного семестра, но зато мы точно не будем отвлекаться на пары и работу. Если в этот день будет действовать обязательный дистант для всех образовательных мероприятий, то мы перенесем дататон на другой день. Нам важно личное присутствие всех, кто из Тюмени. Участники не из Тюмени могут подключиться к конференции в Microsoft Teams.
Где. Встречаемся в 501 аудитории Института социально-гуманитарных наук ТюмГУ (г. Тюмень, ул. Ленина, 23). Если вы не из ТюмГУ, мы попросим вас заранее прислать свои ФИО, чтобы вас пропустила охрана.
Состав команд. На команды нужно будет поделиться непосредственно на дататоне. Но в каждой команде будет как минимум один IT-специалист, который обрабатывает данные и делает визуализацию результата - куратор команды. И еще один человек будет организовывать общение в команде - модератор. Собраться в команды нужно так, чтобы в каждой команде был один куратор и один модератор. Всего в команде должно быть не более 6 человек.
Взять с собой. Ноутбук. Желательно с браузером Google Chrome и логином/паролем к аккаунту Google, т.к. вы сможете запустить код проектов на Jupyter из наших репозиториев с данными (см. ниже задачи/трэки). А если нет возможности взять ноутбук? Команды будут сформированы так, чтобы в каждой был хотя бы один айтишник с ноутбуком. Правда, мы начнем с интенсива по языку программирования R, и без ноутбука вам будет почти нечем заняться. Возможно, у вас есть товарищ с ноутбуком, и вы будете сидеть вдвоем. Но тогда зарегистрируйте и вашего товарища тоже.
Расписание работы. Будем хакать данные в три подхода по два часа. 10:00-10:30 Регистрация участников 10:30-12:30 Первый подход: интенсив по языку программирования R. Выполняется индивидуально на своем ноутбуке под руководством преподавателя. R сегодня это альтернатива Python'у по части визуализации данных. Как и Python, он довольно прост и позволяет быстро начать проект. Интенсив проведет Анастасия Башмакова, магистр лингвистики. Помимо магистратуры, Анастасия окончила программу профессиональной переподготовки "Компьютерная лингвистика" от НИУ ВШЭ под руководством Татьяны Шавриной, лидера команды компьютерных лингвистов в Сбере. Также Анастасия недавно прошла стажировку в Университете Монклер (США) в лаборатории компьютерной лингвистики. 12:30-13:45 Обед 13:45-15:30 Второй подход: установка на задачу и мозговой штурм. Распределение по командам, распаковка датасетов и обсуждение, какую задачу команда ставит и какими методами будет ее решать. В зале будут эксперты, которые помогут с окончательным выбором. 15:30-16:00 Кофе-брейк 16:00-17:30 Третий подход: попITка решить поставленную задачу. Выделение признаков, построение диаграмм, анализ, подготовка презентаций. 17:30-18:30 Презентация итогов работы. Выбор лучших проектов. Вручение призов и сертификатов участникам.
Понятно, что за один день можно решить только небольшую задачу, но, во-перых, вы получите практические навыки работы с данными, а, во-вторых, код с вашего ноутбука никуда не денется - сможете работать с ним дальше. И даже использовать на других задачах. Ну и, в-третьих, коллаборация с IT - это не только весело, но и перспективно.
Трэки (задачи)
На первом Дататоне участники будут ставить задачи / прорабатывать гипотезы на основании одного из трех датасетов (на выбор):
Датасет "Своя игра" (опубликован здесь). Как научить искусственный интеллект отвечать на вопросы "Своей игры" быстрее, чем это делают уважаемые знатоки? Такой эксперимент уже был для английского языка. Давайте теперь попробуем на русском. Результаты этого трека будут использованы в разработке реальной программы и протестированы на реальной игре, в режиме реального времени. Победителям (и кожаным ублюдкам) - памятные призы.
Датасет названий команд (опубликован здесь). Любители играть в квизы и викторины часто называют свою команду как-нибудь повеселее. Вот несколько примеров: "Капитан Шрёдингер", "Чёрно-Белое море", "NewTone", "Минута Ворчания". В большинстве случаев название представляет собой игру слов (каламбур). А какие правила у этой игры? Еще никто не изучал русские каламбуры на корпусе из нескольких тысяч примеров.
Кто угодно, у кого есть интерес и ноутбук. Главное, чтобы это были представители широкого круга дисцпилин: историки, лингвисты, филологи, антропологи, урбанисты, медики и биологи, программисты и все, кого заинтересовали поставленные задачи.
Ну что, решились? Тогда заполняйте заявку. Регистрация нужна, чтобы вас пропустили в корпус в воскресенье. Дедлайн подачи заявок на дататон: 27 марта 2022. Регистрация завершена.