Data Dive - 4

Я решила, пока не закончился год, дописать историю про Data Dive (предыдущие части: 1, 2, 3). В пятницу вечером мы собрались в офисе САС (SAS). САС – большая компания, которая создает программы для статистического анализа. САС когда-то был создан для сельского хозяйства и его первый продукт помогал предсказывать урожай в зависимости от типа почвы, погодных условий и сорта зерна. Теперь это гигантская корпорация в соседнем городе. В истории про Дата Дайв САС был спонсором проекта. Во-первых, САС предоставлял нам помещение для самого Дата Дайва и для Дата Джема. Во-вторых, САС распространил информацию про Дата Дайв среди своих сотрудников и многие из них участвовали в Дата Дайве в той или иной роли. Например, в каждой из команд был один Дата Амбассадор из САСа.

Перед выступлением мы впервые встретились с представителями организации, с данными которой мы работали – Хабитат фор Хьманити. До этого момента мы только разговаривали с ними по телефону. У нас было три представителя и один из них, как выяснилось, обладал удивительными и прекрасными с точки зрения ДатаДайва способностями, которые мы все в последствии очень оценили. У него было сочетание лучших качеств тамады и азартного болельщика. Он был способен очень зажигательно хлопать и кричать в случаях, если случалось что-нибудь достойное поддержки. 

В пятницу вечером каждая команда вышла на сцену и рассказала, какие у них у них есть данные и какие перед ними стоят задачи. А в субботу все желающие анализировать наши данные собрались за нашим столом. К нам пришла большая команда, и мы разделили всех на четыре группы — по выбранным четырем задачам. Первая группа была предназначена для новичков в области анализа данных: согласно правилам  Дата Дайва должна быть хотя бы одна группа, в которой с задачами могут справиться даже начинающие. Нашей группе начинающих предлагалось выяснить чем существенно отличаются региональные отделения Хабитата, у которых хорошо получается работать, от тех, у которых успехи не такие большие. Для этого можно было строить графики зависимостей двух переменных, смотреть на взаимодействие между переменными и т. п. Апостериори, мы — дата амбассадоры — поняли, что мы совершили важную ошибку, связанную с этой группой, которая состояла в том, что  мы решили, что это такие простые задачи, что всем должно быть понятно, что в этой группе нужно делать и оставили эту группу без амбассадора. В результате выяснилось, что новички они потому и новички, что у них нет достаточно опыта и для них оказалось сложно сформулировать для себя подзадачи в рамках этой задачи. И эту сложность мы наверное могли заранее предусмотреть. Частично, мы попытались решить эту задачу в середине субботы, одна из представительниц Хабитата — Нэтали — села с этой группой, сформулировала вопросы, на которые Хабитату было бы интересно получить ответы, и распределила эти задачи между участниками группы. Однако, после этого группу начинающих подкосил синдром, про который, мне кажется, мы бы не смогли бы заранее догадаться, потому что последний раз это с нами случалось очень давно. Начинающие смущались своих результатов, считали, что графики, которые они построили не достаточно серьезные, что нужно их улучшить, прежде чем публиковать в общем репозитории, и в результате у нас осталось очень мало результатов работы этой группы. В общем, для меня это был большой урок на тему good enough:  очень важно понимать, что иногда перфекционизм приводит к тому, что ничего не остается от результатов, гораздо лучше оставить после себя неидеальный график, из которого, понимающий человек, может быстро понять полезный он или нет, и если нужно, сделать его заново, чем не оставить совсем ничего, и очень важно внушить это всем начинающим. В дополнение к этой работе, два других амбассадора — Джордан и Мустафа —  кластеризовали все отделения по всем имеющимся параметрам. Они получили очень интересный кластер — состоящий из отделений, которые не строят новые дома, а только проводят образовательные семинары. Выяснилось, что такие отделения есть на Аляске, где волонтерам сложно строить дома, потому что холодно, и в районах вроде Беверли Хилз в Калифорнии, где недвижимость такая дорогая, что местному отделению Хабитата было бы сложно приобрести землю для постройки. В результате мы порекомендовали Хабитату не оценивать деятельность всех отделений по эффективности программы по постройке нового жилья, потому что для некоторых отделений эта программа не имеет смысла.

Я была в нашей второй группе, задачей которой было для каждого района вокруг отделения Хабитата сказать в каком районе наиболее вероятно найти потенциальных клиентов Хабитата. Для этого мы скачали общедоступные данные переписи — большую часть времени у нас заняло добыть список параметров из переписи. Сначала мы хотели скачать очень много, но потом выяснилось, что таблица с каждым занимает очень много места, поэтому вы в результате сконцентрировались на небольшом списке переменных, отвечающих за доход, образование и количество закончивших школу. По этим переменным наш алгоритм ранжировал все районы вокруг каждого отделения по тому, насколько вероятно, что среди жителей этого района будут потенциальные клиенты Хабитата.

Задачей третьей группы было наложить на карту данные о том, сколько люди в каждом районе жертвуют на благотворительность. Это тоже открытая информация, которую мы скачали заранее. Третья группа к моему огромному удивлению работала совершенно самостоятельно и независимо, и в конце получила ровно тот результат, который задумывался. Я помню, мое удивление, когда люди из этой группы вечером в субботу подошли к нам и сказали: "Вот смотрите, тут мы сделали, кажется, то что в нашей задаче было нужно", и открыли, а там на экране на каждое отделение Хабитата можно было посмотреть на карте, где находятся их возможные будущие доноры и количество благотворительных взносов было отмечено интенсивностью цвета.

Четвертая группа анализировала поведение отделений Хабитата в социальных медиа — Твиттере и Фейсбуке. В этой группе работал один из Дата Амбассадоров. Эта группа выяснила, что существует несколько стратегий, которыми отделения могут получить высокий рейтинг. Например, одна из таких стратегий — это еженедельные сообщения с краткой информацией, которая может заинтересовать читателей. Хабитат в Денвере, раз в неделю публикует один неожиданный факт про дома. И еще этой группе страшно повезло — к ней присоединилась девушка, которая профессионально занималась рекламой в социальных медиа. Эта девушка по результатам исследования написала для отделения Хабитата инструкцию "Что нужно делать, чтобы стать заметными в Твиттере и Фейсбуке". Представители Хабитата были особенно довольны этим результатом. 

В последний день — воскресенье — утром мы добавляли последние штрихи и делали презентацию, а в полдень мы рассказывали всем присутствующим, что у нас получилось. Из интересного в других группах: группа, которая занималась диффамацией, пыталась создать алгоритм, который бы анализировал статьи в газетах и обнаруживал бы в них примеры дискриминации. В середине субботы эта группа неожиданно выяснила, что такой алгоритм уже создан и доступен  в интернете. Некоторые участники этой группы были этим очень расстроены. В группе, где анализировали ищущих работу, большую часть времени провели за очисткой данных, и даже представители Хабитата потом с гордостью говорили, что раньше они думали, что у них плохо со сбором данных, но все-таки таких проблем как в соседней группе у нашей группы не было,  значит у Хабитата еще не все так плохо.

На субботний день мы еще взяли с собой Д. и посадили ее делать домашнее задание. Д. в результате получила много разной пользы пообщавшись с разными участниками. Один посоветовал ей связаться со знакомым нейробиологом, потому что Д. интересуется нейробиологией. Другой оказался инженером и помог ей решить задачку по физике про резисторы. А еще Дата Кайнд в качестве отдыха в перерыве провел чемпионат по игре в камень-ножницы-бумага и Д. заняла почетное второе место.

А вот тут есть пост про всех нас на сайте Дата Каинд.

Error

default userpic

Your reply will be screened

Your IP address will be recorded 

When you submit the form an invisible reCAPTCHA check will be performed.
You must follow the Privacy Policy and Google Terms of use.