Mura Vey (mura_vey) wrote,
Mura Vey
mura_vey

Data Dive - 1

Мы всей семьей поучаствовали в хакафоне для дата-аналитиков. Если вы вдруг не знаете, хакафон – это такой аналог марафона для программистов. Хакафон обычно длится довольно долго – например одни выходные, на него обычно собирается много людей и перед ними ставится конкретная задача: например, написать программу, которая например будет помогать какой-нибудь экологической организации (ровно такой хакафон был тут недавно у нас в окрестностях).

В нашем случае речь шла про анализ данных: на выходные должны были собраться дата-аналитики и проанализировать данные для благотворительных организаций, у которых собрано много данных, но нет дата-аналитиков.

Наш хакафон называлcя Дата Дайв (DataDive), его создала и придумала еще одна благотворительная организация, которая называется Дата Каинд (DataKind). У них есть шесть филиалов в разных частях света – два в Америке, два в Европе и два в Азии. Они занимаются организацией разного рода волонтерских мероприятий для анализа данных.

Для того, чтобы попасть на Дата Дайв благотворительной организации нужно заполнить заявку, в которой описывается, какого типа данные у них есть и как анализ этих данных поможет организации. Потом Дата Каинд выбирает из этих заявок четыре организации, для которых участие в Дата Дайве будет наиболее полезным.

Сам DataDive длился одни выходные – он начинался в пятницу вечером, самое главное происходило весь день в субботу и завершался в воскресенье в первой половине дня.

Однако, главная часть анализа данных состоит в предварительной подготовке данных, некоторые иногда даже говорят, что подготовка данных занимает 80% времени, а анализ только 20% времени. И поэтому для того, чтобы такое мероприятие было успешным, тоже нужна была предварительная подготовка. И нужны специальные люди, которые бы готовили данные заранее. Для этого в DataDive участвуют специальные волонтеры, которые начинают работать с данными за два месяца до ДатаДайва. Их роль называется Дата Амбассадор (Data Ambassador, и по-моему, перевести это хорошо невозможно). Я как раз была одним из таких Дата Амбассадоров.

Для этого нужно было заполнить специальную волонтерскую заявку. Я не знаю, проходил ли специальный дополнительный отбор среди желающих, или просто взяли всех, кто подал заявки. Примерно за два с половиной месяца до Дата Дайва нам прислали письмо, со списком выбранных для Дата Дайва организаций и их заявками.

Я была одним из трех Дата Амабассадоров организации, которая называется Хабитат фор Хьюманити (Habitat for Humanity). Эта организация занимается тем, что организует волонтеров для того, чтобы строить и ремонтировать дома для бедных и неимущих, а также проводит для них образовательные семинары, например, о том, как работает ипотека. У этой организации есть много филиалов в разных странах мира, мы анализировали данные, касающиеся 1,300 филиалов, расположенных в Америке.

В этот момент мне было совершенно непонятно, что же мы будем делать, потому что вопросы, на которые эта организация хотела получить ответ, были очень абстрактные, например был вопрос «Что приводит к успеху филиала?», и при этом не было определено, что такое успех филиала, и когда мы спрашивали представителей организации, что они считают успехом филиала, они сами не были уверены в том, какой правильный ответ на этот вопрос. Вторая сложность, которая перед нами стояла, состояла в том, что многие вопросы опирались на данные, которые сама организация не могла нам предоставить. Хабитат фор Хьюманити предоставляла нам информацию о том, сколько какой филиал построил домов за каждый год своего существования, сколько семинаров он провел и т.п. А вопросы касались, например, того, влияют ли на работу филиала климатические условия или то, насколько много малоимущих живет в этом районе. Или сколько люди в данном районе жертвуют на благотворительность.

Таким образом, во время подготовки к Дата Дайву остальные Дата Амбассадоры, работавшие с другими тремя организациями, занимались подготовкой и очисткой данных, а нам пришлось заниматься этим довольно мало: на наше счастье, данные, которые нам выдала Хабитат фор Хьюманити, оказались в довольно хорошей форме и нам понадобилось только перевести несколько таблиц в другой формат и попросить перезагрузить из базы данных одну из таблиц, у которой в процессе выгрузки съехали поля.

Основными же нашими задачами в процессе подготовки стали: найти и скачать данные из разных внешних источников – данные о погоде в разных регионах Америки, данные переписи населения, из которых можно выяснить, какой средний доход и образование у жителей в разных регионах, данные о пожертвованиях в различные благотворительные организации, и найти такие вопросы, на которые можно было ответить при помощи данных, которые нам предоставили и тех, которые нам удалось раздобыть.

Перед самим Дата Дайвом, был специальный день, когда собрались только Дата Амбассадоры всех участвующих организаций и большую часть этого дня мы потратили на то, чтобы придумать такие вопросы, на которые в принципе можно было бы ответить при помощи наших данных. На этом этапе мы сформулировали три задачи, две из которых впоследствии войдут в список наших финальных задач. Задачи эти были такие: 1) изучить разные параметры, которые могут свидетельствовать об успешной работе филиала, такие как количество построенных домов, количество проведенных программ и т.п.; посмотреть на те филиалы, которые показывают высокие показатели по этим разным параметрам 2) собрать демографические данные переписи для каждого региона (здесь регионы – это такие небольшие участки, на которые жителей делят во время переписи, каждый обычно содержит приблизительно 4000 человек, такие образом в густонаселенных городах регионы очень маленькие по площади, а в менее населенных пригородах могут быть гораздо большего размера), и найти регионы со сходными параметрами, и определить в регионах какого типа уже есть филиалы Хабитат фор Хьюманити, которые проводят успешную работу, и порекомендовать этой организации рассмотреть регионы такого же типа, в которых пока не ведется работа.

Обе эти задачи потом преобразовались в процессе работы, но в таком виде они существовали в тот момент. Третья задача, которая у нас имелась к тому моменту касалась корреляции между участниками программ конкретного филиала, не выполнившими обязательств по ипотеке, и другими параметрами, характеризующими работу этого филиала. Эта задача исчезла из списка наших задач после того, как мы обсудили эти задачи с представителями Хабитат фор Хьюманити, и в этом же процессе у нас появились новые задачи.

Продолжение следует.
Tags: bio, data, datadive
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments