TG Telegram Group Link
Channel: This is Data
Back to Bottom
Обычно я читаю около 10 новых статей за неделю и только самое лучшее и интересное идет в дайджест, чтобы сэкономить вам время.
Если понравилось – поставь ❤️

Один из наших коллег-аналитиков опубликовал конспект по всей теории A/В- тестирования в Collab-ноутбуке. Записи основаны на материалах курса по теории и практике А/В тестирования от компании EXPF. Конспект содержит основы статистики, ускорение A/В, ratio-метрики и много чего еще. К некоторым разделам автор подкинул полезных ссылок. Но помните, что конспект – это краткие выжимки. Он пригодится тем, кто уже владеет темой и хочет освежить знания. Если ты новичок, то лучше начни с учебника или курса.

На Хабр залетел начинающий автор с шикарной статьей на тему сегментации и кластеризации временных рядов. Автор применила ML анализ для исследования социальных явлений и событий. В качестве источника данных она взяла интернет-издание Лента.ру и проанализировала новости за год с разбивкой на категории, такие как экологические проблемы, преступления, оружие. Статья, с одной стороны, является красивым примером научного исследования с применением ML. С другой, она выявляет корреляции между новостями. Например, резкий скачок в категории развития бизнеса и торговли произошел из-за начала продажи новых китайских автомобилей после ноября 2023 года, что повлекло сообщения о развитии автомобильной отрасли в России.

Ежедневно аналитики делают выводы о поведении миллионов пользователей крупных приложений, опираясь на данные лишь небольшой части из них – выборке. Но справедливо ли делать выводы о миллионной аудитории по данным 100 пользователей или стоит собрать данные о 1000 пользователей? Чтобы дать ответ на вопрос, автор на Хабр смоделировал тысячу A/A, A/B и A/B/C/D тестов и показал, как параметры эксперимента и статистические критерии влияют на выводы о всей совокупности. В статье вы найдете полезные ссылки для новичков и профи.

#дайджест
Сегодня хочу поделиться с вами одной классной техникой, которой я пользуюсь, когда нужно принять сложное решение. Она не даёт 100% ответа, но помогает логически разложить решение и взвесить все плюсы и минусы.

Эта техника называется «квадрат Декарта» и была придумана Рене Декартом – французским философом, физиком, математиком и основателем аналитической геометрии.

Обычно, когда мы сталкиваемся с необходимостью принять решение, мы сосредотачиваемся только на одной или двух его особенностях, игнорируя другие важные критерии. Мы задаём себе вопрос: «Что будет, если это произойдёт?» Но этого недостаточно.

Квадрат Декарта похож на классический метод учёта плюсов и минусов, но он позволяет увидеть общую картину и учесть не только позитивные и негативные последствия, но и эффекты от бездействия.

Работать с квадратом Декарта просто:
✔️Делим лист на четыре части.
✔️Вписываем в каждую часть один из вопросов.
✔️Даём подробные ответы.

Вопросы такие:
1️⃣ Что случится, если это произойдет? Здесь мы перечисляем плюсы от принимаемого решения.
2️⃣ Что случится, если это НЕ произойдет? Здесь плюсы, которые получим, если не примем решения.
3️⃣ Что НЕ случится, если это произойдет? Описываем минусы от принимаемого решения, то есть возможные негативные последствия.
4️⃣ Что НЕ случится, если это НЕ произойдет? Этот вопрос относится к потерям, которые мы понесём, если откажемся от решения.

Важно записать как можно больше эффектов, чтобы иметь полную картину. Не стоит полагаться на память.

Квадрат Декарта – универсальный инструмент, который можно использовать в любых сферах: от бытовых задач до управленческих решений. Он не даёт готового ответа, но позволяет представить все выгоды и риски в структурированном виде. Решение формируется на основе этой информации.

❗️И самое главное – если решение принято, отбрасываем все сомнения и без колебаний двигаемся вперед. Это позволяет нам сохранить энергию и сосредоточиться на достижении поставленных целей, не растрачивая силы на бесполезные раздумья.

#опыт
Я наткнулся на Хабр-статью, в которой гейм-дизайнер делится опытом ивент шторминга (Event Storming). Фишка воркшопа – в совместной проработке бизнес-сценариев, синхронизации команд и выработке единого языка. Это отличный способ разложить продукт по полочкам, понять, как он работает (или должен работать). Суть воркшопа проста:
🔹собираем ребят из разных команд (но не более 10 участников);
🔹брейнштормим идеи (продуктовые события, ограничения и др.);
🔹заклеиваем белую доску цветными стикерами (свой цвет для каждого элемента);
🔹вместе прорабатываем структуру и взаимосвязи;
🔹возвращаемся к доске, когда нужно.

Автор статьи на Medium (VPN) потестила ИИ-платформы для аналитиков и сравнила обещания и реальность. Под горячую руку попали Basedash, VizCritique Pro (плагин ChatGPT), Rows, Julius и Polymer Search. Самым многообещающим оказался Polymer Search. Он смог переварить данные и сам построить добротный дашборд. Еще одна из фич: если нажать на знак вопроса рядом с графиком, то программа расскажет о графике, сделает по нему выводы и даже предложит прогнозы. Словом, приятно наблюдать за развитием умных инструментов.

Не знаю, как вы, а я в восторге от Яндекс Нейро. Команда объединила силы Яндекс Поиск и YandexGPT, чтобы мы могли задать вопрос и сразу получить ответ, да еще и с ссылками на источники. Хочешь задать вопрос по картинке – легко. Нейро умеет распознавать изображения. Но для SEO-шников и рекламных агентств это противоречивая новость. С одной стороны, пользователи, получив быстрый ответ, не перейдут на сайт и не увидят рекламу. Это сократит количество кликов и трафик. С другой, при каждом вопросе сервис анализирует 5 наиболее релевантных сайтов и оставляет ссылку на них. Релевантными могут оказаться сайты не только из топ-10 выдачи. Если человек перейдет в источник, то «нетоповый» сайт пробьется через быстрые ответы и получит трафик оттуда. Андрей Сюткин, отвечающий за ML-трек в Нейро, рассказал на Хабре как выглядит архитектура Нейро и как формируются ответы на технологическом уровне.

#дайджест
Всех с праздниками!

Автор в блоге Towards Data Science (VPN) поделилась, как с помощью линейной регрессии построить верные причинно-следственные связи. Статья разбирает применение подхода к анализу результатов как A/B-тестов, так и эмпирических наблюдений. Однако в последнем случае следует трезво воспринимать выводы. Ведь мы никогда не можем быть уверены, что учли все факторы. Статья раскрывает принцип «корреляция еще не причинно-следственная связь», а также объясняет разницу между прогнозной аналитикой и причинно-следственным анализом.

Для определения зависимостей между двумя переменными используется коэффициент Пирсона, который измеряет линейные зависимости, и коэффициенты Спирмена и Кендалла для монотонных зависимостей. Но чаще всего нас интересует, есть ли зависимость вообще. И что делать, если она сложнее приведенных выше? Автор следующей статьи (VPN) рассказал о новом коэффициенте корреляции ξ, предложенном в статье A New Coefficient of Correlation в 2020. Он равен нулю, если переменные независимы, и единице, если одна из них является измеримой функцией другой. Новая корреляция сопровождается асимптотической теорией, которая позволяет проводить проверку гипотез, не делая предположений о базовых распределениях.

На Хабре я нашел добротную статью о ratio-метриках и их линеаризации. Автор объясняет, что такое ratio-метрики в A/B-тестах и как (и зачем) их линеаризовать. Он сравнивает линеаризацию с методами предусредненного среднего, бутстрапом и дельта-методом. Линеаризация позволяет преобразовать ratio-метрики к средней пользовательской метрике. Главные преимущества линеаризованной метрики:
🔹легкость подсчета;
🔹сохранение сонаправленности наблюдаемого эффекта с изменением в целевой ratio-метрике;
🔹корректные p-value;
🔹применимость методов CUPED и стратификации.

#дайджест
Как прокачаться?

Иногда ко мне приходят за советом по поводу улучшения своих навыков и направления для развития. Меня спрашивают, какие курсы выбрать, чтобы повысить свою ценность на рынке труда. Раньше на подобный запрос я выдавал список курсов: кому-то рекомендовал подтянуть статистику и аб-тестирование, кому-то юнит-экономику, а кому-то Python или SQL. Однако в последнее время я пришел к выводу, что основным фокусом должно стать изучение английского языка.

Знание английского открывает множество ранее закрытых дверей. Это как достигнуть нового уровня в игре или на старте сразу получить прокачанного героя. Теперь вы не ограничены поиском работы только в русскоязычных компаниях – перед вами открыт весь мир.

Более того, множество новых идей и инструментов сначала публикуются на английском и только потом переводятся на русский (если вообще переводятся). Чтение оригинальных материалов – это особый кайф, а получать информацию первым – настоящий бонус, делающий вас на шаг впереди остальных.

Сам я изначально не был фанатом английского. В школе не было хорошего учителя, а в университете этому предмету уделяли мало внимания. Мое отношение к языку сильно изменилось, когда я устроился в международную компанию. Условием при приеме было подтянуть английский до уровня B1 в течение года. Для меня это был вызов, учитывая мой почти нулевой уровень владения языком.

Поделюсь с вами своим способом обучения:

1️⃣ Поиск хорошего репетитора

Сначала мне потребовался репетитор для изучения грамматики. Поиск репетитора – это не так просто, как может показаться. Важно найти того, с кем вам будет комфортно общаться, потому что вы будете видеться очень часто (иногда чаще, чем с близкими людьми). Репетитор обязательно должен иметь опыт обучения или жизни в англоязычной среде. Мне повезло, я нашел такого на платформе Skyeng. Занимаюсь с ним 2-3 раза в неделю.

2️⃣ Присоединение к разговорному клубу

По достижении уровня A2, я понял, что нужна практика и начал посещать разговорные клубы. Офлайн формат работает лучше всего. Мы сидим в кругу, пьем чай, обсуждаем новости недели и разбираем новый топик. Посещение клуба стало для меня еженедельным ритуалом, а все участники –большой дружной семьей.

3️⃣ Расширение словарного запаса

Вам обязательно нужно расширять свой словарный запас. Хотя бы по несколько новых слов в день. Для этого подойдут различные приложения, которые можно найти в сторах. Рекомендую Duolingo или тот же Skyeng.

4️⃣ Использование английского в повседневной жизни и на работе

Если есть возможность, стоит присутствовать на рабочих встречах на английском, даже если вы пока не можете говорить. Просто слушайте и старайтесь понять, о чем идет речь. Если работаете в русскоязычной среде, смотрите видео на YouTube на английском. Я люблю слушать книги, которые читал в детстве, например, Конан Дойля или Жуля Верна.

Самое главное – начать и не останавливаться. Обучение английскому – это не спринт, а марафон. И по ходу марафона перед вами будет открываться множество новых возможностей.

#опыт
На этой неделе я подготовил дайджест по продуктовой тематике. Понравилось? Ставь 👍

Алексей Арефьев в своем блоге рассказал, в чем заключается продуктовый подход к управлению IT-продуктами. Это методология, которая фокусируется на потребностях пользователей с учетом выгоды для бизнеса. Пример продуктового подхода мы видим в Apple. Вместо гонки за техническими спецификациями, компания постоянно собирает обратную связь от пользователей и совершенствует устройства. Алексей перечисляет ключевые принципы подхода, нюансы и ошибки его применения и дает инструкцию, как внедрить продуктовый подход в компании.

Внутренние продукты – это IT-решения, разработанные специально для внутреннего пользования компании. Они отличаются от продуктов для широкого рынка. Например, у сотрудников (читай – пользователей), нет выбора, пользоваться продуктом или нет. При этом, посчитать прямое влияние новых фич на прибыль почти невозможно. Автор следующих статей – продакт-менеджер в Ozon. Его специализация – внутренние IT-продукты. В прошлогодней статье он рассказал о специфике развития таких продуктов и о работе с их метриками. Недавняя статья – реальный кейс развития внутреннего продукта в Ozon. Автор описал, как команда применяла теорию из первой статьи в сочетании с подходом Job-To-Be-Done.

Анализ пользователей, которые перестали пользоваться продуктом (Churn surveys), обнаруживает кладезь ценной информации. Какая главная причина оттока пользователя? Где мы не доработали и какие нужды пользователя не закрыли? Наша задача – преобразовать информацию в действия и тем самым снизить отток и увеличить Revenue. Автор на Medium (VPN) рассказала, как оценить в долларах проблемы пользователей, приведшие к их оттоку. На основе этого мы можем понять, как удержать клиентов и приоритизировать задачи для максимизации прибыли.

#дайджест
Одним субботним утром Илья Красинский и Рома Бунин запланировали похоливарить про дашборды. Илья топит против преклонения перед ними. Он считает, что графики всегда таят в себе ошибки и только вводят в заблуждение продактов и маркетологов. Рома же адепт визуализации данных. Он верит, что дашборды ускоряют понимание бизнеса, и мечтает, чтобы каждый аналитик овладел основами дизайна. Битва состоялась – получился содержательный стрим на два часа. Все было по делу. Ребята разобрали много дашбордов и обсудили проблемы визуализации данных и data-driven подхода.

Одна из опасных и парадоксальных проблем А/В тестирования – это peeking или подглядывание. Аналитики (а чаще продакты) создают ее сами, когда начинают анализировать данные теста еще до его завершения. Но штука в том, что каждая отдельная проверка не независима от предыдущих. Чем чаще проверяются данные, тем выше вероятность обнаружения ложных различий из-за случайности. Об этом нас предупреждает автор блога на Хабр. Он предлагает два способа решить проблему: с помощью секвенциального тестирования и Байесовского подхода.

Google Consent Mode предназначен для управления сбором данных на веб-сайтах в соответствии с требованиями конфиденциальности пользователей. Недавнее обновление Consent Mode v2 вызвало много споров среди аналитиков. Александр Игнатенко сравнил две версии Google Consent Mode v1 и v2 в блоге компании Matomo. Он пришел к выводу, что новая версия содержит море багов и может навредить бизнесу. При работе в Consent Mode v2, вы неизбежно столкнетесь с потерей данных и неточностями в их анализе.

#дайджест
Продолжаю рассказывать про фреймворки.
AARRR – инструмент, который помогает увеличить количество активных пользователей и выручку. Он выделяет 5 уровней привлечения клиента и сопоставляет их с метриками.

Акроним AARRR складывается из первых букв уровней. Acquisition (привлечение) определяет момент первого контакта пользователя с продуктом. Activation (активация) измеряет, насколько эффективно интерес пользователя перерастает в осознание пользы продукта. У некоторых продуктов бывает сложно найти действие, которое можно считать моментом активации.

Retention (удержание) отражает липкость продукта и показывает, сколько пользователей возвращается к нему спустя время. Это ключевая метрика. Не важно, сколько клиентов вы привлечете, если они уйдут после первого использования продукта.

Referral (рекомендация) иллюстрирует, сколько пользователей рекомендуют продукт друзьям. Это может происходить естественно или инициироваться акциями компании. Revenue (выручка) – это про то, как и насколько успешно компания превращает привлеченных пользователей в платящих клиентов.

Вы можете встретить еще одно название фреймворка – AAARRR. Некоторые аналитики помещают уровень Awareness (осведомленность) перед Acquisition. Метрики уровня измеряют, сколько людей узнали о бизнесе через маркетинговые каналы.

Главная цель AARRR – масштабирование продукта. Концепция AARRR рекомендует направлять 80% усилий на оптимизацию существующего функционала и только 20% на разработку новых фич. Так фреймворк фокусирует на росте продукта и пути взаимодействия с ним пользователя.

AARRR помогает определить приоритеты и последовательность действий по разработке продукта, а также тестировать гипотезы.

В результате команда
🔹доводит прототип до продаваемого продукта;
🔹показывает, что может привлечь клиентов, причем много и с высоким ROMI.

Алгоритм фреймворка: команда начинает с гипотезы, затем проводит обширное A/B-тестирование, измеряет улучшение конверсии и снова повторяет процесс уже с уточненными гипотезами.

#метрики
Перед майскими посетил митап в Тинькофф, посвященный A/B-тестам.

Спикеры из HeadHunter, Яндекса и Тинькофф рассказали как ускорять проведение A/B-тестов, повышать их удобство и влиять на качество принимаемых решений.

Особо запомнились два доклада:
🔹«Как в Алисе автоматизируют дебаг A/B-экспериментов с прокрасившимися метриками» от Романа Рыбальченко;
🔹«Подглядывай правильно: как ускорить принятие решений с помощью последовательного анализа» от Виктора Харламова.
Более того, Виктор презентовал для всего комьюнити python-ноутбук, в котором приведена простая реализация анализа, позволяющая сокращать время проведения тестов конверсий на десятки процентов (а то и в разы). Вы можете самостоятельно попробовать последовательный анализ, сравнив длительность теста с классическим дизайном.

Запись выступлений и презентации доступны по ссылке.
Утреннее напоминание: через 11 дней лето 😊
А пока дайджест.

В блоге Towards Data Science (VPN) наткнулся на исчерпывающий гайд, как провести исследовательский анализ данных (EDA) для прогнозирования временных рядов. Статья приводит шесть этапов анализа: применение описательной статистики, построение временного и сезонного графиков, бокс-плот, декомпозиция временного ряда и анализ задержки. Автор разбирает каждый из этапов на примере данных о почасовом энергопотреблении, а также приводит питоновский скрипт и получившиеся графики. Статью можно использовать как комплексный шаблон для работы.

Следующая статья на Medium (VPN) обозревает важные статистические тесты и их применение: t-критерий Стьюдента, хи-квадрат, дисперсионный анализ (ANOVA), корреляция Пирсона и тест Манна-Уитни. Автор объясняет каждый статистический тест и показывает, как его рассчитать и реализовать на Python. Он также предлагает идеи пет-проектов, в которых вы сможете отработать знания на практике.

Когда мы анализируем два альтернативных варианта, то прибегаем к А/B тестированию. А если выборок больше, то мы сталкиваемся со множественным тестированием. Продуктовый аналитик из Тинькофф сравнила два метода множественного тестирования: тест, основанный на попарных сравнениях и тест, основанный на предельном распределении. Последний метод выигрывает. Он позволяет ошибаться ровно с той вероятностью, которую мы закладываем. При этом количество выборок не влияет на продолжительность теста. Метод пригодиться, например, когда требуется выбрать из пяти баннеров в приложении лучший по конверсии продаж. Автор прикрепила Python-библиотеку с функциями для тестирования по описанному алгоритму.

#дайджест
По традиции к посту о метриках и фреймворках я подбираю книгу. Ведь, чтобы овладеть знанием и применить его в работе или на собеседовании, одного поста недостаточно. Сегодняшняя книга посвящена фреймворку AARRR.

📚 Hacking Growth: How Today's Fastest-Growing Companies Drive Breakout Success
Авторы: Sean Ellis, Morgan Brown

Авторы – матерые консультанты по разработке стратегий роста: привлечения клиентов и расширения бизнеса. Шон Эллис, предприниматель и маркетолог, руководил созданием и выходом на IPO продуктов LogMeIn и Uproar, а затем возглавлял развитие Dropbox, Lookout и Eventbrite. В начале 2010-х он разработал концепцию Growth Hacking («хакинг роста»), чем заслужил известность.

Морган Браун – руководитель по развитию продукта в Facebook*. Более 15 лет он консультирует стартапы и отвечает на вопросы, как увеличить клиентскую базу и расширить рынок.

Авторы изложили собственные исследования и опыт, как стартапу достичь быстрого и устойчивого роста. Книга состоит из двух частей: описание метода Growth Hacking и пособие по проработке этапов AARR воронки. Авторы выделяют 4 уровня воронки: Acquisition, Activation, Retention и Revenue. При этом, Referral в отдельный уровень не выносится.

🔗Купить оригинал книги на английском можно на Амазоне. На русском книга доступна на Литрес.

*деятельность Meta в РФ запрещена

#книга
Свежие статьи уже в ленте!

Есть проверенный метод: чтобы досконально изучить предмет, начни учить этому других. Так случилось и у Тани Мисютиной. Когда она начинала вести курсы по визуализации данных, то стала анализировать свои и чужие работы, чтобы проложить путь к предсказуемо качественному результату. Так родился рецепт создания визуализаций – Алгоритм Δλ. Для тех, кто хотел бы глубже погрузиться в суть метода, Рома Бунин сохранил ссылки на вебинары и примеры построения визуализаций по данному алгоритму.

Автор блога на Medium (VPN) опросил тысячу дата команд и выявил три инсайта. Во-первых, хранилище данных перестало служить только для аналитики и создания отчетов. Теперь на него возлагают ответственность за решение критически важных для бизнеса задач, таких как AI/ML, автоматизированного маркетинга и отчетности. Во-вторых, дата команды и их стеки становятся больше. С возрастанием датасетов и ориентацией на data-driven подход возрастает и размер дата команды. В-третьих, универсального подхода к тестированию разросшихся данных нет. Дата специалист, проводящий тестирование, должен хорошо разбираться в доменной области. В конце статьи автор делает интересный прогноз: хранилище данных имеет все шансы стать центром управления компанией. Оно выйдет за рамки аналитики и станет ядром продаж, операций, финансов и т. д.

Как подобрать длительность эксперимента и объем выборки, чтобы обеспечить заданную точность результатов при A/B-тестировании? Такую задачу еще можно сформулировать как расчет Minimum Detectable Effect (MDE) целевой метрики. Данила Леньков, создатель in-house платформы для A/B-тестирования в Авито, поделился эффективным решением. Он написал простой SQL-запрос, который поможет избежать большого количества потенциальных ошибок. В статье вы найдете сам запрос и инструкцию по его адаптации.

#дайджест
Когда тебя заменит робот?

Алгоритмы машинного обучения и искусственный интеллект развиваются семимильными шагами и уже плотно вошли в нашу повседневную жизнь. Иногда становится страшно: а что, если роботы нас совсем заменят? Что будем делать мы, люди?! Или этого никогда не произойдет и не стоит опасаться?

Автономные системы управления с искусственным зрением уже начинают заменять людей в транспортной отрасли. Беспилотные автомобили и самолеты, управляемые роботами, тестируются по всему миру. Например, не так давно «Яндекс» объявил о запуске беспилотного такси в одном из районов Москвы, хотя пока с водителем-испытателем. Цель проекта – создать технологию, которая не требует присутствия человека за рулем. Про роботов-доставщиков еды вы тоже наверняка слышали.

Если говорить об IT-шечке, то тут языковые модели умеют писать и проверять код, полностью автоматизируя многие задачи. В аналитике машины также успели занять место. Системы автоматической раскатки и анализа А/Б-тестов уже используются в больших корпорациях. Построение дашбордов становится автоматизированным: скоро можно будет создавать их с помощью простого перетаскивания элементов, а вся аналитическая работа будет происходить «под капотом». Более того, задавая вопрос системе на простом человеческом языке, можно будет получать готовый дашборд.

Дизайнеры тоже не остались в стороне от революции. Такие инструменты, как DALL-E и Midjourney, уже умеют генерировать изображения высочайшего качества для различных нужд – будь то логотип или рекламный баннер.

Да, сейчас машины работают не идеально. Но через пару лет многие профессии изменятся до неузнаваемости. Человеку останется обслуживающая функция языковых моделей и их обучение. Однако всегда будет необходимость в инфраструктуре для всего этого, а также в разработке высокоуровневых шаблонов и правил работы для умных алгоритмов.

И что точно останется неизменным, так это уникальность человеческого мышления. Робот никогда не сможет заменить пытливость человека, его стремление сделать жизнь вокруг себя лучше. Только человек способен работать вне рамок заранее описанных правил, демонстрируя изобретательность и креативность. Человеческое мышление уникально: мы умеем пробовать, тестировать, ошибаться и все равно находить лучший вариант. Падать, подниматься и идти дальше – это то, что делает нас людьми.

Машины могут выполнять многие задачи, но они никогда не заменят человеческий дух и стремление к совершенству.

P.S. Но это не точно 🤖

#мысли
Неожиданно наступил понедельник и лето!

Бизнес не может и не должен уделять внимание всем метрикам одновременно. Как говорил Стив Джобс: Focus is about saying no. Тогда как приоритизировать показатели? На разных стадиях жизненного цикла продукта важны разные метрики (VPN). Ведь их задача – ответ на насущные проблемы. Например, на этапе внедрения бизнес должен знать, отвечает ли продукт требованиям рынка. Поэтому на первый план выходят метрики Retention, Active Users и Stickiness. А на этапе спада важно удержать интерес пользователей и отдалить момент их ухода. Здесь мы фокусируемся на анализе оттока клиентов.

В GA4 туго с визуализацией данных, поэтому удобнее создавать дашборды другими способами. Например, в Looker Studio. В блоге Analytics Mania опубликован туториал по созданию отчетов по данным из GA4. Особенно полезны последние разделы об ограничениях инструмента и советах по его использованию. Обратите внимание, что Looker, Looker Studio и Looker Studio Pro – не одно и то же! Looker – это платный BI-инструмент, сочетающий в себе искусственный интеллект и облачную инфраструктуру, которая требует более сложных внедрения и настройки, чем готовое решение LS. Looker Studio и Looker Studio Pro – разные версии одного продукта, бывшего Google Data Studio. Сравнение платной и Pro версий вы найдете в конце статьи.

В блоге на Medium (VPN) я наткнулся на толковые примеры визуализации изменений данных во времени. Под каждым графиком – ссылка на исходный код. Над графиком – совет по визуализации, который график иллюстрирует. Например, некоторые изменения хорошо изобразить стрелками. Так вы подчеркнете направление изменений от одной временной точки к другой. Кратковременные точечные изменения можно попробовать передать тепловой картой.

#дайджест
Привет, друзья!

Если хотите пообщаться со мной офлайн, то у вас есть отличная возможность – завтра я буду на конференции по продуктовой аналитике Aha! Ищите меня в зале Тинькофф 🏦Т-Банк (да, теперь работаю здесь). Мы подготовили крутую программу, и я уверен, что вам понравится. Вот что вас ждет:

1. Наш CDO Кирилл Николаев выступит с докладом о сложных продуктовых решениях на основе размена метрик в A/B-тестах.
2. Владимир Абазов, руководитель продуктовой аналитики, расскажет о том, как управлять отделом так, чтобы вас просили расширять штат аналитиков.
3. Влад Петраков, тимлид продуктовых аналитиков, прожарит дизайн A/B-тестов и расскажет какие проблемы не решают A/B-платформы.
4. Для вас также будет работать интерактивная зона с квестами и решениями кейсов. Можно будет исповедоваться, получить совет и излить душу нашим лидам.

В общем, отличная программа, хорошие доклады и интересные конкурсы. Приходите!

И напоследок, в Т-Банк я буду отвечать за развитие экосистемной аналитики, включая создание дерева метрик для всех продуктов. Сейчас мне в команду нужен сильный аналитик. Если ты знаешь, что такое NSM и умеешь считать LTV, то срочно откликайся.

До встречи на конференции!
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет! Я с очередной порцией статей для новых идей и вдохновения.

Синьорный аналитик с опытом работы в Uber и Meta* поделился десятью ключевыми инсайтами о дата аналитике (VPN). Многие из них актуальны всегда, независимо от стадии развития компании, продукта или бизнес-модели. Например, разница между хорошим и лучшим аналитиком пролегает в умении понимать нужды бизнеса. Если вы старший специалист в передовой компании, ваши технические навыки будут приблизительно на том же уровне, что и у коллег. В таком случае мало шансов выделиться за счет профессиональных знаний. Но если вы понимаете приоритеты бизнеса и работаете с учетом задач стейкхолдеров, вас будут горячо любить и ценить.
*деятельность Meta в РФ запрещена

Бутстрап (Bootstrap) – метод оценки статистики вероятностных распределений. Он основан на многократной генерации выборок методом Монте-Карло из уже существующей выборки. Бутстрап словно волшебная таблетка для аналитика: он позволяет оценить параметры, такие как среднее, дисперсия и доверительные интервалы, даже в нестандартных случаях (например, когда ваши данные имеют выбросы или далеки от теоретического распределения). Метод крайне полезный. В блоге на Medium (VPN) лежит подробная статья об идее бутстрапа и о примерах его применения. Один из них – анализ результатов А/Б-тестов.

Павел Бухтик поделился бесценным (и бесплатным) кладом с начинающими продуктовыми аналитиками - пошаговым руководством по проведению А/Б-тестов. Такой структурный материал редко встретишь на курсах или в книгах. Роадмап Паша собирал сам: пересматривал проверенные временем видео, перечитывал любимые статьи из закладок и объединял кусочки воедино с собственным опытом. Каждый шаг руководства состоит из тем, при нажатии на которые вы попадаете на учебный материал. Что особенно приятно – большая часть ресурсов на русском языке.

#дайджест
Как аналитики, мы часто натыкаемся на странности в данных. Если о них не знать, то можно сделать неверные выводы. Чтобы не попасть в неудобную ситуацию, я решил осветить некоторые моменты.

Первая уловка статистики кроется в медиане. Это значение, которое делит упорядоченный набор данных на две равные части. В работе мы привыкаем смотреть на вещи под одним и тем же углом. Медиана воспринимается как объективная реальность, а отклонения и выбросы – как погрешности. Тут и поджидает нас демон.

Мы забываем, что медиана – это абстракция, один из вариантов измерения среднего значения. Отклонения же – реальные данные, по которым мы вычисляем среднее.

Я наткнулся на статью 1985 года «The Median Isn't the Message» Стивена Джея Гулда, преподававшего биологию, геологию и историю науки в Гарварде, после прочтения которой перестаешь слепо верить измерениям. Гулд был биологом и понимал сущность статистики. В молодости у него обнаружили рак. Медианная продолжительность жизни с его диагнозом составляла 8 месяцев. Отойдя от шока, Гулд обратился к науке. Он проанализировал статистику по заболеванию и поверил в то, что переживет медиану. Так и оказалось – с диагнозом мезотелиома брюшины он прожил еще 20 лет, что превышает медианное значение в 30 раз!

На что обратил внимание Гулд?

1️⃣ Ассиметричное правостороннее распределение

При таком распределении график скошен вправо, а его хвост тянется достаточно далеко. При этом медиана меньше среднего значения:
мода < медиана < среднее

Вытянутый вправо хвост, пусть и тонкий, указывал на наличие больных, которые прожили на несколько лет дольше 8 месяцев. И Гулд имел хорошие шансы оказаться в этой части распределения.

2️⃣ Обстоятельства

Анализировать данные следует исходя из контекста. Если он меняется, то меняется и интерпретация данных.

На продолжительность жизни онкобольных влияет лечение, стадия выявления рака, возраст пациента и его мотивация жить. В этом плане Гулду повезло – рак был выявлен на ранней стадии. То, что он был молод, начал проходить экспериментальное лечение, а также задал правильные вопросы и нашел правильные ответы, помогло ему обрести уверенность и оказаться в самом хвосте распределения.

Пример Гулда показывает, что любое среднее – это в первую очередь абстракция. При интерпретации данных мы должны учесть их распределения, отклонения и контекст.

#аномалии
HTML Embed Code:
2024/06/14 11:20:12
Back to Top