Причинный вывод с использованием инструментальных переменных


Специалисты по анализу данных часто повторяют мантру «Корреляция — это не причинно-следственная связь». Хорошо напоминать нашим заинтересованным сторонам — и себе — постоянно, потому что данные могут быть коварными, и потому что человеческий разум не может не интерпретировать статистические данные причинно. Но, возможно, это особенность, а не ошибка: мы инстинктивно ищем причинную интерпретацию, потому что в конечном итоге это то, что нам нужно для принятия правильных решений. Без причинно-следственных связей корреляции не особенно полезны для лиц, принимающих решения.

Но в конечном итоге все, что мы можем считать из данных, — это корреляции, и очень сложно убедиться, что причинно-следственная история, которую мы связываем с этими корреляциями, действительно верна. И есть несколько способов ошибиться в причинно-следственной истории. Самая распространенная ошибка — это неспособность учесть общие причины или противоречащие друг другу причины. Используя канонический пример, существует положительная корреляция между госпитализацией и смертью. Другими словами, у людей, попавших в больницу, вероятность смерти выше, чем у тех, кто не попал в больницу. Если мы проигнорируем тот факт, что болезнь может привести как к госпитализации, так и к смерти, мы можем закончить неверную причинно-следственную историю: больницы убивают.

Другая распространенная ошибка возникает, когда мы слишком далеко извлекаем уроки из конфаундеров и учитываем общие эффекты или коллайдеры. Приведенный здесь пример взят из описания парадокса Берксона в Книга «Почему» Перл и Маккензи. Предположим, мы пытаемся выяснить, могут ли инфекции COVID-19 вызывать диабет. Скажем, на самом деле такой причинно-следственной связи нет, но больной диабетом с большей вероятностью будет госпитализирован, если заразится вирусом. Теперь, стремясь учесть все возможные факторы, мешающие этому, мы решили ограничить наше исследование только госпитализированными людьми. Это может привести нас к наблюдению корреляции между COVID-19 и диабетом даже при отсутствии какой-либо прямой причинно-следственной связи. А если мы будем еще менее осторожны, мы можем пустить пыль в глаза о том, как COVID вызывает диабет.

Если мы посмотрим только на госпитализированное население, мы можем наблюдать корреляцию между COVID-19 и диабетом даже при отсутствии какой-либо прямой причинно-следственной связи и ошибочно сделать вывод, что COVID-19 вызывает диабет.

Еще одна причина, по которой причинно-следственные истории ошибаются, — это когда мы учитываем посредников. Продолжая до сих пор болезненную тему этого сообщения в блоге, допустим, мы изучаем, действительно ли курение может вызвать раннюю смерть. Если мы учитываем / корректируем / контролируем все способы (рак легких, сердечные заболевания), которые курение может привести к смерти, то мы можем практически не найти корреляции между курением и смертью, хотя курение действительно увеличивает смертность.

«Так что же в этом такого сложного !?» Вы могли бы сказать. «Просто поправьте на конфаундеры и исключите коллайдеры и посредники!» Причинно-следственный вывод затруднен, потому что, во-первых, у нас, скорее всего, никогда не будет данных для всех возможных искажающих факторов. Во-вторых, часто бывает трудно различить коллайдеры, посредники и конфаундеры. Иногда причинно-следственная связь действует в обоих направлениях, и разобрать эти двунаправленные эффекты становится практически невозможно.

Пример Роблокса

Итак, как нам решить эти реальные проблемы? Более надежное решение, особенно в сфере технологий, — это эксперименты или A / B-тестирование. Однако это не всегда возможно. К настоящему времени вы, должно быть, уже достаточно насытились болезненными примерами, так что давайте воспользуемся забавным. На Roblox наши пользователи выражают свою индивидуальность и креативность через свой аватар, облачаясь в различные предметы, которые они могут приобрести в магазине аватаров.

Мой аватар

Как вы понимаете, поддержание работоспособности этой функции очень важно для нас. Чтобы выяснить, сколько ресурсов мы инвестируем в этот рынок, мы хотели бы знать, насколько он в конечном итоге способствует достижению целей нашей компании. В частности, мы хотим оценить влияние Avatar Shop на взаимодействие с сообществом. К сожалению, прямой эксперимент невозможен.

  1. Мы не можем просто отключить магазин аватаров для части наших пользователей, потому что это действительно важная часть взаимодействия с пользователем на нашей платформе.
  2. Avatar Shop — это торговая площадка, где пользователи взаимодействуют друг с другом как покупатели и продавцы. Отключение его для одной группы пользователей также влияет на пользователей, для которых он не был отключен.

Между тем, оценка этой причинно-следственной связи с использованием неэкспериментальных данных — коварный путь, потому что (i) мы определили несколько искажающих факторов, которые либо точно не регулируются, либо не наблюдаются, и потому что (ii) мы обнаружили, что движения в наших показателях линии верха также имеют обратное влияние на взаимодействие с Магазином.

Почему сложно сделать причинно-следственный вывод.

Это не редкость, и есть несколько статистических методологий, которые могут быть полезны. Например, оценки различий в различиях или двусторонних фиксированных эффектов (TWFE) будут отслеживать набор пользователей с течением времени и видеть, как их количество часов изменилось после взаимодействия с магазином аватаров. Другой популярный метод — сопоставление оценок склонности (PSM), который пытается сопоставить пользователей, которые используют Avatar Shop, с теми, кто этого не сделал, на основе различных факторов. У этих методов есть свои уникальные преимущества и проблемы, но они часто страдают одним и тем же фатальным недостатком, даже если они реализованы правильно: ненаблюдаемые факторы, которые могут влиять как на взаимодействие с магазином аватаров, так и на часы работы, т. Е. Мешающие факторы. (Примечание: ожидается, что разница в различиях будет устойчивой к фиксированным искажающим факторам, но по-прежнему уязвима по отношению к вмешивающимся факторам, которые меняются со временем).

Инструментальные переменные спешат на помощь

Инструментальные переменные жестяная банка предоставить решение для ненаблюдаемых сомнительных факторов, которые не могут дать другие методы причинного вывода. Акцент здесь делается на «может», потому что самое сложное — найти эту специальную переменную, которая удовлетворяет двум основным условиям для достоверной оценки IV:

  1. Первая ступень: Он должен быть тесно связан с интересующей вас переменной (в нашем случае — с участием в магазине аватаров).
  2. Исключение: Его единственная связь с результатом (занятые часы) связана с интересующей переменной (вовлеченность магазина аватаров).

Если мы сможем идентифицировать такой инструмент, наша причинно-следственная оценка с использованием неэкспериментальных данных станет намного проще: любое изменение результата (Y), коррелированное с изменением интересующей переменной (X), объясненное инструментом (Z), будет причинное влияние X на Y. См. диаграмму для упрощенного примера основной идеи, лежащей в основе инструментальных переменных.

Z прогнозирует изменение средней вовлеченности в Avatar Shop с X1 на X2. И, как следствие, среднее количество занятых часов увеличивается с Y1 до Y2. Тогда наклон является причинной оценкой отношения X -> Y.

Диаграмма выше также показывает, насколько важны эти два условия. Во-первых, инструмент должен сильно предсказать движение от X1 к X2. А во-вторых, мы как бы прыжок веры здесь движение от Y2 к Y1 было полностью связано с перемещением X1 к X2. Если Z имеет способ влиять на Y, кроме как через X, то мы неправильно приписываем все движения по Y к X.

Как вы понимаете, второе условие — это то, что оценки IV чаще всего терпят неудачу, потому что это довольно серьезное требование, которое можно сделать в сложной системе. Так, что именно представляет собой инструмент в нашем случае и почему мы вообще уверены, что он удовлетворяет второму условию?

Наш инструмент

Около года назад мы провели A / B-тест, чтобы оценить нашу новую функцию «Рекомендовано для вас» в магазине аватаров. Мы заметили огромное влияние на вовлеченность магазина аватаров. Другими словами, к какой экспериментальной группе принадлежал пользователь, можно судить о его взаимодействии с магазином Avatar (Первая ступень). Мы также наблюдали воздействие в занятые часы. И поскольку этот эксперимент был разработан специально для оценки изменений в магазине аватаров и не затрагивал ничего другого в Roblox, у нас есть веские основания полагать, что любые изменения занятых часов должны были быть связаны только с изменениями в вовлеченности магазина (Исключение).

Наш эксперимент с рекомендациями служит хорошим инструментом, потому что он оказал сильное влияние (F-stat> 15000) на посещаемость магазина, и у нас нет оснований полагать, что он мог повлиять на количество часов, задействованных любым другим способом.

Наличие хорошего инструмента означает, что мы можем оценить причинно-следственную связь между участием в магазине аватаров и часами, в течение которых они были задействованы, без необходимости отключать магазин аватаров для некоторых наших пользователей в качестве прямого A / B-теста.

Выводы

Используя оценку IV, как описано выше, мы находим статистически значимую и положительную причинно-следственную связь между двумя нашими переменными. В частности, увеличение вовлеченности магазина аватаров на 1% приводит к 0,08% (SE: 0,008%, p-значение

По нашим оценкам, участие в Avatar Shop гораздо сильнее влияет на участие наших новых пользователей в сообществе.

Это действительно полезная информация, которая может помочь нам спроектировать адаптацию для наших новых пользователей. Это также хорошая возможность обсудить важное ограничение IV: они оценивают Местные средние лечебные эффекты (ПОЗДНЕЕ) а не средние эффекты лечения (ATE), как в прямом эксперименте. То есть эти оценки относятся к пользователям, на поведение которых повлиял наш инструмент, и поэтому не обязательно могут быть обобщены для всей совокупности. И это различие актуально, когда мы думаем, что эффекты лечения неоднородны, как мы видели выше. На практике всегда можно с уверенностью предположить, что лечебный эффект неоднороден, и поэтому оценки IV, даже если они внутренне достоверны, не являются идеальной заменой экспериментов. Но иногда они могут быть всем, что мы можем сделать.

Следующие шаги

Одно из противоядий от проблемы ПОЗДНЕГО ИВ — это на самом деле найти больше инструментов и оценить кучу ПОЗДНЕГО ИСПОЛЬЗОВАНИЯ. И цель состоит в том, чтобы иметь возможность построить среднюю глобальную оценку эффекта лечения путем комбинирования ряда оценок локального эффекта. Это именно то, что мы планируем сделать дальше, и мы можем это сделать, потому что мы проводим широкий спектр экспериментов в разных частях магазина Avatar. Каждый из них должен служить действенным инструментом для наших целей. Как вы понимаете, предстоит решить множество интересных и сложных аналитических задач. И если это ваша чашка чая, мы будем рады, если вы присоединитесь к команде Roblox по науке о данных и аналитике.

Последние мысли об инструментальных переменных

Мы надеемся, что эта любовная записка и введение в инструментальные переменные проявят свою силу и вызовут у вас дальнейший интерес. Хотя этот метод причинно-следственной оценки мог быть чрезмерно используется в определенных настройках, мы думаем, что он преступно недооценивается в технологиях, где его предположения с большей вероятностью верны, особенно когда инструмент является результатом эксперимента. Еще одна хорошая новость заключается в том, что, поскольку он был с 1920-х годов!, существует богатая литература с активные оживленные дискуссии о его правильной реализации и толкованиях.

— — —

Уджвал Харел (Ujwal Kharel) — старший научный сотрудник Roblox. Он работает над магазином аватаров, чтобы его экономика была здоровой и процветающей.

Ни корпорация Roblox, ни этот блог не одобряют и не поддерживают какие-либо компании или услуги. Кроме того, не дается никаких гарантий или обещаний относительно точности, надежности или полноты информации, содержащейся в этом блоге.

© 2021 Корпорация Роблокс. Roblox, логотип Roblox и Powering Imagination являются нашими зарегистрированными и незарегистрированными товарными знаками в США и других странах.



Источник: https://blog.roblox.com

Вам может понравиться...

Добавить комментарий