Опубликовано в The Skeptical Inquirer, выпуск 26, № 1, январь/февраль 2002 г., стр. 19-23.
Перевод на испанский язык под названием «El Modelo Econometrico Como Ciencia Basura» в Psicologia Politica, № 24 (Валенсия, Испания).
Вы верите в то, что каждый раз, когда в Соединенных Штатах Америки казнят заключенного, предотвращается восемь будущих убийств? Вы верите, что увеличение числа граждан, имеющих лицензию на скрытое ношение оружия, на 1% ведет к уменьшению количества убийств в штате на 3,3%? Вы верите, что от 10 до 20% снижения преступности в 1990-х было следствием увеличения числа абортов в 1970-х? Или что количество убийств увеличилось бы на 250% с 1974 года, если бы США не построили так много новых тюрем?
Если вас ввели в заблуждение какие-то из этих исследований, возможно, вы поддались влиянию вредной формы «мусорной науки»: использование математических моделей, непригодных для прогнозирования, с целью сделать принципиальные выводы. На первый взгляд эти исследования впечатляют. Составленные уважаемыми социологами из престижных учреждений, они часто появляются в научных журналах с экспертной оценкой. Будучи наполненными сложными статистическими вычислениями, они дают точные числовые «факты», которые могут использоваться в качестве политических аргументов участников дебатов. Но эти «факты» – блуждающие огни. Еще до того, как высохнут чернила, которыми написано исследование, появляется другое исследование с абсолютно иными «фактами». Несмотря на то, что эти модели кажутся научными, они не отвечают фундаментальному критерию полезной математической модели: способность делать прогнозы, которые лучше, чем случайные числа.
Хотя экономисты и занимаются этим загадочным искусством больше остальных, социологи, криминологи и прочие специалисты в области общественных наук также имеют свою версию этого искусства. Оно известно под разными названиями, включая «эконометрическое моделирование», «моделирование структурными уравнениями» и «анализ пути». Это все способы использования корреляций между переменными с целью сделать причинные выводы. Проблема здесь, как известно каждому, кто проходил курс статистики, заключается в том, что корреляция не является причинно-следственным отношением. Корреляция между двумя переменными часто является «поддельной», так как причиной ее возникновения становится некая третья переменная. Создатели эконометрических моделей стараются преодолеть эту проблему, включая все имеющие отношение к делу переменные в свой анализ и используя статистический метод под названием «множественная регрессия». Если бы у кого-то были идеальные измерения всех причинных переменных, это бы сработало. Но данные всегда недостаточно хороши. Неоднократные попытки использовать множественную регрессию для получения окончательных ответов на вопросы государственной политики провалились.
Но многие социологи не желают признавать неудачу. Они посвятили годы изучению и преподаванию регрессионного моделирования и продолжают использовать регрессию для приведения причинных аргументов, которые не подтверждены их данными. Я называю эти аргументы мифами множественной регрессии, и я хотел бы привести четыре исследования числа убийств в качестве примеров.
Миф первый: чем больше оружия, тем меньше преступлений.
Джон Лотт, экономист Йельского университета, использовал эконометрическую модель, чтобы аргументировать, что «если позволить гражданам скрыто носить оружие, это сократит количество преступлений с применением насилия без увеличения числа случайных смертей». Анализ Лотта подразумевал наличие закона, по которому местные власти обязаны выдать разрешение на скрытое ношение оружия любому законопослушному гражданину, подавшему на него заявку. По оценке Лотта, увеличение числа владельцев оружия среди населения на один процент приводит к сокращению количества убийств на 3,3%. Лотт и его соавтор Дэвид Мустард опубликовали первую редакцию своего исследования в интернете в 1997 году, и десятки тысяч человек загрузили ее. Она стала темой политических форумов, колонок в газетах, и часто довольно сложных дебатов в сети. В книге с броским названием «Чем больше оружия, тем меньше преступлений» Лотт насмехался над своими критиками, обвиняя их в том, что они считали идеологию важнее науки.
Работа Лотта является примером умения превзойти других при помощи статистики. У него больше данных и более сложный анализ, чем у любого другого, изучающего эту тему. Он требует, чтобы тот, кто хочет оспорить его доводы, погрузился в очень сложную дискуссию с привлечением статистики на основании таких трудных вычислений, которые невозможно осуществить на обычных компьютерах. Он требует, чтобы каждый, кто с ним не согласен, скачал его массив данных и заново провел расчеты, но большинство ученых считают, что повторное проведение исследований с использованием методов, которые неоднократно провалились, не стоит их времени. Большинство исследователей в сфере контроля над огнестрельным оружием просто отказались слушать заявления Лотта и Мустарда и продолжили делать свою работу. Два весьма уважаемых исследователя в области уголовного правосудия Фрэнк Зимринг и Гордон Хокинс (1997) написали статью, в которой объясняется, что:
точно так же, как господа Лотт и Мустард могут при помощи одной модели определяющих факторов убийств получить статистические результаты, предполагающие, что законы, обязывающие власти выдавать разрешение на оружие, сокращают число убийств, мы полагаем, что решительный специалист по эконометрике сможет изучить те же исторические периоды с использованием других моделей и получить противоположные результаты. Эконометрическое моделирование – палка о двух концах с точки зрения ее способности содействовать получению статистических выводов и согревать сердца всех, кто по-настоящему верит.
Зимринг и Хокинс были правы. В течение года два решительных специалиста по эконометрике Дэн Блэк и Дэниел Нагин (1998) опубликовали исследование, в котором показывали, что если бы они слегка изменили статистическую модель или применили бы ее к другим сегментам данных, результаты, полученные Лоттом и Мустардом, исчезли бы. Блэк и Нагин обнаружили, что, когда Флорида была исключена из выборки, не было «никакого заметного влияния законов о ношении оружия на число убийств и изнасилований». Они сделали вывод, что «умозаключение, основанное на модели Лотта и Мустарда, неуместно, и их результаты не могут использоваться с ответственностью для формулирования государственной политики».
Однако Джон Лотт оспорил их анализ и продолжил продвигать свой. Лотт собрал данные по каждому округу Америки за каждый год с 1977 по 1992 год. Проблема здесь заключается в том, что округа Америки разительно отличаются друг от друга по размеру и социальным характеристикам. На несколько крупных округов, в состав которых входят крупные города, приходится огромный процент убийств в США. Так получилось, что ни в одном из этих очень крупных округов нет законов, обязывающих власти выдавать разрешение на оружие. Это означает, что огромный массив данных Лотта просто не подходил для решения этой задачи. Его ключевая причинная переменная – законы об обязательной выдаче разрешения на оружие – не изменялась в тех местах, где происходило большинство убийств.
Он не упоминал это ограничение в своей книге или статьях. Когда я обнаружил отсутствие законов об обязательной выдаче разрешения на оружие в крупных городах при самостоятельном изучении его данных, я спросил его об этом. Он отмахнулся и сказал, что «учел» численность населения в своем анализе. Но внедрение статистического контроля в математических анализ не компенсировало тот факт, что у него просто не было данных по крупным городам, где проблема убийств была наиболее острой.
Мне потребовалось некоторое время, чтобы найти эту проблему в его данных, так как я не был знаком с вопросом контроля над огнестрельным оружием. Но Зимринг и Хокинс сразу же сосредоточились на этом, потому что знали, что законы об обязательной выдаче разрешения на оружие были введены в тех штатах, где имела влияние Национальная стрелковая ассоциация: в значительной степени на юге, на западе и в сельских районах. Это были штаты, в которых уже действовало мало ограничений в отношении огнестрельного оружия. Они заявили, что эта законодательная история мешает «нам сравнивать тенденции в штатах с законами об обязательной выдаче разрешения на оружие с тенденциями в других штатах. Так как штаты, которые изменили законодательство, отличаются местонахождением и устройством от штатов, которые этого не сделали, сравнение, охватывающее несколько законодательных категорий, всегда несет риск того, что влияние демографии и региона будет спутано с поведенческим влиянием разных режимов права». Зимринг и Хокинс также заявили, что
конечно, Лотт и Мустард знают об этой проблеме. Их решение, стандартный эконометрический метод, заключается в построении статистической модели, в которой будут учитываться все различия между Айдахо и Нью-Йорком, которые влияют на число убийств и преступлений, кроме законов об обязательной выдаче разрешения на оружие. Если кто-то может «определить» основные факторы, влияющие на убийства, изнасилования, кражи со взломом и угон машин в нашей модели, то мы можем исключить влияние этих факторов на другие тенденции. Лотт и Мустард строят модели оценки влияния демографических данных, экономических данных и уголовного наказания на различные правонарушения. Эти модели являются отличным примером доморощенной статистики потому, что они созданы для этого набора данных этими авторами и проверены только на данных, которые будут использоваться для оценки влияния права на владение оружием.
Лотт и Мустард сравнивали тенденции в Айдахо, Западной Вирджинии и Миссисипи с тенденциями в Вашингтоне, Округ Колумбия, и Нью-Йорке. В действительности в 1980-х и начале 1990-х в крупных восточных городах произошел сильный рост связанных с крэком убийств. Все доводы Лотта сводились к заявлению, что в значительной степени сельские и западные штаты с законами об обязательной выдаче разрешения на оружие эпидемия связанных с крэком убийств обошла стороной из-за этих законов. Это никогда бы не было воспринято всерьез, если бы не было скрыто в лабиринте уравнений.
Миф второй: лишение свободы большего количества людей сокращает преступность
Случай Лотта и Мустарда был исключительным только в том, что привлек столько внимания общественности. Публикация с использованием эконометрических методов для получения противоположных выводов насчет одного и того же вопроса – довольно распространённое явление, даже типичное, для соперничающих исследований. Часто оба анализа на первый взгляд кажутся верными. В них просто используются немного разные наборы данных или разные методы для получения разных результатов. Кажется, построители регрессионных моделей могут получить любой результат, какой захотят, никоим образом не нарушая правил регрессионного анализа. В одном исключительно откровенном заявлении по поводу разочарования в положении дел два высокоуважаемых криминолога Томас Марвелл и Карлайл Муди (1997: 221) сообщили о том, как было принято их исследование о влиянии заключения в тюрьму на число убийств. Они сообщили, что они:
широко распространили результаты [своего] исследования, вместе с использованными данными, среди коллег, специализирующихся на количественном анализе. Чаще всего им отвечали, что отказываются верить результатам, независимо от того, как хорошо был проведен статистический анализ. За этим разногласием стоит часто обсуждаемое неофициально, но редко публикуемое представление о том, что ученые в области социальных наук могут получить любой желаемый результат, манипулируя используемыми процедурами. На самом деле, множество оценок касательно влияния наполненности тюрем считается хорошим свидетельством податливости исследований. И вывод, даже для тех, кто регулярно публикует количественные исследования, заключается в том, что независимо от того, насколько тщательным является анализ, результатам нельзя верить, если они не соответствуют предшествующим ожиданиям. Исследовательская дисциплина не может иметь успех в таких рамках.
Большой заслугой Марвелла и Муди является то, что они открыто признали проблемы множественной регрессии и внесли некоторые предложения по улучшению. К сожалению, некоторые эконометристы так сильно погружаются в свои модели, что перестают видеть, насколько они субъективны. Они начинают верить, что их модели более реальны, более верны, чем беспорядочная, непокорная, «неконтролируемая» реальность, которую они пытаются объяснить.
Миф третий: Казнь людей сокращает число преступлений
В 1975 году журнал The American Economic Review опубликовал статью ведущего экономиста Исаака Эрлиха из Мичиганского университета, согласно оценке которого, каждая казнь предотвращает восемь убийств. До Эрлиха самым известным специалистом по эффективности смертной казни был Торстен Селлен, который использовал гораздо более простой метод анализа. Селлен строил графики, сравнивая тенденции в разных штатах. Он обнаружил, что между штатами со смертной казнью и без нее разница была невелика или ее не было вовсе, поэтому он пришел к выводу, что наличие смертной казни ничего не меняло. Эрлих, пытаясь продемонстрировать свое превосходство, заявил, что его анализ более надежен, так как в нем учтены все факторы, влияющие на число убийств.
Еще до публикации работу Эрлиха цитировал Генеральный солиситор США в свидетельстве «amicus curiae», поданном в Верховный суд США в защиту смертной казни. К счастью, Суд решил не опираться на доказательство Эрлиха, потому что оно не было подтверждено другими исследователями. Это было мудро, так как в течение одного-двух лет другие исследователи опубликовали такие же сложные эконометрические анализы, показывающие, что смертная казнь не влияет на число будущих преступлений.
Разногласия касательно работы Эрлиха были настолько важны, что Национальный исследовательский совет созвал специальную группу экспертов для их изучения. После тщательного изучения группа решила, что проблема была не только в модели Эрлиха, но также и в самой идее использовать эконометрические методы для разрешения споров о политике уголовного правосудия. Они (Мански, 1978: 422) заключили, что:
так как данные, которые могут быть доступны для такого анализа, имеют ограничения и так как поведение преступников может быть таким сложным, не стоит ждать появления окончательного поведенческого исследования, которое положило бы конец всем разногласиям относительно влияния политики на поведение преступников.
Большинство экспертов сейчас полагает, что Селлен был прав в том, что смертная казнь не имеет никакого доказуемого воздействия на число убийств. Но Эрлиха не удалось в этом убедить. Сейчас он единственный, кто по-настоящему верит в верность этой модели. В недавнем интервью (Боннер и Фессендрен, 2000) он настаивал на том, что «если учесть такие переменные, как безработица, неравенство доходов, вероятность ареста и готовности применить смертную казнь, наличие смертной казни значительно сокращает число будущих преступлений».
Миф четвертый: легализация абортов привела к снижению преступности в 1990-х годах.
В 1999 году Джон Донохью и Стивен Левитт опубликовали исследование с необычным новым объяснением резкого сокращения числа убийств в 1990-х годах. Они утверждали, что легализация абортов Верховным судом США в 1973 году привела к снижению рождаемости нежеланных детей, многие из которых стали бы преступниками, когда выросли. Проблема с этим утверждением заключается в том, что легализация абортов произошла один раз за всю историю, а разовые события не дают достаточно данных для надежного регрессионного анализа. Правда, что аборты в некоторых штатах были разрешены раньше, чем в других, и Донохью и Левитт используют этот факт. Но все эти штаты проходили через одни и те же исторические процессы, и в тот же исторический период происходило много других вещей, которые повлияли на число убийств. В достоверный регрессионный анализ должны были бы быть включены все эти вещи и проверены в широком диапазоне значений. Существующие данные не позволяют это сделать, так что результаты регрессионного анализа будут варьироваться в зависимости от того, какие данные для него отобраны.
В данном случае Донохью и Левитт решили сосредоточиться на изменениях, произошедших за двенадцать лет, игнорируя колебания в течение этих лет. Поступив таким образом, как отметил Джеймс Фокс (2000: 303), «они упустили большинство изменений в количестве преступлений в течение этого периода: его рост в конце 1980-х в эпоху крэка и последующее сокращение после окончания этой эпидемии. Это все равно что исследовать влияние фаз луны на приливы и отливы и при этом записывать только данные периодов отливов».
Когда я писал эту статью, я включил в него предложение, в котором говорилось, что «вскоре другой специалист по регрессионному анализу вероятно заново проанализирует те же данные и придет к другим выводам». Через несколько дней моя жена дала мне газету, в которой было написано как раз о таком исследовании. Автором был не кто иной, как Джон Лотт из Йельского университета вместе с Джоном Уитли из Аделаидского университета. Они работали с теми же числами и пришли к заключению, что «узаконивание абортов увеличило число убийств примерно на 0,5-7 процентов» (Лотт и Уитли, 2001).
Почему результаты настолько разнятся? Каждая группа авторов просто выбирала другой способ моделирования недостаточного массива данных. Эконометрика не может вывести надежный общий закон из того исторического факта, что аборты были легализованы в 1970-х и преступность сократилась в 1990-х. Нам понадобилось бы по меньшей мере несколько десятков таких событий для достоверной статистической проверки.
Выводы.
Решающим испытанием в статистическом моделировании является прогноз. Прогноз не обязан быть идеальным. Если модель позволяет предсказывать события значительно лучше, чем случайное угадывание, она полезна. Например, если бы какая-то модель могла прогнозировать цены на акции хотя бы немного лучше, чем случайное угадывание, она бы сделала своих владельцев очень богатыми. Так, много усилий было приложено для проверки и оценки моделей цен на акции. К сожалению, исследователи, использующие эконометрические методы для оценки социальной политики, очень редко подвергают свои модели проверке на пригодность к прогнозированию. Их отговорка заключается в том, что для выяснения результатов требуется очень много времени. Невозможно получать данные о бедности, абортах или убийствах каждые несколько минут, как в случае с ценами на акции. Но исследователи могут проводить проверки на пригодность к прогнозированию другими способами. Они могут разработать модель с использованием данных из одной юрисдикции или периода времени, а затем использовать ее для прогнозирования данных в другое время или в другом месте. Но большинство ученых просто этого не делают, или, если делают, модели оказываются нерабочими и результаты не публикуются.
Журналы, публикующие эконометрические исследования по вопросам государственной политики, часто не требуют проведения проверки на пригодность к прогнозированию, что говорит о том, что редакторы и рецензенты многого не ожидают от этой области. Так что исследователи берут данные за определённый период времени и подстраивают свою модель до тех пор, пока не смогут «объяснить» изменения, которые уже произошли. Всегда есть ряд способов это сделать. А с современными компьютерами не так уж и трудно продолжать пытаться, пока не найдешь что-то подходящее. На этом этапе исследователь останавливается, подробно записывает полученные данные и отправляет свою работу на публикацию. Позднее другой исследователь может отрегулировать модель, чтобы получить другой результат. Вот что наполняет страницы научных журналов, и все притворяются, что не видят, что нет никакого прогресса. Но на сегодняшний день мы нисколько не приблизились к получению рабочей эконометрической модели для числа убийств по сравнению с тем временем, когда Исаак Эрлих опубликовал первую модель в 1975 году.
У научного сообщества нет хорошей процедуры признания провала широко используемого исследовательского метода. Методы, которые закреплены в образовательных программах ведущих университетов и публикуются в престижных журналах, имеют тенденцию быть увековеченными. Многие дилетанты полагают, что, если исследование было опубликовано в журнале с экспертной оценкой, оно достоверно. Рассмотренные нами случаи показывают, что это не всегда так. Экспертная оценка подтверждает следование устоявшейся практике, но это не сильно помогает, когда такая практика сама далека от совершенства.
В 1991 году Дэвид Фридман, выдающийся социолог Калифорнийского университета в Беркли и автор учебников по методам количественного исследования, пошатнул основы регрессионного моделирования, когда открыто заявил: «Я не думаю, что регрессия может нести большую ношу в причинном аргументе. И регрессионные уравнения сами по себе не особо помогают учитывать смешивающие переменные» (Фридман, 1991: 292). Статья Фридмана вызвала волну бурных реакций. Ричард Берк (1991: 315) заметил, что довод Фридмана «будет очень трудно принять большинству специалистов в области количественной социологии. Он направлен на саму их способность основываться на фактах и тем самым ставит под угрозу всю профессиональную карьеру».
В диалоге с критиками, которые хотят некоторое доказательство того, что они могут прогнозировать тенденции, построители регрессионных моделей часто используют свое превосходство в знании статистики. Они приводят настолько сложные аргументы, что только другие высококвалифицированные регрессионные аналитики могут понять их, не говоря уже о том, чтобы доказать их неправоту. Этот метод часто работает. Потенциальные критики просто сдаются в отчаянии. Дэвид Болдт из The Philadelphia Inquirer (1999), прослушав речь Джона Лотта о скрытом ношении оружия и числе убийств и поговорив с другими экспертами, сетовал, что «пытаться разобраться в академических аргументах – почти бесполезное дело. Можно утонуть в спорах о t-статистике, фиктивных переменных и методах анализа данных Пуассона и наименьших квадратов».
Болдт был прав, когда заподозрил, что его затягивает в заведомо проигрышную игру. На самом деле, в социологии и криминологии нет важных полученных данных, которые невозможно сообщить журналистам и лицам, ответственным за выработку политики, без ученой степени по эконометрике. Пора признать, что король-то голый. Когда потребителям представляют эконометрическую модель, они должны настойчиво требовать свидетельство того, что она может прогнозировать тенденции в данных, отличных от тех, что использовались для ее создания. Модели, которые не проходят эту проверку, – «мусорная наука», независимо от того, насколько сложен анализ.