Астрология попадания. Хоккей с рулеткой.
Часть I
1. Про ожидания попадания
Недавно в интернетах появилась забавная статья некого Сергея Рыбакова «Астрология спорта. Хоккей с шайбой» , в которой автор утверждает, что провел статистическое исследование по базе, состоящей аж из 192 дат рождения хоккеистов, и пришел к выводу, что имеются некие значимые закономерности в положении Солнца, Сатурна и Марса в знаках зодиака:
«Отсюда можно сделать следующие выводы:
1) У профессиональных хоккеистов выражены знаки Овна (управление Марса и экзальтация Солнца) и Козерога (управление Сатурна и экзальтация Марса). Данное наблюдение согласуется с астрологической моделью хоккея, предложенной в начале статьи.
2) Анализ натальных карт показал наличие у хоккеистов сильно выраженного знака Рака. Для всех 3 изученных планет значения выше среднего, причем для Марса – максимум. Данное наблюдение заставляет обратить на себя пристальное внимание. Возможно, предлагаемая модель хоккея с шайбой не учитывает влияние Луны (управителя знака Рака). К сожалению, без данных о времени рождения положение Луны точно определить невозможно, а, следовательно, и произвести анализ её влияния довольно затруднительно.
3) Трудно стать хоккеистом при сильно выраженном знаке Стрельца (!). Также не способствуют занятию хоккеем знаки Близнецов, Весов, Рыб. В Водолее хорошо иметь Солнце, а Марс и Сатурн – не очень (почему?).»
(с) Сергей Рыбаков
Забегая вперед, скажу, что данная статья уникальна и по своему талантлива тем, что в ней представлены почти все вопиющие ошибки и нелепости, с которыми только можно встречаться в такого рода «исследованиях». С другой стороны – это неплохая «демка» на тему того, как эти астрологические исследования делать не надо.
Сразу же смущает объем выборки, — всего 192 карт. Для таких категоричных заявлений – явно ммм… маловато будет. Хотя с другой стороны, статистика — дама капризная. Иногда встречаются такие распределения, что для доказательства их «не случайности» – достаточно и весьма небольших выборок, а иногда и десятитысячной выборки мало. К примеру, очень сложно 10 раз подряд бросить игральную кость таким образом, чтобы в 10 случаях из 10 она выпала единицей вверх. Так что без подробного анализа исходных данных, которых, впрочем, автор не опубликовал – выводы делать сложно.
Судя по тексту статьи, автор прекрасно знаком с понятием среднего арифметического (и на том спасибо), которым он и оперирует, используя фразы типа: «выше среднего», «ниже среднего», «сильно выражено». Но при этом он явно ничего не слышал, о таких элементарных вещах, как дисперсии, стандартные отклонения, доверительные интервалы, статистические критерии и уровни значимости. Поэтому, наверное, вынужден принимать решения о значимости, то ли «интуитивно», то ли «медитативно», но уж точно не, пользуясь объективными научно обоснованными математическими методами.
С астрономией у автора тоже, проблемы, судя по тому, что он пишет в комментарии к своей же статье:
«По поводу статистики в таблице №2 у меня появилась интересная идея, которую противникам астрологии надо как-то объяснить. Суть в следующем. Если разделить Зодиак произвольным образом и посчитать количество попаданий трех планет (Солнце, Сатурн, Марс) у хоккеистов в одну половину (например с Овна по Деву) и в другую (например с Весов по Рыбы), то теоретически это количество должно быть примерно равно (для большого количества испытаний). Но если я разделю Зодиак определенным образом (одна половина – знаки Марса Овен и Скорпион, знаки Сатурна Козерог и Водолей, знак Солнца – Лев и знак Луны – Рак; вторая половина – все оставшиеся знаки), то такого равенства не получается.
Для моих данных получилось: первая половина – сумма положений трех планет – 315, вторая половина – 255. Ожидаемая величина – 285 (315+255/2). Разница между двумя группами 315-255=60 (21%).
Каждый может попробовать взять свою группу хоккеистов и проверить данную гипотезу на практике.»
(с) Сергей Рыбаков
Видимо, автор ничего не слышал об особенностях распределения планет и о том, что в реальности планеты в силу множества факторов распределяются как угодно, но только не равномерно, как думает он. Даже на очень больших интервалах времени. Хотя вроде бы человек занимается астрологией, и даже – покушается на астрологическую статистику, — следовательно, о таких вещах знать должен.
Так же позабавило утверждение на счет невозможности использовать Луну.
«К сожалению, без данных о времени рождения положение Луны точно определить невозможно, а, следовательно, и произвести анализ её влияния довольно затруднительно.»
(с) Сергей Рыбаков
Ну надо же! К сожалению, — для автора, и к счастью, — для Луны и читателей, — автор имеет довольно смутные представления о законах больших чисел. Поэтому наверное и пощадил Луну, не став её исследовать.
При рассмотрении единичной космограммы положение Луны достоверно определить невозможно. Но тем не менее, – при достаточно большом объеме выборки (которой в данном случае – действительно, как будет показано ниже, — недостаточно) её распределения в знаках группируются вокруг математических ожиданий.
Это легко продемонстрировать на примере. Возьмем выборку из 10000 долгот Луны, скажем за 1980 год, сгенерированную по случайным датам. И к каждой долготе Луны прибавим число от -15 до +15 (примерно столько Луна проходит градусов за сутки), полученное при помощи генератора случайных чисел из программы Excel. Потом посчитаем распределение Луны в исходной выборке и в её же, модифицированном при помощи случайных чисел варианте.
Рис. 0. Отличия распределения Луны в «космограммах» и «гороскопах».
Распределения получились практически идентичными, а отклонения от мат. ожиданий – не превышают стат. погрешностей. К тому же исходная выборка так же есть величина случайная. Так что при учете всего этого – мы вполне можем использовать и космограммы. На то она и статистика, что работает с большими числами.
Свой выбор именно этих объектов для исследования – он так же объясняет весьма забавно:
«Что такое хоккей с шайбой с точки зрения астрологии? Жесткая, силовая игра на льду. Слова жесткая и на льду указывают на влияние планеты Сатурн, силовая – влияние Марса, а игра – действие Солнца. Таким образом, согласно данной модели, у хоккеистов в гороскопе должна быть связь между планетами Солнце, Марс и Сатурн. »
(с) Сергей Рыбаков
Впрочем, астрология она большая и разная, а логика современных астрологов предмет темный, а потому – исследованию не подлежит, так что – без комментариев. В этой статье мы будем говорить только о статистической части.
2. Про попадания ожидания.
К счастью, несмотря на то, что исходная база опубликована не была, видимо уж больно секретная в ней содержалась информация — кое-какие данные, вполне достаточные для старта – автор нам любезно оставил. В частности к статье был приложен файл в формате Excel с вот такой любопытной таблицей (таблица — автора, расчеты под ней — мои):
Рис. 1. Распределение планет в знаках из базы автора.
Очень непонятно по какому принципу автор некоторые значения выделил красным, а некоторые — синим цветом. Но судя по тому, что в тексте статьи автор часто употребляет фразы типа «среднее», «ниже среднего», «выше среднего» — очень похоже на то, что он исходил из предположения, что теоретические частоты распределены равномерно, а плотности их вероятностей — соответственно распределены по нормальному закону. По крайней мере — других намеков на тип распределения нет.
Если это так, — мы можем применить так называемое «правило трех сигм», которое гласит, что с вероятностью 99.7% значения нормально распределенной величины лежат в пределах 3 стандартных отклонений от математического ожидания или среднего или, как говорил один мой знакомый, – «среднего ожидания попадания».
Как видно, — в данном случае распределения по всем планетам с лихвой в эти 3 сигмы и укладывается, и, как минимум, в случае нормального распределения – у нас нет оснований считать результат, заявленный автором, — статистически достоверным.
Если же теоретические частоты распределены по каким-то другим законам (а как станет ясно дальше – так и есть), — единственное, что нам остается – применить неравенство Чебышева, из которого на уровне значимости 0.05 получаем еще больший доверительный интервал – в +/- 4,47 сигмы от среднего.
Кончено же, данный подход весьма груб и череват выплескиванием вместе с водой – ребеночка. Возможно, по каким-нибудь другим тестам мы бы и получили значимый результат. Но, увы, за неимением исходных данных – это единственный доступный способ проверить достоверность выводов автора.
Впрочем, еще один способ «пощупать» выборку и проверить результат есть.
Как известно, — один из критериев истинности эксперимента – это его повторяемость при прочих равных условиях. В случае, если текст на независимой выборке даст аналогичные результаты – это несомненно будет являться подтверждением выводов автора.
На сайте НХЛ в открытом доступе выложена замечательная база действующих хоккеистов Национальной Хоккейной Лиги. База постоянно меняется, по мере изменения действующего состава в командах НХЛ. По состоянию на 5 марта 2013 года в ней содержалось 2187 записей.
Для начала проведем небольшой эксперимент. Возьмем эту базу, и при помощи генератора случайных чисел из MS Excel, – сделаем 3 выборки по 190 записей в каждой.
Вот такие выборки у нас получились:
Рис. 2. Сравнение случайных выборок из базы хоккеистов НХЛ с выборкой из статьи С. Рыбакова.
Видно, что как минимум на уровне значимости в 3 сигмы — данные по Солнцу и Марсу во всех 3 случайных выборках распределяются, как хотят, т.е. случайно, но только не так, как хотелось бы автору. Никаких значимых отклонений распределения ни в одной из 4 выборок не обнаружено.
Высокие корреляции по Сатурну между выборками из базы НХЛ – объясняются лишь тем, что в базе представлены хоккеисты с 1970 по 1994 годы рождения, причем больше половины из них родились между 1988 и 1994 годами. Впрочем, об этом позже.
Для наглядности составим таблицу корреляций всех 4 выборок между собой:
Рис. 3. Таблицы корреляций между выборками.
Дальше уже можно на это время не тратить. Как видно из вышеприведенных таблиц, – работать с выборками в 190 карт, как минимум — не серьёзно.
Виталий Иванченко