Астрология попадания.  Хоккей с рулеткой. 

Часть I

1. Про ожидания попадания

Недавно в интернетах появилась забавная статья некого Сергея Рыбакова «Астрология спорта. Хоккей с шайбой» , в которой автор утверждает, что провел статистическое исследование по базе, состоящей аж из 192 дат рождения хоккеистов,  и пришел к выводу, что имеются некие значимые закономерности в положении Солнца, Сатурна и Марса в знаках зодиака:

«Отсюда можно сделать следующие выводы:

1) У профессиональных хоккеистов выражены знаки Овна (управление Марса и экзальтация Солнца) и Козерога (управление Сатурна и экзальтация Марса). Данное наблюдение согласуется с астрологической моделью хоккея, предложенной в начале статьи.

2) Анализ натальных карт показал наличие у хоккеистов сильно выраженного знака Рака. Для всех 3 изученных планет значения выше среднего, причем для Марса – максимум. Данное наблюдение заставляет обратить на себя пристальное внимание. Возможно, предлагаемая модель хоккея с шайбой не учитывает влияние Луны (управителя знака Рака). К сожалению, без данных о времени рождения положение Луны точно определить невозможно, а, следовательно, и произвести анализ её влияния довольно затруднительно.

3) Трудно стать хоккеистом при сильно выраженном знаке Стрельца (!). Также не способствуют занятию хоккеем знаки Близнецов, Весов, Рыб. В Водолее хорошо иметь Солнце, а Марс и Сатурн – не очень (почему?).»

(с) Сергей Рыбаков

Забегая вперед, скажу, что данная статья уникальна и по своему талантлива тем, что в ней представлены почти все вопиющие ошибки и нелепости, с которыми только можно встречаться в такого рода «исследованиях». С другой стороны – это неплохая «демка» на тему того, как эти астрологические исследования делать не надо.

Сразу же смущает объем выборки,  — всего 192 карт. Для таких категоричных заявлений – явно ммм… маловато будет. Хотя с другой стороны,  статистика — дама капризная. Иногда встречаются такие распределения, что для доказательства их «не случайности» – достаточно и весьма небольших выборок, а иногда и десятитысячной выборки мало. К примеру, очень сложно 10 раз подряд  бросить игральную кость таким образом, чтобы в 10 случаях из 10 она выпала единицей вверх. Так что без подробного анализа исходных данных, которых, впрочем, автор не опубликовал – выводы делать сложно.

Судя по тексту статьи, автор прекрасно знаком с понятием среднего арифметического (и на том спасибо),  которым он и оперирует, используя фразы типа: «выше среднего», «ниже среднего», «сильно выражено».  Но при этом он явно ничего не слышал, о таких элементарных вещах, как дисперсии, стандартные отклонения,  доверительные интервалы,  статистические критерии и уровни значимости.  Поэтому, наверное,  вынужден принимать решения о значимости, то ли «интуитивно», то ли «медитативно», но уж точно не, пользуясь объективными научно обоснованными математическими методами.

С астрономией у автора тоже,  проблемы, судя по тому, что он пишет в комментарии к своей же статье:

«По поводу статистики в таблице №2 у меня появилась интересная идея, которую противникам астрологии надо как-то объяснить. Суть в следующем. Если разделить Зодиак произвольным образом и посчитать количество попаданий трех планет (Солнце, Сатурн, Марс) у хоккеистов в одну половину (например с Овна по Деву) и в другую (например с Весов по Рыбы), то теоретически это количество должно быть примерно равно (для большого количества испытаний). Но если я разделю Зодиак определенным образом (одна половина – знаки Марса Овен и Скорпион, знаки Сатурна Козерог и Водолей, знак Солнца – Лев и знак Луны – Рак; вторая половина – все оставшиеся знаки), то такого равенства не получается.

Для моих данных получилось: первая половина – сумма положений трех планет – 315, вторая половина – 255. Ожидаемая величина – 285 (315+255/2). Разница между двумя группами 315-255=60 (21%).

Каждый может попробовать взять свою группу хоккеистов и проверить данную гипотезу на практике.»

(с) Сергей Рыбаков

Видимо, автор ничего не слышал об особенностях распределения планет и о том, что в реальности планеты в силу множества факторов распределяются как угодно, но только не равномерно, как думает он. Даже на очень больших интервалах времени. Хотя вроде бы человек занимается астрологией, и даже – покушается на астрологическую статистику, — следовательно, о таких вещах знать должен.

Так же позабавило утверждение на счет невозможности использовать Луну.

«К сожалению, без данных о времени рождения положение Луны точно определить невозможно, а, следовательно, и произвести анализ её влияния довольно затруднительно.»

(с) Сергей Рыбаков


Ну надо же! К сожалению, — для автора, и к счастью, — для Луны и читателей, — автор имеет довольно смутные представления о законах больших чисел. Поэтому наверное и пощадил Луну, не став её исследовать.

При рассмотрении единичной космограммы положение Луны достоверно определить невозможно.  Но тем не менее, – при достаточно большом объеме выборки (которой в данном случае – действительно, как будет показано ниже, — недостаточно)  её распределения в знаках группируются вокруг математических ожиданий.

Это легко продемонстрировать на примере. Возьмем выборку из 10000 долгот Луны, скажем за 1980 год, сгенерированную по случайным датам. И к каждой долготе Луны прибавим число от -15 до +15 (примерно столько Луна проходит градусов за сутки), полученное при помощи генератора случайных чисел из программы Excel. Потом посчитаем распределение Луны в исходной выборке и в её же, модифицированном при помощи случайных чисел варианте.

Рис. 0. Отличия распределения Луны в «космограммах» и «гороскопах».

Рис. 0. Отличия распределения Луны в «космограммах» и «гороскопах».

 Распределения получились практически идентичными, а отклонения от мат. ожиданий – не превышают стат. погрешностей.  К тому же исходная выборка так же есть величина случайная. Так что при учете всего этого – мы вполне можем использовать и космограммы.  На то она и статистика, что работает с большими числами.

Свой выбор именно  этих объектов для исследования – он так же объясняет весьма забавно:

«Что такое хоккей с шайбой с точки зрения астрологии? Жесткая, силовая игра на льду. Слова жесткая и на льду указывают на влияние планеты Сатурн, силовая – влияние Марса, а игра – действие Солнца. Таким образом, согласно данной модели, у хоккеистов в гороскопе должна быть связь между планетами Солнце, Марс и Сатурн. »

(с) Сергей Рыбаков


Впрочем, астрология она большая и разная, а логика современных астрологов предмет темный, а потому – исследованию не подлежит, так что – без комментариев.  В этой статье мы будем говорить только о статистической части.

2. Про попадания ожидания.

К счастью, несмотря на то, что исходная база опубликована не была, видимо уж больно секретная в ней содержалась информация  —  кое-какие данные, вполне достаточные для старта – автор нам любезно оставил. В частности к статье был приложен файл в формате Excel с вот такой любопытной таблицей (таблица — автора, расчеты под ней — мои):

Рис. 1. Распределение планет в знаках из базы автора.

Рис. 1. Распределение планет в знаках из базы автора.

Очень непонятно по какому принципу автор некоторые значения выделил красным, а некоторые — синим цветом. Но судя по тому, что в тексте статьи автор часто употребляет фразы типа «среднее», «ниже среднего», «выше среднего»  — очень похоже на то, что он исходил из предположения, что теоретические частоты распределены равномерно, а  плотности их вероятностей — соответственно распределены по нормальному закону.  По крайней мере — других намеков на тип распределения нет.

Если это так, — мы можем применить так называемое «правило трех сигм», которое гласит, что с вероятностью 99.7% значения нормально распределенной величины лежат в пределах 3 стандартных отклонений от математического ожидания или среднего или, как говорил один мой знакомый, – «среднего ожидания попадания».

Как видно, — в данном случае распределения по всем планетам с лихвой в эти 3 сигмы и укладывается, и, как минимум, в случае нормального распределения – у нас нет оснований считать результат, заявленный автором, — статистически достоверным.

Если же теоретические частоты распределены по каким-то другим законам (а как станет ясно дальше – так и есть), — единственное, что нам остается – применить неравенство Чебышева, из которого на уровне значимости 0.05 получаем еще больший доверительный интервал – в  +/-  4,47 сигмы от среднего.

Кончено же,  данный подход  весьма груб и череват выплескиванием вместе с водой – ребеночка. Возможно, по каким-нибудь другим тестам мы бы и получили значимый результат. Но, увы, за неимением исходных данных – это единственный доступный способ проверить  достоверность выводов автора.

Впрочем, еще один способ «пощупать» выборку и проверить результат есть.

Как известно, — один из критериев истинности эксперимента – это его повторяемость при прочих равных условиях. В случае, если текст на независимой выборке даст аналогичные результаты –  это несомненно будет являться подтверждением выводов автора.

На сайте НХЛ в открытом доступе выложена замечательная база действующих хоккеистов Национальной Хоккейной Лиги. База постоянно меняется, по мере изменения действующего состава в командах НХЛ. По состоянию на 5 марта 2013 года в ней содержалось 2187 записей.

Для начала проведем небольшой эксперимент. Возьмем эту базу, и при помощи генератора случайных чисел из MS Excel, –  сделаем 3 выборки по 190 записей в каждой.

Вот такие выборки у нас получились:

Рис. 2. Сравнение случайных выборок из базы хоккеистов НХЛ с выборкой из статьи С. Рыбакова.

Рис. 2. Сравнение случайных выборок из базы хоккеистов НХЛ с выборкой из статьи С. Рыбакова.

Видно, что как минимум на уровне значимости в 3 сигмы  — данные по Солнцу и Марсу во всех 3 случайных выборках распределяются, как хотят, т.е. случайно,  но только не так, как хотелось бы автору.  Никаких значимых отклонений распределения ни в одной из 4 выборок  не обнаружено.

Высокие корреляции по Сатурну между выборками из базы НХЛ – объясняются лишь тем, что в базе представлены хоккеисты с 1970 по 1994 годы рождения,  причем больше половины из них родились между 1988 и 1994 годами.  Впрочем, об этом позже.

Для наглядности составим таблицу корреляций всех 4 выборок между собой:

ris3-rkrrelyatcii

Рис. 3. Таблицы корреляций между выборками.

Дальше уже можно на это время не тратить. Как видно из вышеприведенных таблиц, – работать с выборками в 190 карт, как минимум — не серьёзно.

Продолжение следует…

 

Виталий Иванченко