Как случай управляет нашей жизнью (English, Russian)

Sunday, May 23, 2010

Как случай управляет нашей жизнью (English, Russian)

Опять, спасибо Давыдову за его подборку.

Ниже я привожу краткое описание.

Здесь повторяется та же лекция немного другими словами и без презентации, есть несколько незначительных дополнений. Однако, секция вопросы и ответы довольно интересна http://fora.tv/2009/06/01/The_Drunkards_Walk_Leonard_Mlodinow#chapter_11.

http://fora.tv/2009/06/01/The_Drunkards_Walk_Leonard_Mlodinow#How_Expectations_Bias_Your_Wine_Selection VIDEO

Несколько лет назад один испанец выиграл в национальную лотерею; номер его билета заканчивался цифрой 48. Гордясь своим «достижением», испанец поведал о том, как ему удалось так разбогатеть. «Семь ночей подряд мне снилась семерка, — сказал он, — а семью семь и есть сорок восемь». Те, кто лучше помнит таблицу умножения, наверняка хмыкнут: испанец-то ошибся, но у всех нас формируется собственное видение мира, через которое мы пропускаем наши ощущения, обрабатываем их, выуживая смысл из океана информации в повседневной жизни. И при этом часто ошибаемся, причем ошибки наши, пусть и не такие очевидные, как у этого испанца, бывают не менее значимы.

http://elementy.ru/lib/431027

Там же можно найти ссылку на саму книгу.

Ниже я привожу краткое описание.
Ниже есть продолжение.

Приводится следующий интересный пример. Допустим, вы идёте к доктору сдавать анализы на рак. Результат анализа может быть как положительный (positive) так и отрицательный (negative). Если бы анализ мог абсолютно точно определять рак, то положительный ответ (positive) значил бы, что у вас есть рак (true positive), а отрицательный ответ (negative) значил бы, что у вас нет рака (false positive). Обычно, однако, это не так. Обычно, false positive нет, т.е. если тест показал, что у вас нет рака, значит у вас его нет, но существует true positive, т.е. если тест может показать, что у вас есть рак, когда рака нет. Более того, обычно, количество людей у которых тест показывает true positive выше чем количество людей, которые действительно болеют (true positive).

Вопрос. Допустим, что false positive составляет 0,1 или 10%, т.е. на каждые 10 человек у кого нет болезни, тест покажет, что у 1 она есть. Вы сделали тест и он у вас положительный. Какая вероятность, что у вас есть рак?

Обычный ответ, который, к сожалению, дают и доктора, что такая вероятность составляет 0,9 или 90%. Мол, если существует вероятность в 0,1 или 10% что это было "ложное" срабатывание теста, т.е. на самом деле, вы не больны, то отсюда следует, что в оставшихся 1-0,1=0,9 или 90% случаев у вас, таки рак, если тест показал, что у вас рак.

Правильный ответ. Недостаточно информации, чтобы дать ответ. Есть два простых контрпримера:

Пример 1. Допустим, мы возьмём 100 человек, у которых мы точно знаем, что у них нет рака. Для них, тест покажет примерно 100*0,1=10 положительных ответов. Какова вероятность, что у них есть рак? Естественно, она равняется 0, т.к. мы знаем, что у всех нет рака, чтобы ни показывал тест.

Пример 2. Допустим, мы возьмём 100 человек, у которых мы точно знаем, что у них есть рак. Для них, тест покажет 100 положительный ответов (т.к. нет false positve). Какова вероятность, что у них есть рак? Естественно, она равняется 1, т.к. мы знаем, что у всех есть рак.

Таким образом легко можно получить любое число от 0 до 1 включительно.

В дополнении к вводным данным, мы должны знать каков процент людей вообще болеют данным заболеванием. Пусть это будет 0,01 или 1% населения. На самом деле при определении этого процента учитываются то, как вы живёте. Если бы речь шла о СПИДе, то если вы наркоман или гомосексуалист, то этот процент для вас будет выше, чем у того, кто ими не является. Таким образом, если брать тесты у большого количества людей, то по закону больших чисел в нашей выборке, скажем, из 100 человек, будет 0,01 или 1% или 100*0,01=1 человек, который действительно больной, остальные 99 будут здоровыми.

Однако, если мы проведём тестирование, из-за false positive эффекта мы получим, что у 99*0,1=9,9 , округлим до 10 человек тест покажет, что он болен раком, несмотря на то, что он здоров. Т.е. мы имеем 10 человек с false positive результатом и 1 с true positive результатом.

Таким, образом, правильный ответ (с дополнительными данными), какова вероятность, что у вас есть рак, если тест дал положительный результат будет 1/(10+1)=1/11 или чуть выше 9%.

AFAIK, именно по этому проводят два теста. Первый тест, выборка проводится по всему населению страны, поэтому вероятность ошибки довольно высокая. Второй тест, проводится только среди тех, у кого тест дал положительный результат, т.е. среди гораздо меньшего количества людей, поэтому вероятность ошибки намного ниже.

Ниже я остановлюсь ещё на двух моментах. Первый, это "закон" малых чисел. Пример, вы смотрите на доходы ПИФов за последние 5 лет. Вы смотрите на конкретный ПИФ и видите, что их доходы были низкими относительно других (или вообще были потери). Вы хотите выбрать ПИФ на следующие 5 лет. Вы считаете, что это плохой фонд и не выбираете его. Здесь есть два момента, первый, вы предполагаете, что прошлое может предсказывать будущие, проводимые исследование показали, что результаты ПИФов следующие 5 лет почти не имеют никакой связи с тем, как они вели себя предыдущие 5 лет. Второе, у вас недостаточная статистика, нужно смотреть на бо́льшое количество лет. Дело в том, что вероятность того, что этот конкретный ПИФ покажет хороший результат в каждом данном году, предположим также, что эта вероятность независима, может быть 0,6 или 60%, однако, мы можем всё равно видеть 5 лет подряд "плохие" года. Дело в том, что закон больших чисел нам говорит, что наше "наблюдение" вероятности, т.е. Вы́борочное (эмпири́ческое) сре́днее значение, будет почти наверное будет совпадать с априорной вероятности, но только при достаточно большой выборке. Чтобы было проще понять, рассмотрим бросание монеты. Априорная вероятность выпадения орла или решки равна 0,5 как известно. Однако, никого не удивит, если первые 5 бросков мы получи 5 орлов подряд. Вероятность этого достаточно высока. Закон больших чисел нам только гарантирует, что после, скажем, десяти миллионов бросков, примерно пять миллионов будут орлами. При этом, 200 бросков также не достаточно, из 200 бросков вероятность получить серию из 5 орлов будет около 75%. Интересный также пример с киностудиями. Автор утверждает, что это чистая случайность принесёт ли конкретный фильм большие денежные сборы или нет. Существует столько разных переменных, определить которые не возможно. Его совет, просто следить, чтобы никто не воровал, профессионально относится к делу и т.п., обычное правильное ведение бизнеса. ИМХО, тоже самое применимо и к ПИФам, главное, чтобы он был профессионально управляем.

Первый момент был основан на неверной интерпретации данных. Также может быть недостаточно данных, например, какая будет погода в следующие 5 лет.

Второй момент, это illusion of control. иллюзия контроля. Не буду описывать детали, но был проведён эксперимент по угадыванию как упадет монета. Была проведена серия подбрасываний. После них, люди считали, что тренировка улучшает вероятность угадать как упадёт монета. Очевидно, что вероятность остаётся 0,5 и "натренироваться" невозможно, но у людей есть иллюзия контроля.

На вопрос, как избежать неверной интерпретации вероятности ответа по сути не было дано, было сказано прочитать 5 раз его книгу. Поэтому, лично я не рекомендую книгу к прочтению, но послушать выступление можно.