לכל מקצוע בעולם המדע והטכנולוגיה יש תדמית משלו בעיניי הציבור הרחב. לעתים תדמית זו חיובית, כמו הקפדנות הייקית של המהנדסים או החינניות הפרועה של הפיזיקאים התאורטיים. לעתים, זו תדמית לא מחמיאה כל כך, כמו היבשושיות של המתמטיקאים או הגאוותנות של הרופאים המנתחים והיוהרה שלהם. איך רופא מנתח מחליף נורה? הוא עומד על כיסא עם הנורה ביד, והעולם מסתובב סביבו… סטריאוטיפ, כמובן, הוא רק סטריאוטיפ ולא צריך לקחת אותו ברצינות. לא כל המהנדסים קפדנים, יש מתמטיקאים בעלי אישיות מרתקת ורופאים מנתחים… טוב, אולי לפעמים יש בזה משהו. אבל בפרק זה אני רוצה להתמקד במקצוע מסוים דווקא בגלל התדמית שיצאה לו, תדמית חריגה אפילו ביחס לסטריאוטיפים הלא–מחמיאים של חלק מהתחומים האחרים במדע. לסטטיסטיקאים יצא שם של שקרנים.
התדמית הזו אינה עניין חדש. מארק טווין כתב עוד ב-1906 ש"יש שלושה סוגים של שקרים: שקרים, שקרים מתועבים, וסטטיסטיקה." אמרות כנף נוספות קיימות באותו הסגנון ומקורותיהן אינם ידועות, אבל הן מעידות על האופן שבו נתפסת הסטטיסטיקה בעיניי הציבור הרחב: "אם תענה את המספרים, הם יודו בכל."; "סטטיסטיקה היא כמו ביקיני: מה שהיא מגלה – מעניין, אבל מה שהיא מסתירה הוא שחשוב."
למרבה האירוניה, הסטטיסטיקה היא אחד מהענפים הבודדים של המתמטיקה שיש להם השפעה ישירה גם על החיים היום-יומיים שלנו. העיתונים מלאים בסטטיסטיקה: מסקרי דעת קהל על נושאים אקטואליים, ועד סקרים מקדימים של בחירות. בכל פרסומת שנייה בטלוויזיה הקריין מספר לנו בסמכותיות ש"שמונים אחוזים מהנשים שהשתמשו בקרם פנים X הבחינו בשיפור במצב הקמטים שלהן." כל תרופה אמתית שאי פעם קניתם בבית מרקחת אושרה לשימוש רק לאחר ניסויים קלינים מקיפים שבהם שיחקה הסטטיסטיקה תפקיד מרכזי: כמה חולים הבריאו? כמה אחוזים הבריאו גם מבלי שנטלו את התרופה, או נטלו את התרופה הקיימת? זו סטטיסטיקה. ממשלות וגופים עסקיים בכל העולם מקבלים החלטות כלכליות ארוכות טווח, בעיקר על סמך נתונים סטטיסטיים וסקרי דעת קהל. אז אם סטטיסטיקה חשובה לנו כל כך, למה אנו אוהבים לשנוא אותה? והכי חשוב – האם יש לנו סיבה אמתית להשמיץ אותה?
שורשיה של הסטטיסטיקה
מקורה של המילה 'סטטיסטיקה' הוא במילה הלטינית Statisticum, אשר בתרגום חופשי פרושה 'של המדינה'- ומכאן מגיעה אלינו גם המילה האנגלית State, למשל. עובדה זו מרמזת על מקורותיה המוקדמות של הסטטיסטיקה- איסוף מידע דמוגרפי וכלכלי כדי לסייע בפעילות התקינה של השלטון. רק בסוף המאה ה-18 ותחילת המאה ה-19 החלה הסטטיסטיקה שולחת זרועות ארוכות גם אל תחומים אחרים, כגון אסטרונומיה, רפואה ומדעי החברה. המאפיין המשותף למקצועות האלה הוא הצורך לאסוף כמויות גדולות של מידע גולמי ולהפיק ממנו מסקנות ברורות בתנאים של חוסר ודאות. באסטרונומיה, למשל, חוסר הודאות נובע מאי הדיוק של כלי התצפית ובמדעי החברה מקורו בשונות הגבוהה שבין הפרטים באוכלוסיה ובקושי הבסיסי ליצור ניסויים מבוקרים בתנאי מעבדה.
הסטטיסטיקה השתלבה היטב במדעים אלה מכיוון שתפקידה העקרוני הוא לעזור לנו לעשות סדר ולמצוא את הידיים והרגליים בתוך הררי המידע שמקיפים אותנו, ובמקביל גם לתחום את גבולות אי-הודאות. סקרי דעת קהל הם דוגמא טובה לכוחה של הסטטיסטיקה. סקרי בחירות, למשל, מקיפים כמות גדולה מאד של משיבים: לו היינו מקבלים לידינו את התדפיס שמכיל את התשובות עצמן, היה לנו קשה מאד להסיק מי מוביל בסקר ובאיזה הפרש. הסטטיסטיקאי מסוגל לעבד את התשובות למסקנות פשוטות ומובנות יותר: כך וכך אחוזים יצביעו למועמד הזה, וכדומה. נזכור גם שסקר אינו מקיף את כל אזרחי המדינה, אלא רק מדגם שלהם- ומכאן שיש אי ודאות בסיסי בתוצאות. הסטטיסטיקאי יוכל לומר לנו גם מהי רמת אי-הודאות שבתוצאות הסקר, או עד כמה אחוזים יכולה התוצאה לסטות מהתשובה האמיתית שהיינו מקבלים לו היינו סוקרים את כל אזרחי המדינה.
'סטיית תקן', למשל, היא אחד הכלים הסטטיסטיים החשובים והשימושיים ביותר בניסיון לחלץ תובנות ומשמעות מכמות גדולה של מידע גולמי. הנה דוגמה שתסביר זאת: תנאי החיים באנגליה של תחילת המאה ה–17 לא היו נוחים במיוחד, ועל אחת כמה וכמה לבני המעמדות הנמוכים. תזונה גרועה, עבודה מפרכת, הגיינה לקויה ומחלות מדבקות היו שכיחים למדי. אין פלא, אם כן, שתוחלת החיים באותה התקופה הייתה נמוכה משלנו. אם נפתח את רישומי התמותה מאותה התקופה ונחשב את ממוצע גיל המוות, נקבל שתוחלת החיים הממוצעת הייתה רק 35 שנים. זהו מספר איום ונורא… אני בן 36, ולו חייתי במאה ה–17 כנראה שהייתי עם רגל וחצי בקבר.
אבל כל סטטיסטיקאי מתחיל יציין מייד שחישוב פשוט של הממוצע מטעה ומוביל אותנו למסקנות שגויות. 'סטיית תקן' היא המדד לאופי פיזור הערכים סביב נקודת הממוצע. אם סטיית התקן קטנה, סימן שרוב הערכים בדגימה שלנו קרובים מאד לממוצע – במקרה שלנו, המשמעות היא שרוב התושבי אנגליה של המאה ה–17 הלכו לעולמם בסביבות גיל 35, פלוס מינוס. אך בפועל, סטיית התקן גדולה מאוד. בדיקה קפדנית של רישומי התמותה תגלה את העובדה הבאה: בתחילת המאה ה–17, שני שליש מהילדים מתו לפני גיל 4. זו עובדה איומה ונוראה, כמובן, אבל היא גם משנה את תמונת המצב הכללית מקצה לקצה. אם חלק גדול מהאוכלוסייה נפטר בגיל צעיר מאוד, ובכל זאת הממוצע הוא 35 שנים – משמע שמי שהצליח לשרוד את תקופת הילדות הלך לעולמו בגיל מבוגר באופן יחסי. תוחלת החיים הממוצעת היא 35 שנה – אבל לא בגלל שרוב האנשים מתו בסביבות גיל 35, אלא כיוון שחלק מהאוכלוסייה נפטר בגיל צעיר מאוד, וחלק אחר בגיל מבוגר. במילים אחרות, לו הייתי חי במאה ה–17 והצלחתי להגיע לגיל 36, יש סיכוי לא רע שאחיה עד גיל 60 ויותר.
חישוב פשוט יחסית של סטיית התקן, או פיזור ערכי הגילאים סביב נקודת הממוצע, היה חושף את האמת הזו לעיניו של הסטטיסטיקאי ללא קושי – וזו הסיבה שכלים סטטיסטיים כמו סטיית תקן הם בעלי חשיבות עליונה בכל מה שקשור להפקת תובנות חכמות מכמויות מידע גדולות.
אי אפשר לעסוק בסטטיסטיקה מבלי לדבר על אחותה, ההסתברות. ראשית, חשוב לציין שסטטיסטיקה והסתברות אינן שוות זו לזו. אם סטטיסטיקה מנסה להפיק תובנות מנתונים קיימים, מידע שכבר נאסף בעבר, ההסתברות היא דווקא הניסיון לחזות את העתיד על סמך תובנות קיימות – כמו הסיכוי לקבל מספר כלשהו בהטלת קוביה, למשל. אך על אף השוני ביניהן, קיים קשר עמוק בין הסטטיסטיקה להסתברות. שניהן משמשות אותנו, כל אחת בדרכה, ככלים להתמודדות מול אי–ודאות, בין אם זו אי–ודאות לגבי תוצאה של הטלת קוביה, או אי–ודאות לגבי תוצאות הבחירות בעוד יומיים. אותה אי–ודאות נמצאת גם בשורש היחסים המעורערים שלנו עם שני התחומים האלה. כפי שהראו הפסיכולוגים דניאל כהנמן ועמוס טברסקי, בסדרת מחקרים שעליהם זכו מאוחר יותר בפרס נובל, בני האדם מתקשים להתמודד עם אי-ודאות. המנגנונים שהעניקה לנו האבולוציה עושים עבודה סבירה בקבלת החלטות בתנאי יום-יום, אבל אינם מתאימים בהכרח כדי לתפוס סטיות תקן, הסתברויות קיצוניות ורעיונות מורכבים דומים. הנה שתי דוגמות לקשיים שכאלה, האחת מתחום ההסתברות והאחרת מתחום הסטטיסטיקה.
זכיה כפולה בלוטו
בשבעה עשר באוקטובר, 2010, הכותרת הראשית באתר Ynet הייתה זו: "תדהמה: בתוך חודש – מספרים זהים הוגרלו בלוטו." בהגרלות של ה-21.9 וה- 16.10 יצאו בגורל אותם שישה מספרים בדיוק. על פניו, זהו צירוף מקרים מדהים! מה הסיכוי להתרחשות שכזו? הסיכוי לנחש שבעה מספרים נכונים בלוטו הוא אחד ל–18 מיליון, בערך. זהו סיכוי אפסי, וזו גם הסיבה, דרך אגב, שלסטטיסטיקאים יש שם משלהם ללוטו: 'מס טפשות'. מאידך גיסא, אם ההסתברות לקבל שבעה מספרים מסוימים נמוכה כל כך הרי שעל פי כל היגיון, ההסתברות לקבל אותם שבעה מספרים פעמיים בתוך חודש ימים צריכה להיות כמעט בלתי אפשרית, לא? יש שתי קבוצות של אנשים שלא נדהמו כלל מצירוף המקרים המרשים הזה. הקבוצה הראשונה הייתה כותבי התגובות ב-Ynet, שחלק גדול מהם היו משוכנעים שכולם במפעל הפיס מושחתים ורמאים, ושההגרלות מכורות בראש. הקבוצה השניה הייתה, אולי תופתעו לשמוע, הסטטיסטיקאים עצמם. על פי החישובים שלהם, צירוף מקרים כזה אינו נדיר כל כך…
שתי עובדות משחקות כאן תפקיד חשוב. ראשית, יש לזכור שמפעל הפיס קיים כבר מאז 1951, ומאז ועד היום נערכו עשרות אלפי הגרלות לוטו, צ'אנס, 777 ומשחקים דומים. הכדורים מתגלגלים בתוך הסלסלות השקופות שוב ושוב, שבוע אחר שבוע, שנה אחר שנה, במשך עשרות שנים. שנית, כל קבוצת שבעה מספרים שתחזור על עצמה פעמיים מקיימת את התנאי לצירוף המקרים הזה. במילים אחרות, אלו לא צריכים להיות שבעה מספרים ספציפיים שהסיכוי להעלות אותם בגורל הוא אחד ל-18 מיליון, אלא כל שבעה מספרים שיעלו בגורל פעמיים. כשלוקחים את הנתונים האלה בחשבון, מסתבר שצירוף המקרים הזה אינו מדהים: לא אתאר את החישוב כולו, אבל גדי אלכסנדרוביץ' מהבלוג 'לא מדויק' חישב ומצא שמאורע מעין זה אמור להתרחש בערך פעם בעשרים שנה… ארוע נדיר, ללא ספק, אבל רחוק מלהיות 'כמעט בלתי אפשרי'. למעשה, שנה קודם לכן, ב-2009, עלו בגורל אותם שישה מספרים בלוטו הבולגרי שבוע אחר שבוע ברציפות. כאמור, קוריוז מרתק – אבל לא מדהים כפי שנטען בכתבה.
אך בפועל, כולנו נפלנו בפח הזה. אפילו כמה פרופסורים לסטטיסטיקה שרואיינו על ידי כתבי Ynet, נתנו גם הם הערכות שגויות לגמרי. כשזה מגיע להסתברויות, תחושות הבטן שלנו אינן מייצרות תשובות נכונות. זו הסיבה, למשל, לתהודה הגדולה שמקבלים "נסים" (במרכאות), כמו מעשי הריפוי המופלאים של רבנים מקובלים. לפלוני כלשהו יש סרטן סופני, והרופאים נותנים לו רק כמה חודשים לחיות. הוא הולך לרב ה'רנטגן' או 'האולטרא סאונד', מקבל ברכה… ומבריא! הרופאים מגדרים בראשם… מה יש לומר: נס אמתי, אחד למליון. אבל בכל שנה פונים עשרות אלפי חולים לרבנים בכל הארץ כדי לקבל את ברכתם, ואנחנו יודעים מניסיון שפה ושם יש אנשים שמבריאים ממחלות שנראות כסופניות בהחלט. צירוף המקרים של חולה סופני שהבריא לאחר שקיבל ברכה ממקובל יתרחש במוקדם או במאוחר…
שימו את עצמכם במקומו של גבעול דשא על מגרש גולף. הגבעול מוקף במיליוני גבעולים אחרים זהים לו לחלוטין, אבל כדור הגולף נוחת דווקא עליו. הגבעול שואל את עצמו… למה אני? מבין כל המיליונים האלה, מה מיוחד בי? התשובה, כמובן, היא 'שום דבר'. הכדור תמיד ינחת על גבעול בסוף. הסתברות, וזה הכול.
הנה דוגמה נוספת, הפעם מתחום הסטטיסטיקה. בשנת 1999 התפרסמו תוצאות מחקר שנערך באוניברסיטת פנסילבניה שבארצות הברית. החוקרים בדקו למעלה מ-450 ילדים, וגילו שתינוקות שישנו עם אור דלוק בלילה – פיתחו קוצר ראייה באחוז גבוה מאוד של המקרים: יותר ממחצית הילדים שישנו עם אור פתוח היו צריכים משקפיים כשהגיעו לגיל ההתבגרות. מה הקשר בין אור בלילה וקוצר ראיה? החוקרים לא ידעו לומר, אבל אחת ההשערות הייתה שאפילו כמויות זעירות של אור יכולות למנוע מהעין את המנוחה הרצויה בזמן שינה, ושחוסר זה קריטי במיוחד בתקופת ההתפתחות. ההמלצה הייתה ברורה מאליה: לא לתת לילדים לישון עם מנורה דולקת בלילה.
אבל כמה שנים לאחר מכן ערכו חוקרים באוניברסיטת אוהיו מחקר דומה, והגיעו למסקנות שונות בתכלית. אצל כל הילדים שנבדקו – למעלה מאלף ילדים, במקרה הזה – לא נתגלה הבדל בשכיחות קוצר הראייה, ולא משנה אם הילד ישן עם אור חזק, אור חלש או בחושך מוחלט. הסיבה העיקרית להבדל הדרמטי בין תוצאות שני המחקרים היא שבמחקר החדש, החוקרים לקחו בחשבון לא רק את התינוקות – אלא גם את ההורים שלהם. מסתבר שאצל ילדים הישנים עם אור דולק בלילה, אחוז גבוה של ההורים לוקה בקוצר ראייה. במילים אחרות, הסיבה לכך שהאור דולק בלילה היא שההורים לא רואים טוב בחושך. הילד בוכה באמצע הלילה, האבא קם להכין בקבוק, שוכח להרכיב משקפיים ודופק את הברך בפינה של השולחן… בלילה הבא, האור במסדרון נשאר דלוק. כפי שכולנו יודעים – אם ההורה צריך משקפיים, יש סיכוי לא רע שגם הילד שלו יזדקק להם…
החוקרים במחקר הראשון נפלו בפח של אחת המלכודות הגדולות של הסטטיסטיקה: הם התבלבלו בין סיבתיות למיתאם ('קורלציה', בלעז). אם יש מיתאם בין שני נתונים שונים – למשל, אחוז הילדים הישנים באור דלוק בלילה ואחוז הילדים הזקוקים למשקפיים בגיל ההתבגרות – אין זה אומר שיש כאן סיבתיות, ושאחד הוא בהכרח הגורם לאחר. כפי שראינו בדוגמה האחרונה, במקרים רבים יש גורם סמוי שלישי שמקשר בין השני הנתונים האלה – אבל קשה מאד להבחין בו. שגיאות מעין אלה, בדומה לטעויות בחישוב הסתברות אמתית של מאורעות נדירים, הן חלק גדול מהסיבה לכך שלפעמים נדמה שאפשר להוכיח כל דבר באמצעות סטטיסטיקה. קל מאד לטעות ולפרש באופן שגוי את התוצאות והמסקנות שמחקרים סטטיסטיים וחישובי הסתברות מספקים לנו, וכשהטעות מתגלה בסופו של דבר – אנחנו מרגישים מרומים, הסטטיסטיקה שיקרה לנו.
טעות סטטיסטית
לרוע המזל, לטעויות כאלה עלול להיות מחיר כבד, אם הנסיבות שבהן הן מתרחשות חסרות מזל במיוחד. סאלי קלארק הייתה עורכת דין בריטית אלמונית אשר חייה התנהלו על מי מנוחות עד שנת 1996, אז פקדה אותה ואת בעלה טרגדיה אכזרית: בנם התינוק נפטר מספר שבועות לאחר לידתו, ממה שמכונה בדרך כלל 'מוות בעריסה': מוות פתאומי ובלתי מוסבר של תינוק בריא. שנתיים מאוחר, ב-1998, היכה בהם הגורל שוב: גם בנם השני נפטר ממוות בעריסה. מכה כפולה שכזו מביאה עמה צער וסבל בכמות מספיקה לחיים שלמים, אבל לרוע מזלה של סאלי – הסבל שלה טרם נסתיים. כחודש לאחר מותו של בנה השני, סאלי קלארק נעצרה והועמדה לדין. האשמה: רצח של שני בניה. התביעה העלתה כמה טענות מחשידות כנגד סאלי: היא סבלה מדיכאון שלאחר לידה, ובשני המקרים הייתה השוהה היחידה בבית בזמן שהפעוטות הלכו לעולמם. זאת ועוד, בניתוח שלאחר המוות נתגלו סימני חבלה על גופם של התינוקות.
ההגנה, מצדה, מיהרה לציין שלטענות הנסיבתיות הללו היו גם הסברים פשוטים והגיוניים, שאינם מצביעים על רצח. אם שנשארת לבד עם תינוקה בבית? מקובל מאוד. דיכאון שלאחר לידה? תופעה מוכרת, אבל נשים בדיכאון לא נוהגות לרצוח את ילדיהן בדרך כלל. סימני החבלה היו עשויית להיות תוצאה של מאמצי ההחייאה שנעשו על התינוקות. בשורה התחתונה, טענו עורכי דינה של סאלי, לאף אחד לא הייתה כל סיבה להניח שסאלי רצחה את בניה. היא הייתה אישה נורמטיבית, אזרחית מן השורה, נשואה באושר, אפילו לא מעשנת.
אבל באופן אירוני, דווקא נורמטיביות חיובית זו היא שהרעה את מצבה של סאלי בבית המשפט. כלל ידוע בהסתברות הוא שהסיכוי ששני מאורעות יתרחשו זה אחרי זה הוא מכפלת ההסתברויות שלהם. אם הסיכוי למספר כלשהו בהטלת קוביה הוא אחד לשש, אז הסיכוי שאותו המספר יצא בשני הטלות רצופות הוא אחד לשש בריבוע, או אחד ל–36. התביעה העלתה לדוכן העדים את פרופסור רוי מדו (Meadow), מומחה לרפואת ילדים. פרופ' מדו טען בעדותו שהסיכוי למוות בעריסה במשפחה נורמטיבית וחסרת גורמי סיכון כמו זו של סאלי קלארק הוא בערך אחד ל–8000. הסיכוי לשני מקרי מוות בזה אחר זה, הסיק מדו, הוא 8000 כפול 8000, או אחד לכשבעים מיליון. במילים אחרות, סאלי קלארק היא רוצחת כיוון שהסיכוי שהילדים נפטרו בנסיבות טבעיות הוא אפסי. מישהו הרג אותם, וסאלי הייתה היחידה בבית…בעלה של סאלי נלחם בעוז על חפותה ולא נטש אותה לרגע, אבל אי אפשר היה להתווכח עם ההגיון שבטיעון הזה. בית המשפט שלח את סאלי קלארק למאסר עולם.
החישוב ההסתברותי הזה קומם סטטיסטיקאים רבים מאוד, משתי סיבות.
הראשונה היא שהנחת היסוד של פרופ' מדו לגבי הסיכוי לשני מיתות רצופות כתוצאה מ'מוות בעריסה' הייתה שגויה לחלוטין. חישוב מכפלת הסיכויים, אחד ל-8000 בריבוע, נכון אך ורק אם שני המאורעות המדוברים אינם תלויים זה בזה. במקרה של הטלת קוביה, התנאי הזה מתקיים: כל הטלת קוביה היא אירוע עצמאי, ואין קשר בין הטלה אחת לזו שקדמה לה. לא כן בנוגע למוות בעריסה. רופאי ילדים רבים טענו, אחרי המשפט, שבמשפחה שבה אירע מוות בעריסה, הסיכון למוות נוסף עולה בצורה משמעותית, לפחות פי חמישה עד עשרה. איננו יודעים בוודאות מה גורם למוות בעריסה, אבל סביר להניח שמעורבים בעניין גם גורמים תורשתיים או סביבתיים, והגורמים האלה משותפים לשני התינוקות: שניהם נולדו לאותם הורים, בעלי אותם הגנים, אותן המחלות, אותם תנאי הגיינה, אותו הבית… אם משהו מכול אלו גרם למות התינוק הראשון, סביר להניח שהוא עלול לגרום גם למות התינוק השני. במצב כזה, הסיכוי לשני מקרי מוות בעריסה באותה המשפחה, על אף שעדיין נמוך, הוא גבוה הרבה יותר מאשר אחד ל–70 מיליון.
שנית, טענו הסטטיסטיקאים, המושבעים צריכים לשקול לא רק את הסיכוי שסאלי רצחה את ילדיה, אלא גם הסבירות שהיא *לא* רצחה אותם. סאלי, כאמור, הייתה אדם נורמטיבי לחלוטין במשפחה מאושרת. הסטטיסטיקה מלמדת שבמשפחה תקינה שכזו, הסבירות שאם תרצח את שני ילדיה נמוכה מאד, ולמעשה – נמוכה הרבה יותר מהסבירות למוות כפול בעריסה! מי שהרגיזו במיוחד את הסטטיסטיקאים היו חברי המושבעים, שקיבלו את חוות דעתו של רופא ילדים בנושא שאין לו בו שמץ של הכשרה מקצועית. פרופ' מדו הוא אולי מומחה גדול ברפואה, אבל אין לו ידע מבוסס בסטטיסטיקה. כפי שאמר אחד המתמטיקאים בציניות, 'אם פרופ' מדו היה מביע את דעתו המקצועית על אכות בניית הגשרים על נהר התמזה שבלונדון, האם גם אז היו מקבלים המושבעים את דעותיו ללא עוררין?'
על רקע השגיאות הגסות בחישובים הסטטיסטיים הגישו עורכי הדין של קלארק שני ערעורים. הערעור הראשון נדחה, והשני נתקבל: סאלי שוחררה מהכלא בינואר 2003. בשלב זה, עם זאת, סאלי כבר הייתה שבר כלי. היא סבלה התעללויות קשות מהאסירות האחרות בזמן מאסרה, וחייה נהרסו. היא התמכרה לטיפה המרה, ובשנת 2007 נמצאה גופתה של סאלי בביתה והיא בת 42 בלבד. סיבת המוות הייתה הרעלת אלכוהול.
אפקט המגירה
כפי שכבר ציינתי בפתיחת הפרק, הסטטיסטיקה היא כלי עזר חשוב במחקרים מדעיים רבים. כמעט כל תואר אקדמאי, אם במדעי הטבע ואם במדעי הרוח והחברה, כולל גם לימודי סטטיסטיקה והסתברות כחלק בלתי נפרד ממסלול הלימודים. ובכל זאת, על אף שמרבית החוקרים מבינים את החשיבות שבניתוח סטטיסטי זהיר וקפדני ומשתדלים להימנע משגיאות מביכות – יש סוגי טעויות שבלתי אפשרי להתחמק מהן ברמת המחקר הבודד או החוקר היחיד: טעויות שאיש אינו אשם בהן, ובכל זאת מהוות בעייה לא פשוטה בתחומי מחקר רבים. הטעות המכונה 'אפקט המגירה' היא טעות שכזו, וכדי להסביר אותה – נפנה דווקא לעולם הכדורגל.
תחרות הגביע העולמי בכדורגל של 2010 הייתה, כמו כל התחרויות שקדמו לה, משופעת בכוכבים גדולים: קסיאס, דרוגבה, חאבי, רונלדו, מסי… המונדיאל של 2010 גם הכיר לנו שני כוכבים חדשים, צפויים פחות. הראשונה הייתה הוווזלה, והאחר: פול התמנון. תמנונים הם בעלי חיים אינטליגנטיים בצורה יוצאת דופן: יש להם זיכרון מעולה והם מסוגלים לפתור חידות פשוטות בזריזות מפתיעה. יש המשווים את רמת האינטליגנציה של התמנונים לזו של הכלבים, למשל. גם פול, תמנון במרכז הימי בעיר אוברהאוזן שבגרמניה, ניחן בחכמה שכזו – ואולי גם ביכולת מנטלית מסוג שונה לגמרי.
באליפות אירופה בכדורגל שנערכה ב–2008, הצליח פול לנחש את תוצאות משחקיה של נבחרת גרמניה בארבעה מתוך שישה משחקים. הצלחה זהירה זו הביאה את מטפליו של פול במרכז הימי לאפשר לו לנחש תוצאות המשחקים גם בגביע העולמי של 2010, אולי כדי לנסות ולמשוך את תשומת לב התקשורת ולזכות בכמה מבקרים חדשים. כיוון שתמנונים אינם יודעים לדבר או לכתוב, שיטת הניחוש של פול הייתה היורסטיקה מבוססת גסטרונומיה, או במילים אחרות – אוכל. המטפל היה מוריד אל האקווריום שני מכלי זכוכית ובהם מנות זהות של בשר צדפות, המזון האהוב על פול. על כל מיכל היה דגל של אחת המתמודדות – והמיכל שממנו בחר פול לנשנש ראשון סימן איזו קבוצה תנצח במשחק.
המשחק הראשון של גרמניה היה מול אוסטרליה, ופול בחר במיכל הגרמני. גרמניה ניצחה. המשחק השני היה נגד סרביה, ופול – במפגן אופי מעורר כבוד – הלך נגד הפטריוטיות המקומית והצביע בעד הסרבים. הוא צדק. במשחק השלישי התמודדה גרמניה נגד נבחרת גאנה, ופול בחר בגרמניה. נו, את ההימור הזה גם מדוזה הייתה לוקחת בהליכה. אבל כשפול קבע שגרמניה תנצח את אנגליה – וצדק – כבר אי אפשר היה להתכחש לכך שיש בתמנון הזה משהו שונה…
אוהדי כדורגל מכל העולם התגייסו כדי לבלום את כוחותיו המאיימים של פול. שף ארגנטינאי פרסם בפייסבוק מתכון לבישול בשר תמנונים, בניסיון להפעיל עלו לחץ פסיכולוגי – ניסיון נואש למדי, בהתחשב בעובדה שלתמנונים אין ממש פסיכולוגיה, לפחות ככל הידוע לנו היום. כשפול חזה שגרמניה תפסיד לספרד בחצי הגמר, ראש הממשלה הספרדי הציע לשלוח שומרים מטעמו כדי למנוע מאוהדי גרמניה לאכול את פול – אם כי יכול להיות שהוא רק התבדח. אני מקווה. פול השלים סדרה של שמונה תחזיות מוצלחות מתוך שמונה נסיונות, כשחזה שספרד תנצח את הולנד בגמר.
ובכן, מה סוד כוחו של התמנון? פול הלך לעולמו כעבור מספר חודשים בלבד ולקח את סודותיו עמו ל… היכן שתמנונים הולכים כדי למות. ככל הנראה הוא נפח את נשמתו רק שבועות ספורים לפני שההתאחדות הישראלית לכדורגל התכוונה להציע לו את תפקיד מאמן הנבחרת. מזל שלו, אם אתם שואלים אותי. אבל הסטטיסטיקאים כבר יודעים את הסוד. על פי התאוריה המקובלת, סיכויו של פול לנחש את כל התוצאות הנכונות במונדיאל – בהנחה הסבירה שכל הניחושים אקראיים לחלוטין – הם בסביבות האחד ל–250. זהו סיכוי לא גבוה במיוחד, אבל גם לא בלתי אפשרי. מדוע, אם כן, זכה פול לפרסום כה רב? התשובה טמונה ב'אפקט המגירה'.
בכל מחקר מדעי כלשהו יש סיכוי שלמרות כל המאמצים, נקבל בסופו של דבר תוצאה לא סבירה. נניח, לצורך העניין, שאנחנו בוחנים השפעה של תרופה על סוג נדיר של סרטן ונניח שהתרופה, לרוע המזל, אינה משפיעה כלל על המחלה. אם מאה חוקרים ברחבי העולם בודקים את התרופה הזו בניסויים מבוקרים, 99 מהם יקבלו את התוצאה השלילית הצפויה: התרופה לא השפיעה, והסרטן לא נרפא. אבל יש סבירות מסוימת שהניסוי המאה יקבל תוצאה חיובית מסיבות שאינן קשורות כלל לתרופה עצמה: החולים המשתתפים בניסוי הבריאו מסיבה אחרת – אולי שינוי תזונה, או כל סיבה ערטיאלית אחרת.
ברור שאם 99 ניסויים טוענים שהתרופה אינה יעילה, ורק אחד מוצא שהיא כן יעילה – התרופה אינה יעילה, נקודה. בפועל, עם זאת, 99 החוקרים שלא הצליחו לרפא את הסרטן יקחו את דו"ח הניסוי, ידחפו אותו למגירה ולא יפרסמו אותו לעולם. מה כבר יש לפרסם? הניסוי לא הפיק שום תוצאות מהותיות… אבל החוקר הבודד שכן הצליח להפיק תוצאות חיוביות, ימהר לפרסם את המחקר שלו. התוצאה: עולם הרפואה מסיק, בטעות, שאולי התרופה החדשה כן יעילה. זהו 'אפקט המגירה'.
זה גם מה שקרה לפול התמנון. סביר להניח שבכל רחבי העולם, בכל עשרת המונדיאלים האחרונים (ואולי יותר), ניסו אנשים להיעזר בחיות כדי לנסות ולנחש את תוצאות המשחקים. כיוון שחיות לא ממש מבינות בכדורגל, כל הניסיונות האלה כשלו – ולכן התקשורת לא התעניינה בהם. מי רוצה לשמוע בחדשות על רקס, הכלב שלא הצליח לנחש את תוצאות הגביע העולמי? כל אותם נסיונות כושלים אינם מגיעים לתודעת הציבור ונכנסים, באופן מטפורי, אל המגירה. אבל אם מספיק חיות ינסו לנחש את התוצאות, אחת מהן תצליח – ורק הגורל העיוור קבע שיהיה זה פול התמנון. ואכן, על פי וויקיפדיה, באותם המשחקים עצמם ניסו את מזלם בניחוש תוצאות המשחקים גם ליאון הקיפוד, פטי ההיפוטוטם, ג'ימי החזיר ואנטון הקוף – כולם פספסו בשלב זה או אחר. אנטון, דרך אגב, טען שגאנה תנצח… וזו לא הייתה הפעם הראשונה ש"הקוף" טעה בפרשנות.
אפקט המגירה, אם כן, הוא שגיאה שנגרמת כתוצאה מהאקראיות המובנת של העולם שלנו והאופן שבו מתפרסמים מאמרים מדעיים. כדי לנסות ולהילחם בו, יש מספר ירחונים מקצועיים שהכריזו שלא יקבלו מחקרים לפרסום אם החוקרים לא ידווחו על כוונתם להתחיל בניסוי מבעוד מועד- כדי שעורכי המגזין יוכלו לוודא שידווחו על תוצאותיהם בהמשך, גם אם התוצאות יהיו שליליות.
חוק בנפורד
עד כה סיפרתי רק על הצדדים השליליים של טעויות סטטיסטיות והסתברותיות. כדי להשלים את התמונה, הנה דוגמא למקרה שבו יש למוזרות הכללית של הסטטיסטיקה יכולה להיות דווקא השפעה חיובית. אחד העזרים המתמטיים הנפוצים בתקופה שלפני עידן המחשב היה "ספר הלוגריתמים": ספר שבו מפורטים תוצאותיו של חישוב מתמטי מסוים ונפוץ מאוד. התוצאות נרשמו בטבלאות דחוסות ובכתב קטן וצפוף, ולכן כל מי שהשתמש בהן היה עוקב אחר העמודות והשורות בעזרת האצבע המורה, כדי לא להתבלבל.
ב-1881 הבחין האסטרונום האמריקני סיימון ניוקום (Newcomb) בתופעה מרתקת. ניוקום נעזר בספר הלוגריתמים באופן שוטף, ובאחד מביקוריו בספרייה הבחין שבכל העותקים של ספר הלוגריתמים – הדפים הראשונים של הספר היו מלוכלכים מטביעות אצבעות הרבה יותר מדפיו האחרונים. הטבלאות בספר הלוגריתמים מסודרות על פי סדר עולה של המספרים: 100, 101, 102 וכן הלאה. עובדה זו פירושה שבדפים הראשונים של הספר נמצאים המספרים שהספרה השמאלית ביותר שלהם, הספרה הראשונה, היא 1. מדוע, שאל ניוקום את עצמו, מתעניינים האסטרונומים דווקא בחישובים או במדידות שמתחילים במספר 1? הרי אין בזה שום היגיון. הטבע נייטרלי ואקראי, ואין שום סיבה להניח שכאשר מודדים מרחקים, זמנים או גדלים דומים – תוצאות המדידה תהיינה מוטות דווקא למספרים המתחילים במספר 1, כמו 153, 1830 או 1,230,900…
אבל כשבדק ניוקום את העניין בפועל, זה בדיוק מה שהוא גילה: במדידות רבות באסטרונומיה, התוצאה המתקבלת היא מספר שהספרה הראשונה שלו היא 1. המספר 1 מופיע כספרה השמאלית ביותר בשכיחות גבוהה באופן מובהק: כשלושים אחוז מהמקרים. הספרה 2 מופיעה כספרה הראשונה במדידות בשכיחות נמוכה יותר, אבל עדיין גבוהה יחסית. הספרה 9 היא הנדירה ביותר, עם פחות מחמישה אחוזים מהמדידות. ניוקום לא הצליח להסביר את התוצאה שקיבל, אבל פרסם אותה במאמר מקצועי. לרוע מזלו, אף אחד לא לקח אותו ברצינות – ובאמת, איך אפשר לקחת תוצאה כזו ברצינות?… המאמר נשכח.
57 שנים מאוחר יותר, ב-1938, הבחין פיסיקאי בשם פרנק בנפורד (Benford) באותה התופעה בדיוק: גם הוא, כמו ניוקום, השתמש בספר לוגריתמים – וגם העותק שלו היה מלוכלך מאוד בדפים הראשונים. בנפורד השקיע מאמצים אדירים, הירואים ממש, כדי לוודא שההשערה שלו לגבי השכיחות המוגזמת של המספר 1 כספרה הראשונה בכל מדידה, אכן תקפה. הוא בחן כעשרים אלף מדידות וטבלאות נתונים מכל סוגים: שטחי נהרות, משקלים אטומיים של יסודות, מספרים שמופיעים בדיווחי עיתונות, אפילו סטטיסטיקות של משחקי בייסבול… בכל מקום שבו הביט התוצאה הייתה זהה: הספרה הראשונה הייתה, בכשלושים אחוז מהמקרים, 1. פרנק בנפורד כתב מאמר על מחקריו, והפעם זכה המאמר להתעניינות מצד הקהילה המדעית. התופעה המשונה הזו זכתה לכינוי 'חוק בנפורד', ומי שגילו בו עניין מיוחד היו דווקא הכלכלנים, ובפרט אלו המתמחים בהנהלת חשבונות.
מנהלי חשבונות מנסים כל העת למצוא שיטות חדשות ומתוחכמות לאתר רמאויות פיננסיות, ובשנות השבעים הציע פרופ' האל וריאן – המשמש כיום ככלכלן הראשי של גוגל, דרך אגב – להשתמש בחוק בנפורד כדי לגלות אי סדרים בספרי חשבונות. אם הדוחות הפיננסיים תקינים, המספרים המופיעים בהם אמורים לציית לחוק בנפורד: הספרה השמאלית ביותר תהיה 1 בכשלושים אחוזים מהמקרים, 2 בכ-17 אחוזים מהמקרים, 3 בכ-12 אחוזים מהמקרים וכן הלאה. אבל אם ספרי החשבונות 'טופלו' ומישהו פברק את המספרים, המספרים לא יצייתו לחוק בנפורד. מדוע?
אחת האנקדוטות המפורסמות בעולם הסטטיסטיקה היא זו של פרופסור למתמטיקה באחת האוניברסיטאות, שבכל פתיחת סמסטר היה מטיל על הסטודנטים שלו את שיעורי הבית הבאים. חלק מהם יטילו מטבע 200 פעם וירשמו את התוצאות, וחלק מהם לא יטיל מטבע ויגיש תוצאות מפוברקות ומומצאות. בשיעור הבא, כשהגישו הסטודנטים את הרשימות שלהם לפרופסור, הוא היה מעיף מבט חטוף על כל דף וקובע בתוך שניות מי באמת הטיל מטבע, ומי פיברק את התוצאות. הניחושים שלו היו מדויקים בכמעט כל המקרים.
סוד הצלחתו של הפרופסור היה טמון בחוסר יכולתם של הסטודנטים – כמו כל שאר בני האדם – לפברק אקראיות בצורה אמינה. הסיכוי שבשש הטלות מטבע רצופות נקבל 'עץ', למשל, הוא סיכוי נמוך יחסית – אבל אם מטילים מטבע 200 פעמים ברציפות, יש סבירות גבוהה שנקבל סדרות ארוכות כאלה של עץ או פלי. זו אותה התופעה, עקרונית, שתיארתי כסיפרתי לכם על ההסתברות לאותם מספרים בלוטו שבוע אחר שבוע: אם נחזור על אותו ניסוי שוב ושוב, גם התוצאות הכי לא סבירות יתרחשו בסוף. אך כפי שידע הפרופסור, הסטודנטים שמפברקים את התוצאות לא יכתבו שרשראות ארוכות של עץ או פלי: האינטואיציה שלהם מטעה אותם, והם מניחים שאקראיות "אמתית" פרושה פיזור שווה פחות או יותר של תוצאות עץ ופלי. הפרופסור מחפש שרשראות ארוכות של אותה התוצאה בהטלה, ואם הוא לא מוצא אחת כזו – סימן שזה פברוק.
זה גם המפתח לגילוי רמאויות בספרי חשבונות באמצעות חוק בנפורד. הרמאים, כשהם מפברקים את המספרים במסמכים הפיננסיים, משתדלים לשמור על שכיחות שווה של כל המספרים השונים כיוון שאינם רוצים למשוך אליהם תשומת לב. אם המספרים בספרי החשבונות אינם מצייתים לחוק בנפורד, הבוחנים יכולים להסיק מכך שנדרשת בדיקה מעמיקה וחשדנית יותר של הנתונים. שימו לב שכתבתי שהבוחנים צריכים לבצע בדיקה נוספת, ולא להניח מיד כי נעשו פעולות לא כשרות. לא כל סוגי הנתונים מצייתים לחוק בנפורד, והסיבה לכך מתבררת כשמבינים מדוע הוא קיים מלכתחילה.
ניקח, לצורך הדוגמה, חברה שהרווח השנתי שלה צומח בעקביות, שנה אחר שנה, בחמישה אחוזים. אם בשנה הראשונה הרווח היה דולר אחד, בשנה הבאה הרווח יהיה 1.05 דולרים. בשנה שלאחר מכן, דולר ועשרה סנטים וקצת, ובשנה שלאחריה – 1.15 דולרים וקצת. הרווח יגדל בהתמדה ובעקביות, ובסך הכל יידרשו לחברה 14 שנה כדי לחצות את קו שני הדולרים. אבל ברגע שתגיע לשני דולרים, יחלפו רק 8 שנים עד שתגיע לרווח של שלושה דולרים – כיוון שחמישה אחוזים מ-2 הם יותר מחמישה אחוזים מ-1… הקפיצה מרווח של שלושה דולרים לארבעה דולרים תתרחש בתוך 6 שנים בלבד, ומתשעה דולרים לעשרה דולרים – רק שנתיים! אבל מה קורה עכשיו? הקפיצה מרווח של עשרה דולרים לעשרים דולרים שוב אורכת 14 שנים ארוכות… ומעשרים לשלושים דולרים- רק 8 שנים.
סוג כזה של צמיחה מכונה 'גידול לוגריתמי', והוא מתאפיין בכך שהתוספת לערך תלויה גם בערך הגודל עצמו. במקרה שלנו, תוספת של חמישה אחוזים תהיה חמישה סנט אם הערך ההתחלתי שלנו הוא דולר אחד, אבל חמישים אלף דולרים אם הערך ההתחלתי שלנו הוא מליון דולרים. כפי שראינו, בגידול לוגריתמי המספרים מבלים הרבה 'זמן' בתחום שבין 1 ל-2, ביחס לזמן שבין 2 ל-3, והרבה זמן בין 10 ל-20, ביחס לזמן שבין 20 ו-30, וכן הלאה. עובדה זו מסבירה מדוע המספר 1 שכיח מאד בתור הספרה הראשונה, והמספר 9 כמעט ואינו מופיע בה.
לשם השלמות כדאי לציין שיש סיבות נוספות לקיומו של חוק בנפורד, סיבות הקשורות לסוגים של התפלגויות סטטיסטיות – אבל השורה התחתונה היא שאסור למנהלי החשבונות להניח באופן מיידי שאם המספרים בדוחות אינם מצייתים לחוק בנפורד, יש כאן 'אקדח מעשן'. יש גורמים רבים המסוגלים להטות את שכיחות המספרים. למשל: בחברות רבות מקובל הנוהג שאם הוצאה כספית אינה עוברת רף מסוים, אפשר לאשר אותה במסלול מהיר: עד חמש מאות שקלים צריך אישור של הבוס הישיר, ומעל חמש מאות שקלים צריך אישור של סמנכ"ל כספים. נוהג כזה יעוות לחלוטין את הפילוג הסטטיסטי של המספרים כיוון שקבלני משנה רבים יעדיפו להוציא חשבונית רק עד 499.99 שקלים, במקום להתעסק בבירוקרטיה המתישה בשביל עוד כמה שקלים מסכנים.
אבל אם נזהרים ולוקחים בחשבון את כל הגורמים השונים, חוק בנפורד הוא בהחלט כלי רב עצמה בזיהוי תרמיות פיננסיות, ובעשרים השנים האחרונות הורשעו כמה וכמה נוכלים – במיוחד בארצות הברית – שמעשיהם נחשפו באמצעות שימוש בחוק בנפורד. הסטטיסיקה יכולה אולי לשקר, אבל לעתים היא גם יכולה להוציא את האמת לאור…
ברור, אם כן, שלסטטיסטיקה ולהסתברות יש חלק משמעותי מחיי היום יום שלנו – וברור גם שרוב האנשים, בהכללה, מתקשים להתמודד עם הדקויות והמלכודות שהן מציבות בפנינו. הדרך הכמעט יחידה לשפר את מצב זה של העניינים היא באמצעות חינוך, ועל כן נשמעים בשנים האחרונות קולות, כמו זה של המתמטיקאי ארתור בנג'מין, הקוראים לחשוב מחדש על האופן שבו אנחנו מלמדים מתמטיקה בבתי הספר התיכוניים. רוב לימודי המתמטיקה בתיכון מוקדשים לאלגברה ולחשבון דיפרנציאלי ואינטגרלי: אלו תחומים חשובים, ללא צל של ספק, אבל בעיקר עבור מי שממשיך לתארים מתקדמים במקצועות הריאליים. עבור כל השאר, הם לא ממש מועילים. סטטיסטיקה, לעומת זאת, יכולה להיות שימושית גם עבור מי שלא פונה לתחומי ההנדסה והמדע. ה' ג' וולס, סופר המדע הבדיוני המפורסם, השמיע את הטענה הזו כבר לפני למעלה ממאה שנים. "בעתיד," כתב וולס, "הבנה של הסטטיסטיקה תהיה הכרחית לאזרחות טובה, לא פחות מהיכולת לכתוב ולקרוא."