Статистика

чт, май 28, 2009

Лични

Трески ме тресат като стане дума за статистики и интерпретиране на резултати.

Да разгледаме следния хипотетичен пример:

Екип учени искат да изследват връзката между тютюнопушенето (или нещо друго – няма значение) и ракът на надбъбречната жлеза (или там каквото и да е). За целта вземат 10 000 пушачи и 10 000 непушачи и в продължение на 20 години ежегодно изследват тия 20 000 доброволци за въпросната потенциално опасна болест.

След 20 години наблюдения установяват, че имат 4 случая на въпросната болест при пушачите и 2 случая – при непушачите.

Въпросът ми е – как, според вас, следва да се интерпретират тези резултати:

а. Рискът от рак на надбъбречната жлеза е 2 пъти по-голям при пушачите, в сравнение с непушачите

или

б. Практически няма разлика в заболеваемостта от рак на надбъбречната жлеза между пушачите и непушачите

P.S. Разбира се – пропускам очевадно верният отговор

в. Зависи кой е платил за изследването

, ,

5 Comments For This Post

  1. Longanlon Says:

    Това е стара и известна истина за представяне на статистическите резултати. Именно затова не се шашкам като чуя или прочета някъде, че „едикоеси е с 21% по-рисково от другото“ или нещо подобно – защото процентното съотношение между две неща практически нищо не значи, ако тия две неща не са съотнесени към някакъв реален техен измерител.

  2. wakeop Says:

    То още при събирането и обработването на данните се почва, докато се стигне до интерпретациите вече е тотална разминавка :)

    Ако някога са те анкетирали за някакви социологически проучвания… ясно ти е ;)

  3. Канев Says:

    Принципно корелацията не доказва причинно следствена връзка, но да приемем че има познат механизъм, по който изследвана причина би могла да предизвика изследваното следствие.

    Основния проблем на въпроса е, че май приема статистическата значимост, като нещо дето ей така решаваме, дали го има или не. Статистическата значимост се смята. В случая тъй като сигнала е много малък (2 и 4 от 10000), надали е статистически значим, защото и най-малкия източник на шум би сменил драстично извода. Разбира се ако тези, които правят изследването приемат, че са елиминирали, всички възможни източници на грешни резултати, може и да се направи извода, че резултата е статистически значим, но малко учени са толкова нагли. Така че, ако всичките 10000 двойки хора в изследването са еднояйчни близнаци и живеят затворени и ги хранят с едни и същи работи и само единия пуши точно определено количество цигари, може и да се направи извод, че резултата е статистически значим.

    Разбира се, когато нещата стигнат до нас, чрез вестниците, никой нищо не споменава за статистическата значимост, която обикновено се упоменава в оригиналния научен труд. Казва се само резултата, който е обикновено относителния риск и без статистическата значимост, няма особен смисъл.

    Обаче дори и статистически значим, подобен резултат надали има смисъл да притеснява хората, защото е значително по-вероятно да умрат от доста други неща. Притеснително е когато се увеличава шанса от заболяване от нещо често срещано. Примерно увеличаване на шанса от сърдечно съдово заболяване дори и с някакви десетки проценти ще доведе до милиони смърти по света. Увеличаването на шанса в десетки пъти за заболяване от нещо дето няма име, защото 5 човека по света страдат от него, ще доведе до няколко десетки допълнителни смърти годишно.

    Аз лично като чуя за изследване, което съветва да си променям навиците и има шанс да изпълня съвета му(нямам намерение да живея вечно я:), отивам на google scholar и изравям поне абстракта на оригиналното проучване и чак тогава внимателно си правя изводите.

  4. Даниел Панев Says:

    Канев – благодаря за пространния и интересен коментар, но въпросът ми беше риторичен ;)

  5. ro Says:

    мисля че е як

Leave a Reply