Вопрос по статистической обработке у биологов (1/3) [Форумы Balancer.Ru]

Balancer #11.10.2010 09:14

Balancer

администратор

★★★★★

Давно уже меня корёжит, когда вижу, как жена обсчитывает результаты экспериментов, выявляя эффективность тех или иных соединений. Но самому в голову ничего не приходит толкового, нас обработке столь нерепрезентативных результатов не обучали. Может, подскажет кто?

Суть такая. Берутся N (мало, ~5) мышей, которым прививается злокачественная опухоль и больше с ними ничего не делают, только раз в 1-2 дня измеряют размер опухоли. Это контроль. Всего замеров тоже не так много, 5-7, наверное.

Берутся M (тоже мало, тоже ~4-5) мышей, которым прививается опухоль и через некоторое время начинает даваться тестируемый препарат. Тоже делаются периодические замеры размера опухоли. Это эксперимент.

Как оценивается эффективность. Считается средний объём опухолей у всей контрольной группы на заданный день. Считается средний объём опухолей у всей экспериментальной группы на тот же день. Дальше по отношению средних объёмов оценивается эффективность.

Проблема, которая меня и корёжит. Объём опухоли, что в контроле, что в эксперименте у разных мышей может отличаться на пару порядков. Или может отсутствовать вообще - случается, что опухоль сама рассасывается.

Считать среднее значение для значений 1, 5, 50, 300 и 700 мг. - это как-то у меня в голове не укладывается.

Но традицонный, много лет практикуемый метод, описанный в научной литературе - именно таков...

Есть мысли, как это более цивильно сделать?

Vale #11.10.2010 09:21 @Balancer#11.10.2010 09:14

Vale

Сальсолёт

★☆

Именно так и делать, как описано; скажем, GraphPad Prism в руки и вперед. Считает со свистом.

Выборки малы, конечно. по идее я бы с 4-5 до 7-8 мышей увеличил; но и 5-6 терпимо, имхо.

Unpaired t-test, или, если нормальность не проверена, Mann-Whitney test.

Информативный график - график, на котором в каждой точке отложент размер опухоли у каждой мыши. Если их всего 4-5.

Это сообщение редактировалось 11.10.2010 в 09:27

Balancer #11.10.2010 09:26 @Vale#11.10.2010 09:21

Balancer

администратор

★★★★★

Vale> Именно так и делать, как описано; скажем, GraphPad Prism в руки и вперед.

Поглядел. Это же только софт для обсчёта и визуализации. Вопрос же именно в выборе методики оценки.

Vale> Выборки малы, конечно. по идее я бы с 4-5 до 7-8 мышей увеличил.

Увы, эксперименты разрабатывает не жена. Да и 7-8 - всё равно мало будет.

Vale> если нормальность не проверена

Да какая там нормальность при такой малой выборке и таком разбросе...

Vale> Mann-Whitney test.

Пошёл копаться.

Vale #11.10.2010 09:33 @Balancer#11.10.2010 09:26

Vale

Сальсолёт

★☆

Vale>> Именно так и делать, как описано; скажем, GraphPad Prism в руки и вперед.
Balancer> Поглядел. Это же только софт для обсчёта и визуализации. Вопрос же именно в выборе методики оценки.

Это статистический пакет. Я не понимаю, ты не доверяешь Стьюденту или Манну-Уитни?

Balancer> Увы, эксперименты разрабатывает не жена. Да и 7-8 - всё равно мало будет.

Больше- излишняя трата денег. Мыши дорого стоят. Время тоже. Больше 8 мышей, ИМХО - расточительство. 6 - нормально. Мое шефье меня приучило к таким выборкам. 4-5, на самом деле - minimum minimorum, и лучше, если будет таки 6-7.

Vale>> если нормальность не проверена
Balancer> Да какая там нормальность при такой малой выборке и таком разбросе...

Это свойство распределения, а не размера выборки. Скорее всего распределение будет нормальным.

Vale>> Mann-Whitney test.
Balancer> Пошёл копаться.

Еще ра, смотри Prism. Мой основной иструмент для статанализа. Там все есть, в том числе ANOVA, и проверка нормальности.

Есть хорошая книженция George W. Cobb, Introduction to design and analysis if experiments.

Vale #11.10.2010 09:40 @Vale#11.10.2010 09:33

Vale

Сальсолёт

★☆

По твоим данным-

Number of values 5

Minimum 1.000
25% Percentile 3.000
Median 50.00
75% Percentile 500.0
Maximum 700.0

Mean 211.2
Std. Deviation 299.8
Std. Error 134.1

Lower 95% CI of mean -161.0
Upper 95% CI of mean 583.4

KS normality test
KS distance 0.3046
P value P > 0.10
Passed normality test (alpha=0.05)? Yes
P value summary ns

D'Agostino & Pearson omnibus normality test
K2 N too small
P value
Passed normality test (alpha=0.05)?
P value summary

Shapiro-Wilk normality test
W N too small
P value
Passed normality test (alpha=0.05)?
P value summary

Sum 1056

Balancer #11.10.2010 09:41 @Vale#11.10.2010 09:33

Balancer

администратор

★★★★★

Vale> Это статистический пакет.

С таким же успехом ты мог калькулятор посоветовать. Я же интересуюсь не инструментом для расчёта, а методикой.

Balancer>> Да какая там нормальность при такой малой выборке и таком разбросе...
Vale> Это свойство распределения, а не размера выборки.

Я знаю. Но по малой выборке нельзя делать сколь-нибудь достоверных выводов о нормальности распределения процесса в целом.

Balancer>> Пошёл копаться.
Vale> Еще ра, смотри Prism. Мой основной иструмент для статанализа.

Инструмент не важен. Тем более, что Манн-Уитни (уже бегло ознакомился) считается на пальцах. Другое дело, что я так и не понял, как на основе полученного критерия оценивать эффективность. Понятно, что если критерий для двух выборок мал, то эффективность, низка, но насколько? И совсем непонятно, как оценивать именно положительную эффективность, а не отрицательную. Вбиваю две выборки, в одной изображаю рост опухолей после применения препарата, в другой - уменьшение. В итоге получаю равный критерий. Ага, выборки-то различаются. Но в разные же стороны.

Vale> Есть хорошая книженция Geogge W. Cobb, Introduction to design and analysis if experiments.

Ну, это пока явно не для моего уровня владения языком, даже если и нагуглю её где-то.

Mishka #11.10.2010 09:43 @Balancer#11.10.2010 09:14

+1

Mishka

модератор

★★★

Balancer> Давно уже меня корёжит, когда вижу, как жена обсчитывает результаты экспериментов, выявляя эффективность тех или иных соединений.

Ещё одного корёжит.

Меня тоже корёжило всегда. И как психологи обсчитывают свои результаты — тоже корёжит сейчас.

Вале, вопрос не по подсчёту — тут и просто бумажки с карандашиком хватает. А в обосновании применения такой методы. Ты разве не видишь разницы?

Vale #11.10.2010 09:44 @Balancer#11.10.2010 09:41

Vale

Сальсолёт

★☆

У тебя есть нуль-гипотеза - "лекартство не действует, наблюдаемая разница- фигня". По критерию Манн-Уитни (или по Стьюденту) ты проверяешь, насколько вероятно, что эта гипотеза неверна. Чем точнее результат хочешь, тем жестче критерии, тем больше мышей надо убить. Вот и все.

В зависимости от того, нормально разпределены данные или нет или нет данные, ты выбираешь метод.
Если много групп - считаешь дисперсионный анализ, он же ANOVA.

Обоснования - в книжках по статистике.

Шевченко, Богатов, Хрипта, Элементы вариационной статистики для медиков
Лакин Биометрия

ну и нормальные книжки по статистике.

Вообще, анализ мощности надо смотреть при планировании такой работы. Хватит ли применяемых статистических методов для обнаружения ожидаемого результата.

Это сообщение редактировалось 11.10.2010 в 09:52

Balancer #11.10.2010 09:51 @Vale#11.10.2010 09:44

Balancer

администратор

★★★★★

Vale> У тебя есть нуль-гипотеза - "лекартство не действует, наблюдаемая разница- фигня".

Задача стоит в определении эффективности, а не в факте влияния. С фактом влияния - всё понятно, тут Манн-Уитни, судя по всему, хорошо подходит. Но нужно сравнивать эффективность разных препаратов. Что действует сильнее.

Vale> ну и нормальные книжки по статистике.

Эта задача не настолько мне актуальна, чтобы в специализированную литературу зарываться. А уж в иностранную литературу - и подавно

Просто, учитывая отвратительный алгоритмический базис у наших биологов хочется (без особого напряга) немного помочь им.

Vale #11.10.2010 09:54 @Balancer#11.10.2010 09:51

Vale

Сальсолёт

★☆

Balancer> Задача стоит в определении эффективности, а не в факте влияния.

Извини, я сваливаю... Все придумано до нас, не надо изобретать велосипед.

ANOVA with Bonferroni post-test, AFAIK, в таком случае.

Mishka #11.10.2010 09:56 @Balancer#11.10.2010 09:41

Mishka

модератор

★★★

Balancer> С таким же успехом ты мог калькулятор посоветовать. Я же интересуюсь не инструментом для расчёта, а методикой.

Не методикой. А обоснованием её возможности применения. Методика, как раз проста — получили замеры, посчитали. Вале тебе её и описал.

Balancer> Я знаю. Но по малой выборке нельзя делать сколь-нибудь достоверных выводов о нормальности распределения процесса в целом.

Ага. И почему процесс должен быть с нормальным распределением?

Balancer> Ну, это пока явно не для моего уровня владения языком, даже если и нагуглю её где-то.
Там простой техническо-научный язык. Но чего-то по отрывкам я не смог найти никакого обоснования того, почему они так делают. Похоже, что они так делают потому, что по другому не умеют.

Vale #11.10.2010 09:59 @Mishka#11.10.2010 09:56

Vale

Сальсолёт

★☆

Mishka> Ага. И почему процесс должен быть с нормальным распределением?

В данном случае нормальность тоже надо доказывать, но скорее всего - оно таки нормальное. По природе явления.

Мишка, почему и как считаются все эти критерии - это вопрос к математикам. Биолог обязан уметь выбрать правильный критерий, не больше.

Balancer #11.10.2010 10:01 @Mishka#11.10.2010 09:56

+1

Balancer

администратор

★★★★★

Mishka> Не методикой. А обоснованием её возможности применения.

Ну, да

Mishka> Ага. И почему процесс должен быть с нормальным распределением?

Если на некое значение процесса влияет очень много случайных факторов, то некая выборки этого значения будут стремиться к нормальному. Но у нас, безусловно, не та ситуация

Mishka> Похоже, что они так делают потому, что по другому не умеют.

Да, гуглю сейчас по критерию Бонферрони - похоже, вообще никто из применяющих не понимает, что это такое

Vale #11.10.2010 10:05 @Balancer#11.10.2010 10:01

Vale

Сальсолёт

★☆

Balancer> Если на некое значение процесса влияет очень много случайных факторов, то некая выборки этого значения будут стремиться к нормальному. Но у нас, безусловно, не та ситуация

Мне кажется, что твое "безусловно" - ошибочно.

Размер импланта
Место введения (далеко ли место инъекции до сосудов)
Глубина и прочие детали введения
Состояние иммунитета у мыши.

Вот навскидку тебе пучок факторов. Не стандартизуемых.

Balancer #11.10.2010 10:11 @Vale#11.10.2010 10:05

Balancer

администратор

★★★★★

Vale> Мне кажется, что твое "безусловно" - ошибочно.

«Безусловно» относится не к вопросу нормальности выборки, а к вопросу доказательства нормальности.

AidarM #11.10.2010 12:23 @Balancer#11.10.2010 10:01

+1

AidarM

аксакал

★★

Vale>Мишка, почему и как считаются все эти критерии - это вопрос к математикам. Биолог обязан уметь выбрать правильный критерий, не больше.

Так это же самое главное. В данном случае просто математики сделали мат.аппарат раньше, поэтому биологу остается забрать себе нужное. Обосновывать же адекватность выбранной игрушки в биологии - прерогатива биологов.

Balancer> Если на некое значение процесса влияет очень много случайных факторов,

Здесь обязательно нужно добавить: вкладом каждого из которых по отдельности можно пренебречь по сравнению с суммарным результатом.

>то некая выборки этого значения будут стремиться к нормальному.

И тогда да, здравствуй, дедушка Гаусс.

>Но у нас, безусловно, не та ситуация

Не факт, нужно знать характерные величины вкладов каждого из случайных явлений. За этим ИМХО только к биологам, больше не к кому.

varban #11.10.2010 12:55 @Balancer#11.10.2010 10:01

+1

varban

администратор

★★★☆

Mishka>> Ага. И почему процесс должен быть с нормальным распределением?
Balancer> Если на некое значение процесса влияет очень много случайных факторов, то некая выборки этого значения будут стремиться к нормальному. Но у нас, безусловно, не та ситуация

Артиллерия в плане цены единичного эксперимента похожа на биологию - даже среднекалиберный выстрел стоит заводу от сотни баксов :eek:

Число выстрелов - по 5 штук, и только для пульно-вздульных калибров - по 7 или 10.

Распределение... как сказать

Почти все книжки по статистике начинают с примером попадания пуль в мишень. Однако на самом деле распределение - гарантированно НЕ нормальное. Хотя бы из-за износа ствола. Да и прогрев в ходе стрельбы снижает начальную скорость.

Тем не менее срединные отклонения считаются через свойств нормального распределения, поскольку для других видов специального распределения отклонение от среднего будет меньше.

Иными словами, в нашем случае применение свойств нормального распределения идет в запас.

Может поэтому и биологи так поступают?

AidarM #11.10.2010 13:09 @varban#11.10.2010 12:55

AidarM

аксакал

★★

varban> Тем не менее срединные отклонения считаются через свойств нормального распределения, поскольку для других видов специального распределения отклонение от среднего будет меньше.

А не оттого ли меньше, что вы умеете описывать некоторые факторы детерминированно (или оч. близко к этому) , и в итоге оставшиеся имеют куда меньший нормальный разброс? И лишь закрыв глаза на детерминированность, силой запихнув вклад ряда факторов обратно в случайные, вы и получаете более широкий колокол?

Fakir #11.10.2010 13:11 @Mishka#11.10.2010 09:43

Fakir

BlueSkyDreamer

★★★★☆

Mishka> Ещё одного корёжит.

Меня тоже корёжило всегда. И как психологи обсчитывают свои результаты — тоже корёжит сейчас.

Надеюсь, ты теперь понимаешь, как и почему меня корёжило от оценок надёжности космических кораблей с точностью до 3-го знака после запятой

varban #11.10.2010 16:02 @AidarM#11.10.2010 13:09

varban

администратор

★★★☆

AidarM> А не оттого ли меньше, что вы умеете описывать некоторые факторы детерминированно (или оч. близко к этому) , и в итоге оставшиеся имеют куда меньший нормальный разброс? И лишь закрыв глаза на детерминированность, силой запихнув вклад ряда факторов обратно в случайные, вы и получаете более широкий колокол?

А это вопрос формулировки. Можно и так сказать

Потому что когда понадобилось заменить устройство измерения начальной скорости зенитной пушки програмным модулем, расчитывающий начальную скорость по предысторию стрельбы, справились без лишней крови

Vale #11.10.2010 16:13 @Fakir#11.10.2010 13:11

Vale

Сальсолёт

★☆

Fakir> Надеюсь, ты теперь понимаешь, как и почему меня корёжило от оценок надёжности космических кораблей с точностью до 3-го знака после запятой

Фейнман очень хорошо описал, откуда три знака берутся.

Mishka #11.10.2010 18:33 @Vale#11.10.2010 09:59

+1

Mishka

модератор

★★★

Vale> В данном случае нормальность тоже надо доказывать, но скорее всего - оно таки нормальное. По природе явления.

Надо, ещё как надо. И тут нет простого пути.

Vale> Мишка, почему и как считаются все эти критерии - это вопрос к математикам. Биолог обязан уметь выбрать правильный критерий, не больше.

Не, математики дают метод и правила применения с оценкой возможной ошибки. При этом иногда (далеко не всегда) даётся оценка неверности результатов при применении метода не совсем корректно. Физики (по крайне мере, понимающие немного математику), строя модель и применяя метод не совсем корректно, оговаривают, что другого способа нет, но может что-то и получиться. Кстати, эту особенность иногда молча опускают, что делает обучение легче. Потом они пытаются это дело исправить. Т.е. они, создавая модель для описания-изучения обосновывают применение метода. Рому интересует именно этот процесс. К сожалению, я не нашёл такого обоснования у биологов.

Они просто берут часто простейшие методы и применяют. Думаю, что можно спросить того же Руссо, его учили матстатистике, но, наверняка, не учили обосновывать применение в модели.

Mishka #11.10.2010 18:34 @Balancer#11.10.2010 10:01

Mishka

модератор

★★★

Balancer> Если на некое значение процесса влияет очень много случайных факторов, то некая выборки этого значения будут стремиться к нормальному. Но у нас, безусловно, не та ситуация

Не, Ром, это не так. Поиски описания распределения плотности интернетного трафика тому доказательство. Вовсе не нормальное.

Mishka #11.10.2010 18:38 @AidarM#11.10.2010 12:23

Mishka

модератор

★★★

AidarM> Не факт, нужно знать характерные величины вкладов каждого из случайных явлений. За этим ИМХО только к биологам, больше не к кому.
Дык, в том и проблема, что они это пытаются найти. По крайней мере, я так понял про эффективность лекарства. А это одна из главных состовляющих.

Хм, тут даже разрез может давать вклад, ИМХО. Т.е. надо свести вклад к некой постоянно. Иначе говоря, зафиксировать и не менять. А как? Оперирует не автомат... Да и мышки отличаются по весу, особенностями, etc.

Mishka #11.10.2010 18:42 @Fakir#11.10.2010 13:11

Mishka

модератор

★★★

Fakir> Надеюсь, ты теперь понимаешь, как и почему меня корёжило от оценок надёжности космических кораблей с точностью до 3-го знака после запятой

Не, там не особо меня напрягало.

Там математически нормально. И даже правила применения выглядели нормально.

Что, конечно, не говорит, что модель соответствует. Но там эта такая метрика чисто вероятностного толка, которую надо учиться понимать. Потому и говорят, что три 9 достигается относительно дёшево, а вот пять 9 — очень трудно и дорого.