psilogic: (Default)
[personal profile] psilogic
Зверски туплю, но вдруг кто помнит:
- почему в формуле дисперсии сумму делят то на N, то на N - 1 и как правильнее?

Date: 2008-09-22 05:59 pm (UTC)
From: [identity profile] agasfer.livejournal.com
делят на N, чтоб получить стандартную ошибку, делят на N-1 чтоб получить стандартное отклонение.

Погуглите на stsndard error и standard deviation, все станет ясно.

Date: 2008-09-22 06:27 pm (UTC)
From: [identity profile] psilogic.livejournal.com
спасибо! :)

Date: 2008-09-23 06:48 am (UTC)
From: [identity profile] sanitareugen.livejournal.com
Это неверно.

Date: 2008-09-22 06:06 pm (UTC)
From: [identity profile] dzhin-dzhit.livejournal.com
В дисперсии чего? При биометрическом анализе? "выцарапывается из склероза"

Date: 2008-09-22 06:10 pm (UTC)
From: [identity profile] psilogic.livejournal.com
в дисперсии любой случайной величины

Оно? Или я совсем нитудыть?

Date: 2008-09-22 06:12 pm (UTC)
From: [identity profile] dzhin-dzhit.livejournal.com
Дисперсия.

Зачастую бывает так, что у на вариационном ряду явно прослеживаются два пика, и среднее арифметическое попадает в "провал" между ними. При этом могут имеються две выборки, имеющие абсолютно одинаковые лимиты, размах вариации и среднее арифметическое, но вариационные ряды которых резко отличаются : у одной может быть только один пик, на который и приходится среднее арифметическое, у другой же - два пика, и среднее арифметическое приходится на провал. Каким же образом определить насколько близко к истинному пику средняя арифметическая, не строя вариационный ряд ? Для этого вычисляют : насколько каждая из величин выборки отличается от средней, и чем больше получается полученная величина, тем сильнее рессеяние выборки. Если руководствоваться данными умозаключениями, то формула для вычисления отклонения должна была бы быть
Формула ля вычиления отклонений

Однако полученная величина не будет точно отражать степень варьирования признака, так так при увиличении объема выборки, будет неизменно расти, поэтому разумнее было бы привязать эту величину к объему выборки таким образом, чтобы она не зависила от объема выборки. Самое простое - разделить полученную величину на объем выборки.
Формула ля вычиления отклонений

Данная формула как раз и используется в социологии, когда анализируются данные различного рода демографические показатели, а в биометрии в основном используется в качестве знаменателя не N, а N-1, так называемое число степеней свободы вариации (впервые этот термин ввел в биометрию Фишер). Понять его довольно сложно. Допустим у нас имеется некая выборка и мы расчитываем расброс ее вариант. Первая величина этой выборки может быть любой, вторая тоже, третья... и так до последней. Последняя величина строго определена таким образом, чтобы средняя арифметическая, вычисленная по данной выборке, не изменилась.
From: [identity profile] shultz-flory.livejournal.com
Туды. «Несмещённая оценка» называется. http://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D1%81%D0%BC%D0%B5%D1%89%D1%91%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B0

Date: 2008-09-22 06:28 pm (UTC)
From: [identity profile] psilogic.livejournal.com
И вам спасибо :)
From: [identity profile] psilogic.livejournal.com
"Понять его довольно сложно" - вот где-то там дальше должно быть оно. Спасибо за попытку помочь, вроде бы нашел :)
From: [identity profile] dzhin-dzhit.livejournal.com
Угу. "уходит вешаться" Это вообще моя специальность, но за год я умудрилась забыть ВСЁ.
From: [identity profile] psilogic.livejournal.com
Как будущий психолух успокою вас: то, что не используется, быстро забывается - это закон природы. :)))
From: [identity profile] dzhin-dzhit.livejournal.com
Ну разве что. Вилкой и ножом я до сих пор профессионально пользуюсь. :)))))

Date: 2008-09-22 06:34 pm (UTC)
From: (Anonymous)
agasfer пиздит

На n-1 сумму квадратов отклонений делят, чтобы получить несмещенную оценку дисперсии, а на n - чтобы получить эффективную оценку дисперсии (=оценку максимального правдоподобия второго параметра нормального закона).

В практических формулах похуй, на что делить.

А стандартное отклонение получается взятием корня из оценки дисперсии.

terrible_volk

Date: 2008-09-22 07:50 pm (UTC)
From: [identity profile] kelavrik-0.livejournal.com
Если у тебя среднее взято из выборки, то правильно делить на N-1. Если среднее берётся из теоретических соображений (точнее априорно), то надо делить на N.

А вообще, всё это фигня. Если у тебя сотня точек, то без разницы на что делить. И вообще, среднее квадратичное отклонение обычно используют для оценки ошибок. Но допущения при этой оценке много грубее разницы между 1/N и 1/(N+1)
From: [identity profile] sanitareugen.livejournal.com
...значение матожидания случайной величины. Если оно нам известно, то делить надо на N. Однако на практике мы его обычно не знаем, и заменяем средним по данной выборке. Очевидно, это приводит к занижению суммы квадратов по сравнению с использованием истинного значения МО.
Пример: истинное МО=0, случайные величины (-1; 1; 3), их среднее=1.
Сумма квадратов относительно МО есть 1+1+9=11, относительно среднего - 2+0+4=8
Требуя, чтобы матожидание оценки дисперсии было равно истинной дисперсии (т.е. чтобы оценка была "несмещённой"), получаем поправочный множитель N/(N-1) или, упрощая формулу - "делим на N-1".
Т.е. на N-1 надо делить всегда, когда используем не истинное (или полученное независимой от данной выборки оценкой) матожидание, а его оценку по данной выборке.
Надо отметить, что можно требовать не несмещённости, а выполнения других критериев. Например, критерий "максимального правдоподобия" и при среднем даёт делитель N, а "минимума квадратичной ошибки" и вообще приводит к использованию (N+1). Однако они менее употребительны.

Очепятка:

Date: 2008-09-23 06:56 am (UTC)
From: [identity profile] sanitareugen.livejournal.com
Вместо
2+0+4=8 следует читать 4+0+4=8
Page generated Sep. 13th, 2025 10:08 pm
Powered by Dreamwidth Studios