psilogic: (Default)
psilogic ([personal profile] psilogic) wrote2008-09-22 09:55 pm

Глупый вопрос

Зверски туплю, но вдруг кто помнит:
- почему в формуле дисперсии сумму делят то на N, то на N - 1 и как правильнее?

[identity profile] agasfer.livejournal.com 2008-09-22 05:59 pm (UTC)(link)
делят на N, чтоб получить стандартную ошибку, делят на N-1 чтоб получить стандартное отклонение.

Погуглите на stsndard error и standard deviation, все станет ясно.

[identity profile] psilogic.livejournal.com 2008-09-22 06:27 pm (UTC)(link)
спасибо! :)

[identity profile] sanitareugen.livejournal.com 2008-09-23 06:48 am (UTC)(link)
Это неверно.

[identity profile] dzhin-dzhit.livejournal.com 2008-09-22 06:06 pm (UTC)(link)
В дисперсии чего? При биометрическом анализе? "выцарапывается из склероза"

[identity profile] psilogic.livejournal.com 2008-09-22 06:10 pm (UTC)(link)
в дисперсии любой случайной величины

Оно? Или я совсем нитудыть?

[identity profile] dzhin-dzhit.livejournal.com 2008-09-22 06:12 pm (UTC)(link)
Дисперсия.

Зачастую бывает так, что у на вариационном ряду явно прослеживаются два пика, и среднее арифметическое попадает в "провал" между ними. При этом могут имеються две выборки, имеющие абсолютно одинаковые лимиты, размах вариации и среднее арифметическое, но вариационные ряды которых резко отличаются : у одной может быть только один пик, на который и приходится среднее арифметическое, у другой же - два пика, и среднее арифметическое приходится на провал. Каким же образом определить насколько близко к истинному пику средняя арифметическая, не строя вариационный ряд ? Для этого вычисляют : насколько каждая из величин выборки отличается от средней, и чем больше получается полученная величина, тем сильнее рессеяние выборки. Если руководствоваться данными умозаключениями, то формула для вычисления отклонения должна была бы быть
Формула ля вычиления отклонений

Однако полученная величина не будет точно отражать степень варьирования признака, так так при увиличении объема выборки, будет неизменно расти, поэтому разумнее было бы привязать эту величину к объему выборки таким образом, чтобы она не зависила от объема выборки. Самое простое - разделить полученную величину на объем выборки.
Формула ля вычиления отклонений

Данная формула как раз и используется в социологии, когда анализируются данные различного рода демографические показатели, а в биометрии в основном используется в качестве знаменателя не N, а N-1, так называемое число степеней свободы вариации (впервые этот термин ввел в биометрию Фишер). Понять его довольно сложно. Допустим у нас имеется некая выборка и мы расчитываем расброс ее вариант. Первая величина этой выборки может быть любой, вторая тоже, третья... и так до последней. Последняя величина строго определена таким образом, чтобы средняя арифметическая, вычисленная по данной выборке, не изменилась.

Re: Оно? Или я совсем нитудыть?

[identity profile] shultz-flory.livejournal.com 2008-09-22 06:22 pm (UTC)(link)
Туды. «Несмещённая оценка» называется. http://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D1%81%D0%BC%D0%B5%D1%89%D1%91%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B0

[identity profile] psilogic.livejournal.com 2008-09-22 06:28 pm (UTC)(link)
И вам спасибо :)

Re: Оно? Или я совсем нитудыть?

[identity profile] psilogic.livejournal.com 2008-09-22 06:27 pm (UTC)(link)
"Понять его довольно сложно" - вот где-то там дальше должно быть оно. Спасибо за попытку помочь, вроде бы нашел :)

Re: Оно? Или я совсем нитудыть?

[identity profile] dzhin-dzhit.livejournal.com 2008-09-22 06:29 pm (UTC)(link)
Угу. "уходит вешаться" Это вообще моя специальность, но за год я умудрилась забыть ВСЁ.

Re: Оно? Или я совсем нитудыть?

[identity profile] psilogic.livejournal.com 2008-09-22 06:54 pm (UTC)(link)
Как будущий психолух успокою вас: то, что не используется, быстро забывается - это закон природы. :)))

Re: Оно? Или я совсем нитудыть?

[identity profile] dzhin-dzhit.livejournal.com 2008-09-22 06:56 pm (UTC)(link)
Ну разве что. Вилкой и ножом я до сих пор профессионально пользуюсь. :)))))

(Anonymous) 2008-09-22 06:34 pm (UTC)(link)
agasfer пиздит

На n-1 сумму квадратов отклонений делят, чтобы получить несмещенную оценку дисперсии, а на n - чтобы получить эффективную оценку дисперсии (=оценку максимального правдоподобия второго параметра нормального закона).

В практических формулах похуй, на что делить.

А стандартное отклонение получается взятием корня из оценки дисперсии.

terrible_volk

[identity profile] kelavrik-0.livejournal.com 2008-09-22 07:50 pm (UTC)(link)
Если у тебя среднее взято из выборки, то правильно делить на N-1. Если среднее берётся из теоретических соображений (точнее априорно), то надо делить на N.

А вообще, всё это фигня. Если у тебя сотня точек, то без разницы на что делить. И вообще, среднее квадратичное отклонение обычно используют для оценки ошибок. Но допущения при этой оценке много грубее разницы между 1/N и 1/(N+1)

В формуле расчёта дисперсии используется...

[identity profile] sanitareugen.livejournal.com 2008-09-23 06:55 am (UTC)(link)
...значение матожидания случайной величины. Если оно нам известно, то делить надо на N. Однако на практике мы его обычно не знаем, и заменяем средним по данной выборке. Очевидно, это приводит к занижению суммы квадратов по сравнению с использованием истинного значения МО.
Пример: истинное МО=0, случайные величины (-1; 1; 3), их среднее=1.
Сумма квадратов относительно МО есть 1+1+9=11, относительно среднего - 2+0+4=8
Требуя, чтобы матожидание оценки дисперсии было равно истинной дисперсии (т.е. чтобы оценка была "несмещённой"), получаем поправочный множитель N/(N-1) или, упрощая формулу - "делим на N-1".
Т.е. на N-1 надо делить всегда, когда используем не истинное (или полученное независимой от данной выборки оценкой) матожидание, а его оценку по данной выборке.
Надо отметить, что можно требовать не несмещённости, а выполнения других критериев. Например, критерий "максимального правдоподобия" и при среднем даёт делитель N, а "минимума квадратичной ошибки" и вообще приводит к использованию (N+1). Однако они менее употребительны.

Очепятка:

[identity profile] sanitareugen.livejournal.com 2008-09-23 06:56 am (UTC)(link)
Вместо
2+0+4=8 следует читать 4+0+4=8

Re: В формуле расчёта дисперсии используется...

[identity profile] psilogic.livejournal.com 2008-09-23 07:52 am (UTC)(link)
Замечательное объяснение. :)

Re: В формуле расчёта дисперсии используется...

[identity profile] termometr.livejournal.com 2008-09-23 04:49 pm (UTC)(link)
главное - правильное