Зачастую бывает так, что у на вариационном ряду явно прослеживаются два пика, и среднее арифметическое попадает в "провал" между ними. При этом могут имеються две выборки, имеющие абсолютно одинаковые лимиты, размах вариации и среднее арифметическое, но вариационные ряды которых резко отличаются : у одной может быть только один пик, на который и приходится среднее арифметическое, у другой же - два пика, и среднее арифметическое приходится на провал. Каким же образом определить насколько близко к истинному пику средняя арифметическая, не строя вариационный ряд ? Для этого вычисляют : насколько каждая из величин выборки отличается от средней, и чем больше получается полученная величина, тем сильнее рессеяние выборки. Если руководствоваться данными умозаключениями, то формула для вычисления отклонения должна была бы быть Формула ля вычиления отклонений
Однако полученная величина не будет точно отражать степень варьирования признака, так так при увиличении объема выборки, будет неизменно расти, поэтому разумнее было бы привязать эту величину к объему выборки таким образом, чтобы она не зависила от объема выборки. Самое простое - разделить полученную величину на объем выборки. Формула ля вычиления отклонений
Данная формула как раз и используется в социологии, когда анализируются данные различного рода демографические показатели, а в биометрии в основном используется в качестве знаменателя не N, а N-1, так называемое число степеней свободы вариации (впервые этот термин ввел в биометрию Фишер). Понять его довольно сложно. Допустим у нас имеется некая выборка и мы расчитываем расброс ее вариант. Первая величина этой выборки может быть любой, вторая тоже, третья... и так до последней. Последняя величина строго определена таким образом, чтобы средняя арифметическая, вычисленная по данной выборке, не изменилась.
На n-1 сумму квадратов отклонений делят, чтобы получить несмещенную оценку дисперсии, а на n - чтобы получить эффективную оценку дисперсии (=оценку максимального правдоподобия второго параметра нормального закона).
В практических формулах похуй, на что делить.
А стандартное отклонение получается взятием корня из оценки дисперсии.
Если у тебя среднее взято из выборки, то правильно делить на N-1. Если среднее берётся из теоретических соображений (точнее априорно), то надо делить на N.
А вообще, всё это фигня. Если у тебя сотня точек, то без разницы на что делить. И вообще, среднее квадратичное отклонение обычно используют для оценки ошибок. Но допущения при этой оценке много грубее разницы между 1/N и 1/(N+1)
...значение матожидания случайной величины. Если оно нам известно, то делить надо на N. Однако на практике мы его обычно не знаем, и заменяем средним по данной выборке. Очевидно, это приводит к занижению суммы квадратов по сравнению с использованием истинного значения МО. Пример: истинное МО=0, случайные величины (-1; 1; 3), их среднее=1. Сумма квадратов относительно МО есть 1+1+9=11, относительно среднего - 2+0+4=8 Требуя, чтобы матожидание оценки дисперсии было равно истинной дисперсии (т.е. чтобы оценка была "несмещённой"), получаем поправочный множитель N/(N-1) или, упрощая формулу - "делим на N-1". Т.е. на N-1 надо делить всегда, когда используем не истинное (или полученное независимой от данной выборки оценкой) матожидание, а его оценку по данной выборке. Надо отметить, что можно требовать не несмещённости, а выполнения других критериев. Например, критерий "максимального правдоподобия" и при среднем даёт делитель N, а "минимума квадратичной ошибки" и вообще приводит к использованию (N+1). Однако они менее употребительны.
no subject
Date: 2008-09-22 05:59 pm (UTC)Погуглите на stsndard error и standard deviation, все станет ясно.
no subject
Date: 2008-09-22 06:27 pm (UTC)no subject
Date: 2008-09-23 06:48 am (UTC)no subject
Date: 2008-09-22 06:06 pm (UTC)no subject
Date: 2008-09-22 06:10 pm (UTC)Оно? Или я совсем нитудыть?
Date: 2008-09-22 06:12 pm (UTC)Зачастую бывает так, что у на вариационном ряду явно прослеживаются два пика, и среднее арифметическое попадает в "провал" между ними. При этом могут имеються две выборки, имеющие абсолютно одинаковые лимиты, размах вариации и среднее арифметическое, но вариационные ряды которых резко отличаются : у одной может быть только один пик, на который и приходится среднее арифметическое, у другой же - два пика, и среднее арифметическое приходится на провал. Каким же образом определить насколько близко к истинному пику средняя арифметическая, не строя вариационный ряд ? Для этого вычисляют : насколько каждая из величин выборки отличается от средней, и чем больше получается полученная величина, тем сильнее рессеяние выборки. Если руководствоваться данными умозаключениями, то формула для вычисления отклонения должна была бы быть
Формула ля вычиления отклонений
Однако полученная величина не будет точно отражать степень варьирования признака, так так при увиличении объема выборки, будет неизменно расти, поэтому разумнее было бы привязать эту величину к объему выборки таким образом, чтобы она не зависила от объема выборки. Самое простое - разделить полученную величину на объем выборки.
Формула ля вычиления отклонений
Данная формула как раз и используется в социологии, когда анализируются данные различного рода демографические показатели, а в биометрии в основном используется в качестве знаменателя не N, а N-1, так называемое число степеней свободы вариации (впервые этот термин ввел в биометрию Фишер). Понять его довольно сложно. Допустим у нас имеется некая выборка и мы расчитываем расброс ее вариант. Первая величина этой выборки может быть любой, вторая тоже, третья... и так до последней. Последняя величина строго определена таким образом, чтобы средняя арифметическая, вычисленная по данной выборке, не изменилась.
Re: Оно? Или я совсем нитудыть?
Date: 2008-09-22 06:22 pm (UTC)no subject
Date: 2008-09-22 06:28 pm (UTC)Re: Оно? Или я совсем нитудыть?
Date: 2008-09-22 06:27 pm (UTC)Re: Оно? Или я совсем нитудыть?
Date: 2008-09-22 06:29 pm (UTC)Re: Оно? Или я совсем нитудыть?
Date: 2008-09-22 06:54 pm (UTC)Re: Оно? Или я совсем нитудыть?
Date: 2008-09-22 06:56 pm (UTC)no subject
Date: 2008-09-22 06:34 pm (UTC)На n-1 сумму квадратов отклонений делят, чтобы получить несмещенную оценку дисперсии, а на n - чтобы получить эффективную оценку дисперсии (=оценку максимального правдоподобия второго параметра нормального закона).
В практических формулах похуй, на что делить.
А стандартное отклонение получается взятием корня из оценки дисперсии.
terrible_volk
no subject
Date: 2008-09-22 07:50 pm (UTC)А вообще, всё это фигня. Если у тебя сотня точек, то без разницы на что делить. И вообще, среднее квадратичное отклонение обычно используют для оценки ошибок. Но допущения при этой оценке много грубее разницы между 1/N и 1/(N+1)
В формуле расчёта дисперсии используется...
Date: 2008-09-23 06:55 am (UTC)Пример: истинное МО=0, случайные величины (-1; 1; 3), их среднее=1.
Сумма квадратов относительно МО есть 1+1+9=11, относительно среднего - 2+0+4=8
Требуя, чтобы матожидание оценки дисперсии было равно истинной дисперсии (т.е. чтобы оценка была "несмещённой"), получаем поправочный множитель N/(N-1) или, упрощая формулу - "делим на N-1".
Т.е. на N-1 надо делить всегда, когда используем не истинное (или полученное независимой от данной выборки оценкой) матожидание, а его оценку по данной выборке.
Надо отметить, что можно требовать не несмещённости, а выполнения других критериев. Например, критерий "максимального правдоподобия" и при среднем даёт делитель N, а "минимума квадратичной ошибки" и вообще приводит к использованию (N+1). Однако они менее употребительны.
Очепятка:
Date: 2008-09-23 06:56 am (UTC)2+0+4=8 следует читать 4+0+4=8
Re: В формуле расчёта дисперсии используется...
Date: 2008-09-23 07:52 am (UTC)Re: В формуле расчёта дисперсии используется...
Date: 2008-09-23 04:49 pm (UTC)