что означает размах в статистике
Вариация, размах, межквартильный размах, среднее линейное отклонение
В этой статье мы приступим к изучению показателей вариации: размах вариации, межквартильный размах, среднее линейное отклонение.
В математической статистике вариация занимает одно из центральных мест. Что же такое вариация? Это изменчивость. Вариация показателя – изменчивость показателя.
Показатели вариации дают очень важную характеристику процессам и явлениям. Они отражают устойчивость процессов и однородность явлений. Чем меньше показатель вариации, тем более процесс устойчивый, а значит, и более предсказуемый.
Показатели вариации отражают не отдельно взятые значения, а дают характеристику некоторому явлению или процессу в целом. Имея в наличии показатели среднего значения и вариации, можно получить первичное представление о характере данных. Средняя – это обобщающий уровень, а вариация характеризует, насколько среднее значение (или другой показатель) хорошо обобщает значения некоторой совокупности данных. Если показатель вариации незначительный, то значения совокупности находятся близко к среднему, следовательно, среднее значение хорошо обобщает совокупность. Если вариация большая, то среднее значение плохо обобщает данные (значения разбросаны далеко друг от друга), и получается «средняя температура по больнице».
Размах вариации
Размах вариации – разница между максимальным и минимальным значением:
Ниже приведена графическая интерпретация размаха вариации.
Видно максимальное и минимальное значение, а также расстояние между ними, которое и соответствует размаху вариации.
С одной стороны, показатель размаха может быть вполне информативным и полезным. К примеру, максимальная и минимальная стоимость квартиры в городе N, максимальная и минимальная зарплата по профессии в регионе и проч. С другой стороны, размах может быть очень широким и не иметь практического смысла, т.к. зависит лишь от двух наблюдений. Таким образом, размах вариации очень неустойчивая величина.
Межквартильный размах
В статистике для анализа выборки часто прибегают к другому показателю вариации – межквартильному размаху. Квартиль – это то значение, которые делит ранжированные (отсортированные) данные на части, кратные одной четверти, или 25%. Так, 1-й квартиль – это значение, ниже которого находится 25% совокупности. 2-й квартиль делит совокупность данных пополам (то бишь медиана), ну и 3-й квартиль отделяет 25% наибольших значений. Так вот межквартильный размах – это разница между 3-м и 1-м квартилями. У данного показателя есть одно неоспоримое преимущество: он является робастным, т.е. не зависит от аномальных отклонений.
Наглядное отображение размаха вариации и межкварительного расстояния производят с помощью диаграммы «ящик с усами».
Среднее линейное отклонение
Есть показатели вариации, которые учитывают сразу все значения, а не только отдельные наблюдения (типа максимума или минимума). Одним из таких является среднее линейное отклонение. Этот показатель характеризует меру разброса значений вокруг их среднего. В чем суть? Для того, чтобы показать меру разброса данных, нужно вначале определиться, относительно чего этот самый разброс будет считаться. Обычно это среднее арифметическое. Далее нужно посчитать, насколько каждое значение отклоняется от средней. Нас интересует среднее из таких отклонений. Однако напрямую складывать положительные и отрицательные отклонения нельзя, т.к. они взаимоуничтожатся и их сумма будет равна нулю. Поэтому все отклонения берутся по модулю. Средне линейное отклонение рассчитывается по формуле:
a – среднее линейное отклонение,
X – анализируемый показатель,
X̅ – среднее значение показателя,
n – количество значений в анализируемой совокупности данных.
Рассчитанное по этой формуле значение показывает среднее абсолютное отклонение от средней арифметической. Наглядная картинка в помощь.
Отклонения каждого наблюдения от среднего указаны маленькими стрелочками. Именно они берутся по модулю и суммируются. Потом все делится на количество значений.
Для полноты картины нужно привести еще и пример. Допустим, имеется фирма по производству черенков для лопат. Каждый черенок должен быть 1,5 метра длиной, но, что еще важней, все должны быть одинаковыми или, по крайней мере, плюс-минус 5 см. Однако нерадивые работники то 1,2 м отпилят, то 1,8 м. Дачники недовольны. Решил директор провести статистический анализ длины черенков. Отобрал 10 штук и замерил их длину, нашел среднюю и рассчитал среднее линейное отклонение. Средняя получилась как раз, что надо – 1,5 м. А вот среднее линейное отклонение вышло 0,16 м. Вот и получается, что каждый черенок длиннее или короче, чем нужно, в среднем на 16 см. Есть, о чем поговорить с работниками.
На этом сегодняшнюю заметку закончим. В следующей статье будут рассмотрены такие показатели вариации, как дисперсия, среднеквадратичное отклонение и коэффициент вариации.
Элементы статистики
Продолжаем изучать элементарные задачи по математике. Сегодня мы поговорим о статистике.
Статистика — это раздел математики в котором изучаются вопросы сбора, измерения и анализа информации, представленной в числовой форме. Происходит слово статистика от латинского слова status (состояние или положение дел).
Так, с помощью статистики мы можем узнать свое положение дел, касающихся финансов. С начала месяца можно вести дневник расходов и по окончании месяца, воспользовавшись статистикой, узнать сколько денег в среднем мы тратили каждый день или какая потраченная сумма была наибольшей в этом месяце либо узнать какую сумму мы тратили наиболее часто.
На основе этой информации можно провести анализ и сделать определенные выводы: следует ли в следующем месяце немного сбавить аппетит, чтобы тратить меньше денег, либо наоборот позволить себе не только хлеб с водой, но и колбасу.
Выборка. Объем. Размах
Что такое выборка? Если говорить простым языком, то это отобранная нами информация для исследования. Например, мы можем сформировать следующую выборку — суммы денег, потраченных в каждый из шести дней. Давайте нарисуем таблицу в которую занесем расходы за шесть дней
Выборка состоит из n-элементов. Вместо переменной n может стоять любое число. У нас имеется шесть элементов, поэтому переменная n равна 6
Элементы выборки обозначаются с помощью переменных с индексами . Последний
элемент является шестым элементом выборки, поэтому вместо n будет стоять число 6.
Обозначим элементы нашей выборки через переменные
Количество элементов выборки называют объемом выборки. В нашем случае объем равен шести.
Размахом выборки называют разницу между самым большим и маленьким элементом выборки.
Среднее арифметическое
Понятие среднего значения часто используется в повседневной жизни.
Речь идет о среднем арифметическом — результате деления суммы элементов выборки на их количество.
Среднее арифметическое — это результат деления суммы элементов выборки на их количество.
Вернемся к нашему примеру
Узнаем сколько в среднем мы тратили в каждом из шести дней:
Средняя скорость движения
При изучении задач на движение мы определяли скорость движения следующим образом: делили пройденное расстояние на время. Но тогда подразумевалось, что тело движется с постоянной скоростью, которая не менялась на протяжении всего пути.
В реальности, это происходит довольно редко или не происходит совсем. Тело, как правило, движется с различной скоростью.
Когда мы ездим на автомобиле или велосипеде, наша скорость часто меняется. Когда впереди нас помехи, нам приходиться сбавлять скорость. Когда же трасса свободна, мы ускоряемся. При этом за время нашего ускорения скорость изменяется несколько раз.
Речь идет о средней скорости движения. Чтобы её определить нужно сложить скорости движения, которые были в каждом часе/минуте/секунде и результат разделить на время движения.
Задача 1. Автомобиль первые 3 часа двигался со скоростью 66,2 км/ч, а следующие 2 часа — со скоростью 78,4 км/ч. С какой средней скоростью он ехал?
Сложим скорости, которые были у автомобиля в каждом часе и разделим на время движения (5ч)
Значит автомобиль ехал со средней скоростью 71,08 км/ч.
Определять среднюю скорость можно и по другому — сначала найти расстояния, пройденные с одной скоростью, затем сложить эти расстояния и результат разделить на время. На рисунке видно, что первые три часа скорость у автомобиля не менялась. Тогда можно найти расстояние, пройденное за три часа:
Аналогично можно определить расстояние, которое было пройдено со скоростью 78,4 км/ч. В задаче сказано, что с такой скоростью автомобиль двигался 2 часа:
Сложим эти расстояния и результат разделим на 5
Задача 2. Велосипедист за первый час проехал 12,6 км, а в следующие 2 часа он ехал со скоростью 13,5 км/ч. Определить среднюю скорость велосипедиста.
Скорость велосипедиста в первый час составляла 12,6 км/ч. Во второй и третий час он ехал со скоростью 13,5. Определим среднюю скорость движения велосипедиста:
Мода и медиана
Модой называют элемент, который встречается в выборке чаще других.
Рассмотрим следующую выборку: шестеро спортсменов, а также время в секундах за которое они пробегают 100 метров
Элемент 14 встречается в выборке чаще других, поэтому элемент 14 назовем модой.
Рассмотрим еще одну выборку. Тех же спортсменов, а также смартфоны, которые им принадлежат
Элемент iphone встречается в выборке чаще других, значит элемент iphone является модой. Говоря простым языком, носить iphone модно.
Конечно элементы выборки в этот раз выражены не числами, а другими объектами (смартфонами), но для общего представления о моде этот пример вполне приемлем.
Рассмотрим следующую выборку: семеро спортсменов, а также их рост в сантиметрах:
Упорядочим данные в таблице так, чтобы рост спортсменов шел по возрастанию. Другими словами, построим спортсменов по росту:
Выпишем рост спортсменов отдельно:
В получившейся выборке 7 элементов. Посередине этой выборки располагается элемент 184. Слева и справа от него по три элемента. Такой элемент как 184 называют медианой упорядоченной выборки.
Медианой упорядоченной выборки называют элемент, располагающийся посередине.
Отметим, что данное определение справедливо в случае, если количество элементов упорядоченной выборки является нечётным.
В рассмотренном выше примере, количество элементов упорядоченной выборки было нечётным. Это позволило нам быстро указать медиану
Но возможны случаи, когда количество элементов выборки чётно.
К примеру, рассмотрим выборку в которой не семеро спортсменов, а шестеро:
Построим этих шестерых спортсменов по росту:
Выпишем рост спортсменов отдельно:
180, 182, 184, 186, 188, 190
В данной выборке не получается указать элемент, который находился бы посередине. Если указать элемент 184 как медиану, то слева от этого элемента будут располагаться два элемента, а справа — три. Если как медиану указать элемент 186, то слева от этого элемента будут располагаться три элемента, а справа — два.
В таких случаях для определения медианы выборки, нужно взять два элемента выборки, находящихся посередине и найти их среднее арифметическое. Полученный результат будет являться медианой.
Вернемся к нашим спортсменам. В упорядоченной выборке 180, 182, 184, 186, 188, 190 посередине располагаются элементы 184 и 186
Найдем среднее арифметическое элементов 184 и 186
Элемент 185 является медианой выборки, несмотря на то, что этот элемент не является членом исходной и упорядоченной выборки. Спортсмена с ростом 185 нет среди остальных спортсменов. Рост в 185 см используется в данном случае для статистики, чтобы можно было сказать о том, что срединный рост спортсменов составляет 185 см.
Поэтому более точное определение медианы зависит от количества элементов в выборке.
Если количество элементов упорядоченной выборки нечётно, то медианой выборки называют элемент, располагающийся посередине.
Если количество элементов упорядоченной выборки чётно, то медианой выборки называют среднее арифметическое двух чисел, располагающихся посередине этой выборки.
Медиана и среднее арифметическое по сути являются «близкими родственниками», поскольку и то и другое используют для определения среднего значения. Например, для предыдущей упорядоченной выборки 180, 182, 184, 186, 188, 190 мы определили медиану, равную 185. Этот же результат можно получить путем определения среднего арифметического элементов 180, 182, 184, 186, 188, 190
Но медиана в некоторых случаях отражает более реальную ситуацию. Например, рассмотрим следующий пример:
Было подсчитано количество имеющихся очков у каждого спортсмена. В результате получилась следующая выборка:
0, 1, 1, 1, 2, 1, 2, 3, 5, 4, 5, 0, 1, 6, 1
Определим среднее арифметическое для данной выборки — получим значение 2,2
По данному значению можно сказать, что в среднем у спортсменов 2,2 очка
Теперь определим медиану для этой же выборки. Упорядочим элементы выборки и укажем элемент, находящийся посередине:
В данном примере медиана лучше отражает реальную ситуацию, поскольку половина спортсменов имеет не более одного очка.
Частота
Частота это число, которое показывает сколько раз в выборке встречается тот или иной элемент.
Предположим, что в школе проходят соревнования по подтягиваниям. В соревнованиях участвует 36 школьников. Составим таблицу в которую будем заносить число подтягиваний, а также число участников, которые выполнили столько подтягиваний.
По таблице можно узнать сколько человек выполнило 5, 10 или 15 подтягиваний. Так, 5 подтягиваний выполнили четыре человека, 10 подтягиваний выполнили восемь человек, 15 подтягиваний выполнили три человека.
Количество человек, повторяющих одно и то же число подтягиваний в данном случае являются частотой. Поэтому вторую строку таблицы переименуем в название «частота»:
Такие таблицы называют таблицами частот.
Частота обладает следующим свойством: сумма частот равна общему числу данных в выборке.
Это означает, что сумма частот равна общему числу школьников, участвующих в соревнованиях, то есть тридцати шести. Проверим так ли это. Сложим частоты, приведенные в таблице:
4 + 5 + 10 + 8 + 6 + 3 = 36
Относительная частота
Относительная частота это в принципе та же самая частота, которая была рассмотрена ранее, но только выраженная в процентах.
Относительная частота равна отношению частоты на общее число элементов выборки.
Вернемся к нашей таблице:
Пять подтягиваний выполнили 4 человека из 36. Шесть подтягиваний выполнили 5 человек из 36. Восемь подтягиваний выполнили 10 человек из 36 и так далее. Давайте заполним таблицу с помощью таких отношений:
Выполним деление в этих дробях:
Выразим эти частоты в процентах. Для этого умножим их на 100. Умножение на 100 удобно выполнить передвижением запятой на две цифры вправо:
Теперь можно сказать, что пять подтягиваний выполнили 11% участников, 6 подтягиваний выполнили 14% участников, 8 подтягиваний выполнили 28% участников и так далее.
Понравился урок?
Вступай в нашу новую группу Вконтакте и начни получать уведомления о новых уроках
Возникло желание поддержать проект?
Используй кнопку ниже
42 thoughts on “Элементы статистики”
Спасибо, что вы вернулись.
Будут ли новые уроки?
Тема 9 Показатели вариации
Показатели вариации в анализе взаимосвязей
Для измерения степени колеблемости отдельных значений признака относительно средней исчисляют основные показатели вариации.
Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для полного анализа изучаемого процесса или явления. Иногда совершенно непохожие по своему внутреннему строению совокупности могут иметь равные средние величины. Поэтому для более детального изучения того или иного явления необходимо учитывать разброс или вариацию значений отдельных единиц совокупности. Измерение вариации признаков имеет как теоретическое, так и практическое значение.
Так, например, для выявления наиболее стабильно работающего коллектива или предприятия наравне с другими показателями рассчитывают и основные показатели вариации. Эти показатели дают возможность количественно определить размеры устойчивости производительности труда, уровня квалификации, цен на основные виды выпускаемой продукции и т.п. Измерение размеров вариации такого показателя, как «выполнение работ в срок» имеет важное значение для принятия решений заказчиками и инвесторами, т.к. ситуация, в которой присутствует изменчивость признака, часто содержит риск. Особое значение показатели вариации приобретают в анализе рынка ценных бумаг, где мера колеблемости отождествляется с мерой рискованности вложения денежных средств.
Основными показателями, характеризующими вариацию, являются:
1) Размах вариации
2) Среднее линейное отклонение исчисляют для того, чтобы дать обобщающую характеристику распределению отклонений:
где –абсолютные значения отклонений отдельных вариантов xi от средней арифметической ; fi – частота.
3. Дисперсия – это средняя арифметическая квадратов отклонений отдельных значений признака от их средней арифметической:
4. Среднее квадратическое отклонение – корень квадратный из дисперсии:
5. Коэффициент вариации – используется для сравнительной оценки вариации, а также для характеристики однородности совокупности:
Пример. Для иллюстрации расчетов воспользуемся данными нижеприведенной табл. 9.1:
Таблица 9.1 ‑ Данные о продаже основных марок холодильников:
Рассчитаем размах вариации.
R= 1200-460=740$
Пример вычисления размаха вариации
Размах вариации служит незаменимой мерой разброса экстремальных значений признака. Кроме характеристики границ разброса признака, размах вариации может быть использован для выявления ошибок. При наличии очень больших (или очень малых) ошибочно записанных значений признака размах вариации сразу резко возрастает, что требует проверки и корректировки исходных данных.
Недостатком данного показателя является то, что он оценивает только границы варьирующего признака и не отражает его колеблемость внутри этих границ. Вследствие этого размах вариации может неправильно характеризовать общую колеблемость признака.
Этого недостатка лишен другой показатель – дисперсия, рассчитываемый как средний квадрат отклонений значений признака от их средней величины.
Между индивидуальными отклонениями от средней и колеблемостью признака существует прямая зависимость: чем сильнее колеблемость признака, тем больше отклонения его значений от средней величины и менее устойчив изучаемый показатель.
Как и средняя величина этот показатель может быть рассчитан в двух формах: взвешенной и невзвешенной
По приведенным выше данным определим средневзвешенную цену холодильника:
Далее рассчитаем дисперсию:
. Следует отметить, что дисперсия еще не дает представления об однородности совокупности, и этому показателю трудно дать экономическую интерпретацию, т.к. он рассчитан в квадратных единицах. Поэтому следующим шагом в исследовании однородности совокупности является расчет среднего квадратического отклонения, показывающего, насколько в среднем отклоняются конкретные варианты признака от его среднего значения. Оно определяется как квадратный корень из дисперсии и имеет ту же размерность что и изучаемый признак. .
Рассчитаем среднее квадратическое отклонение
Рассмотренные показатели позволяют получить абсолютное значение вариации признака. Однако для сравнения разных совокупностей с точки зрения устойчивости какого-либо одного признака или для определения однородности совокупности рассчитывают относительные показатели.
Эти показатели вычисляются как отношение размаха вариации, среднего линейного отклонения или среднего квадратического отклонения к средней арифметической или медиане. Чаще всего эти показатели выражаются в процентах.
Определим значение показателя вариации по вышеприведенным данным таблицы
Совокупность считается однородной, если V не превышает 33%.
Если V 25% – вариация сильная.
Вывод: Рассчитанная величина свидетельствует о неоднородности цен на холодильники, т.к. однородной совокупность считается, если коэффициент вариации меньше 33% (для распределений близких к нормальному).
!! Следует отметить, что коэффициент вариации может быть более 100%, что, в частности, может быть при наличии значений сильно отличающихся от средней величины. Такой результат означает, что в исследуемой совокупности сильна вариация признаков по отношению к средней величине.
Изучая вариацию интересующего нас признака в пределах исследуемой совокупности и опираясь на общую среднюю в расчетах, трудно оценить степень воздействия на него какого-либо отдельного признака.
При проведении такого анализа исходная совокупность должна представлять собой множество единиц, каждая из которых характеризуется двумя признаками – факторным (оказывающим влияние на взаимосвязанный с ним признак) и результативным (подверженным влиянию).
Для выявления взаимосвязи исходная совокупность делится по факторному признаку на группы. Выводы о степени взаимосвязи базируются на анализе вариации результативного признака. Если статистическая совокупность разбита на группы по какому-либо признаку, то для оценки влияния различных факторов, определяющих вариацию индивидуальных значений признака, используют правило сложения дисперсий.
Общая дисперсия представляет собой сумму средней из виутригрупповой и межгрупповой и дисперсий:
Общая дисперсия характеризует вариацию признака по всей совокупности как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.
Межгрупповая дисперсия характеризует вариацию, обусловленную влиянием фактора, положенного в основу группировки.
Средняя из внутригрупповых дисперсий отражает ту часть вариации результативного признака, которая обусловлена действием всех прочих неучтенных факторов, кроме фактора, по которому осуществлялась группировка. Другими словами внутригрупповая дисперсия отражает случайную вариацию. Внутригрупповая дисперсия рассчитывается отдельно по каждой j-ой группе.
Для всех групп в целом вычисляется средняя из внутригрупповых дисперсий, взвешенных на частоты соответствующих групп по формуле:
Взаимосвязь между тремя видами дисперсий получила название правила сложения дисперсий. Таким образом, зная два вида дисперсий всегда можно определить третий:
Из этого равенства следует, что общая дисперсия, как правило, будет больше средней из групповых дисперсий. Это обусловлено тем, что при расчленении общей совокупности единиц на части по какому-либо признаку образуются более или менее однородные группы, в результате чего сокращается колеблемость признаков в пределах каждой группы. Это приводит к тому, что средняя из групповых дисперсий оказывается меньше дисперсии признака по всей совокупности единиц, причем разница между этими показателями будет тем больше, чем однороднее получаются группы в результате расчленения общей совокупности.
Теснота связи между факторным и результативным признаками оценивается на основе эмпирического корреляционного отношения:
Данный показатель может принимать значения от 0 до 1. Чем ближе к 1 будет его величина, тем сильнее взаимосвязь между рассматриваемыми признаками.
Пример. На следующем условном примере исследуем зависимость объема выполненных работ от формы собственности проектно-изыскательских организаций.
Таблица 9.2. Выполнение работ проектно-изыскательскими организациями разной формы собственности
Форма собственности | Количество предприятий | Итого | |
Государственная | 4 | 10,30,20,40 | 100 |
Негосударственная | 6 | 20, 40, 60, 20, 50, 50 | 240 |
Итого | 10 | 340 |
1) Определим средний объем работ для предприятий двух форм собственности.
2) Определим средний объем работ для каждой формы собственности.
3) Рассчитаем общую и внутригрупповые (т.е. для каждой группы) дисперсии.
4) Определим среднюю из внутригрупповых и межгрупповую дисперсию. Для этого полученные ранее данные заносятся в таблицу расчета.
Таблица 9.3. – Вспомогательная таблица
Пример. Средняя из внутригрупповых дисперсий
Пример. Межгрупповая дисперсия
На последнем этапе решения задачи необходимо проверить тождество, отражающее закон сложения дисперсий:
Проверка закона сложения дисперсий: 54,0+189,8=243,8
Вывод: Таким образом, можно сделать вывод о том, что объем работ, выполненных проектно-изыскательскими организациями на 22% [(54,0/243,8) х 100%] зависит от фактора, положенного в основание группировки, т.е. от формы собственности, а на 78% [(189,8/243,8)х100%)] ‑ от прочих факторов.
Вывод о том, что объем выполненных работ в гораздо большей степени зависит от каких-либо других факторов, чем от формы собственности предприятий подтверждается и величиной эмпирического корреляционного отношения:
Вывод: Величина этого показателя свидетельствует о том, что зависимость объема работ от формы собственности предприятия невелика
Контрольные задания
Вычислить: а) размах вариации; б)среднее линейное отклонение; в) дисперсию; г) среднее квадратическое отклонение; относительные показатели вариации возраста студентов.
2. По данным статистических ежегодников постройте таблицу с рядом показателей и определите показатели вариации: а) размах; б) среднее линейное отклонение; в) среднее квадратическое отклонение; г) коэффициент вариации. Оцените количественную однородность совокупности.