Tw-city.info

IT Новости
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Как построить доверительный интервал в excel

Построение доверительных интервалов для среднего. Описательная статистика в Excel

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ 3

Описательная статистика в Excel

Вычисление границ доверительных интервалов в Excel

Использование инструмента Пакета анализа Описательная статистика.

Построение доверительных интервалов для среднего.

В пакете Excel помимо мастера функций имеется набор более мощных инструментов для работы с несколькими выборками углубленного анализа данных, называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных.

Для установки раздела Анализ данных в пакете Excel сделайте следующее:

— в меню Сервис выберите команду Надстройки;

— в появившемся списке установите флажок Пакет анализа.

Ввод данных. Исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. При создании таблицы Excel информация вводится в отдельные ячейки. Совокупность ячеек, содержащих анализируемые данные, называется входным диапазоном.

Последовательность обработки данных. Для использования статистического пакета анализа данных необходимо:

— указать курсором мыши на пункт меню Сервис и щелкнуть левой кнопкой мыши;

— в раскрывающемся списке выбрать команду Анализ данных (если команда Анализ данных отсутствует в меню Сервис, то необходимо установить в Excel пакет анализа данных);

— выбрать необходимую строку в появившемся списке Инструменты анализа;

— ввести входной и выходной диапазоны и выбрать необходимые параметры.

Нахождение основных выборочных характеристик. Для определения характеристик выборки используется процедура Описательная статистика. Процедура позволяет получить статистический отчет, содержащий информацию о центральной тенденции и изменчивости входных данных. Для выполнения процедуры необходимо:

— выполнить команду Сервис > Анализ данных;

— в появившемся списке Инструменты анализа выбрать строку Описательная статистика и нажать кнопку ОК (рис. 1);

— в появившемся диалоговом окне указать входной диапазон, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши;

Рис. 1. Окно выбора метода обработки данных

— указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой клавишей), далее навести указатель мыши в поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши;

— в разделе Группировка переключатель установить в положение по столбцам; о установить флажок в поле Итоговая статистика;

— нажать кнопку ОК.

В результате анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики: среднее, стандартная ошибка (среднего), медиана, мода, стандартное отклонение, дисперсия выборки, эксцесс, асимметричность, интервал, минимум, максимум, сумма, счет, наибольшее, наименьшее, уровень надежности.

Пример 1. Рассматривается зарплата основных групп работников гостиницы: администрации, обслуживающего персонала и работников ресторана. Были получены следующие данные:

Необходимо определить основные статистические характеристики в группах данных.

1. Для использования инструментов анализа исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. Значения зарплат сотрудников администрации введите в диапазон А1:А5, обслуживающего персонала— в диапазон В1:В8 и т. д. В результате получится таблица, представленная на рис. 2.

Рис. 2. Таблица из примера

2. Далее необходимо провести элементарную статистическую обработку. Для этого, указав курсором мыши на пункт меню Сервис, выберите команду Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.

Рис. 3. Пример заполнения диалогового окна Описательная статистика

3. В появившемся диалоговом окне (рис. 3) в рабочем поле Входной интервал укажите входной диапазон —А1:С8. Активировав переключателем рабочее поле Выходной интервал, укажите выходной диапазон — ячейку А9. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок в поле Итоговая статистика и нажмите кнопку ОК. В результате анализа (рис. 4) в указанном выходном диапазоне для каждого столбца данных получим соответствующие результаты.

Рис. 4. Результаты работы инструмента Описательная статистика.

1. Найдите наиболее популярный туристический маршрут из четырех реализуемых фирмой (моду), если за неделю последовательно были реализованы следующие маршруты (приводятся номера маршрутов): 1, 3, 3, 2, 1, 1, 4, 4, 2, 4, 1, 3, 2, 4, 1, 4, 4, 3, 1, 2, 3, 4, 1, 1, 3.

2. В рабочей зоне производились замеры концентрации вредного вещества. Получен ряд значений (в мг/м3): 12, 16, 15, 14, 10, 20, 16, 14, 18, 14, 15, 17, 23, 16. Необходимо определить основные выборочные характеристики.

Как рассчитать доверительный интервал в Excel

Алгоритм расчета доверительного интервала
Основной задачей данного расчета является избежать погрешностей точечной оценки. Более целесообразно находить возможный интервал данных, в которых может находиться искомая величина. То есть с помощью доверительного интервала можно сделать более точный статистический вывод о вероятности нахождения определенного параметра в определенном массиве данных.

Программа Excel предоставляет возможность определить, какой будет доверительный интервал при известной дисперсии, путем применения алгоритма функции ДОВЕРИТ. НОРМ, а также с помощью ДОВЕРИТ. СТЮДЕНТ функции вычислить доверительный интервал при неизвестной дисперсии. В этих двух вариантах и заключаются возможности Excel решать подобные задачи.
Рассмотрим вариант с известной дисперсией.

Читать еще:  Как найти несколько значений в excel

Следует сказать, что в более ранних версиях Excel существовала только одна функция под названием ДОВЕРИТ, и все ниже описанные функции являются производными от этой функции, которые стало возможно применять только в Excel версии 2010 года.
Рассматриваемая формула решения призвана решать задачи по определению доверительного интервала в условиях нормального распределения средней генеральной совокупности.

Ниже на рисунке показан синтаксис аргумента функции, а также расшифровка данных.

Если посмотреть синтаксис функции ДОВЕРИТ и сравнить его с синтаксисом ДОВЕРИТ.НОРМ, то мы увидим, что разница между ними только в названии. Основные аргументы предложенных к сравнению функций одни и те же.

Пример расчета доверительного интервала
В нашем примере количество испытаний равно 12, у всех испытаний различные данные результата. Все они отображены в табличной форме. Эти данные и есть та самая совокупность данных. Значение стандартного отклонения равно восьми.
Уровень доверия при расчете доверительного интервала берем в процентах и оно равно 97%.
Теперь переходим к манипуляциям в Excel. Нам необходимо определится с ячейкой в которой будет зафиксирован результат вычислений. Выделяем эту ячейку и делаем как показано на рисунке. В окне рядом со значком «функция» вставляем нужную функцию.

Перед нашим взором появится окно. В котором нам необходимо заполнить необходимые и обязательные данные.
На рисунке показано куда вставлять необходимые данные. В первые две строки вставляем значения Альфа=0.003, в станд_откл вставляем 8. Со следующей строкой вроде тоже все понятно – ставим число двенадцать и вроде все сделано.Однако, что бы постоянно не менять в будущих расчетах эту переменную, а она постоянно меняется, предлагаем автоматизировать установку переменного значения.

Для этого в поле «Размер» вставим функцию «СЧЕТ», которая будет определять нужные нам данные автоматически.
Что бы завести «СЧЕТ» и настроить данную функцию, совершаем следующие действия.
1.Курсор мышки наводим на строку «размер» и активируем треугольник, расположенный с левой стороны от формул. После этих действий вы увидите окно с перечнем определенных функций. Нам нужны «другие»

На этом описание создания доверительного интервала с помощью функции ДОВЕРИТ.НОРМ заканчивается.
Другой способ основанный на применении фикции ДОВЕРИТ.СТЮДЕН будет описан в другой статье:
Как рассчитать доверительный интервал в Excel при не известной дисперсии

Доверительные интервалы в Excel: значение, определение, построение и расчет

Расширенные функции Excel предлагают незаменимые и удобные методы для различных статистических расчетов и анализа. Одной из таких особенностей является интервал доверия, который используется для выражения степени неопределенности, связанной с исследованием. Доверительные интервалы в excel — это оценка событий в сочетании с верификацией вероятностей. Они обеспечивают вероятный диапазон выборочной пропорции или выборочного среднего от истинной доли / среднего, найденного в популяции и отображаются как: оценка +/- погрешность.

Функция доверительного интервала

В любом опросе и исследовании доверительные интервалы — отличный способ понять роль ошибок выборки в средних процентных показателях. Для любого опроса, поскольку исследователи всегда лишь изучают долю из более крупного расчета, в их оценках есть неопределенность, из-за чего будут ошибки выборки.

Доверительный интервал (ДИ) дает понимание о том, насколько средняя величина может колебаться. Он представляет собой диапазон значений, которые одинаково центрированы от известного среднего числа выборки. Чем выше уровень доверия (в процентах), тем меньше интервал, более точными будут результаты. Исследование образцов с большей изменчивостью или большим стандартным отклонением порождает более широкие доверительные интервалы в excel.

Существует соотношение обратного квадратного корня между ДИ и размерами выборки. Меньшие размеры генерируют более широкие ДИ, поэтому для получения более точных оценок или сокращения пороговой погрешности наполовину, необходимо примерно в четыре раза увеличить размер выборки.

Построение среднего значения совокупности

Чтобы построить доверительный интервал для среднего значения совокупности, предоставленной вероятности и размера выборки, нужно применить функцию «ДОВЕРИТ» в Excel, которая использует нормальное распределение для вычисления значения доверия. Предположим, исследователи случайно выбрали 100 человек, измерили их вес и установили средний в 76 кг. Если нужно узнать средний показатель для людей в конкретном городе, маловероятно, что он для более крупной группы будет иметь такое же среднее значение, как и выборка, состоящая всего из 100 человек.

Гораздо более вероятно, что выборочное среднее в 76 кг может быть приблизительно равно (неизвестному) популяционному среднему, и нужно знать, насколько точным является оценочный ответ. Эта неопределенность, связанная с оценкой интервалов, называется уровнем достоверности, обычно 95%. Функция «ДОВЕРИТ» (альфа, сигма, n) возвращает значение, используемое для построения ДИ среднего числа совокупности. Предполагается, что данные выборок соответствуют стандартным нормальным распределениям с известной сигмой стандартного отклонения, а размер выборки равен n. Перед тем как рассчитать доверительный интервал в excel 95% уровня, принимают альфу как 1 — 0,95 = 0,05.

Форматы функции CONFIDENCE

Функция CONFIDENCE или ДОВЕРИТ, определяется пределами доверия — это нижняя и верхняя границы ДИ и являются 95% показателями. Например, при изучении предпочтении, было обнаружено, что 70% людей предпочитают Боржоми , по сравнению с Пепси при ДИ в 3% и уровнем доверия 95%, тогда существует 95-процентная вероятность того, что истинная пропорция составляет от 67 до 73%.

Функции «ДОВЕРИТ» отображаются под различными синтаксисами в разных версиях Excel. Например, Excel 2010 имеет две функции: «ДОВЕРИТ.НОРМ» и «ДОВЕРИТ.T», которые помогают вычислять ширину «ДИ. ДОВЕРИТ.НОРМ» используется, когда известно стандартное отклонение измерения. В противном случае применяется «ДОВЕРИТ.T», оценка осуществляется по данным выборки. Доверительные интервалы в excel до 2010 года имели только функцию «ДОВЕРИТ». Его аргументы и результаты были аналогичными аргументам функции «ДОВЕРИТ.НОРМ».

Читать еще:  Куда сохраняется автосохранение excel

Первый по-прежнему доступен в более поздних версиях Excel для обеспечения совместимости. #NUM! Error — происходит, если альфа меньше или равна 0, или больше или равна 0. Данное стандартное отклонение меньше или равно 0. Указанный размер аргумента меньше единицы. #СТОИМОСТЬ! Error — происходит, если любой из предоставленных аргументов не является числовым.

Функция интерполяции доверия

«ДОВЕРИТ.» классифицируется по функциям статистики и будет высчитывать и возвращать ДИ для среднего значения. Доверительные интервалы в excel могут быть чрезвычайно полезными для финансового анализа. Как аналитик, «ДОВЕРИТ.» помогает в прогнозировании и корректировке для широкого круга целей, путем оптимизации принятия финансовых решений. Это выполняется с применением графического отображения данных в наборе переменных.

Аналитики могут принимать более эффективные решения на основе статистической информации, предоставляемой нормальным распределением. Например, они могут найти связь между полученным доходом и расходами, затрачиваемыми на предметы роскоши. Чтобы вычислить ДИ для среднего значения совокупности, возвращаемое доверительное значение, должно быть добавлено и вычтено из среднего значения выборки. Например, для среднего значения выборки x: Доверительный интервал = x ± ДОВЕРИТ.

Пример расчета доверительного интервала в excel — предположим, что нам даны следующие данные:

  1. Уровень значимости: 0,05.
  2. Стандартное отклонение населения: 2,5.
  3. Размер выборки: 100.

Функция доверительного интервала Excel используется для расчета ДИ со значением 0,05 (т. е. уровень достоверности 95%) для среднего времени выборки для изучения времени коммутации в офисе на 100 человек. Среднее значение образца составляет 30 минут, а стандартное отклонение составляет 2,5 минуты. Доверительный интервал составляет 30 ± 0,48999, что соответствует диапазону 29,510009 и 30,48999 (минут).

Интервалы и нормальное распределение

Наиболее знакомое использование доверительного интервала, означает «погрешность ошибок». В опросах погрешность составляет плюс или минус 3%. ДИ полезны в контекстах, которые выходят за рамки этой простой ситуации. Они могут использоваться с ненормальными распределениями, которые сильно искажены. Для вычисления прогноза доверительного интервала в excel требуются следующие строительные блоки:

  1. Среднее значение.
  2. Стандартное отклонение наблюдений.
  3. Число опросов в выборке.
  4. Уровень доверия, который нужно применить к ДИ.

Перед тем как построить доверительный интервал в excel, изучают его вокруг среднего значения выборки, начинают с принятия решения о том, какой будет принят процент других средств выборки, если они были собраны и рассчитаны в этом интервале. Если это так , то 95% возможных образцов будут захвачены ДИ с 1,96 стандартных отклонений выше и ниже образца.

Стандартная ошибка среднего

Допустимый интервал или погрешность не принимаются с учетом ошибки измерения или смещения обзора, поэтому фактическая неопределенность может быть выше, чем указана. Перед тем как посчитать доверительный интервал в excel, расчет должен быть обеспечен хорошим сбором данных, надежными измерительными системами и удовлетворительным дизайном обследования.

Доверительные интервалы для среднего значения могут быть получены несколькими способами: с помощью SigmaXL, описательной статистики, гистограмм,1-образного t-теста и интервалов доверия, односторонних диаграмм ANOVA и Multi-Vari. Чтобы графически иллюстрировать ДИ для среднего значения «Удовлетворенность», создают диаграмму Multi-Vari (с 95% CI Mean Options) с использованием данных Customer Data.xls. Точки соответствуют отдельным данным. Маркеры показывают максимальный доверительный предел 99%, и средний 95%-ый предел.

Теперь тестирование гипотезы будут использоваться для более точных средних оценок удовлетворенности и определения статистическая значимость результатов.

Расчет с помощью SigmaXL

Доверительные интервалы очень важны для понимания полученных данных и принятия решений по ним. Чтобы рассчитать ДИ для дискретной пропорции, используют SigmaXL> Шаблоны и калькуляторы> Основные статистические шаблоны> 1 интервал доверительных отношений. Перед тем как найти доверительный интервал в excel, выполняют следующие действия:

  1. Открыть Client Data.xls.
  2. Нажать вкладку «Лист 1» или F4, чтобы активировать последний рабочий лист. Нажать SigmaXL> Статистические инструменты> Описательная статистика.
  3. Установить флажок «Использовать всю таблицу данных».
  4. Нажать «Далее».
  5. Выбрать «Общая удовлетворенность», нажать «Числовые переменные данных» (Y).
  6. Выбрать «Тип клиента», нажать «Категория группы» (X1). По умолчанию уровень доверия 95%.
  7. Нажать «ОК».

Обратить внимание, что доверительный интервал в 95% означает: в среднем истинный параметр популяции (средний, стандартное отклонение или пропорция) будет находиться в интервале 19 раз из 20. Будет представлен пользователю: 95%-ый доверительный интервал для каждого отсчета. Среднее значение (95% CI). Доверительный интервал 95% для стандартного отклонения (95% CI Sigma — не путать это с уровнем качества Sigma Process).

Статистика и уровни доверия

Доверительный интервал не является числом, в котором истинное значение параметра найдено с точностью. Действительно, случайная величина теоретически может принимать все возможные значения в рамках законов физики. Доверительный интервал — это фактически область, в которой истинное (неизвестное) значение параметра, изучаемого в популяции, наиболее вероятно с вероятностью, которую выбирают. При его использовании интервал основан на вычислении доверительного порога, погрешности и коэффициента запаса.

Перед тем как определить доверительный интервал в excel, определяют эти элементы, которые зависят от параметров:

  1. Изменчивости измеряемых характеристик.
  2. Размера выборки: чем она больше, тем более высокая точность.
  3. Метода отбора проб.
  4. Уровень доверия — s.
Читать еще:  Excel 10 для чайников

Уровень доверия представляет собой гарантированную уверенность. Например, с уровнем достоверности 90%, это означает, что 10% риск будет неправильным. Как правило, хорошей практикой является выбор достоверности в 95%. Таким образом, максимальный доверительный уровень является большим, чем больше размер выборки. Маржинальный коэффициент является индикатором, выведенным непосредственно из доверительного порога. В таблице приведены некоторые примеры для наиболее распространенных значений.

Как рассчитать доверительный интервал в Excel

Алгоритм расчета доверительного интервала
Основной задачей данного расчета является избежать погрешностей точечной оценки. Более целесообразно находить возможный интервал данных, в которых может находиться искомая величина. То есть с помощью доверительного интервала можно сделать более точный статистический вывод о вероятности нахождения определенного параметра в определенном массиве данных.

Программа Excel предоставляет возможность определить, какой будет доверительный интервал при известной дисперсии, путем применения алгоритма функции ДОВЕРИТ. НОРМ, а также с помощью ДОВЕРИТ. СТЮДЕНТ функции вычислить доверительный интервал при неизвестной дисперсии. В этих двух вариантах и заключаются возможности Excel решать подобные задачи.
Рассмотрим вариант с известной дисперсией.

Следует сказать, что в более ранних версиях Excel существовала только одна функция под названием ДОВЕРИТ, и все ниже описанные функции являются производными от этой функции, которые стало возможно применять только в Excel версии 2010 года.
Рассматриваемая формула решения призвана решать задачи по определению доверительного интервала в условиях нормального распределения средней генеральной совокупности.

Ниже на рисунке показан синтаксис аргумента функции, а также расшифровка данных.

Если посмотреть синтаксис функции ДОВЕРИТ и сравнить его с синтаксисом ДОВЕРИТ.НОРМ, то мы увидим, что разница между ними только в названии. Основные аргументы предложенных к сравнению функций одни и те же.

Пример расчета доверительного интервала
В нашем примере количество испытаний равно 12, у всех испытаний различные данные результата. Все они отображены в табличной форме. Эти данные и есть та самая совокупность данных. Значение стандартного отклонения равно восьми.
Уровень доверия при расчете доверительного интервала берем в процентах и оно равно 97%.
Теперь переходим к манипуляциям в Excel. Нам необходимо определится с ячейкой в которой будет зафиксирован результат вычислений. Выделяем эту ячейку и делаем как показано на рисунке. В окне рядом со значком «функция» вставляем нужную функцию.

Перед нашим взором появится окно. В котором нам необходимо заполнить необходимые и обязательные данные.
На рисунке показано куда вставлять необходимые данные. В первые две строки вставляем значения Альфа=0.003, в станд_откл вставляем 8. Со следующей строкой вроде тоже все понятно – ставим число двенадцать и вроде все сделано.Однако, что бы постоянно не менять в будущих расчетах эту переменную, а она постоянно меняется, предлагаем автоматизировать установку переменного значения.

Для этого в поле «Размер» вставим функцию «СЧЕТ», которая будет определять нужные нам данные автоматически.
Что бы завести «СЧЕТ» и настроить данную функцию, совершаем следующие действия.
1.Курсор мышки наводим на строку «размер» и активируем треугольник, расположенный с левой стороны от формул. После этих действий вы увидите окно с перечнем определенных функций. Нам нужны «другие»

На этом описание создания доверительного интервала с помощью функции ДОВЕРИТ.НОРМ заканчивается.
Другой способ основанный на применении фикции ДОВЕРИТ.СТЮДЕН будет описан в другой статье:
Как рассчитать доверительный интервал в Excel при не известной дисперсии

5. 3. Доверительные области для регрессии

В некотором эксперименте измерены значения пары случайных величин y и x

Без ограничения общности можно считать, что величина x измерена точно, в то время как измерение величины y содержит случайные погрешности. Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины h (x), зависящей от x как от параметра.

Пусть требуется построить зависимость y(x).

Регрессией называют зависимость условного математического ожидания величины h (x) от x: .

Задача регрессионного анализа состоит в восстановлении функциональной зависимости y(x) по результатам измерений <(xi,yi)>, i = 1, 2, …, n.

В случае простейшей линейной регрессии выдвигается гипотеза о том, что функция f(x; a, a1, …, ak) имеет вид

Доверительный коридор линии регрессии

Пусть линейная регрессия построена: .

Возьмем в области изменения аргумента некоторую точку x и вычислим

.

Эта величина случайная и меняется от выборки к выборке.

Ее математическое ожидание равно истинному значению функции f(x) в точке x, величине y = a x+ b.

Доверительный коридор линии регрессии — интервал

,

накрывающий истинное значение величины y с вероятностью 1– a .

Величина tn— 2, a — корень уравнения , где F(tn— 2, a ) — функция распределения Стьюдента с (n – 2) степенями свободы.

Внимание! Функция Excel СТЬЮДРАСПОБР(p, k) возвращает значение t, при котором P(|x| > t) = p, x значение случайной величины, имеющей распределение Стьюдента с k степенями свободы. Поэтому решение уравнения в Excel возвращает функция СТЬЮДРАСПОБР( a /2, n – 2).

Важно понимать, что доверительный коридор не является доверительной областью для всей линии регрессии — он определяет только концы доверительных интервалов для y при каждом значении x. С помощью коридора регрессии нельзя, например, построить одновременно два доверительных интервала в различных точкахx и x1. Такие доверительные интервалы можно построить с помощью доверительной полосы всей линии регрессии.

Пример 1

Видео

Пример 1. В таблице приведены некоторые экспериментальные данные:

Ссылка на основную публикацию
Adblock
detector