ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ ЧАСТОТ И ДОЛЕЙ
© 2008 г.
Национальный институт общественного здоровья, г. Осло, Норвегия
В статье описывается и обсуждается расчет доверительных интервалов для частот и долей по методам Вальда, Уилсона, Клоппера – Пирсона, с помощью углового преобразования и по методу Вальда с коррекцией по Агрести – Коуллу. Изложенный материал дает общие сведения о способах расчета доверительных интервалов для частот и долей и призван вызвать интерес читателей журнала не только к использованию доверительных интервалов при представлении результатов собственных исследований, но и к прочтению специализированной литературы перед началом работы над будущими публикациями.
Ключевые слова : доверительный интервал, частота, доля
В одной из предыдущих публикаций кратко упоминалось описание качественных данных и сообщалось, что их интервальная оценка предпочтительнее точечной для описания частоты встречаемости изучаемой характеристики в генеральной совокупности . Действительно, поскольку исследования проводятся с использованием выборочных данных, проекция результатов на генеральную совокупность должна содержать элемент неточности выборочной оценки. Доверительный интервал представляет собой меру точности оцениваемого параметра. Интересно, что в некоторых книгах по основам статистики для медиков тема доверительных интервалов для частот полностью игнорируется . В данной статье мы рассмотрим несколько способов расчета доверительных интервалов для частот, подразумевая такие характеристики выборки, как бесповторность и репрезентативность, а также независимость наблюдений друг от друга. Под частотой в данной статье понимается не абсолютное число, показывающее, сколько раз встречается в совокупности то или иное значение, а относительная величина , определяющая долю участников исследования, у которых встречается изучаемый признак.
В биомедицинских исследованиях чаще всего используются 95 % доверительные интервалы. Данный доверительный интервал представляет собой область, в которую попадает истинное значение доли в 95 % случаев. Другими словами, можно с 95 % надежностью сказать, что истинное значение частоты встречаемости признака в генеральной совокупности будет находиться в пределах 95 % доверительного интервала.
В большинстве пособий по статистике для исследователей от медицины сообщается , что ошибка частоты рассчитывается с помощью формулы
где p – частота встречаемости признака в выборке (величина от 0 до 1). В большинстве отечественных научных статей указывается значение частоты встречаемости признака в выборке (р), а также ее ошибка (s) в виде p ± s. Целесообразнее, однако, представлять 95 % доверительный интервал для частоты встречаемости признака в генеральной совокупности, который будет включать значения от
![]() |
до.
В некоторых пособиях рекомендуется при малых выборках заменять значение 1,96 на значение t для N – 1 степеней свободы, где N – количество наблюдений в выборке. Значение t находится по таблицам для t-распределения, имеющимся практически во всех пособиях по статистике. Использование распределения t для метода Вальда не дает видимых преимуществ по сравнению с другими методами, рассмотренными ниже , и потому некоторыми авторами не приветствуется .
Представленный выше метод расчета доверительных интервалов для частот или долей носит имя Вальда в честь Авраама Вальда (Abraham Wald, 1902–1950), поскольку широкое применение его началось после публикации Вальда и Вольфовица в 1939 году . Однако сам метод был предложен Пьером Симоном Лапласом (1749–1827) еще в 1812 году.
Метод Вальда очень популярен, однако его применение связано с существенными проблемами. Метод не рекомендуется при малых объемах выборок, а также в случаях, когда частота встречаемости признака стремится к 0 или 1 (0 % или 100 %) и просто невозможно для частот 0 и 1. Кроме того, аппроксимация нормального распределения, которая используется при расчете ошибки, «не работает» в случаях, когда n · p < 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.
Поскольку новая переменная имеет нормальное распределение, нижняя и верхняя границы 95 % доверительного интервала для переменной φ будут равны φ-1,96 и φ+1,96left">


Вместо 1,96 для малых выборок рекомендуется подставлять значение t для N – 1 степеней свободы . Данный метод не дает отрицательных значений и позволяет более точно оценить доверительные интервалы для частот, чем метод Вальда. Кроме того, он описан во многих отечественных справочниках по медицинской статистике , что, правда, не привело к его широкому использованию в медицинских исследованиях. Расчет доверительных интервалов с использованием углового преобразования не рекомендуется при частотах, приближающихся к 0 или 1 .
На этом описание способов оценки доверительных интервалов в большинстве книг по основам статистики для исследователей-медиков обычно заканчивается, причем эта проблема характерна не только для отечественной, но и для зарубежной литературы. Оба метода основаны на центральной предельной теореме, которая подразумевает наличие большой выборки.
Принимая во внимание недостатки оценки доверительных интервалов с помощью вышеупомянутых методов, Клоппер (Clopper) и Пирсон (Pearson) предложили в 1934 году способ расчета так называемого точного доверительного интервала с учетом биномиального распределения изучаемого признака . Данный метод доступен во многих онлайн-калькуляторах, однако доверительные интервалы, полученные таким образом, в большинстве случаев слишком широки. В то же время этот метод рекомендуется применять в тех случаях, когда необходима консервативная оценка. Степень консервативности метода увеличивается по мере уменьшения объема выборки, особенно при N < 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.
По мнению многих статистиков , наиболее оптимальную оценку доверительных интервалов для частот осуществляет метод Уилсона (Wilson), предложенный еще в 1927 году , но практически не используемый в отечественных биомедицинских исследованиях. Данный метод не только позволяет оценить доверительные интервалы как для очень малых и очень больших частот, но и применим для малого числа наблюдений. В общем виде доверительный интервал по формуле Уилсона имеет вид от
![]() |
![]() |
где принимает значение 1,96 при расчете 95 % доверительного интервала, N – количество наблюдений, а р – частота встречаемости признака в выборке. Данный метод доступен в онлайн-калькуляторах, поэтому его применение не является проблематичным. и не рекомендуют использовать этот метод при n · p < 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .
Считается, что помимо метода Уилсона метод Вальда с коррекцией по Агрести – Коуллу также дает оптимальную оценку доверительного интервала для частот . Коррекция по Агрести – Коуллу представляет собой замену в формуле Вальда частоты встречаемости признака в выборке (р) на р`, при расчете которой к числителю добавляется 2, а к знаменателю добавляется 4, то есть p` = (X + 2) / (N + 4), где Х – количество участников исследования, у которых имеется изучаемый признак, а N – объем выборки . Такая модификация приводит к результатам, очень похожим на результаты применения формулы Уилсона, за исключением случаев, когда частота события приближается к 0 % или 100 %, а выборка мала . Кроме вышеупомянутых способов расчета доверительных интервалов для частот были предложены поправки на непрерывность как для метода Вальда, так и для метода Уилсона для малых выборок, однако исследования показали, что их применение нецелесообразно .
Рассмотрим применение вышеописанных способов расчета доверительных интервалов на двух примерах. В первом случае мы изучаем большую выборку, состоящую из 1 000 случайно отобранных участников исследования, из которых 450 имеют изучаемый признак (это может быть фактор риска, исход или любой другой признак), что составляет частоту 0,45, или 45 %. Во втором случае исследование проводится с использованием малой выборки, допустим, всего 20 человек, причем изучаемый признак имеется всего у 1 участника исследования (5 %). Доверительные интервалы по методу Вальда, по методу Вальда с коррекцией по Агрести – Коуллу, по методу Уилсона рассчитывались с помощью онлайн-калькулятора, разработанного Jeff Sauro (http://www. /wald. htm). Доверительные интервалы по методу Уилсона с поправкой на непрерывность рассчитывались с помощью калькулятора, предложенного порталом Wassar Stats: Web Site for Statistical Computation (http://faculty. vassar. edu/lowry/prop1.html). Расчеты с помощью углового преобразования Фишера производились «вручную» с использованием критического значения t для 19 и 999 степеней свободы соответственно. Результаты расчетов представлены в таблице для обоих примеров.
Доверительные интервалы, рассчитанные шестью разными способами для двух примеров, описанных в тексте
Способ расчета доверительного интервала |
Р=0,0500, или 5% | 95% ДИ для X=450, N=1000, Р=0,4500, или 45% |
–0,0455–0,2541 | ||
Вальда с коррекцией по Агрести – Коуллу | <,0001–0,2541 | |
Уилсона с коррекцией на непрерывность | ||
«Точный метод» Клоппера – Пирсона | ||
Угловое преобразование | <0,0001–0,1967 |
Как видно из таблицы, для первого примера доверительный интервал, рассчитанный по «общепринятому» методу Вальда заходит в отрицательную область, чего для частот быть не может. К сожалению, подобные казусы нередки в отечественной литературе. Традиционный способ представления данных в виде частоты и ее ошибки частично маскирует эту проблему. Например, если частота встречаемости признака (в процентах) представлена как 2,1 ± 1,4, то это не настолько «режет глаз», как 2,1 % (95 % ДИ: –0,7; 4,9), хоть и обозначает то же самое. Метод Вальда с коррекцией по Агрести – Коуллу и расчет с помощью углового преобразования дают нижнюю границу, стремящуюся к нулю. Метод Уилсона с поправкой на непрерывность и «точный метод» дают более широкие доверительные интервалы, чем метод Уилсона. Для второго примера все методы дают приблизительно одинаковые доверительные интервалы (различия появляются только в тысячных), что неудивительно, так как частота встречаемости события в этом примере не сильно отличается от 50 %, а объем выборки достаточно велик.
Для читателей, заинтересовавшихся данной проблемой, можно порекомендовать работы R. G. Newcombe и Brown, Cai и Dasgupta , в которых приводятся плюсы и минусы применения 7 и 10 различных методов расчета доверительных интервалов соответственно . Из отечественных пособий рекомендуется книга и , в которой помимо подробного описания теории представлены методы Вальда, Уилсона, а также способ расчета доверительных интервалов с учетом биномиального распределения частот. Кроме бесплатных онлайн-калькуляторов (http://www. /wald. htm и http://faculty. vassar. edu/lowry/prop1.html) доверительные интервалы для частот (и не только!) можно рассчитывать с помощью программы CIA (Confidence Intervals Analysis), которую можно загрузить с http://www. medschool. soton. ac. uk/cia/ .
В следующей статье будут рассмотрены одномерные способы сравнения качественных данных.
Список литературы
Медицинская статистика понятным языком: вводный курс / А. Банержи. – М. : Практическая медицина, 2007. – 287 с. Медицинская статистика / . – М. : Медицинское информационное агенство, 2007. – 475 с. Медико-биологическая статистика / С. Гланц. – М. : Практика, 1998. Типы данных, проверка распределения и описательная статистика / // Экология человека – 2008. – № 1. – С. 52–58. С . Медицинская статистика: учебное пособие / . – Ростов н/Д: Феникс, 2007. – 160 с. Прикладная медицинская статистика / , . – СПб. : Фолиант, 2003. – 428 с. Ф . Биометрия / . – М. : Высшая школа, 1990. – 350 с. А . Математическая статистика в медицине / , . – М. : Финансы и статистика, 2007. – 798 с. Математическая статистика в клинических исследованиях / , . – М. : ГЭОТАР-МЕД, 2001. – 256 с. Юнкеров В . И . Медико-статистическая обработка данных медицинских исследований / , . – СПб. : ВмедА, 2002. – 266 с. Agresti A. Approximate is better than exact for interval estimation of binomial proportions / A. Agresti, B. Coull // American statistician. – 1998. – N 52. – С. 119–126. Altman D. Statistics with confidence // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – London: BMJ Books, 2000. – 240 p. Brown L. D. Interval estimation for a binomial proportion / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical science. – 2001. – N 2. – P. 101–133. Clopper C. J. The use of confidence or fiducial limits illustrated in the case of the binomial / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404–413. Garcia-Perez M. A . On the confidence interval for the binomial parameter / M. A. Garcia-Perez // Quality and quantity. – 2005. – N 39. – P. 467–481. Motulsky H. Intuitive biostatistics // H. Motulsky. – Oxford: Oxford University Press, 1995. – 386 p. Newcombe R. G. Two-Sided Confidence Intervals for the Single Proportion: Comparison of Seven Methods / R. G. Newcombe // Statistics in Medicine. – 1998. – N. 17. – P. 857–872. Sauro J. Estimating completion rates from small samples using binomial confidence intervals: comparisons and recommendations / J. Sauro, J. R. Lewis // Proceedings of the human factors and ergonomics society annual meeting. – Orlando, FL, 2005. Wald A. Confidence limits for continuous distribution functions // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. – 1939. – N 10. – P. 105–118. Wilson E. B . Probable inference, the law of succession, and statistical inference / E. B. Wilson // Journal of American Statistical Association. – 1927. – N 22. – P. 209–212.CONFIDENCE INTERVALS FOR PROPORTIONS
A. M. Grjibovski
National Institute of Public Health, Oslo, Norway
The article presents several methods for calculations confidence intervals for binomial proportions, namely, Wald, Wilson, arcsine, Agresti-Coull and exact Clopper-Pearson methods. The paper gives only general introduction to the problem of confidence interval estimation of a binomial proportion and its aim is not only to stimulate the readers to use confidence intervals when presenting results of own empirical research, but also to encourage them to consult statistics books prior to analysing own data and preparing manuscripts.
Key words : confidence interval, proportion
Контактная информация:
– старший советник Национального института общественного здоровья, г. Осло, Норвегия
Доверительный интервал (ДИ; в англ, confidence interval - CI) полученный в исследовании при выборке даёт меру точности (или неопределённости) результатов исследования, для того чтобы делать выводы о популяции всех таких пациентов (генеральная совокупность). Правильное определение 95% ДИ можно сформулировать так: 95% таких интервалов будет содержать истинную величину в популяции. Несколько менее точна такая интерпретация: ДИ - диапазон величин, в пределах которого можно на 95% быть уверенным в том, что он содержит истинную величину. При использовании ДИ акцент делается на определении количественного эффекта, в противоположность величине Р, которая получается в результате проверки статистической значимости. Величина Р не оценивает никакого количества, а служит скорее мерой силы свидетельства против нулевой гипотезы «никакого эффекта». Величина Р сама по себе не говорит нам ничего ни о величине различия, ни даже о его направлении. Поэтому самостоятельные величины Р абсолютно неинформативны в статьях или рефератах. В отличие от них ДИ указывает и на количество эффекта, представляющего непосредственный интерес, например на полезность лечения, и на силу доказательств. Поэтому ДИ непосредственно имеет отношение к практике ДМ.
Подход оценки к статистическому анализу, иллюстрируемый ДИ, направлен на измерение количества интересующего нас эффекта (чувствительность диагностического теста, частота прогнозируемых случаев, сокращение относительного риска при лечении и т.д.), а также на измерение неопределённости в этом эффекте. Чаще всего ДИ - диапазон величин по обе стороны оценки, в котором, вероятно, лежит истинная величина, и можно быть уверенным в этом на 95%. Соглашение использовать 95% вероятность произвольно, также как и величину Р <0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».
ДИ основан на идее, что то же самое исследование, выполненное на других выборках пациентов, не привело бы к идентичным результатам, но что их результаты будут распределены вокруг истинной, однако неизвестной величины. Иными словами, ДИ описывает это как «вариабельность, зависящую от выборки». ДИ не отражает дополнительную неопределённости, обусловленную другими причинами; в частности, он не включает влияние селективной потери пациентов при отслеживании, плохого комплайнса или неточного измерения исхода, отсутствия «ослепления» и т.д. ДИ, таким образом, всегда недооценивает общее количество неопределённости.
Вычисление доверительного интервала
Таблица А1.1. Стандартные ошибки и доверительные интервалы для некоторых клинических измерений
Обычно ДИ вычисляют из наблюдаемой оценки количественного показателя, такого, как различие (d) между двумя пропорциями, и стандартной ошибки (SE) в оценке этого различия. Приблизительный 95% ДИ, получаемый таким образом, - d ± 1,96 SE. Формула изменяется согласно природе меры исхода и охвату ДИ. Например, в рандомизированном плацебо-контролируемом испытании бесклеточной коклюшной вакцины коклюш развивался у 72 из 1670 (4,3%) младенцев, получивших вакцину, и у 240 из 1665 (14,4%) в группе контроля. Различие в процентах, известное как абсолютное снижение риска, составляет 10,1%. SE этого различия равна 0,99%. Соответственно 95% ДИ составляет 10,1% + 1,96 х 0,99%, т.е. от 8,2 до 12,0.
Несмотря на разные философские подходы, ДИ и тесты на статистическую значимость тесно связаны математически.
Таким образом, величина Р «значимая», т.е. Р <0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.
Неопределенность (неточность) оценки, выражаемая в ДИ, в большой степени связана с квадратным корнем из размера выборки. Маленькие выборки предоставляют меньше информации, чем большие, и ДИ соответственно шире в меньшей выборке. Например, статья, сравнивающая характеристики трёх тестов, которые применяются для диагностики инфекции Helicobacter pylori , сообщила о чувствительности дыхательной пробы с мочевиной 95,8% (95% ДИ 75-100). В то время как число 95,8% выглядит внушительно, маленькая выборка из 24 взрослых пациентов с Я. pylori означает, что имеется значительная неопределенность в этой оценке, как показывает широкий ДИ. Действительно, нижний предел 75% намного ниже, чем оценка 95,8%. Если бы такая же чувствительность наблюдалась в выборке 240 человек, то 95% ДИ составлял бы 92,5-98,0, давая больше гарантий, что тест высокочувствителен.
В рандомизированных контролируемых испытаниях (РКИ) незначимые результаты (т.е. те, где Р >0,05) особенно подвержены неверному толкованию. ДИ особенно полезен здесь, поскольку он показывает, насколько совместимы результаты с клинически полезным истинным эффектом. Например, в РКИ, сравнивающем наложение анастомоза швом и скрепками на толстой кишке , раневая инфекция развилась у 10,9% и 13,5% пациентов соответственно (Р = 0,30). 95% ДИ для этого различия составляет 2,6% (от -2 до +8). Даже в этом исследовании, включавшем 652 пациента, остаётся вероятность, что существует умеренное различие в частоте инфекций, возникающих вследствие этих двух процедур. Чем меньше исследование, тем больше неуверенность. Сунг и соавт. выполнили РКИ, чтобы сравнить инфузию октреотида со срочной склеротерапией при остром кровотечении из варикозно-расширенных вен на 100 пациентах. В группе октреотида частота остановки кровотечения составила 84%; в группе склеротерапии - 90%, что даёт Р = 0,56. Заметим, что показатели продолжающегося кровотечения аналогичны таковым при раневой инфекции в упомянутом исследовании. В этом случае, однако, 95% ДИ для различия вмешательств равен 6% (от -7 до +19). Этот интервал весьма широк по сравнению с 5% различием, которое представляло бы клинический интерес. Ясно, что исследование не исключает значительной разницы в эффективности. Поэтому заключение авторов «инфузия октреотида и склеротерапия одинаково эффективны при лечении кровотечения из варикозно-расширенных вен» определённо невалидно. В подобных случаях, когда, как здесь, 95% ДИ для абсолютного снижения риска (АСР; absolute risk reduction - ARR, англ.) включает ноль, ДИ для ЧПЛП (NNT - number needed to treat, англ.) является довольно затруднительным для толкования. ЧПЛП и его ДИ получают из величин, обратных АСР (умножая их на 100, если эти величины даны в виде процентов). Здесь мы получаем ЧПЛП = 100: 6 = 16,6 с 95% ДИ от -14,3 до 5,3. Как видно из сноски «d» в табл. А1.1, этот ДИ включает величины ЧПЛП от 5,3 до бесконечности и ЧПЛВ от 14,3 до бесконечности.
ДИ можно построить для большинства обычно употребляемых статистических оценок или сравнений. Для РКИ он включает разность между средними пропорциями, относительными рисками, отношениями шансов и ЧПЛП. Аналогично ДИ можно получить для всех главных оценок, сделанных в исследованиях точности диагностических тестов - чувствительности, специфичности, прогностической значимости положительного результата (все они являются простыми пропорциями), и отношения правдоподобия - оценок, получаемых в метаанализах и исследованиях типа сравнения с контролем. Компьютерная программа для персональных компьютеров, которая покрывает многие из этих способов использования ДИ, доступна со вторым изданием «Statistics with Confidence». Макросы для вычисления ДИ для пропорций бесплатно доступны для Excel и статистических программ SPSS и Minitab на http://www.uwcm.ac.uk/study/medicine/epidemiology_ statistics/research/statistics/proportions, htm.
Множественные оценки эффекта лечения
В то время как построение ДИ желательно для первичных результатов исследования, они не обязательны для всех результатов. ДИ касается клинически важных сравнений. Например, при сравнении двух групп правилен тот ДИ, что построен для различия между группами, как показано выше в примерах, а не ДИ, который можно построить для оценки в каждой группе. Мало того, что бесполезно давать отдельные ДИ для оценок в каждой группе, это представление может вводить в заблуждение. Точно так же правильный подход при сравнении эффективности лечения в различных подгруппах - сравнение двух (или более) подгрупп непосредственно. Неправильно предполагать, что лечение эффективно только в одной подгруппе, если ее ДИ исключает величину, соответствующую отсутствию эффекта, а другие - нет . ДИ полезны также при сравнении результатов в нескольких подгруппах. На рис. А 1.1 показан относительный риск эклампсии у женщин с преэклампсией в подгруппах женщин из плацебо-контролируемого РКИ сульфата магния.
Рис. А1.2. Лесной график показывает результаты 11 рандомизированных клинических испытаний бычьей ротавирусной вакцины для профилактики диареи в сравнении с плацебо. При оценке относительного риска диареи использован 95% доверительный интервал. Размер чёрного квадрата пропорционален объёму информации. Кроме того, показана суммарная оценка эффективности лечения и 95% доверительного интервала (обозначается ромбом). В метаанализе использована модель случайных эффектов превышает некоторые предварительно установленные; например, это может быть размер, использованный при вычислении величины выборки. В соответствии с более строгим критерием весь диапазон ДИ должен показывать пользу, превышающую предустановленный минимум.
Мы уже обсуждали ошибку, когда отсутствие статистической значимости принимают как указание на то, что два способа лечения одинаково эффективны. Столь же важно не уравнивать статистическую значимость с клинической важностью. Клиническую важность можно предполагать, когда результат статистически значим и величина оценки эффективности лечения
Исследования могут показать, значимы ли результаты статистически и какие из них клинически важны, а какие - нет. На рис. А1.2 приведены результаты четырёх испытаний, для которых весь ДИ <1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.
Вероятности , признанные достаточным для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик, называют доверительными .
Обычно, в качестве доверительных вероятностей выбирают значения 0,95; 0,99; 0,999 (их принято выражать в процентах – 95%, 99%, 99,9%). Чем выше мера ответственности, тем более высокий уровень доверительной вероятности: 99% или 99,9%.
Доверительная вероятность 0,95 (95%) считается достаточной в научных исследованиях в области физической культуры и спорта.
Интервал, в котором с заданной доверительной вероятностью находится выборочное среднее арифметическое генеральной совокупности, называется доверительным интервалом .
Уровень значимости оценивания – малое число α, значение которого предполагает вероятность того, что выходит за границы доверительного интервала. В соответствии с доверительными вероятностями: α 1 = (1- 0,95) = 0, 05; α 2 = (1 – 0,99) = 0, 01 и т.д.
Доверительный интервал для среднего (математического ожидания) a нормального распределения:
,
где - надежность (доверительная вероятность) оценивания; - выборочное среднее; s - исправленное среднеквадратическое отклонение; n – объем выборки; t γ - величина, определяемая по таблице распределения Стьюдента (см. приложение, табл. 1) при заданных n и γ.
Чтобы найти границы доверительного интервала среднего значения генеральной совокупности необходимо:
1. Вычислить и s.
2. Следует задасться доверительной вероятностью (надежностью) γ оценивания 0,95 (95 %) или уровнем значимости α 0,05 (5 %)
3. По таблице t – распределения Стьюдента (приложение, табл. 1) найти граничные значения t γ .
Так как t– распределение симметрично относительно нулевой точки, достаточно знать только положительное значение t. Например, если объем выборки n=16, то число степеней свободы (degrees of freedom, df ) t – распределения df =16 - 1=15 . По табл. 1 приложения t 0,05 = 2,13.
4. Находим границы доверительного интервала для α = 0,05 и n = 16:
Границы доверия:
При больших объемах выборки (n ≥ 30) t – распределение Стьюдента переходит в нормальное. Поэтому доверительный интервал для при n ≥ 30 можно записать следующим образом:
где u - процентивные точки нормированного нормального распределения .
Для стандартных доверительных вероятностей (95%, 99%; 99, 9%) и уровней значимости α значения (u ) приведены в таблице 8.
Таблица 8
Значения для стандартных доверительных уровней α
| α | u |
| 0,05 | 1,96 |
| 0,01 | 2,58 |
| 0,001 | 3,28 |
Опираясь на данные примера 1, определим границы 95 % - го доверительного интервала (α = 0,05) для среднего результата прыжка вверх с места. В нашем примере объем выборки n = 65, тогда для определения границ доверительного интервала можно использовать рекомендации для большого объема выборки.
Доверительный интервал пришел к нам из области статистики. Это определенный диапазон, который служит для оценки неизвестного параметра с высокой степенью надежности. Проще всего это будет пояснить на примере.
Предположим, нужно исследовать какую-либо случайную величину, например, скорость отклика сервера на запрос клиента. Каждый раз, когда пользователь набирает адрес конкретного сайта, сервер реагирует на это с разной скоростью. Таким образом, исследуемое время отклика имеет случайный характер. Так вот, доверительный интервал позволяет определить границы этого параметра, и затем можно будет утверждать, что с вероятностью в 95% сервера будет находиться в рассчитанном нами диапазоне.
Или же нужно узнать, какому количеству людей известно о торговой марке фирмы. Когда будет подсчитан доверительный интервал, то можно будет, к примеру, сказать что с 95% долей вероятности доля потребителей, знающих о данной находится в диапазоне от 27% до 34%.
С этим термином тесно связана такая величина, как доверительная вероятность. Она представляет собой вероятность того, что искомый параметр входит в доверительный интервал. От этой величины зависит то, насколько большим окажется наш искомый диапазон. Чем большее значение она принимает, тем уже становится доверительный интервал, и наоборот. Обычно ее устанавливают равной 90%, 95% или 99%. Величина 95% наиболее популярна.
На данный показатель также оказывает влияние дисперсия наблюдений и Его определение основано на том предположении, что исследуемый признак подчиняется Это утверждение известно также как Закон Гаусса. Согласно ему, нормальным называется такое распределение всех вероятностей непрерывной случайной величины, которое можно описать плотностью вероятностей. Если предположение о нормальном распределении оказалось ошибочным, то оценка может оказаться неверной.
Сначала разберемся с тем, как вычислить доверительный интервал для Здесь возможны два случая. Дисперсия (степень разброса случайной величины) может быть известна либо нет. Если она известна, то наш доверительный интервал вычисляется с помощью следующей формулы:
хср - t*σ / (sqrt(n)) <= α <= хср + t*σ / (sqrt(n)), где
α - признак,
t - параметр из таблицы распределения Лапласа,
σ - квадратный корень дисперсии.
Если дисперсия неизвестна, то ее можно рассчитать, если нам известны все значения искомого признака. Для этого используется следующая формула:
σ2 = х2ср - (хср)2, где
х2ср - среднее значение квадратов исследуемого признака,
(хср)2 - квадрат данного признака.
Формула, по которой в этом случае рассчитывается доверительный интервал немного меняется:
хср - t*s / (sqrt(n)) <= α <= хср + t*s / (sqrt(n)), где
хср - выборочное среднее,
α - признак,
t - параметр, который находят с помощью таблицы распределения Стьюдента t = t(ɣ;n-1),
sqrt(n) - квадратный корень общего объема выборки,
s - квадратный корень дисперсии.
Рассмотри такой пример. Предположим, что по результатам 7 замеров была определена исследуемого признака, равная 30 и дисперсия выборки, равная 36. Нужно найти с вероятностью в 99% доверительный интервал, который содержит истинное значение измеряемого параметра.
Вначале определим чему равно t: t = t (0,99; 7-1) = 3.71. Используем приведенную выше формулу, получаем:
хср - t*s / (sqrt(n)) <= α <= хср + t*s / (sqrt(n))
30 - 3.71*36 / (sqrt(7)) <= α <= 30 + 3.71*36 / (sqrt(7))
21.587 <= α <= 38.413
Доверительный интервал для дисперсии рассчитывается как в случае с известным средним, так и тогда, когда нет никаких данных о математическом ожидании, а известно лишь значение точечной несмещенной оценки дисперсии. Мы не будем приводить здесь формулы его расчета, так как они довольно сложные и при желании их всегда можно найти в сети.
Отметим лишь, что доверительный интервал удобно определять с помощью программы Excel или сетевого сервиса, который так и называется.
Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.
Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.
Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval , ДИ – Доверительный интервал ) для параметра.
Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.
In statistics, a confidence interval (CI) is a type of interval estimate of a population parameter. It is an observed interval (i.e., it is calculated from the observations), in principle different from sample to sample, that frequently includes the value of an unobservable parameter of interest if the experiment is repeated. How frequently the observed interval contains the parameter is determined by the confidence level or confidence coefficient. More specifically, the meaning of the term «confidence level» is that, if CI are constructed across many separate data analyses of replicated (and possibly different) experiments, the proportion of such intervals that contain the true value of the parameter will match the given confidence level. Whereas two-sided confidence limits form a confidence interval, their one-sided counterparts are referred to as lower/upper confidence bounds (or limits).
Доверительный интервал показывает, в каком диапазоне расположатся результаты выборочных наблюдений (опросов). Если мы проведем 100 одинаковых опросов в одинаковых выборках из единой генеральной совокупности (например, 100 выборок по 1000 человек в каждой в городе с населением 5 миллионов человек), то при 95%-й доверительной вероятности, 95 из 100 результатов попадут в пределы доверительного интервала (например, от 28% до 32% при истинном значении 30%). Например, истинное количество курящих жителей города составляет 30%. Если мы 100 раз подряд выберем по 1000 человек и в этих выборках зададим вопрос «курите ли Вы?», в 95 из этих 100 выборок при 2%-м доверительном интервале значение составит от 28% до 32%.
Формулы для построения доверительных интервалов с практическими примерами можно найти, например, .
Интерпретация доверительных интервалов
При интерпретации доверительного интервала нас интересуют следующие вопросы:
Насколько широк доверительный интервал?
Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.
Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.
Включает ли ДИ какие-либо значения, представляющие особенный интерес?
Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение. ()


