1. В группе A с увеличением порядкового номера не изменяется(-ются): — кислотные…

Ответ:

1)валентность в летучих водородных

соединениях.

2)неметаллич

еские свойства.

3)С,Si,Sn,P

b

4)Mg(OH)2, ему характерн

ы основные свайства.

Тестовая работа по химии в 8 классе за 1 полугодие к учебнику О.С. Габриелян

Тестовая работа по химии в 8 классе за 1 полугодие

к учебнику О.С. Габриелян.

На выполнение теста отводится 45 минут. Работа состоит из 2 частей и включает 15 заданий.

Часть 1 включает 10 заданий базового уровня. К каждому заданию дается 4 варианта ответа, из которых только один правильный. За выполнение каждого задания — 1 балл. И из 4 заданий повышенного уровня. За выполнение каждого задания — 2 балла, если допущена одна ошибка, то ответ оценивается в 1 балл. Если допущено две и более ошибок или ответа нет, то выставляется 0 баллов.

Часть 2 содержит 2 задания, которое требует полного ответа. За выполнение задания — 3 балла.

Максимальное число баллов – 24 балла

ВАРИАНТ-1

Часть 1

1. Наиболее сильно неметаллические свойства выражены у:

1) водорода

3) фтора

2) углерода

4) кислорода

2. Обозначение изотопа, в ядре которого содержится 8 протонов и 10 нейтронов:

3. Атом химического элемента, электронная оболочка которого содержит 17 электронов:

1) азот

3) хлор

2) кремний

4) сера

4. Четыре электронных слоя (энергетических уровня) имеет атом:

1) фтора

3) магния

2) калия

4) гелия

5. Пара химических элементов, имеющих на внешнем электронном уровне по 5 электронов:

1) N и С

3) Si и P

2) С и Si

4) N и P

6. Верны ли следующие высказывания?

А. В периодах металлические свойства атомов элементов с увеличением порядкового номера усиливаются.

Б. В группах неметаллические свойства атомов элементов с увеличением порядкового номера ослабевают.

1) верно только А

3) верно только Б

2) верны оба суждения

4) оба суждения не верны

7. Аллотропная модификация кислорода:

1) графит

3) озон

2) белый фосфор

4) алмаз

8. Атому элемента, образующему простое вещество — металл, соответствует электронная схема:

1) +18)2)8)8

3) +3)2)1

2) +15)2)8)5

4) +8)2)6

9. Масса 3 моль сероводорода Н2S равна:

1) 33 г

3) 34 г

2) 99 г

4) 102 г

10. Верны ли следующие высказывания?

А. При нормальных условиях ртуть жидкая. Б. При нормальных условиях ртуть твердая.

1) верно только А

3) верно только Б

2) верны оба суждения

4) оба суждения не верны

 

11. Установите соответствие между частицей и распределением электронов по энергетическим уровням:

Частица:

Распределение электронов:

А) Ca

1) 2е, 8е, 8е, 2е

Б) Al3+

2) 2е, 8е, 2е

В) N3-

3) 2е, 5е

Г) N

4) 2е, 8е

 

5) 2е, 8е,18е,4е

А

Б

В

Г

    

 12. Установите соответствие между типом химической связи и химической формулой вещества:

Тип химической связи:

Химическая формула вещества:

А) Ионная

1) Н2

Б) Ковалентная полярная

2) КCl

В) Металлическая

3) Mg

Г) Ковалентная неполярная

4) Nh4

А

Б

В

Г

 
     

13. Относительная молекулярная масса бромида бария BaBr2 равна __________

14. Установите соответствие между веществом и его агрегатным состоянием в нормальных условиях:

Вещество:

Агрегатное состояние:

А) фтор

1) плазма

Б) натрий

2) твердое вещество

В) хлорид калия

3) газ

Г) озон

4) жидкость

А

Б

В

Г

 
     

Часть 2

Запишите номер задания и полное решение

15. Количество вещества углекислого газа СO2, в котором содержится 36•1023 молекул, равно__ моль. (Запишите число с точностью до десятых).

16. Объем, который занимает 2 моль газообразного вещества с формулой SO2 (н.у.) равен ____л. (Запишите число с точностью до десятых).

Ответы

На выполнение теста отводится 45 минут. Работа состоит из 2 частей и включает 15 заданий.

Часть 1 включает 10 заданий базового уровня. К каждому заданию дается 4 варианта ответа, из которых только один правильный. За выполнение каждого задания — 1 балл.

А так же из 4 заданий повышенного уровня. За выполнение каждого задания — 2 балла, если допущена одна ошибка, то ответ оценивается в 1 балл. Если допущено две и более ошибок или ответа нет, то выставляется 0 баллов.

Часть 2 содержит 2 задания, которое требует полного ответа. За выполнение задания — 3 балла.

Максимальное число баллов – 24 балла

Система оценивания работы:

0-9 баллов – «2»

10-14 баллов – «3»

15-20 баллов – «4»

21 — 24 баллов – «5»

ОТВЕТЫ

Часть 1

 

1

2

3

4

5

6

7

8

9

10

Вариант 1

3

3

3

2

4

3

3

3

4

1

Часть 2 и 3

 

11

12

13

14

15

16

Вариант 1

1443

2431

297

3223

6,0

44,8

Контрольная работа по теме «Строение атома»

Автор: Кашутина Светлана Николаевна, учитель химии филиала МКОУ «Карачельская СОШ» Шумихинского района Курганской области- Стариковская средняя общеобразовательная школа

 

 

Контрольная работа № 1

Строение атома. Периодический закон и периодическая система химических элементов.

 

Цель:

 Проверить знания обучающихся по теме «Строение атома. Периодический закон и периодическая система химических элементов»

 

Планируемые результаты Ученик научится:

1.      Раскрывать смысл понятий «простое» и «сложное»  вещество;

2.      Раскрывать физический смысл порядкового номера химического элемента, номера группы и периода в периодической системе Д.И.Менделеева;

3.      Определять состав веществ по их формулам;

4.      Объяснять закономерности изменения строения атомов, свойства элементов в пределах малых периодов главных подгрупп;

5.      Вычислять относительную молекулярную и молярную массы веществ;

6.      Вычислять массовую долю химического элемента по формуле соединения;

7.      Определять вид химической связи в неорганических соединениях;

8.       Раскрывать смысл основных химических понятий «простое» и «сложное» вещество, «химический элемент»;

9.      Характеризовать химические элементы на основе их положения в периодической системе Д.И.Менделеева и особенностей строения их атомов;

10.  Составлять схемы строения атомов первых 20 элементов ПСХЭ Д.И.Менделеева.

 

Часть 1

А1.( 2 б.)  Разделите модели молекул, изображенные на рисунке на две равные группы. Назовите каждую группу.

 

 

Группа 1________________________________________________

Группа 2________________________________________________ Укажите признак, по которому проведено деление моделей на группы.

 

 

А.2 ( 1 б.) Пара химических элементов, имеющих на внешнем электронном слое по 7 электронов:

1.  F и Cl                                 3. Al и Si                            

2.  Li и Mg                              4. C и P                                 

 

 

А.3(2б)  Укажите пары формул веществ, в которых молекулы имеют одинаковое число атомов, но различаются качественным составом.

1.  СО   и CO2 3. СН4 и CCl4

2.  SO2  и CO2                                                           4. N2O и NO2

 

 

А. 4 (1 б.)

Верны ли следующие высказывания?

А. В главной подгруппе неметаллические свойства атомов элементов с увеличением порядкового номера усиливаются.

Б. В периоде неметаллические свойства атомов химических элементов с увеличением порядкового номера усиливаются.

1.  верно только А.          3. верны оба суждения

2.  верно только Б           4.  оба суждения неверны

 

А 5. (2 б.)  Выберите формулу вещества с наименьшей относительной молекулярной массой

1.      NH3                            2. Н2O                         3.   CO                          4.O2

Часть 2

В1.(2 б.)  Установите соответствие между веществом и типом химической связи, при помощи которой оно образовано.

 

Тип химической связи

Формула вещества

А) металлическая

1) Са

Б) ковалентная полярная

2) О2

В) ковалентная неполярная

3) Н2S

 

4) Cu

 

5) Mg3N2

 

В.

2 ( 2 б.) В результате возникновения ковалентной связи 

1.  Атомы завершают внешние энергетические уровни;

2.  Атомы превращаются в заряженные частицы;

3.  Происходит переход электронов от одного атома к другому; 4. Образуются общие электронные пары; 5.Образуется сложный ион.

 

Часть 3.

С.1 (4 б.) Составьте формулы и схемы образования одного простого и одного сложного вещества, используя два элемента третьего периода ( у одного из элементов во внешнем электронном слое атома содержится два электрона, у другого – семь).

 

С. 2 (3 б.) Для определения возраста археологических находок, ученые устанавливают в них содержание радиоактивного изотопа атома углерода

14С. Составьте схему электронного строения атома углерода 14С. Укажите состав атомного ядра и его электронной оболочки.

 

 

 

 

 

 

 

 

 

Критерии оценивания:

«2» — 0-35%

«3» — 36-61%

«4» — 62-85%

«5» — 86-100%

 

«2» — 0- 7 баллов

«3» — 8- 12 баллов

«4» — 13- 16 баллов

«5» — 17-19 баллов

 

задания

Содержание верного ответа

баллы

А. 1

Правильно разделено на группы.

Указан признак по которому проведено деление на группы.

1 балл

1 балл

А.2

Выбрана  правильно пара химических элементов

1 балл

А.3

Правильно выбраны две пары Правильно выбрана одна пара

2 балла

1 балл

А. 4

Выбран правильный ответ

1 балл

А. 5

Правильно найдено вещество с наименьшей молекулярной массой

2 балла

В. 1

Задание выполнено верно Допущена 1 ошибка

2 балла

1 балл

В. 2

Задание выполнено верно Допущена 1 ошибка

2 балла

1 балл

С.1

Составлена одна формула 

Составлены две формулы

Составлена одна схема образования вещества

Составлены две схемы образования веществ

1  балл

2  балла

1  балл

2  балла

С. 2

Составлена схема электронного строения атома

Указано число протонов в ядре Указано число электронов

1 балл

1 балл

1 балл

всего

 

19 баллов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Что называется периодом? Как изменяются свойства элементов в периодах с возрастанием порядкового номера

ческая культура – одно из средств укрепления здоровья, все стороннего развития, подготовки к труду и защите родины. средствами ф. к. являются , спорт туризм, методы закаливания организма.

правительство всемерно поощряю развитие ф. к. и спорта среди населения страны, способствуют внедрению их в повседневный быт.

воспитание, начиная с самого раннего детского возраста, крепкого молодого поколения с гармоническим развитием и духовных сил. это требует всемерного поощрения всех видов массового спорта и культуры, в том числе в школах, вовлечения в физкультурное движение все более широких слоев населения, особенно молодежи.

физкультурное движение должно носить подлинно общенародный характер, базировался на научно-обоснованной системы воспитания, последовательно охватывающей всей группы населения, начиная с детского возраста.

занятие и спортом укрепляют здоровье детей, способствуют их правильному развитию. установлено, что большие умственные нервные нагрузки, не сочетаются с соответствующими нагрузками, крайне неблагоприятным влиянием окружающей среды, инфекциям. научные наблюдения показывают, что люди, регулярно занимающиеся с соблюдением правил личной гигиены, реже болеют, продуктивнее трудятся, дольше живут.

занятия культурой и спортом приобретают особенно большое значение в период научно-технической революции, когда мышечная деятельность все больше вытесняется применением техники. культура развитие патологических и предпатологических изменений, в развитии которых в той или иной степени играет роль недостаточная двигательная активность.

применение средств культуры с лечебной целью в больницах, санитарно-курортных учреждениях при заболеваниях опорно-двигательного аппарата, сердечно-сосудистой и дыхательной систем, нарушениях обмена веществ, после хирургических операций и др. повышает эффективность комплексного лечения, способствует различных осложнений, ускоряет сроки выздоровления и восстановления трудоспособности, является одним из компонентов реабилитации больных.

2. влияние вредных привычек на здоровье человека

одним из главных проблем xxi века во всем мире стали: табакокурение, алкоголизм и наркомания. во многих странах законы по борьбе с этим негативным явлением.

социально обусловленные и психологические причины этих явлений.

под психологическими причинами понимается совокупность мотивов, отдельные личности к употреблению спиртного, табака, наркотиков. трудности приспособление к внешней среде, конфликты с окружающим, неудовлетворенность одиночества, робость и т. д. вызывают психологическое состояния дискомфорта. связи с этим человек старается выйти из этого состояния с табакокурения, алкоголя и наркотиков. это вызывает ложное чувство решимости всех проблем. действия этих средств быстро проходят и вместе с этим возвращаются все проблемы.

распространение этих явлений среди молодежи способствует так же ложное мнение о тонизирующем действием алкоголя, бытующие представление, что потребление спиртных напитков – показатель зрелости, самостоятельности, силы и мужества, но это не так.

лечебная физкультура широко используется в системе комплексного лечения в больницах, поликлиниках, санаториях. она является ведущим методом медицинской реабилитации — восстановительного лечения. правильное применение лечебной физкультуры способствует ускорению выздоровления, восстановлению нарушенной трудоспособности и возращению больных активных трудовой деятельности.

основным средством лечебной физкультуры является – мышечные движения, являющиеся мощным биологическим стимулятором жизненных функций человека. лечебная физкультура использует весь арсенал средств, накопленный физкультурой. с лечебной целью применяют , специально подобранные и методически разработанные. предназначение врач учитывает особенности заболевания, характер и степень изменений системах и органов, стадию болезненного процесса, сведенья о параллельно проводимом лечении, и т. д. в основе лечебного действия лежит строго дозированная тренировка, под которой применительно к больным и ослабленным людям следует понимать целенаправленный процесс восстановления и совершенствования нарушенных функций целостного организма и отдельных его систем и органов. различают общую тренировка, последующую цель общего оздоровления и укрепления организма, и специальную тренировка направленную на устранение нарушенных функций определенных системах и органах.

в результате систематического применения развивается функциональная адаптация организма к постепенным возрастающим нагрузкам и коррекция (выравнивание) возн6икающих в процессе заболеваний нарушений.

Номинальное порядковое отношение интервалов и кардинал: Примеры


Номинальное отношение порядковых интервалов и кардинал: Примеры

В комплекте:

  1. Номинал
  2. Порядковый номер
  3. Интервал
  4. Коэффициент
  5. Кардинал

Посмотрите видео для ознакомления с номинальным порядковым интервалом:


Не можете посмотреть видео? Кликните сюда.

Круговая диаграмма отображает группы номинальных переменных (т. Е. Категории).

Номинал: номинал происходит от латинского nomalis , что означает «относящийся к именам». Это другое название категории .

Примеры :

  • Пол : Мужской, Женский, Другой.
  • Цвет волос : Коричневый, Черный, Светлый, Красный, Другой.
  • Тип жилого помещения : Дом, Квартира, Прицеп, Другое.
  • Генотип : Bb, bb, BB, bB.
  • Религиозные предпочтения : буддисты, мормоны, мусульмане, евреи, христиане, другие.

Номинальная переменная — это другое название категориальной переменной. Номинальные переменные имеют две или более категорий без какого-либо естественного порядка. это переменные без числового значения, например род занятий или принадлежность к политической партии. Другой способ думать о номинальных переменных — это с именем (номинал от латинского nominalis , что означает , относящийся к именам ).

Номинальные переменные:

  1. Не поддается количественной оценке. Другими словами, вы не можете выполнять над ними арифметические операции, такие как сложение или вычитание, или логические операции, такие как «равно» или «больше».
  2. Не может быть назначен ни один заказ.

Круговая диаграмма отображает данные в категориях с номинальными переменными.


Примеры номинальных переменных

  • Пол (мужчина, женщина, трансгендер).
  • Цвет глаз (синий, зеленый, коричневый, ореховый).
  • Тип дома (Бунгало, Дуплекс, Ранчо).
  • Тип питомца (Собака, Кошка, Грызун, Рыба, Птица).
  • Генотип (AA, Aa или aa).

Номинальные переменные относятся к номинальной шкале , где данные распределены по категориям без какого-либо порядка.

Номинальная шкала

Номинальная шкала, иногда называемая качественным типом , помещает нечисловые данные в категории или классификации . Например:

  • Определение породного типа кошек. Пример: перс — порода кошек.
  • Превращение городов в государства. Пример: Джексонвилл — город во Флориде.
  • Опрос людей, чтобы выяснить, у мужчин или женщин более высокая самооценка.
  • Выявление филантропов, интровертов или экстравертов.

Эти данные не являются числовыми. Им присвоена категория (породы кошек, города Флориды, мужчины и женщины, интроверты и экстраверты). Качественные переменные измеряются по номинальной шкале.

Средняя мода и медиана для номинального масштаба

Номинальная шкала использует категории, поэтому поиск медианы не имеет смысла . Вы, , могли бы расположить элементы в алфавитном порядке, но даже тогда средний элемент не имел бы значения в качестве медианы. Однако возможен режим (самый частый элемент в наборе). Например, если вы опросите группу случайных людей и спросите их, какой самый романтичный город в мире, Венеция или Париж могут быть наиболее частым ответом (режим).

Номинальная шкала — одна из четырех шкал измерения . Остальные три:

  • Порядковая шкала : Порядок ранжирования (1-й, 2-й 3-й), дихотомические данные, которые имеют два варианта выбора, например, истина / ложь или виновен / невиновен, и недихотомические данные с вариантами выбора типа «полностью согласен» «частично согласен» «нейтральный» и «не согласен».
  • Интервальная шкала , иногда называемая масштабируемой переменной : данные с разницей в степенях разницы, например, во времени B.C. или по Цельсию. Шкалы интервалов имеют произвольные нули (например, когда до н.э. началось и закончилось, не имеет реальной математической основы).
  • Шкала отношения : охватывает большинство измерений в физике и технике, таких как масса и энергия. На шкале отношений есть значащие нули (нулевая энергия означает, что энергии не существует).

Четыре шкалы были предложены Стэнли Смитом Стивенсом в статье Science 1946 года под названием «О теории шкал измерения».
К началу

Порядковая шкала классифицирует в соответствии с рангом.

Порядковый номер : означает в порядке . Включает «Первый», «Второй» и «Девяносто девятый».

Примеры :

  • Позиция в классе средней школы : 1, 9, 87…
  • Социально-экономический статус : бедные, средний класс, богатые.
  • Шкала Лайкерта : категорически не согласен, не согласен, нейтрален, согласен, полностью согласен.
  • Уровень согласия : да, возможно, нет.
  • Время суток: рассвет, утро, полдень, полдень, вечер, ночь.
  • Политическая ориентация: слева, в центре, справа.

Порядковая шкала классифицирует по рангам.

Порядковые данные состоят из порядковых переменных. Другими словами, если у вас есть список, который можно расположить в порядке «первый, второй, третий…», у вас есть порядковые данные. звучит просто, как , но есть пара элементов, которые могут сбивать с толку:

  1. Вам не обязательно использовать слова «первый, второй, третий…». Вместо этого вы можете использовать разные шкалы оценок, например «Горячий, горячий, самый горячий» или «Согласен, полностью согласен, не согласен».”
  2. Вы не знаете, равны ли интервалы между значениями. Мы знаем, что список кардинальных чисел, таких как 1, 5, 10, имеет установленное значение между ними (в данном случае 5), но с порядковыми данными, которых вы просто не знаете. Например, в марафоне у вас могут быть первое, второе и третье места. Но если вы не знаете точное время окончания, вы не знаете, каков интервал между первым и вторым, или вторым и третьим.

Порядковые весы.

Порядковые шкалы состоят из порядковых данных.Некоторые примеры порядковых шкал:

  • Классы средней школы: 1-е, 2-е, 3-е и т. Д.
  • Социально-экономический класс: рабочий, средний, высший.
  • Шкала Лайкерта: согласен, полностью согласен, не согласен и т. Д.

Шкала Лайкерта — еще один пример того, как нельзя быть уверенным в интервалах с порядковыми данными. Каков интервал между «полностью согласен» и «согласен»? В этот интервал практически невозможно поставить какое-либо число. Даже если бы вы могли указать число в интервале, разрыв между «полностью согласен» и «согласен», вероятно, будет намного меньше, чем разрыв между «согласен» и «нет мнения».Подумайте о том, как кого-то просят оценить вопрос типа «Шоколад неотразим». У кого-то, кто очень любит шоколад, может быть, карандаш зависает между ответами «полностью согласен» или «согласен», но его карандаш никогда не парит над «нет мнения».

Примеры порядковой шкалы

Порядковая шкала — это тип шкалы измерений, которая имеет дело с упорядоченными переменными.
Допустим, вас попросили заказать пять фильмов, от самого любимого до наименее любимого: «Челюсти», «Матрица», «Все хорошее», «Дети мужчин» и «Звуки музыки». В результате создания порядка предпочтения фильмы будут упорядочены по порядковой шкале:

  1. Матрица.
  2. Челюсти.
  3. Дети мужчин.
  4. Звуки музыки.
  5. Все хорошее.

Второй пример порядковой шкалы: вы можете провести опрос и попросить людей оценить уровень их удовлетворенности выбором из следующих ответов:

  • Очень доволен.
  • Доволен.
  • Ни доволен, ни недоволен.
  • Недоволен.
  • Крайне не доволен.

Варианты от «очень доволен» до «крайне неудовлетворен» следуют естественному порядку и, следовательно, являются порядковыми переменными.

Порядковая шкала — одна из четырех обычно используемых шкал . Остальные три:

  • Номинальная шкала: данные, которые можно разделить на категории.
  • Интервальная шкала: данные с разницей в степени, например, время до нашей эры. или градусов Цельсия.
  • Масштаб отношения: охватывает большинство измерений в физике и технике, таких как масса и энергия. На шкале отношений есть значащие нули (нулевая энергия означает, что энергии не существует).

Порядковая шкала и шкала интервалов очень похожи друг на друга, и их часто путают. Если вы предполагаете, что разности между переменными равны или если расстояния измерены точно (например, с использованием логарифмической шкалы), шкала представляет собой шкалу интервалов.

Недостаток порядковой шкалы

A Главный недостаток с использованием порядковой шкалы по сравнению с другими шкалами состоит в том, что расстояние между измерениями не всегда равно.Если у вас есть список чисел, например 1,2 и 3, вы знаете, что расстояние между числами в этом случае равно 1. Но если у вас были «очень доволен», «удовлетворен» и «нейтрален», вам нечего сказать. если разница между тремя порядковыми переменными одинакова. В списке из пяти фильмов, перечисленных выше, есть небольшая разница в том, что я предпочитаю «Челюсти» или «Дети мужчин», но огромная разница между «Дети мужчин» (которые мне понравились… дважды!) И «Звуки музыки» (которые мне не нравятся. вообще).Эта неспособность определить, сколько между каждой переменной находится, является одной из причин, почему в статистике обычно предпочитают другие шкалы измерения.

Порядковые числа в теории множеств.

Хотя «порядковый номер» обычно относится к значениям в рейтинговой шкале, стоит упомянуть, что они могут иметь другие значения помимо арифметики и статистики. Например, порядковый номер в формальной теории множеств определяется как «порядковый тип хорошо упорядоченного множества» (Dauben 1990, p. 199; Moore 1982, p.52; Суппес 1972, стр. 129). В теории множеств порядковые числа представлены арабскими цифрами или строчными греческими буквами.

В начало

Интервал : имеет значения равных интервалов, которые что-то означают. Например, термометр может иметь интервал в десять градусов.

Примеры :

  • Температура по Цельсию.
  • градусов по Фаренгейту.
  • IQ (шкала интеллекта).
  • баллов по SAT.
  • Время на часах со стрелками.

Вес измеряется по шкале соотношений.

Соотношение : точно так же, как на шкале интервалов, за исключением того, что ноль на шкале означает: не существует . Например, нулевой вес не существует; нулевого возраста не существует. С другой стороны, температура (за исключением Кельвина) не является шкалой отношений, потому что ноль существует (т.е. ноль по шкале Цельсия — это просто точка замерзания; это не означает, что вода перестает существовать).

Примеры :

  • Возраст. *
  • Масса.
  • Высота.
  • Цифры продаж.
  • Линейка измерений.
  • Доход за неделю.
  • лет обучения.
  • Количество детей.

* Можно возразить, что возраст не входит в шкалу отношений, поскольку возраст 0 определяется культурой. Например, у китайцев тоже есть номинальный возраст, который сложно подсчитать.

Кардинальное число , иногда называемое «счетным числом», используется для счета , например, когда вы считаете 1, 2, 3.Вы используете эти числа, чтобы ответить на вопрос «сколько?»

Часто наборы количественных чисел создают статистику. Когда это происходит, количественные числа исчезают. Например, согласно переписи населения США 2010 года, среднее количество человек в семье в США составляет 2,58 человек. Это число было получено путем определения кардинального числа людей в каждом доме и затем нахождения среднего значения. Как только вы взяли этот набор кардиналов и нашли его среднее значение (2,58), статистика больше не будет кардинальной.

Кардиналы всегда положительные (или нулевые) , поскольку они используются для подсчета. Например, у вас может быть 5 буханок хлеба, но иметь минус пять буханок не имеет смысла (по крайней мере, в реальном мире).

Кардиналы, используемые в повседневном языке и в теории множеств, определяются по-разному. Например, в теории множеств кардиналы могут представлять отрицательные числа. Кардинальное число этого набора {-5, -99, -100} равно трем. Бесконечность также является кардиналом: кардинальное число этого множества {1,2,3,…} равно бесконечности.

Общая информация: В английском языке кардиналы стоят перед существительным. Например, вы говорите «три брата». В американском языке жестов (ASL) они идут до или после существительного. Например, вы можете сказать «У меня есть брат 3» на английском языке.

Теория множеств, наибольшее кардинальное число и теорема Кантора

Теория множеств описывает, сколько элементов находится в множестве, и сообщает нам, сколько существует количественных чисел. Мощность в теории множеств образует обобщение натуральных чисел, которое распространяется на трансфинитные числа.Трансфинитные числа близки к бесконечности, но не точно, бесконечны. Сама по себе концепция бесконечности является трудной для понимания, потому что большинство вещей, которые мы можем видеть, чувствовать или слышать, конечны. Но когда вы думаете, что можете осмыслить концепцию бесконечности, на самом деле это намного сложнее , чем это; Кантор продемонстрировал, что существуют разные размеры бесконечности, и на самом деле существует бесконечное количество бесконечностей. Теорема Кантора проливает свет на эту идею.

Теорема Кантора говорит нам, что не существует наибольшего кардинального числа . Теорема также говорит, что существует бесконечное количество бесконечных количественных чисел. Теорема в основном утверждает, что существует набор, содержащий все кардинальные числа. Этот набор также имеет набор мощности , который представляет собой набор подмножеств.

В качестве очень простого примера давайте начнем с небольшого набора количественных чисел {1, 2, 3}.
Набор мощности {1, 2, 3} включает в себя пустой набор {} и все возможные комбинации наборов (это очень похоже на идею комбинаций в статистике):
P (S) = {{}, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}.
Теперь представьте набор, содержащий все возможные кардиналы {1,2,3… ∞} Даже для множеств бесконечного размера набор мощности всегда больше. Математики называют это парадоксом (противоречие). Однако это также порождает идею множественных типов бесконечностей.

Более точное определение

Кардинальные числа получили свое название от буквального определения, что означает «главный» или «первичный». Слово кардинал происходит от латинского cardin , что означает «стержень» или «шарнир», так что это числа, от которых происходят все остальные числа, или от которых зависят (Svarney & Svarney, 2012).Это фундаментальные счетные единицы , без которых математика была бы невозможна. В этом основном смысле кардиналы просты в использовании и понимании. Однако точное математическое определение lot более сложное и включает в себя довольно объемную математику, включая теорию множеств. Гамильтон (1982) называет концепцию мощности «трудным для понимания понятием», и многие другие авторы соглашаются.

Отчасти трудность составления простого определения заключается в том, что если мы говорим, это то, что вы получаете при подсчете объектов (1, 2, 3 и т. Д.)), то сам процесс подсчета порядковый. «1» — это первое число, «2» — второе и так далее. Кроме того, сумма a + b может относиться к двум порядковым числам или двум кардинальным числам, и они не приводят к одинаковому результату. Другой пример перекрестного заражения между системами: 10 мая в индийско-арабской системе нумерации (обычно используемой в США) можно читать либо как кардинал (10 мая), либо как порядковый номер (10 мая, -е, ). То же самое верно и для римских цифр, где II может читаться как кардинал два или порядковая секунда (как у Карла II, Карла II).

Если вас это смущает, вы не одиноки. Исторически сложилось так, что точное определение было (возможно, до сих пор) довольно запутанной темой.

Ранние определения

Готтлоб Фреге (в 1884 г.) и Бертран Рассел (1903) определили кардинальные числа как — множество всех множеств, равных A (Мур, 1982, стр. 153). По-английски это означает, что количественное число определенного набора — это совокупность всех наборов, которые вы можете сопоставить с ним. Или же. Другими словами, это тот уникальный аспект набора, который можно сопоставить с другим набором.«Сопоставление» подразумевает соответствие один-к-одному . Например, предположим, что у вас было пятьдесят человек за игрой в бинго (так что набор всех людей равен 50). А теперь предположим, что эти пятьдесят человек купили 50 карт Бинго. Поскольку количество людей (50) в точности совпадает с количеством карточек Бинго (50), мы говорим, что существует взаимно однозначное соответствие, и поэтому мощность набора равна 50.

Вне математической философии определение Фреге и Рассела не выдержало проверки временем.Это может быть связано с тем, что, хотя двое мужчин согласились в формулировке определения, они не согласились с философским значением , означающим определения. Фреге назвал числа «самодостаточными объектами», в то время как Рассел воспринял это как «… позволяющее ему обходиться без чисел, отличных от классов равномасштабных классов, как ненужных физических вещей» (Beaney, 2010). Тем не менее, это было важно, поскольку это подготовило почву для идеи, что кардинал являются членами универсального набора, состоящего из более мелких наборов членов.

Определение Кантора-фон Нуэмана

Еще одним ранним определением было определение Кантора-фон Нуэмана, которое является значительно более техническим, чем определение Фреге-Рассела. Вкратце, теория гласит:

| A | определяется как наименьший (фон Неймана) порядковый α такой, что A может быть хорошо упорядочен с типом α (Dasgupta, 2013).

Для определения произвольных наборов, таких как набор всех действительных чисел ( R ), требуется использование Аксиомы выбора, которая имеет множество форм.Это (один из самых простых) из Аксиомы выбора Университета Вандербильта:

Пусть C — набор непустых множеств. Затем мы можем выбрать члена из каждого набора в этой коллекции. Другими словами, существует функция f, определенная на C со свойством, что для каждого набора S в коллекции f (S) является членом S.

Это ведет нас к кроличьей норе теории множеств, которая выходит за рамки этого элементарного обсуждения кардинальных чисел. Если вам интересно, я рекомендую отличную книгу Абхиджата Дасгупты Теория множеств: с введением в реальные множества точек.

К началу

Номинальное отношение порядковых интервалов: Каталожный номер

Бини, М. (2010). Аналитический поворот: анализ в ранней аналитической философии и феноменологии. Рутледж.
Дасгупта, А. (2013). Теория множеств: введение в наборы реальных точек. Springer Science & Business Media.
Гоник Л. (1993). Мультяшный справочник по статистике. HarperPerennial.
Гамильтон, А. (1982). Числа, множества и аксиомы: аппарат математики. Издательство Кембриджского университета.
Хош, В. (2010). Британника. Руководство по числам и измерениям. Издательская группа Rosen.
Левин Д. (2014). Даже вы можете изучить статистику и аналитику: простое для понимания руководство по статистике и аналитике, 3-е издание. Pearson FT Press
Мур, Г. (1982). Аксоим выбора Цермело. Springer.
Рассел, Б. (1903). Основы математики.
Сварней и Сварней (2012). Удобная книга ответов по математике. Visible Ink Press.

————————————————— —————————-

Нужна помощь с домашним заданием или контрольным вопросом? С помощью Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области.Ваши первые 30 минут с репетитором Chegg бесплатны!

Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .


Глава 6 Измерение конструкций

Теоретические предложения состоят из отношений между абстрактными конструкциями. Проверка теорий (то есть теоретических положений) требует точного, правильного и научного измерения этих построений, прежде чем можно будет проверить прочность их взаимосвязей. Измерение относится к тщательным, осознанным наблюдениям за реальным миром и является сутью эмпирических исследований. В то время как некоторые конструкции в социальных исследованиях, такие как возраст человека, вес или размер фирмы, можно легко измерить, другие конструкции, такие как творчество, предубеждение или отчуждение, может быть значительно труднее измерить. В этой главе мы рассмотрим связанные процессы концептуализации и операционализации для создания мер таких конструкций.

Концептуализация

Концептуализация — это умственный процесс, посредством которого нечеткие и неточные конструкции (концепции) и их составляющие компоненты определяются в конкретных и точных терминах.Например, мы часто используем слово «предубеждение», и это слово вызывает в нашем сознании определенный образ; однако у нас могут возникнуть проблемы, если нас попросят точно определить, что означает этот термин. Если кто-то плохо отзывается о других расовых группах, это расовые предрассудки? Если женщины зарабатывают меньше мужчин на одной и той же работе, является ли это гендерным предрассудком? Если прихожане верят, что неверующие будут гореть в аду, то это религиозное предубеждение? Существуют ли разные виды предрассудков, и если да, то какие? Существуют ли разные уровни предубеждений, например, высокий или низкий? Ответ на все эти вопросы — ключ к правильному измерению конструкции предубеждения. Процесс понимания того, что включено, а что исключено в концепции предрассудков, — это процесс концептуализации.

Процесс концептуализации тем более важен из-за неточности, расплывчатости и двусмысленности многих построений социальных наук. Например, «сострадание» — это то же самое, что «сочувствие» или «сентиментальность»? Если у вас есть предложение о том, что «сострадание положительно связано с сочувствием», вы не сможете проверить это утверждение, если не сможете концептуально отделить сочувствие от сострадания, а затем эмпирически правильно измерить эти две очень похожие конструкции.Если глубоко религиозные люди верят, что некоторые члены их общества, такие как неверующие, геи и врачи, занимающиеся абортами, будут гореть в аду за свои грехи, и изо всех сил попытаются изменить поведение «грешников», чтобы не допустить их попадания в ад, не так ли? действуя предвзято или из сострадания? Наше определение таких конструктов основано не на каком-либо объективном критерии, а, скорее, на общем («межсубъективном») соглашении между нашими мысленными образами (концепциями) этих конструктов.

При определении таких конструкций, как предубеждение или сострадание, мы должны понимать, что иногда эти конструкции не реальны или могут существовать независимо, а являются просто воображаемыми творениями в нашем сознании. Например, в мире могут быть определенные племена, у которых нет предрассудков и которые даже не могут представить, что влечет за собой эта концепция. Но в реальной жизни мы склонны относиться к этой концепции как к реальной. Процесс рассмотрения ментальных конструкций как реальных называется реификацией, которая является центральным элементом определения конструкций и определения измеримых переменных для их измерения.

Одним из важных решений при концептуализации конструкций является определение того, являются ли они одномерными или многомерными. Одномерные конструкции — это конструкции, которые, как ожидается, будут иметь единственное базовое измерение. Эти конструкции можно измерить с помощью одной меры или теста. Примеры включают простые конструкции, такие как вес человека, скорость ветра, и, возможно, даже сложные конструкции, такие как самооценка (если мы концептуализируем самооценку как состоящую из одного измерения, что, конечно, может быть нереалистичным предположением). Многомерные конструкции состоят из двух или более основных измерений. Например, если мы концептуализируем академические способности человека как состоящие из двух измерений — математических и вербальных способностей, — тогда академические способности представляют собой многомерную конструкцию. Каждый из основных параметров в этом случае должен быть измерен отдельно, скажем, с использованием различных тестов на математические и вербальные способности, и эти две оценки могут быть объединены, возможно, взвешенным образом, чтобы создать общую ценность для конструкции академических способностей.

Ввод в эксплуатацию

Как только теоретическая конструкция определена, как ее измерить? Операционализация относится к процессу разработки индикаторов или элементов для измерения этих конструкций. Например, если ненаблюдаемая теоретическая конструкция, такая как социально-экономический статус, определяется как уровень семейного дохода, ее можно использовать с помощью индикатора, который задает респондентам вопрос: каков ваш годовой семейный доход? Учитывая высокий уровень субъективности и неточности, присущие конструкциям социальных наук, мы, как правило, измеряем большинство этих конструктов (за исключением нескольких демографических конструктов, таких как возраст, пол, образование и доход), используя несколько показателей. Этот процесс позволяет нам исследовать близость между этими показателями как оценку их точности (надежности).

Индикаторы действуют на эмпирическом уровне, в отличие от конструктов, которые концептуализируются на теоретическом уровне. Комбинация индикаторов на эмпирическом уровне, представляющая данную конструкцию, называется переменной. Как отмечалось в предыдущей главе, переменные могут быть независимыми, зависимыми, опосредующими или модерирующими, в зависимости от того, как они используются в исследовательском исследовании.Также каждый индикатор может иметь несколько атрибутов (или уровней), и каждый атрибут представляет собой значение. Например, переменная «пол» может иметь два атрибута: мужской или женский. Аналогичным образом, шкала удовлетворенности потребителей может быть построена для представления пяти атрибутов: «полностью неудовлетворен», «несколько недоволен», «нейтральный», «частично удовлетворен» и «полностью удовлетворен». Значения атрибутов могут быть количественными (числовыми) или качественными (нечисловыми). Количественные данные можно анализировать с использованием методов количественного анализа данных, таких как регрессия или моделирование структурным уравнением, в то время как качественные данные требуют методов качественного анализа данных, таких как кодирование.Обратите внимание, что многие переменные в исследованиях в области социальных наук являются качественными, даже если представлены в количественном виде. Например, мы можем создать индикатор удовлетворенности клиентов с пятью атрибутами: сильно неудовлетворен, несколько неудовлетворен, нейтрален, частично удовлетворен и полностью удовлетворен, и присвоить этим пяти атрибутам числа от 1 до 5 соответственно, чтобы мы могли использовать сложные статистические инструменты для количественный анализ данных. Тем не менее, обратите внимание, что цифры — это всего лишь ярлыки, связанные с личной оценкой респондентами своей удовлетворенности, а основная переменная (удовлетворенность) по-прежнему является качественной, даже если мы представили ее количественно.

Индикаторы могут быть отражающими или формирующими. Отражающий индикатор — это показатель, который «отражает» лежащую в основе конструкцию. Например, если религиозность определяется как конструкция, которая измеряет степень религиозности человека, то посещение религиозных служб может быть отражающим показателем религиозности. Формирующий индикатор — это показатель, который «формирует» базовую конструкцию или способствует ее формированию. Такие индикаторы могут отражать различные аспекты интересующей конструкции. Например, если религиозность определяется как составляющая из измерения веры, религиозного измерения и ритуального измерения, тогда индикаторы, выбранные для измерения каждого из этих различных измерений, будут считаться формирующими индикаторами.Одномерные конструкции измеряются с помощью рефлексивных индикаторов (даже несмотря на то, что несколько рефлексивных индикаторов могут использоваться для измерения заумных построений, таких как самооценка), в то время как многомерные конструкции измеряются как формирующая комбинация множества измерений, даже если каждое из основных измерений может быть изменено. измеряется с помощью одного или нескольких светоотражающих индикаторов.

Уровни измерения

Первое решение, которое необходимо принять при вводе в действие конструкции, — это решить, каков предполагаемый уровень измерения.Уровни измерения, также называемые рейтинговой шкалой, относятся к значениям, которые может принимать индикатор (но ничего не говорят о самом индикаторе). Например, мужчина и женщина (или М и Ж, или 1 и 2) — это два уровня индикатора «пол». В своей основополагающей статье «К теории шкал измерения», опубликованной в журнале Science в 1946 году, психолог Стэнли Смит Стивенс (1946) определил четыре общих типа рейтинговых шкал для научных измерений: номинальную, порядковую, интервальную и шкалу отношений.Статистические свойства этих шкал приведены в таблице 6.1.

Таблица 6.1. Статистические свойства рейтинговых шкал
Масштаб Центральная тенденция Статистика Преобразования
Номинал Режим Хи-квадрат Один к одному (равенство)
Порядковый номер Медиана Процентиль, непараметрическая статистика Монотонное нарастание (заказ)
Интервал Среднее арифметическое, диапазон, стандартное отклонение Корреляция, регрессия, дисперсионный анализ Положительная линейная (аффинная)
Коэффициент Среднее геометрическое, среднее гармоническое Коэффициент вариации Положительные сходства (мультипликативные, логарифмические)

Примечание. Все шкалы более высокого порядка могут использовать любую статистику для шкал более низкого порядка.

Номинальные шкалы, также называемые категориальными шкалами, измеряют категориальные данные. Эти шкалы используются для переменных или индикаторов, которые имеют взаимоисключающие атрибуты. Примеры включают пол (два значения: мужской или женский), тип отрасли (производство, финансы, сельское хозяйство и т. Д.) И религиозную принадлежность (христианин, мусульманин, еврей и т. Д.). Даже если мы присвоим каждому значению уникальные числа, например 1 для мужчин и 2 для женщин, числа на самом деле ничего не значат (т. Е. 1 не меньше или половина 2), и их легко можно было бы представить не численно, например M для мужчины и F для женщины.Номинальные шкалы просто предлагают имена или метки для различных значений атрибутов. Подходящей мерой центральной тенденции номинальной шкалы является мода, и ни среднее значение, ни медиана не могут быть определены. Допустимая статистика — это хи-квадрат и частотное распределение, и допускается только преобразование один-к-одному (равенство) (например, 1 = мужской, 2 = женский).

Порядковые шкалы — это шкалы, которые измеряют упорядоченные данные, такие как рейтинг учащихся в классе как первый, второй, третий и т. Д., На основе их среднего балла или результатов тестов.Однако нельзя оценить фактические или относительные значения атрибутов или разницу в значениях атрибутов. Например, рейтинг учеников в классе ничего не говорит о фактическом среднем балле или результатах тестов учеников, а также о том, насколько они хорошо справляются друг с другом. Классическим примером в естественных науках является шкала твердости минералов Мооса, которая характеризует твердость различных минералов по их способности царапать другие минералы. Например, алмазы могут поцарапать все другие природные минералы на Земле, и, следовательно, алмаз является самым «твердым» минералом.Однако шкала не показывает действительную твердость этих минералов и даже не дает относительной оценки их твердости. Порядковые шкалы также могут использовать метки атрибутов (якоря), такие как «плохо», «средний» и «хорошо», или «полностью не удовлетворен», «несколько не удовлетворен», «нейтральный» или «в некоторой степени удовлетворен» и «полностью удовлетворен». ». В последнем случае мы можем сказать, что респонденты, которые «в некоторой степени удовлетворены», менее удовлетворены, чем те, кто «полностью удовлетворен», но мы не можем количественно оценить их уровень удовлетворенности.Центральной мерой тенденции порядковой шкалы может быть ее медиана или мода, а средние значения не поддаются интерпретации. Следовательно, статистический анализ может включать процентили и непараметрический анализ, но более сложные методы, такие как корреляция, регрессия и дисперсионный анализ, не подходят. Допускается монотонно возрастающая трансформация (сохраняющая рейтинг).

Интервальные шкалы — это шкалы, в которых измеренные значения не только упорядочены по рангу, но и равноудалены от соседних атрибутов.Например, шкала температур (в градусах Фаренгейта или Цельсия), где разница между 30 и 40 градусами по Фаренгейту такая же, как и между 80 и 90 градусами по Фаренгейту. Аналогичным образом, если у вас есть шкала, которая запрашивает годовой доход респондентов с использованием следующих атрибутов (диапазонов): от 0 до 10 000 долларов США, от 10 000 до 20 000 долларов США, от 20 000 до 30 000 долларов США и т. Д., Это также интервальная шкала, поскольку средняя точка каждый диапазон (т.е. 5000, 15 000, 25 000 долларов и т. д.) равноудалены друг от друга. Шкала коэффициента интеллекта (IQ) также является интервальной шкалой, потому что шкала разработана таким образом, что разница между оценками IQ 100 и 110 должна быть такой же, как между 110 и 120 (хотя мы действительно не знаем, действительно ли это дело).Интервальная шкала позволяет нам исследовать, «насколько больше» одного атрибута по сравнению с другим, что невозможно с номинальной или порядковой шкалой. Разрешенные меры центральной тенденции включают среднее значение, медианное значение или моду, а также меры дисперсии, такие как диапазон и стандартное отклонение. Допустимый статистический анализ включает все те, которые разрешены для номинальной и порядковой шкал, а также корреляцию, регрессию, дисперсионный анализ и т. Д. Допустимые масштабные преобразования положительные линейные. Обратите внимание, что шкала удовлетворенности, обсуждаемая ранее, не является строго интервальной шкалой, потому что мы не можем сказать, является ли разница между «полностью удовлетворен» и «в некоторой степени удовлетворен» такой же, как между «нейтральным» и «в некоторой степени удовлетворен» или между «несколько неудовлетворен». »И« сильно недоволен ».Однако исследователи социальных наук часто «притворяются» (ошибочно), что эти различия равны, чтобы мы могли использовать статистические методы для анализа данных с порядковой шкалой.

Шкалы отношения — это шкалы, которые обладают всеми качествами номинальной, порядковой и интервальной шкал, а также имеют точку «истинного нуля» (где нулевое значение подразумевает отсутствие или недоступность лежащей в основе конструкции). Для большинства измерений в естественных и технических науках, таких как масса, наклон самолета и электрический заряд, используются шкалы соотношений, как и некоторые переменные социальных наук, такие как возраст, срок пребывания в должности в организации и размер фирмы (измеряется как количество сотрудников или валовая выручка).Например, фирма нулевого размера означает, что у нее нет сотрудников или доходов. Температурная шкала Кельвина также является шкалой отношений, в отличие от шкалы Фаренгейта или Цельсия, потому что нулевая точка на этой шкале (равная -273,15 градуса Цельсия) не является произвольным значением, а представляет состояние, в котором частицы вещества при этой температуре имеют нулевую кинетическую энергию. Эти шкалы называются «шкалами отношения», потому что отношения двух точек по этим показателям значимы и интерпретируемы. Например, фирма размера 10 вдвое больше, чем фирма размера 5, и то же самое можно сказать о фирме с 10 000 сотрудников по сравнению с другой фирмой с 5 000 сотрудников.Все меры центральных тенденций, включая геометрические и гармонические средние, разрешены для шкал отношений, как и меры отношения, такие как стьюдентизированный диапазон или коэффициент вариации. Разрешены все статистические методы. Также разрешены сложные преобразования, такие как положительное подобие (например, мультипликативное или логарифмическое).

На основе четырех общих типов шкал, рассмотренных выше, мы можем создать особые рейтинговые шкалы для исследований в области социальных наук. Общие рейтинговые шкалы включают бинарную шкалу, шкалу Лайкерта, шкалу семантического дифференциала или шкалу Гуттмана.Другие менее распространенные шкалы здесь не обсуждаются.

Бинарные весы. Двоичные шкалы — это номинальные шкалы, состоящие из двоичных элементов, которые принимают одно из двух возможных значений, например да или нет, истина или ложь и т. Д. Например, типичная бинарная шкала для конструкта «политическая активность» может состоять из шести бинарных элементов, показанных в таблице 6.2. Каждый пункт в этой шкале представляет собой бинарный пункт, и общее количество «да», указанное респондентом (значение от 0 до 6), может использоваться в качестве общей меры политической активности этого человека.Чтобы понять, как были получены эти элементы, обратитесь к разделу «Масштабирование» далее в этой главе. Бинарные шкалы также могут использовать другие значения, такие как мужской или женский пол, полный или неполный рабочий день для статуса занятости и т. Д. Если элемент статуса занятости изменен, чтобы учесть более двух возможных значений (например, безработный, полный рабочий день, неполный рабочий день и пенсионер), он больше не является двоичным, но по-прежнему остается номинально масштабируемым элементом.

Таблица 6.2. Бинарная шкала из шести пунктов для измерения политической активности
Писали ли вы когда-нибудь письмо государственному служащему Есть
Подписывали ли вы когда-нибудь политическую петицию Есть
Жертвовали ли вы когда-нибудь деньги на политические цели Есть
Жертвовали ли вы когда-нибудь деньги кандидату, баллотирующемуся на государственные должности Есть
Писали ли вы когда-нибудь политическое письмо редактору газеты или журнала Есть
Уговаривали ли вы кого-нибудь изменить свой план голосования? Есть

Шкала Лайкерта.Это очень популярная рейтинговая шкала, разработанная Ренсисом Лайкертом для измерения порядковых данных в исследованиях в области социальных наук. Эта шкала включает вопросы Лайкерта, которые представляют собой простые формулировки утверждений, на которые респонденты могут указать степень своего согласия или несогласия по пяти- или семибалльной шкале от «полностью не согласен» до «полностью согласен». Типичный пример шкалы Лайкерта из шести пунктов для конструкта «самооценка при найме на работу» показан в таблице 6.3. Шкалы Лайкерта представляют собой суммированные шкалы, то есть общий балл по шкале может быть суммой значений атрибутов каждого элемента, выбранных респондентом.

Таблица 6.3. Шкала Лайкерта из шести пунктов для измерения самооценки при найме на работу
Абсолютно не согласен Скорее не согласен нейтральный Скорее согласен Полностью согласен
Я хорошо отношусь к своей работе 1 2 3 4 5
Я хорошо лажу с другими на работе 1 2 3 4 5
Я горжусь своими отношениями со своим руководителем на работе 1 2 3 4 5
Я могу сказать, что другие люди на работе рады видеть меня там 1 2 3 4 5
Я могу сказать, что мои коллеги уважают меня 1 2 3 4 5
Я чувствую, что делаю полезный вклад в работу 1 2 3 4 5

Элементы Лайкерта допускают большую детализацию (более точно настроенный ответ), чем двоичные элементы, в том числе нейтральность респондентов к утверждению.Также можно использовать три или девять значений (часто называемых «якорями»), но важно использовать нечетное количество значений, чтобы обеспечить «нейтральный» (или «ни согласен, ни не согласен») привязку. В некоторых исследованиях использовался «подход принудительного выбора», чтобы заставить респондентов согласиться или не согласиться с утверждением Ликерта путем отказа от нейтральной средней точки и использования четного числа значений и, но это не очень хорошая стратегия, поскольку некоторые люди действительно могут быть нейтральными. к данному утверждению, и подход принудительного выбора не дает им возможности зафиксировать свою нейтральную позицию.Ключевой характеристикой шкалы Лайкерта является то, что даже несмотря на то, что утверждения различаются по разным пунктам или показателям, якоря («полностью не согласен» или «полностью согласен») остаются теми же. Шкалы Лайкерта являются порядковыми шкалами, потому что якоря не обязательно равноудалены, хотя иногда мы рассматриваем их как шкалы интервалов.

Таблица 6.4. Шкала семантического дифференциала для измерения отношения к государственному страхованию здоровья
Как бы вы оценили свое мнение о национальном медицинском страховании?
Очень много Скорее Ни то, ни другое Скорее Очень много
Хорошо Плохо
Полезное Бесполезный
Забота Безразличие
Интересное Расточка

Шкала семантического дифференциала.Это составная (состоящая из нескольких пунктов) шкала, в которой респондентов просят указать свое мнение или чувства по отношению к одному утверждению, используя разные пары прилагательных, обозначенные как полярные противоположности. Например, конструкт «отношение к национальному страхованию здоровья» можно измерить с помощью четырех пунктов, представленных в таблице 6.4. Как и в шкале Лайкерта, общий балл по шкале может быть суммой баллов по отдельным пунктам. Обратите внимание, что в шкалах Лайкерта утверждение изменяется, но якоря остаются неизменными для всех элементов.Однако в шкалах семантического дифференциала утверждение остается постоянным, в то время как якоря (пары прилагательных) меняются между элементами. Семантический дифференциал считается отличным методом измерения отношения или чувств людей к объектам, событиям или поведению.

Шкала Гутмана. В этой составной шкале, разработанной Луи Гутманом, используется ряд элементов, расположенных в порядке возрастания интенсивности интересующей конструкции, от наименее интенсивной до наиболее интенсивной. Например, конструкт «отношение к иммигрантам» можно измерить с помощью пяти пунктов, представленных в таблице 6.5. Каждый элемент в приведенной выше шкале Гуттмана имеет вес (не указанный выше), который варьируется в зависимости от интенсивности этого элемента, и взвешенная комбинация каждого ответа используется в качестве совокупной меры наблюдения.

Таблица 6.5. Пятипозиционная шкала Гутмана для измерения отношения к иммигрантам
Как вы оцениваете свое мнение по поводу следующих утверждений об иммигрантах?
Не возражаете ли вы, что иммигранты являются гражданами вашей страны? Есть
Вы не возражаете против иммигрантов, живущих по соседству? Есть
Не могли бы вы жить по соседству с иммигрантом Есть
Не могли бы вы, чтобы иммигрант был вашим близким другом Есть
Не могли бы вы, если бы кто-то из вашей семьи женился на иммигранте Есть

Масштабирование

В предыдущем разделе обсуждалось, как измерить ответы респондентов на заранее разработанные вопросы или индикаторы, принадлежащие к основному конструкту.Но как нам создать сами индикаторы? Процесс создания индикаторов называется масштабированием. Более формально масштабирование — это отрасль измерения, которая включает в себя построение показателей путем связывания качественных суждений о ненаблюдаемых конструкциях с количественными, измеримыми метрическими единицами. Стивенс (1946) сказал: «Масштабирование — это присвоение объектам чисел в соответствии с правилом». Этот процесс измерения абстрактных понятий в конкретных терминах остается одной из самых сложных задач в эмпирических исследованиях социальных наук.

Результатом процесса масштабирования является шкала, которая представляет собой эмпирическую структуру для измерения элементов или показателей данной конструкции. Поймите, что «шкалы», обсуждаемые в этом разделе, немного отличаются от «рейтинговых шкал», рассмотренных в предыдущем разделе. Шкала оценок используется для регистрации реакции респондентов на данный вопрос, например, например, номинальный масштабируемый элемент фиксирует реакцию «да / нет», а элемент с интервальным масштабированием фиксирует значение от «категорически не согласен» до «полностью согласен».«Прикрепление рейтинговой шкалы к утверждению или инструменту не является масштабированием. Скорее, масштабирование — это формальный процесс разработки элементов шкалы до того, как к ним можно будет прикрепить рейтинговые шкалы.

Весы

могут быть одномерными или многомерными, в зависимости от того, является ли лежащая в основе конструкция одномерным (например, вес, скорость ветра, размер фирмы) или многомерным (например, академические способности, интеллект). Одномерная шкала измеряет конструкции по единой шкале от высокого до низкого.Обратите внимание, что некоторые из этих шкал могут включать несколько элементов, но все эти элементы пытаются измерить одно и то же базовое измерение. Это особенно верно в отношении многих конструкций социальных наук, таких как самооценка, которые, как предполагается, имеют одно измерение, идущее от низкого к высокому. С другой стороны, многомерные шкалы используют разные элементы или тесты для измерения каждого измерения конструкции отдельно, а затем объединяют оценки по каждому измерению для создания общей меры многомерной конструкции.Например, академические способности можно измерить с помощью двух отдельных тестов математических и вербальных способностей учащихся, а затем объединить эти оценки для создания общей меры академических способностей. Поскольку большинство шкал, используемых в исследованиях в области социальных наук, являются одномерными, мы рассмотрим следующие три подхода к созданию одномерных шкал.

Методы одномерного масштабирования были разработаны в первой половине двадцатого века и названы в честь своих создателей. Три самых популярных метода одномерного масштабирования: (1) равноправное масштабирование Терстона, (2) суммативное масштабирование Лайкерта и (3) кумулятивное масштабирование Гуттмана.Эти три подхода во многом схожи, с ключевыми различиями в оценке пунктов шкалы судьями и статистических методах, используемых для выбора окончательных пунктов. Далее мы обсудим каждый из этих методов.

Метод равноправного масштабирования Терстона. Луи Терстон. один из самых ранних и самых известных теоретиков масштабирования опубликовал метод равных интервалов в 1925 году. Этот метод начинается с четкого концептуального определения интересующей конструкции. На основе этого определения создаются потенциальные элементы шкалы для измерения этой конструкции.Эти элементы создаются экспертами, которые кое-что знают об измеряемой конструкции. Первоначальный набор вопросов-кандидатов (в идеале от 80 до 100 вопросов) должен быть сформулирован аналогичным образом, например, образуя их как утверждения, с которыми респонденты могут согласиться или не согласиться (а не как вопросы или другие вещи). Затем набирается жюри для выбора конкретных элементов из этого пула кандидатов, представляющих интересующую конструкцию. Судьи могут включать ученых, прошедших подготовку в процессе создания инструментов, или случайную выборку интересующих респондентов (т.е., люди, знакомые с явлением). Процесс отбора осуществляется посредством того, что каждый судья независимо оценивает каждый пункт по шкале от 1 до 11 в зависимости от того, насколько близко, по их мнению, этот пункт отражает предполагаемую конструкцию (1 представляет крайне неблагоприятную оценку, а 11 — чрезвычайно благоприятную). Для каждого элемента вычислите медианный и межквартильный диапазон (разница между 75-м и 25-м процентилями — мера дисперсии), которые нанесены на гистограмму, как показано на рисунке 6.1. Окончательные элементы шкалы выбираются как утверждения, которые находятся через равные интервалы в диапазоне медиан. Это можно сделать, сгруппировав элементы с общей медианой, а затем выбрав элемент с наименьшим межквартильным диапазоном в каждой группе медианы. Однако вместо того, чтобы полностью полагаться на статистический анализ при выборе элементов, лучшей стратегией может быть изучение элементов-кандидатов на каждом уровне и выбор утверждения, которое является наиболее ясным и имеет наибольший смысл. Среднее значение каждого элемента шкалы представляет собой вес, который будет использоваться для агрегирования элементов в составную шкалу баллов, представляющую интересующую конструкцию.Теперь у нас есть шкала, которая выглядит как линейка, с одним элементом или утверждением в каждой из 11 точек на линейке (и взвешенными как таковые). Поскольку элементы отображаются одинаково во всем 11-бальном диапазоне шкалы, этот метод называется шкалой одинакового отображения.

Терстон также создал два дополнительных метода построения одномерных шкал — метод последовательных интервалов и метод парных сравнений, которые очень похожи на метод равных интервалов, за исключением того, как судей просят оценивать данные.Например, метод парного сравнения требует, чтобы каждый судья выносил суждение по каждой паре утверждений (а не оценивал каждое утверждение независимо по шкале от 1 до 11). Отсюда и название метода парного сравнения. При большом количестве операторов этот подход может быть чрезвычайно трудоемким и громоздким по сравнению с методом равных интервалов.

Рисунок 6.1. Гистограмма для элементов шкалы Терстона

Метод суммативного масштабирования Лайкерта. Метод Лайкерта, метод одномерного масштабирования, разработанный Мерфи и Лайкертом (1938), возможно, является самым популярным из трех подходов масштабирования, описанных в этой главе.Как и метод Терстона, метод Лайкерта также начинается с четкого определения интересующей конструкции и использования набора экспертов для создания от 80 до 100 потенциальных элементов шкалы. Затем эти вопросы оцениваются судьями по шкале оценок от 1 до 5 (или от 1 до 7) следующим образом: 1 — категорически не согласен с концепцией, 2 — частично не согласен с концепцией, 3 — не определился, 4 — частично согласен с концепцией. , и 5 полностью согласны с концепцией. После этого рейтинга конкретные элементы могут быть выбраны для окончательной шкалы, могут быть выбраны одним из нескольких способов: (1) путем вычисления двумерной корреляции между оценкой судей по каждому элементу и общим элементом (созданным путем суммирования всех отдельных элементов для каждого респондента) , и выбрасывать предметы с низким (напр.g., менее 0,60) корреляции элементов к общему количеству, или (2) путем усреднения оценки для каждого элемента для верхнего квартиля и нижнего квартиля судей, выполнения t-теста на разницу в средних значениях и выбора элементов которые имеют высокие t-значения (т. е. те, которые лучше всего различают ответы верхнего и нижнего квартилей). В конце концов, суждение исследователя может быть использовано для получения относительно небольшого (скажем, от 10 до 15) набора элементов, которые имеют высокую корреляцию между элементами и общим количеством элементов и высокую дискриминацию (т.е. высокие значения t).

Метод Лайкерта предполагает равные веса для всех вопросов, и, следовательно, ответы респондента по каждому пункту могут быть суммированы, чтобы создать общую оценку для этого респондента. Следовательно, этот метод называется суммированной шкалой. Обратите внимание, что любой элемент с обратным значением из исходного направления конструкции должен быть закодирован в обратном порядке (т. Е. 1 становится 5, 2 становится 4 и т. Д.) Перед суммированием.

Кумулятивный метод масштабирования Гуттмана. Метод кумулятивного масштабирования, разработанный Гутманом (1950), основан на методике социальной дистанции Эмори Богардуса, которая предполагает, что готовность людей участвовать в социальных отношениях с другими людьми различается по степени интенсивности, и измеряет эту интенсивность с помощью списка элементов, упорядоченных от «наименее интенсивного» до «наиболее интенсивного».Идея состоит в том, что люди, которые согласны с одним пунктом в этом списке, также согласны со всеми предыдущими пунктами. На практике мы редко находим набор элементов, который идеально соответствует этому совокупному шаблону. Анализ скалограммы используется для проверки того, насколько набор элементов соответствует идее кумулятивности.

Как и предыдущие методы масштабирования, метод Гуттмана также начинается с четкого определения интересующей конструкции, а затем с использованием экспертов для разработки большого набора элементов-кандидатов. Затем группа судей оценивает каждый пункт-кандидат как «да», если они считают этот пункт благоприятным для конструкции, и «нет», если они считают этот пункт неблагоприятным.Затем создается матрица или таблица, показывающая ответы судей на все пункты кандидата. Эта матрица отсортирована в порядке убывания от судей, у которых больше «да» вверху, к тем, у кого меньше «да» внизу. Судьи с одинаковым количеством «да», утверждения могут быть отсортированы слева направо на основе наибольшего количества соглашений к наименьшему. Полученная матрица будет напоминать таблицу 6.6. Обратите внимание, что шкала теперь почти накапливается при чтении слева направо (по элементам). Однако может быть несколько исключений, как показано в Таблице 6.6, и, следовательно, шкала не является полностью кумулятивной. Чтобы определить набор элементов, который наилучшим образом соответствует свойству кумулятивности, можно использовать метод анализа данных, называемый анализом скалограмм (или это можно сделать визуально, если количество элементов невелико). Статистический метод также оценивает балл по каждому пункту, который можно использовать для вычисления общего балла респондента по всему набору пунктов. Y указывает на исключения, которые не позволяют этой матрице быть идеально кумулятивной.

Таблица 6.6. Сортированная рейтинговая матрица по шкале Гуттмана
Респондент Пункт 12 Позиция 5 Позиция 3 Товар 22 Пункт 8 Пункт 7
29 Y Y Y Y Y Y
7 Y Y Y Y
15 Y Y Y Y
3 Y Y Y Y
32 Y Y Y
4 Y Y Y
5 Y Y
23 Y Y
11 Y Y

Индексы

Индекс — это составная оценка, полученная путем агрегирования показателей нескольких конструкций (называемых компонентами) с использованием набора правил и формул.Он отличается от шкал тем, что шкалы также объединяют меры, но эти меры измеряют разные измерения или одно и то же измерение одной конструкции. Хорошо известным примером индекса является индекс потребительских цен (ИПЦ), который ежемесячно рассчитывается Бюро статистики труда Министерства труда США. ИПЦ — это показатель того, сколько потребители должны платить за товары и услуги в целом, и делится на восемь основных категорий (продукты питания и напитки, жилье, одежда, транспорт, здравоохранение, отдых, образование и связь, а также «прочие товары и услуги»). услуги »), которые далее подразделяются на более чем 200 более мелких статей.Каждый месяц государственные служащие звонят по всей стране, чтобы узнать текущие цены на более чем 80 000 наименований товаров. Используя сложную схему взвешивания, которая учитывает местонахождение и вероятность покупки каждого товара, эти цены объединяются аналитиками, которые затем объединяются в общую оценку индекса с использованием ряда формул и правил.

Другой пример индекса — социально-экономический статус (SES), также называемый социально-экономическим индексом Дункана (SEI). Этот индекс представляет собой комбинацию трех конструктов: дохода, образования и профессии.Доход измеряется в долларах, образование — в годах или полученной ученой степени, а профессия классифицируется по категориям или уровням по статусу. Эти очень разные показатели объединяются для создания общего балла индекса SES с использованием взвешенного сочетания «профессионального образования» (процент людей с этой профессией, которые имели один или несколько лет обучения в колледже) и «профессиональный доход» (процент людей той профессии, которая приносила больше определенного годового дохода). Однако измерение индекса SES вызвало много споров и разногласий среди исследователей.

Процесс создания индекса аналогичен созданию шкалы. Во-первых, концептуализируйте (определите) индекс и его составляющие. Хотя это кажется простым, среди судей может быть много разногласий по поводу того, какие компоненты (конструкции) следует включать или исключать из индекса. Например, в индексе SES не коррелирует ли доход с образованием и профессией, и если да, должны ли мы включать только один компонент или все три компонента? Обзор литературы, использование теорий и / или интервью с экспертами или ключевыми заинтересованными сторонами могут помочь решить эту проблему.Во-вторых, ввести в действие и измерить каждый компонент. Например, как вы будете классифицировать занятия, особенно с учетом того, что некоторые занятия могли измениться со временем (например, до Интернета не было веб-разработчиков). В-третьих, создайте правило или формулу для расчета индекса. Опять же, в этом процессе может быть много субъективности. И наконец, проверьте оценку индекса, используя существующие или новые данные.

Хотя индексы и шкалы дают единую числовую оценку или значение, представляющее интересующую конструкцию, они во многом различаются.Во-первых, индексы часто состоят из компонентов, которые сильно отличаются друг от друга (например, доход, образование и род занятий в индексе SES) и измеряются по-разному. Однако шкалы обычно включают набор аналогичных элементов, использующих одну и ту же шкалу оценок (например, пятибалльную шкалу Лайкерта). Во-вторых, индексы часто объединяют объективно измеримые значения, такие как цены или доход, в то время как шкалы предназначены для оценки субъективных или субъективных конструктов, таких как отношение, предубеждение или самооценка.Некоторые утверждают, что сложность методологии масштабирования отличает шкалы от индексов, в то время как другие предполагают, что методология индексирования может быть столь же сложной. Тем не менее, индексы и шкалы являются важными инструментами в исследованиях в области социальных наук.

Типологии

Весы и индексы генерируют порядковые меры одномерных конструкций. Однако иногда исследователи хотят суммировать измерения двух или более конструкций, чтобы создать набор категорий или типов, называемый типологией.В отличие от шкал или индексов, типологии многомерны, но включают только номинальные переменные. Например, можно создать политическую типологию газет, основанную на их ориентации на внутреннюю и внешнюю политику, выраженную в их редакционных колонках, как показано на Рисунке 6.2. Эту типологию можно использовать для классификации газет по одному из четырех «идеальных типов» (от A до D), определения распределения газет по этим идеальным типам и, возможно, даже для создания классификационной модели для классификации газет в один из этих четырех идеальных типов в зависимости от по другим атрибутам.

Рисунок 6.2. Многомерная типология газет

Сводка

В заключение, построение шкалы (или индекса) в социальных исследованиях — это сложный процесс, включающий несколько ключевых решений. Вот некоторые из этих решений:

  • Следует ли использовать шкалу, индекс или типологию?
  • Как вы планируете анализировать данные?
  • Каков ваш желаемый уровень измерения (номинальный, порядковый, интервал или коэффициент) или рейтинговая шкала?
  • Сколько атрибутов шкалы следует использовать (например,г., от 1 до 10; От 1 до 7; От −3 до +3)?
  • Следует ли использовать нечетное или четное количество атрибутов (т.е. хотите ли вы иметь нейтральное или среднее значение)?
  • Как вы хотите обозначить атрибуты шкалы (особенно шкалы семантического дифференциала)?
  • Наконец, какую процедуру вы бы использовали для создания элементов шкалы (например, метод Терстона, Лайкерта или Гуттмана) или компонентов индекса?

В этой главе был рассмотрен процесс и результаты масштабного развития.В следующей главе будет рассмотрено, как оценить надежность и валидность шкал, разработанных с использованием вышеуказанных подходов.

Что такое порядковые данные? Примеры, переменные и анализ

Порядковая классификация данных является неотъемлемым шагом на пути к правильному сбору и анализу данных. Следовательно, чтобы правильно классифицировать данные, нам нужно сначала понять, что такое сами данные.

Данные — это набор фактов или информации, на основании которых можно сделать выводы.Они могут существовать в различных формах — в виде чисел или текста на листах бумаги, в виде битов и байтов, хранящихся в электронной памяти, или в виде фактов, хранящихся в сознании человека.

При работе с данными они иногда классифицируются как номинальные или порядковые. При работе с категориальными переменными данные классифицируются как номинальные или порядковые — нечисловая переменная данных, которая может быть строкой текста или датой.

Определение порядковых данных

Порядковые данные — это разновидность категориальных данных с установленным порядком или масштабом.Например, считается, что порядковые данные были собраны, когда респондент вводит свой уровень финансового счастья по шкале от 1 до 10. В порядковых данных нет стандартной шкалы, по которой измеряется разница в каждом балле.

Рассматривая приведенный выше пример, предположим, что 50 человек, зарабатывающих от 1000 до 10000 долларов в месяц, попросили оценить уровень своего финансового благополучия.

Студент, получающий 2000 долларов в месяц, может быть оценен по шкале 8/10, в то время как отец троих детей, зарабатывающий 5000 долларов, оценивает 3/10.Это должно показать, что на шкалу обычно влияют личные факторы, а не установленные правила.

Читайте также: Что такое номинальные данные? Примеры, категория переменных и анализ

Примеры порядковых данных

Примеры порядковых данных включают шкалу Лайкерта; используется исследователями для масштабирования ответов в опросах и интервальной шкалы; где каждый ответ взят из своего собственного интервала. В отличие от номинальных данных, примеры порядковых данных полезны для упорядочивания числовых данных.

Шкала Лайкерта — это балльная шкала, используемая исследователями для проведения опросов и выяснения мнения людей по предмету. Обычно это 5- или 7-балльная шкала с вариантами, которые варьируются от одной крайности до другой. Рассмотрим этот пример:

Насколько вы довольны нашей едой сегодня вечером?

  1. Очень доволен
  2. Доволен
  3. Безразличен
  4. Не доволен
  5. Очень неудовлетворен

Это 5-балльная шкала Лайкерта.Как и в этом примере, каждому ответу по 5-балльной шкале Лайкерта присваивается числовое значение от 1 до 5.

Читайте также: 4-, 5- и 7-балльная шкала Лайкерта + [Примеры вопросников]

Интервальная шкала — это тип порядковой шкалы, в которой каждый ответ представляет собой отдельный интервал. Примеры интервальной шкалы включают; Классификация людей на подростки, молодежь, средний возраст и т. д. осуществляется в соответствии с их возрастной группой.

К какой категории вы относитесь?

  • Ребенок — от 0 до 12 лет
  • Подросток — от 13 до 19 лет
  • Молодежь — от 20 до 35 лет
  • Средний возраст — от 36 до 58 лет
  • Старый — 59 лет и старше

Пример 2: В В школе учащиеся получают оценку A, B, C, D, E или F в соответствии с их оценкой.Учащиеся с оценкой 70 и выше получают оценку A, 60-69 — оценку B и так далее.

  1. 70 и старше
  2. 60-69
  3. 50-59
  4. 40-49
  5. 35-40
  6. 34 и младше.

Сбор порядковых данных с помощью Formplus Questionnaire / Survey Builder

Категории порядковых переменных

Порядковые переменные можно разделить на 2 основные категории, а именно; совпадающая и непревзойденная категория.Эта классификация порядковых переменных основана на концепции сопоставления — объединения переменных данных со схожими характеристиками.

Согласно Википедии, сопоставление — это статистический метод, который используется для оценки эффекта лечения путем сравнения обработанных и необработанных единиц в наблюдательном исследовании или квазиэксперименте (т.е. когда лечение не назначается случайным образом).

Сопоставленная категория

В сопоставленной категории каждый элемент выборки данных сопоставляется с аналогичными элементами любой другой выборки по всем другим переменным, кроме рассматриваемой.Это сделано для того, чтобы лучше оценить различия.

Путем исключения других переменных мы можем предотвратить их влияние на результаты нашего текущего расследования. Например, при исследовании причины рака кожи лучше сравнивать людей одной расы, поскольку известная причина — дефицит меланина (состояние, характерное для белых людей).

Тесты

В категории «Совпадение» выполняются два разных типа тестов, в зависимости от количества исследуемых групп выборки.А именно; знаковый ранговый тест Вилкоксона и двухсторонний знаковый критерий Фридмана

  • Знаковый ранговый критерий Вилкоксона: Это качественный статистический тест, используемый для сравнения двух групп совпадающих выборок для оценки их различий.
  • Двусторонний дисперсионный анализ Фридмана: Это непараметрический способ поиска различий в сопоставленных наборах из 3 или более групп. Эта процедура тестирования, разработанная Милтоном Фридманом, включает в себя ранжирование строк вместе, а затем рассмотрение значений каждого ранга по столбцам.

Несовпадающая категория

Несовпадающие выборки, также известные как независимые выборки, представляют собой случайно выбранные выборки с переменными, которые не зависят от значений других порядковых переменных. Большинство исследователей основывают свой анализ на предположении, что выборки независимы, за исключением нескольких случаев.

Например, предположим, что экзаменаторы хотят сравнить эффективность двух программ для выставления оценок за тест. Они берут случайные образцы из 10 сценариев ответов учеников и отправляют в 2 программы для оценки.Неважно, похожи ли ответы этих студентов или нет.

Тесты

Тест суммы рангов Викоксона также известен как U-критерий Манна-Уитни. Это непараметрический тест, используемый для исследования 2 групп независимых выборок. Этот тест обычно используется для проверки принадлежности выборок к одной и той же генеральной совокупности. Аналогичный качественный тест, используемый для сопоставленных выборок, — это критерий знакового ранга Уилкоксона.

  • Односторонний тест Крускала-Уоллиса

Это непараметрический тест для определения принадлежности трех или более образцов к одной и той же генеральной совокупности.Названный в честь Уильяма Крускала и У. Аллена Уоллиса, этот тест позволяет сделать вывод о том, варьируется ли медиана двух или более групп.

Характеристики порядковых данных

  • Расширение номинальных данных

Порядковые данные построены на существующих номинальных данных. Номинальные данные известны как «именованные» данные, а порядковые данные — это «именованные» данные с определенным порядком или рангом. Давайте рассмотрим пример порядковых данных, приведенный ниже:

Что из следующего лучше всего описывает ваш текущий уровень финансового благополучия?

  • Очень доволен
  • Доволен
  • Нейтрально
  • Несчастлив
  • Очень недоволен

Варианты в этом вопросе качественные, с рангом или порядком к нему.Ранг в данном случае является признаком порядковых данных.

  • Нет стандартизированной шкалы интервалов

Разница в вариациях между «очень счастливым» и «счастливым» не обязательно должна быть такой же, как разница между «счастливым» и «нейтральным». Стандартизированной шкалы интервалов измерения для каждой переменной не существует.

Фактически, разница в вариациях не может быть определена с использованием порядковой шкалы. Эта шкала зависит от факторов, которые уникальны для каждого респондента.

  • Установите относительный ранг

В приведенном выше примере «очень счастлив» определенно лучше, чем «несчастный», а «нейтральный» хуже, чем «счастливый». В отличие от интервальной шкалы, по этому делу установлен порядок.

Этот рейтинг используется для группировки респондентов по разным уровням счастья.

  • Измерение качественных признаков

Порядковая шкала позволяет измерять качественные признаки.Шкала измерения в данном случае не обязательно состоит из чисел, это наречия степени, например, очень, высокая и т. Д.

В данном примере все варианты ответов являются качественными, где «очень» — наречие степени, используемое в качестве шкалы. измерения.

Порядковые данные также могут быть количественными или числовыми. Когда вас просят оценить уровень вашего финансового счастья, например, значения будут числовыми. Однако с ними нельзя выполнять числовые операции (сложение, вычитание, умножение и т. Д.).

В отличие от номинальных данных, где можно рассчитать только режим, порядковые данные имеют медианное значение. Медиана — это среднее, но не среднее значение шкалы, и ее можно вычислить с данными, имеющими врожденный порядок. Рассмотрим приведенный ниже пример порядковой переменной.

Оцените свои знания Excel по следующей шкале.

  • Продвинутый
  • Средний
  • Базовый
  • Новичок
  • Ноль

В этом примере среднее значение — «Базовое», а среднее — «промежуточное».

  • Имеет порядок: порядковые данные имеют определенный ранг или порядок, который может быть как по возрастанию, так и по убыванию.

Анализ и интерпретация порядковых данных

Анализ порядковых данных сильно отличается от анализа номинальных данных, даже если они обе являются качественными переменными. Он включает естественный порядок переменных, чтобы избежать потери мощности. Порядковые переменные отличаются от других качественных переменных, поскольку для анализа используются медиана и режим параметрического анализа.

Это связано с предположением, что равное расстояние между категориями не выполняется для порядковых данных.Поэтому вместо описательной статистики, подходящей для номинальных данных, следует использовать позиционные меры, такие как медиана и процентили.

Использование параметрической статистики для порядковых переменных данных может быть допустимо в некоторых случаях с помощью методов, которые являются близкой заменой среднего и стандартного отклонения. Вот некоторые из параметрических статистических методов, используемых для порядкового анализа.

  • Одномерная статистика: Используемая вместо среднего и стандартного отклонения соответствующая одномерная статистика для порядковых данных включает медианное значение, квартили, процентили и отклонение квартилей.
  • Двумерная статистика: тесты Манна-Уитни, Смирнова, прогоны и знаковые ранговые тесты используются вместо проверки различий в среднем с помощью t-критерия.
  • Приложения регрессии: результаты прогнозируются с использованием варианта порядковой регрессии, такого как упорядоченный пробит или упорядоченный логит.
  • Линейные тренды: используется для поиска сходства между порядковыми данными и другими переменными в таблицах непредвиденных обстоятельств.
  • Методы классификации: этот метод использует сопоставление для категоризации данных, после чего измеряется и минимизируется дисперсия в каждой категории, чтобы максимизировать результаты классификации.

Графические методы анализа порядковых переменных

Порядковые данные также можно анализировать графически с помощью следующих методов.

  • Гистограмма
  • Круговая диаграмма
  • Таблицы
  • Мозаичные графики
  • Горизонтальная диаграмма
  • Градация цвета или оттенков серого.

Использование порядковых данных

Порядковые данные используются для проведения опросов или анкет из-за их «упорядоченного» характера.Статистический анализ применяется к собранным ответам, чтобы разделить респондентов на разные категории в соответствии с их ответами. Результат этого анализа используется, чтобы сделать выводы и заключения о респондентах в отношении конкретных переменных. Для этого в основном используются порядковые данные, поскольку они легко классифицируются и сопоставляются.

Создайте онлайн-анкету для сбора порядковых данных с помощью Formplus

Исследователи используют порядковые данные для сбора полезной информации о предмете своего исследования.Например, когда исследователи-медики изучают побочные эффекты лекарства, назначенного 30 пациентам, им необходимо будет собрать порядковые данные.

После приема лекарства каждого пациента могут попросить заполнить форму, указав степень, в которой они ощущают некоторые потенциальные побочные эффекты. Примерная порядковая шкала сбора данных проиллюстрирована ниже.

Как часто вы чувствуете следующее?

Очень часто Часто Не часто

Тошнота ¤ ¤ ¤

Головная боль ¤ ¤ ¤

Головокружение ¤ ¤ ¤

Голодный ¤ ¤ ¤

Компании используют порядковые данные для улучшения общего обслуживания клиентов.Известно, что после использования своих услуг или покупки продукта многие компании просят клиентов заполнить форму послепродажного обслуживания, описывая их опыт.

Это поможет компаниям улучшить качество обслуживания клиентов. Рассмотрим пример ниже:

Как вы оцените нашу услугу?

Хорошо Хорошо Плохо

Еда ¤ ¤ ¤

Официант ¤ ¤ ¤

Время ожидания ¤ ¤ ¤

Окружающая среда ¤ ¤ ¤

При приеме на работу работодатели иногда используют шкалу Лайкерта для сбора информации об уровне соискателя. мастерство в поле.Например, когда кандидат подает заявку на должность менеджера по социальным сетям, можно использовать шкалу Лайкерта, чтобы узнать, насколько кандидат знаком с Facebook, Twitter, LinkedIn и т. Д.

Например. Насколько вы знакомы со следующими социальными сетями?

1 2 3 4 5

Facebook ¤ ¤ ¤ ¤ ¤

Instagram ¤ ¤ ¤ ¤ ¤

Twitter ¤ ¤ ¤ ¤ ¤

LinkedIn ¤ ¤ ¤ ¤ ¤

Это обычный тест, который обычно проводится работодателями своим потенциальным сотрудникам.Это делается для того, чтобы работодатель знал, подходит ли кандидат для организации.

Некоторые психологи также используют это, чтобы получить больше информации о своем пациенте перед лечением. Таким образом, они могут знать, какие вопросы задавать, что говорить, а что не говорить.

Недостатки порядковых данных
  • Опции не имеют стандартной шкалы интервалов. Следовательно, респонденты не могут эффективно оценить свои варианты, прежде чем ответить.
  • Ответы на вопрос часто настолько узкие, что создают или усиливают предвзятость, которая не учитывается в опросе. Например, в приведенном выше примере обслуживания клиентов покупатель может быть удовлетворен вкусом еды, но мясо было слишком жестким или вода была слишком холодной. В конце концов, ресторан получит отчет о впечатлениях клиентов, но не сможет определить причину, по которой они выбрали именно такой ответ.
  • Не дает респондентам возможности полностью заявить о себе.Обычно они ограничены некоторыми предопределенными параметрами.

Почему Formplus — лучший инструмент для сбора порядковых данных
  • 30+ типов полей
  • С широким диапазоном типов полей вы можете легко собирать порядковые данные.
  • Поля, такие как матрица и шкалы, упрощают сбор любого набора порядковых данных от респондентов.
  • Нужно ли вам, чтобы респонденты предоставляли вам повторяющиеся данные, в которых они указывают, сколько раз они хотят заполнить поле?
  • Вы также можете использовать таблицы, если вам нужно собрать повторяемые порядковые данные.

Начните работу с конструктором опросов Formplus

Собирайте данные в удаленных местах или местах без надежного подключения к Интернету с Formplus. Автономные формы также могут выступать в качестве резервной копии стандартных онлайн-форм, особенно в тех случаях, когда у вас ненадежный Wi-Fi, например, на крупных конференциях и полевых опросах.

Когда респонденты заполняют форму в автономном режиме, ответы синхронизируются при наличии подключения к Интернету. Используя разговорные SMS, вы также можете собирать данные на любом мобильном устройстве без подключения к Интернету.

  • Совместное использование и экспорт данных в различных форматах

Собранные данные можно хранить в табличном формате или даже экспортировать в PDF / CSV. Респонденты также могут отправлять свои ответы в виде PDF-файлов, прикрепленных документов или изображений. Этими ответами также можно поделиться в виде ссылок через другие приложения, такие как Gmail, WhatsApp, LinkedIn и т. Д.

  • Получение уведомлений об отправке

Вы можете отправлять уведомления своим респондентам и вашей команде всякий раз, когда ваша форма будет заполнена.

Уведомление можно настроить таким образом, чтобы вы могли выбрать, кто из вашей команды должен получать это электронное письмо, если вам нужно направить их напрямую ответственным лицам.

Formplus также позволяет настраивать содержание сообщения уведомления, отправляемого респондентам, в зависимости от того, что они заполнили в форме.

  • Возможность настройки форм

С Formplus вы можете выбрать, как должны выглядеть ваши формы. Вы можете создать привлекательную интерактивную форму, которая побудит ваших респондентов ответить. Есть также различные варианты выбора, из которых вы можете выбирать.

У вас есть возможность выбрать, как и когда вы будете получать уведомления. Также есть настраиваемая функция уведомлений, отправляемых респондентам после заполнения формы.

Если вы работаете в группе, вы также можете добавить членов группы в свой список получателей уведомлений.

  • Различные варианты хранения

Formplus позволяет выбрать способ хранения данных. После экспорта данных в табличном формате, формате CSV или PDF вы можете сохранить их на своем устройстве или загрузить в облако.

Хотя Formplus имеет облачную платформу, вы также можете загружать свои данные в Dropbox, Google Drive или Microsoft OneDrive.Нет никаких ограничений на количество файлов, изображений или видео, которые могут быть загружены.

Заключение

Порядковые данные предназначены для вывода выводов, а номинальные данные используются для описания выводов. Описательные выводы систематизируют измеримые факты таким образом, чтобы их можно было резюмировать.

Если ресторан проводит опрос удовлетворенности клиентов путем измерения некоторых переменных по шкале от 1 до 5, то уровень удовлетворенности можно определить количественно.Однако нельзя сделать вывод о том, почему одни клиенты довольны, а другие нет.

Единственный вывод, который можно сделать, — это что-то вроде: «Большинство клиентов (не) удовлетворены». Однако это не относится к описательному заключению, когда можно получить достаточно информации о том, почему клиенты (не) удовлетворены.

Сбор порядковых данных с помощью Formplus

Ссылка

В чем разница между номинальными и порядковыми данными?

В статистике термины «номинальный» и «порядковый» относятся к различным типам категоризируемых данных.Чтобы понять, что означает каждый из этих терминов и к какому типу данных относится каждый, подумайте о корне каждого слова и позвольте ему быть ключом к пониманию того, какие данные оно описывает. Номинальные данные включают именование или идентификацию данных; Поскольку слово «номинальный» имеет латинский корень со словом «имя» и имеет похожее звучание, функцию номинальных данных легко запомнить. Порядковые данные включают в себя размещение информации в порядке, причем «порядковые» и «порядковые» звучат одинаково, что упрощает запоминание функции порядковых данных.

TL; DR (слишком долго; не читал)

Номинальные данные присваивают имена каждой точке данных, не размещая их в каком-либо порядке. Например, каждый результат теста может быть номинально классифицирован как «прошел» или «не прошел».

Порядковые данные группируют данные в соответствии с какой-то системой ранжирования: они упорядочивают данные. Например, результаты тестирования могут быть сгруппированы в порядке убывания по классам: A, B, C, D, E и F.

Номинальные данные

Номинальные данные просто называют что-то без присвоения ему порядка по отношению к другим пронумерованным объектам или фрагменты данных.Примером номинальных данных может быть классификация «прошел» или «не прошел» для каждого результата теста студента. Номинальные данные предоставляют некоторую информацию о группе или наборе событий, даже если эта информация ограничивается простым подсчетом.

Например, если вы хотите узнать, сколько людей родилось во Флориде каждый год за последние пять лет, найдите эти цифры и нанесите результаты на гистограмму. Данные, представленные на графике, не имеют естественного ранжирования или упорядочения; числа просто иллюстрируют факт, не обязательно предпочтение, и являются просто ярлыками, которые отвечают на вопрос «сколько?» Это номинальные данные.

Порядковые данные

Порядковые данные, в отличие от номинальных данных, предполагают некоторый порядок; порядковые номера расположены по отношению друг к другу в ранжированном порядке. Например, предположим, что вы получили опрос из своего любимого ресторана, в котором вас просят оставить отзыв о полученной вами услуге. Вы можете оценить качество обслуживания как «1» за плохое, «2» за ниже среднего, «3» за среднее, «4» за очень хорошее и «5» за отличное. Данные, собранные в ходе этого опроса, являются примерами порядковых данных.Здесь присвоенные номера имеют порядок или ранг; то есть рейтинг «4» лучше, чем рейтинг «2».

Однако, даже если вы присвоили своему мнению номер, это число не является количественной мерой: хотя рейтинг «4» явно лучше, чем рейтинг «2», он не обязательно вдвое лучше. числа не измеряются и не определяются математически, а просто назначаются как метки для мнений.

Почему важно знать разницу

При работе со статистикой вы должны знать, являются ли данные, которые вы просматриваете, номинальными или порядковыми, поскольку эта информация помогает вы решаете, как использовать данные.Статистик понимает, как определить, какой статистический анализ применить к набору данных, в зависимости от того, является ли он номинальным или порядковым. Способы разметки данных в статистике называются «весами»; Наряду с номинальной и порядковой шкалами имеются интервальная и пропорциональная шкалы.

Сходство номинальных и порядковых данных

Данные могут быть числовыми или категориальными, и как номинальные, так и порядковые данные классифицируются как категориальные. Категориальные данные можно подсчитывать, группировать и иногда ранжировать в порядке важности.Числовые данные можно измерить. При использовании категориальных данных события или информация могут быть разделены на группы, чтобы обеспечить некоторое чувство порядка или понимания.

тестов статистической значимости

тестов статистической значимости

PPA 696 МЕТОДЫ ИССЛЕДОВАНИЯ

ИСПЫТАНИЯ НА ЗНАЧЕНИЕ

Что такое тесты на значимость
шагов в статистическом тестировании Значимость
1) Выскажите гипотезу исследования
2) Сформулируйте нулевую гипотезу
3) Ошибки типа I и типа II
Выберите вероятность уровня ошибки (альфа-уровень)
4) Тест хи-квадрат
Расчет хи-квадрат
степени свободы
Распределительные столы
Интерпретировать результаты
5) Т-тест
Рассчитать Т-тест
степени свободы
Распределительные столы
Интерпретировать результаты
Отчетные испытания статистических Значимость
Заключительные комментарии
Какие тесты значимости
По поводу любых предполагаемых отношений возникают два вопроса. между двумя переменными:
1) какова вероятность того, что связь существует;
2) если да, то насколько сильна связь
Есть два типа инструментов, которые используются для решения эти вопросы: первый рассматривается с помощью тестов на статистическую значимость; а второй решается Мерами ассоциации.

Тесты на статистическую значимость используются для решения вопрос: какова вероятность того, что мы думаем об отношениях между двумя переменными — это действительно случайность?

Если мы выбрали много выборок из одной и той же совокупности, найдем ли мы такую ​​же взаимосвязь между этими двумя переменными в каждый образец? Если бы мы могли провести перепись населения, мы бы тоже обнаруживают, что эта взаимосвязь существует в популяции, из которой был нарисован? Или наш поиск произошел случайно?

Тесты на статистическую значимость говорят нам, что вероятность состоит в том, что отношения, которые, как мы думаем, мы нашли, обусловлены к случайной случайности.Они говорят нам, какова вероятность того, что мы будем делает ошибку, если мы предполагаем, что мы обнаружили, что связь существует.

Мы никогда не можем быть полностью уверены в том, что отношения существует между двумя переменными. Слишком много источников ошибок, чтобы их контролируемые, например, ошибка выборки, предвзятость исследователя, проблемы с надежность и обоснованность, простые ошибки и т. д.

Но, используя теорию вероятностей и нормальную кривую, мы можем оценить вероятность ошибиться, если предположим, что наш вывод отношения верны.Если вероятность ошибиться мала, то мы говорим, что наше наблюдение за отношениями является статистически значимым находка.

Статистическая значимость означает наличие хорошего шанс, что мы правы в обнаружении связи между две переменные. Но статистическая значимость — это не то же самое, что практическая. значимость. Мы можем получить статистически значимый результат, но последствия этого открытия могут не иметь практического применения.Исследователь всегда должны проверять статистическую и практическую значимость любых результатов исследования.

Например, мы можем обнаружить, что статистически значимая взаимосвязь между возрастом гражданина и удовлетворенностью городские службы отдыха. Возможно, пожилые люди удовлетворены на 5% меньше чем более молодые жители с городскими службами отдыха. Но это 5% большой достаточно ли разницы, чтобы беспокоиться?

Часто, когда различия небольшие, но статистически значительный, это связано с очень большим размером выборки; в выборке меньшего размера, различия не будут статистически значимыми.

шагов в тестировании для Статистическая значимость 1) Сформулируйте гипотезу исследования.
2) Сформулируйте нулевую гипотезу
3) Выберите уровень вероятности ошибки (уровень альфа)
4) Выберите и вычислите тест на статистическую значимость.
5) Интерпретировать результаты
1) Выскажите гипотезу исследования
Гипотеза исследования утверждает ожидаемые отношения между двумя переменными.Это может быть указано в общих чертах или может включать размеры направления и величины. Например,
Общие: Продолжительность программы профессионального обучения зависит от скорости трудоустройства обучающихся.
Направление: Чем длиннее программа обучения, тем выше ставка работы размещение стажеров.
Масштаб: более длительные программы обучения позволят вдвое больше стажеров пройти обучение. вакансии как более короткие программы.
Общие: Оплата ассистента выпускника зависит от пола.
Направление: Ассистентам-мужчинам платят больше, чем аспирантам-женщинам. помощники.
Величина: женщинам-ассистентам-выпускникам платят менее 75% от зарплаты мужчин. аспирантам оплачивается.
2) Сформулируйте нулевую гипотезу
Нулевая гипотеза обычно утверждает, что нет никакой связи между двумя переменными.Например,
Нет никакой связи между продолжительностью программы профессионального обучения. и уровень трудоустройства стажеров.
На оплату труда ассистента не влияет пол.
Нулевая гипотеза может также утверждать, что отношение Предложенная в исследовании гипотеза не соответствует действительности. Например,
Более длительные программы обучения приведут к тому, что в вакансии как более короткие программы.
Женщинам-ассистентам-выпускникам платят не менее 75% от зарплаты выпускников-мужчин. помощники оплачиваются.
Исследователи используют нулевую гипотезу в исследованиях, потому что проще опровергнуть нулевую гипотезу, чем доказать исследование гипотеза. Нулевая гипотеза — это «соломенный человек» исследователя. Это, легче однажды показать, что что-то ложно, чем показать, что что-то всегда правда.Легче найти опровергающие доказательства против нулевую гипотезу, чем найти подтверждающие доказательства гипотезы исследования.
3) ОШИБКИ ТИПА I И ТИПА II
Даже в самом лучшем исследовательском проекте всегда есть возможность (надеюсь, небольшая) того, что исследователь сделает ошибку относительно взаимосвязи между двумя переменными. Есть два возможных ошибки или ошибки.

Первая называется ошибкой типа I.Это происходит, когда исследователь предполагает, что связь существует, когда на самом деле доказательства в том, что это не так. В случае ошибки типа I исследователь должен принять нулевую гипотезу и отвергайте исследовательскую гипотезу, но происходит обратное. Вероятность совершения ошибки типа I называется альфой.

Вторая называется ошибкой типа II. Это происходит когда исследователь предполагает, что отношений не существует, когда в на самом деле свидетельство того, что это так.В случае ошибки типа II исследователь должен: отклонить нулевую гипотезу и принять гипотезу исследования, но происходит обратное. Вероятность совершения ошибки типа II называется бета.

Как правило, снижая вероятность совершения ошибка типа I увеличивает вероятность совершения ошибки типа II и наоборот, уменьшая вероятность совершения ошибки типа II. увеличивает вероятность совершения ошибки типа I.

Обычно исследователи стараются свести к минимуму ошибки типа I, потому что, когда исследователь предполагает, что отношения существуют, когда на самом деле нет, может быть хуже, чем раньше.При ошибках типа II исследователь упускает возможность подтвердить, что отношения существуют, но нет хуже, чем раньше.

В этом примере, какой тип ошибки вы бы предпочли зафиксировать?
Гипотеза исследования: Эль-Ниньо снизило урожайность в графстве X, в результате чего он имеет право на государственную помощь при стихийных бедствиях.
Нулевая гипотеза: Эль-Ниньо не привело к снижению урожайности в графстве X, он не имеет права на государственную помощь при стихийных бедствиях.
Если допущена ошибка типа I, предполагается, что округ иметь право на помощь при стихийных бедствиях, когда на самом деле это не так (нулевая гипотеза должен быть принят, но отклонен). Правительство может тратить фонды для оказания помощи при стихийных бедствиях, когда этого не следует делать, и могут быть повышены налоги.

Если допущена ошибка типа II, то Округ считается неприемлемым для оказания помощи при стихийных бедствиях, когда действительно имеет право (нулевая гипотеза должна быть принята, но она отвергается).Правительство могут не тратить средства на оказание помощи при стихийных бедствиях, когда это необходимо, и фермеры могут к банкротству.

В этом примере, какой тип ошибки вы бы предпочли зафиксировать?
Гипотеза исследования: новый препарат лучше лечит сердечные приступы, чем старый наркотик
Нулевая гипотеза: новый препарат лечит сердечные приступы не лучше, чем старый наркотик
Если допущена ошибка типа I, то новое лекарство считается лучше, хотя на самом деле это не так (нулевая гипотеза должна быть принятым, но отклоненным).Людей можно лечить новым препаратом, когда им было бы лучше со старым.

Если допущена ошибка типа II, то новое лекарство считается не лучше, когда действительно лучше (нулевая гипотеза должно быть отклонено, но принято). Людей нельзя лечить новый препарат, хотя им будет лучше, чем со старым.

ВЫБЕРИТЕ ВЕРОЯТНОСТЬ УРОВНЯ ОШИБКИ (АЛЬФА-УРОВЕНЬ)
Исследователи обычно указывают вероятность совершения ошибка типа I, которую они готовы принять, т.е.е., значение альфа. В социальных науках большинство исследователей выбирают альфа = 0,05. Это означает что они готовы согласиться с вероятностью 5% создания Типа I ошибка, предполагающая, что связь между двумя переменными существует, когда она действительно нет. Однако в исследованиях, связанных с общественным здравоохранением, альфа 0,01 нет ничего необычного. Исследователи не хотят, чтобы вероятность ошибались более чем в 0,1% случаев или один раз из тысячи.

Если связь между двумя переменными сильный (по оценке Меры ассоциации), и выбранный уровень для альфы есть.05, то средний или небольшой размер выборки обнаружит это. В виде отношения становятся слабее, и / или по мере того, как уровень альфа становится меньше, Для достижения статистических результатов исследования потребуются более крупные выборки. значимость.

4) Тест хи-квадрат
Для номинальных и порядковых данных используется хи-квадрат как тест на статистическую значимость. Например, мы предполагаем, что там это взаимосвязь между типом обучающей программы и Успешность трудоустройства обучаемых.Мы собираем следующие данные:

Тип обучения: Количество посещающих обучение
Профессиональное образование 200
Обучение рабочим навыкам 250
Итого 450

Есть ли место на работе? Количество слушателей
Есть 300
Нет 150
Итого 450

Для вычисления хи-квадрат таблица, показывающая сустав необходимо распределение двух переменных:

Таблица 1.Трудоустройство по типу обучения (наблюдаемая частота)

Есть ли место на работе?

Тип обучения
Профессиональное
Образование
рабочих навыков
Обучение
Всего
Есть 175 125 300
Нет 25 125 150
Итого 200 250 450

Квадрат Хи вычисляется путем рассмотрения различных части стола.«Ячейки» таблицы — это квадраты посередине. таблицы, содержащей полностью закрытые числа. Клетки содержат частоты, которые встречаются в совместном распределении двух переменные. Частоты, которые мы на самом деле находим в данных, называются «наблюдаемые» частоты.

В этой таблице ячейки содержат частоты для стажеров профессионального образования, устроившихся на работу (n = 175) и не устроившихся получить работу (n = 25), а также частота стажеров по профессиональным навыкам, получивших работу (n = 125) и кто не устроился на работу (n = 125).

Столбцы и строки «Итого» таблицы показывают предельные частоты. Граничные частоты — это частоты, которые мы бы обнаружили, если бы смотрели на каждую переменную отдельно. Например, мы видим в столбце «Итого», что 300 человек получили работу и 150 человек, которые этого не сделали. В строке «Итого» видно, что было 200 человек проходят профессиональную подготовку и 250 человек работают по специальности. обучение.

И, наконец, общее количество наблюдений. во всей таблице, названной Н.В этой таблице N = 450.

Расчет хи-квадрат
1) отображать наблюдаемые частоты для каждой ячейки
2) рассчитать ожидаемые частоты для каждой ячейки
3) вычислить для каждой ячейки ожидаемую минус наблюдаемую частоту в квадрате, деленное на ожидаемую частоту
4) все результаты для всех ячеек

Чтобы найти значение Хи-квадрат, сначала предположим, что что нет никакой связи между типом обучающей программы, которую вы посещали и был ли стажер устроен на работу.Если мы посмотрим на общую сумму столбца, мы видим, что работу нашли 300 из 450 человек, или 66,7% от общего числа людей. на тренинге устроился на работу. Мы также видим, что 150 человек из 450 не найти работу, или 33,3% от общего числа обучающихся не нашли работу.

Если не было связи между типами посещали программу и успешно нашли работу, то мы ожидаем 66,7% обучающихся по обоим видам программ обучения для трудоустройства, и 33,3% обоих типов программ обучения, чтобы не устроиться на работу.

Первое, что делает Chi Square — вычисляет «ожидаемые» частоты для каждой ячейки. Ожидаемая частота — это частота которые мы ожидали бы появиться в каждой ячейке, если бы не было связи между типом программы обучения и трудоустройством.

Способ вычисления ожидаемой частоты ячеек состоит в умножении суммы столбца для этой ячейки на сумму строки для этой ячейку и разделите на общее количество наблюдений для всей таблицы.

Для ячейки верхнего левого угла умножьте 200 на 300 и разделите на 450 = 133,3
Для ячейки в нижнем левом углу умножьте 200 на 150 и разделите на 450 = 66,7
Для ячейки в верхнем правом углу умножьте 250 на 300 и разделите на 450 = 166,7
Для ячейки в правом нижнем углу умножьте 250 на 150 и разделите на 450 = 83,3

Таблица 2. Трудоустройство по типу обучения (ожидаемая частота)

Есть ли место на работе?

Тип обучения
Профессиональное
Образование
рабочих навыков
Обучение
Всего
Есть 133.3 166,7 300
Нет 66,7 83,3 150
Итого 200 250 450

В этой таблице показано распределение «ожидаемых» частот, то есть частоты ячеек, которые мы ожидали бы найти, если бы не было связи между типом обучения и трудоустройством.

Обратите внимание, что Хи-квадрат не является надежным, если какая-либо ячейка в таблице непредвиденных обстоятельств имеет ожидаемую частоту менее 5.

Чтобы вычислить хи-квадрат, нам нужно сравнить оригинал, наблюдаемые частоты с новыми ожидаемыми частотами. Для каждой ячейки выполняем следующие расчеты:
a) Вычтите значение наблюдаемой частоты из значения ожидаемая частота
б) возвести результат в квадрат
c) разделить результат на значение ожидаемой частоты

Для каждой ячейки выше,

f e — f o (f e — f o ) 2 [(f e — f o ) 2 ] / f e Результат
(133.3 — 175) (133,3 — 175) 2 [(133,3 — 175) 2 ] / 133,3 13,04
(66,7 — 25) (66,7 — 25) 2 [(66,7 — 25) 2 ] / 66,7 26,07
(166,7 — 125) (166,7 — 125) 2 [(166,7 — 125) 2 ] / 166.7 10,43
(83,3 — 125) (83,3 — 125) 2 [(83,3 — 135) 2 ] / 83,3 20,88

Чтобы вычислить значение хи-квадрат, сложите результаты для каждой ячейки — Итого = 70,42

СТЕПЕНИ СВОБОДЫ
Мы не можем интерпретировать значение статистики хи-квадрат. сам по себе.Вместо этого мы должны поместить это в контекст.

Теоретически значение статистики хи-квадрат нормально распространяется; то есть значение статистики хи-квадрат выглядит как нормальная (колоколообразная) кривая. Таким образом, мы можем использовать свойства нормальной кривой для интерпретации значения, полученного в результате нашего расчета статистики Хи-квадрат.

Если значение, которое мы получаем для Хи-квадрат, достаточно велико, то можно сказать, что это указывает на уровень статистической значимости при котором можно предположить, что связь между двумя переменными существовать.

Однако от того, достаточно ли велико значение, зависит на две вещи: размер таблицы непредвиденных обстоятельств, из которой хи-квадрат статистика рассчитана; и уровень альфа, который мы выбрали.

Чем больше размер таблицы непредвиденных обстоятельств, тем должно быть больше значение Хи-квадрат, чтобы получить статистические данные. значимость при прочих равных условиях. Точно так же более строгие уровень альфа, тем больше должно быть значение хи-квадрат, для достижения статистической значимости при прочих равных условиях.

Термин «степени свободы» используется для обозначения размер таблицы непредвиденных обстоятельств, на которой значение Хи-квадрат статистика вычислена. Степени свободы рассчитываются как произведение (количество строк в таблице минус 1) умноженное на (количество столбцов в таблице минус).

Для таблицы с двумя строками ячеек и двумя столбцами ячеек формула это:
df = (2 — 1) x (2 — 1) = (1) x (1) = 1
Для таблицы с двумя строками ячеек и тремя столбцами ячеек формула это:
df = (3 — 1) x (2 — 1) = (2) x (1) = 2
Для таблицы с тремя строками ячеек и тремя столбцами ячеек формула это:
df = (3 — 1) x (3 — 1) = (2) x (2) = 4
Уровень альфа может варьироваться, но чем меньше значение, более строгие требования для достижения статистической значимости становится.Альфа-уровни часто обозначаются как «p-значение» или «p = 0,05». Обычный уровни p = 0,05 (или вероятность того, что один из 20 сделает ошибку), или p = 0,01 (или вероятность того, что один из 100 сделает ошибку), или p = 0,001 (или вероятность одного из 1000 допустивших ошибку).

При сообщении об уровне альфа обычно сообщается как «меньше» некоторого уровня, с использованием знака «меньше» или <. Таким образом, это сообщается как p <0,05 или p <0,01; если ты не сообщая точное значение p, например p =.04 или p = 0,22.

ТАБЛИЦЫ РАСПРЕДЕЛЕНИЯ
Как только у нас есть рассчитанное значение хи-квадрат статистики, степеней свободы для таблицы непредвиденных обстоятельств и желаемый уровень для альфы, мы можем найти нормальное распределение для Чи Квадрат в таблице. В текстах статистики доступно множество таблиц. для этого.

Найдите в таблице степени свободы (обычно перечислены в столбце внизу страницы).Далее найдите желаемый уровень альфа (обычно перечисляются в строке вверху страницы). Найти пересечение степеней свободы и уровня альфа, и что — это значение, которое вычисленный хи-квадрат должен быть равен или превышать для достижения Статистическая значимость.

Например, для df = 2 и p = 0,05 значение хи-квадрат должно равно или превышает 5,99, чтобы указать, что отношения между двумя переменные, вероятно, не случайно. Для df = 4 и p =.05, Площадь Чи должно быть равно или превышать 9,49.

ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
Если вычисленное значение для хи-квадрат равно или превышает значение, указанное в таблице для данного уровня альфа и градусов свободы, то исследователь может предположить, что наблюдаемая связь между двумя переменными существует (на указанном уровне вероятности ошибки или альфа) и отклонить нулевую гипотезу. Это дает поддержку к исследовательской гипотезе.

Вычисленное значение Хи-квадрат на заданном уровне. альфа и с заданной степенью свободы, это тип измерения «прошел-не прошел». Это не похоже на меру ассоциации, которая может варьироваться от 0,0 до (плюс или минус) 1.0, и которые можно интерпретировать в любой точке распределения. Либо вычисленное значение хи-квадрат достигает необходимого уровня для статистическая значимость или нет.

Важно отметить, что Chi Square, как и другие тесты для статистической значение:
1) не указывает на силу связи между двумя переменными
2) не указывает направление ассоциации между двумя переменными
3) не указывает вероятность ошибки типа I
4) не учитывает достоверность и обоснованность исследования
5) не дает абсолютных убедительных доказательств родства

Напомним, для примера выше:
1) сформулируйте гипотезу исследования:
Существует взаимосвязь между типом посещаемой программы обучения и Успешность трудоустройства стажеров
2) сформулируйте нулевую гипотезу:
Нет никакой связи между типом обучающей программы, которую вы посещали. и успешность трудоустройства стажеров
3) рассчитать тест на статистическую значимость
Хи-квадрат = 70.42
4) вычислить степени свободы по таблице непредвиденных обстоятельств
df = 1
5) выбираем уровень альфа
р = 0,05
6) найдите значение хи-квадрат в таблице при p = 0,05 и df = 1
.
Хи-квадрат = 3,84
7) интерпретируем результат
Вычисленное значение Хи-квадрат (70,42) превышает значение в таблице. для p =.05 и df = 1 (хи-квадрат = 3,84). Следовательно, мы можем отклонить нулевой гипотезы (с вероятностью ошибки 5%) и принять гипотезу исследования что существует связь между типом посещаемой программы обучения и успешность трудоустройства стажеров.
Использование T-тестов
T-тесты — это тесты на статистическую значимость, которые используются с данными уровня интервала и отношения. Т-тесты можно использовать в нескольких различные виды статистических тестов:
1) проверить, есть ли различия между двумя группами на одном и том же переменная, основанная на среднем (среднем) значении этой переменной для каждой группы; например, набирают ли учащиеся частных школ более высокие баллы по тесту SAT чем учащиеся государственных школ?
2) проверить, больше ли среднее (среднее) значение группы, чем какой-то стандарт; например, средняя скорость автомобилей на автострадах в Калифорния выше 65 миль в час?
3) проверить, имеет ли одна и та же группа разные средние (средние) баллы по разные переменные; например, те же клерки более продуктивны на Компьютеры IBM или Macintosh?
Чтобы вычислить значение t,
а) изложить исследовательскую гипотезу;
б) сформулируйте нулевую гипотезу;
c) указать, будет ли t-тест односторонним или двусторонним. тест на значимость
г) выбрать уровень альфа
e) вычислить t

Чтобы вычислить значение t,

а) сформулируйте гипотезу исследования;
Средняя зарплата ассистентов-мужчин выше средней заработная плата аспирантов-женщин в ЦГСУ.
б) сформулируйте нулевую гипотезу;
Нет разницы в средней зарплате выпускников мужского и женского пола. помощники в CSULB.
в) выбрать уровень альфа
выберите значение для альфы, например p = 0,05, p = 0,01 или p = 0,001
г) указать, будет ли t-тест односторонним или двусторонним. тест на значимость

Как и другие статистические данные, t-тест имеет распределение что приближается к нормальному распределению, особенно если размер выборки больше 30.Поскольку мы знаем свойства нормальной кривой, мы может ли он сказать нам, насколько далеко от среднего значения распределения, рассчитанного нами t-рейтинг.

Нормальная кривая распределена около нулевого среднего, со стандартным отклонением, равным единице. Т-балл может падать по нормальной кривой либо выше, либо ниже среднего; то есть либо плюс, либо минус какой-то стандарт единицы отклонения от среднего.

T-балл должен быть далеко от среднего, чтобы достичь статистической значимости.То есть он должен сильно отличаться от значение среднего распределения, то, что имеет только низкий вероятность возникновения случайно, если нет связи между две переменные. Если мы выбрали значение p = 0,05 для альфы, мы смотрим для значения t, которое попадает в крайние 5% распределения.

Если у нас есть гипотеза, которая утверждает ожидаемое направление результатов, например, что зарплата ассистентов-мужчин выше, чем заработная плата ассистентов-выпускников женского пола, то мы ожидаем, что t-показатель попадет только в один конец нормального распределения.Мы ожидаем расчетный t-показатель попадет в крайние 5% распределения.

Однако, если у нас есть гипотеза, которая только утверждает что между двумя группами есть разница, но не указано, какая ожидается, что группа получит более высокий балл, чем рассчитанный t-балл может попасть в любой конец нормального распределения. Например, наша гипотеза может случиться так, что мы ожидаем найти разницу между средними зарплатами мужчин и женщин-ассистентов (но мы не знаем, какие будет выше или ниже).

Для гипотезы, не указывающей направления, нам нужно использовать «двусторонний» t-критерий. То есть мы должны искать значение t, которое попадает в один из крайних концов («хвостов») распределения. Но поскольку t может попасть в любой из хвостов, если мы выберем p = 0,05 в качестве альфа, мы необходимо разделить 5% на две части по 2-1 / 2% каждая. Итак, двусторонний тест требует, чтобы t принял более экстремальное значение для достижения статистической значимости чем односторонний тест t.

e) вычислить t

T-балл рассчитывается путем сравнения среднего значение некоторой переменной, полученное для двух групп; расчет также включает дисперсия каждой группы и количество наблюдений в каждой группе. Например,

Таблица 3. Заработная плата мужчин и женщин-выпускников в CSULB

Ассистенты аспирантуры Женщины-ассистенты-выпускники
Количество
наблюдения

403

132

Среднее $ 17095 $ 14 885
Стандартный
Отклонение

6329

4676

Разница 40045241 21864976

Для расчета t,
1) вычтите среднее значение второй группы из среднего значения первой группа
2) вычислить для каждой группы дисперсию, деленную на количество наблюдения минус 1
3) сложите вместе результаты, полученные для каждой группы на втором этапе.
4) извлеките квадратный корень из результатов третьего шага
5) разделите результаты первого шага на результаты четвертого шага.

Например,

1) вычесть среднее значение второй группы из среднего значения первой группы
17095-14885 = 2210
2) рассчитайте для каждой группы дисперсию, деленную на количество наблюдений. минус 1
Ассистенты-мужчины:
[40056241 / (403-1)] = [40056241 / (402)] = 99642
Стажеры-выпускницы:
[21864976 / (132-1)] = [21864976 / (131)] = 166908
3) сложите результаты, полученные для каждой группы на втором этапе
99642 + 166908 = 266550
4) извлеките квадратный корень из результатов третьего шага
квадратный корень из 266550 = 516.28
5) разделите результаты первого шага на результаты четвертого шага
2210 / 516,28 = 4,28
Чтобы интерпретировать результаты,
е) вычислить степени свободы
г) найдите значение в таблице
ч) интерпретировать значение t
Степени свободы
Степени свободы для t-критерия вычисляются путем сложения количество наблюдений для каждой группы, а затем вычитание числа два (потому что есть две группы).Например, (403 + 132 — 2) = 533
Распределение Т
Значения t печатаются в таблицах в большинстве статистических данных. тексты. Значения степеней свободы указаны в столбце внизу. стороне, а значения альфа (p-значение) перечислены в строке через вершина. Существуют разные таблицы для односторонних и двусторонних тестов. г.
Найдите правильную таблицу количества хвостов. потом найти пересечение степеней свободы и значение альфа в таблице.Это значение должно соответствовать вычисленному t-баллу. равно или больше, чтобы указать статистическую значимость.
Для одностороннего теста t, с df = 533 и p = 0,05, t должно быть равно или превышать 1,645.
Для двустороннего теста t, с df = 533 и p = 0,05, t должно быть равно или превышать 1.960.
Интерпретировать значение t
Если вычисленный t-рейтинг равен или превышает значение значений t, указанных в таблице, то исследователь может сделать вывод, что существует статистически значимая вероятность того, что связь между две переменные существуют и не являются случайными, и отклонить нулевое значение гипотеза.Это подтверждает гипотезу исследования.

В этом примере вычисленный t-показатель 4,28 превышает табличное значение t, поэтому мы можем отклонить нулевую гипотезу об отсутствии связи между полом ассистента и заработной платой ассистента, и вместо этого принять гипотезу исследования и сделать вывод, что существует связь между полом ассистента и заработной платой ассистента.

Однако помните, что это только одна статистика, на основе только одной выборки в определенный момент времени из одного исследовательского проекта.Это не абсолютное убедительное доказательство существования отношений, а скорее поддержка гипотезы исследования. Это всего лишь одно свидетельство, это необходимо учитывать вместе со многими другими доказательствами на тот же предмет.

ОТЧЕТНОСТЬ ОБ ИСПЫТАНИЯХ СТАТИСТИЧЕСКИХ ЗНАЧЕНИЕ
В исследовательских отчетах тесты статистической значимости сообщаются тремя способами. Во-первых, можно сообщить результаты теста. в текстовом обсуждении результатов.Включают:
1) гипотеза
2) использованная статистика теста и ее значение
3) степени свободы
4) значение альфа (p-значение)
Например,
Работники организаций с неавторитарным управлением Было установлено, что стили более удовлетворены работой, чем рабочие в организациях с авторитарным стилем управления (Chi Square = 50.57, df = 4, p <0,05).
Средняя заработная плата ассистентов-мужчин выше, чем у аспирантов. женщины-ассистенты аспирантуры (t = 4,28, df = 533, p <0,05).
Не было обнаружено различий в показателях трудоустройства между профессиональными учебными заведениями. программы и программы рабочих навыков (Chi Square = 1,2, df = 1, p> 0,05).

Второй метод сообщения результатов испытаний для статистической значимости — это отчет об испытании и его значении, степенях свободы и p-значение внизу таблицы непредвиденных обстоятельств или распечатки с указанием данных, на которых были основаны расчеты.

Таблица 1. Трудоустройство по типу обучения (наблюдаемая частота)

Есть ли место на работе?

Тип обучения
Профессиональное
Образование
рабочих навыков
Обучение
Всего
Есть 175 125 300
Нет 25 125 150
Итого 200 250 450
Хи-квадрат = 70.42, df = 1, p <0,05

Таблица 3. Заработная плата мужчин и женщин-ассистентов выпускников в CSULB

Ассистенты-выпускники-мужчины Женщины-ассистенты-выпускники
Количество
наблюдения

403

132

Среднее $ 17095 $ 14 885
Стандартный
Отклонение

6329

4676

Разница 40045241 21864976
т = 4.28, df = 533, p <0,05

Третий способ сообщить о тестах, имеющих статистическую значимость состоит в том, чтобы включить их в таблицы, показывающие результаты расширенного анализа данных, включая ряд переменных. Например, вот несколько результаты исследования пожилых испаноязычных женщин в Эль-Пасо, Техас, и Лонг-Бич, CA.

Таблица 4. Характеристики участников семинара в возрасте 40 лет и старше

Характеристики Эль-Пасо
(N = 83)
Лонг-Бич
(N = 131)
стоимость
т
Средний возраст 60.5 лет 68,7 года 2,1 *
Этническая самоидентификация
Американские мексиканцы

97,2

89,7

0,9

Предпочтительный язык
Только испанский

68,5

52.3

3,2 **

* t значимо при p <0,05
** т значимо при p <0,01
Заключительные комментарии
Тесты на статистическую значимость используются для оценки вероятность того, что связь, наблюдаемая в данных, имела место только случайно; вероятность того, что переменные действительно не связаны в Население. Их можно использовать для фильтрации бесперспективных гипотез.

Тесты на статистическую значимость используются, потому что они представляют собой общий критерий, который могут понять многие люди, и они передают важную информацию об исследовательском проекте это можно сравнить с результатами других проектов.

Однако они не гарантируют, что исследование были тщательно спроектированы и выполнены. Фактически, тесты на статистическую значимость могут вводить в заблуждение, потому что это точные цифры.Но у них нет отношений практической значимости результатов исследования.

Наконец, всегда нужно использовать меры ассоциации. наряду с тестами на статистическую значимость. Последние оценивают вероятность того, что отношения существуют; в то время как первые оценивают сила (а иногда и направление) отношений. У каждого свои использовать, и их лучше всего использовать вместе.

Определение Т-теста

Что такое Т-тест?

T-тест — это тип выводимой статистики, используемый для определения значительного различия между средними значениями двух групп, которые могут быть связаны по определенным характеристикам.Он в основном используется, когда наборы данных, такие как набор данных, записанный как результат 100-кратного подбрасывания монеты, будут следовать нормальному распределению и могут иметь неизвестные отклонения. T-критерий используется в качестве инструмента проверки гипотез, который позволяет проверить предположение, применимое к совокупности.

T-критерий рассматривает t-статистику, значения t-распределения и степени свободы для определения статистической значимости. Чтобы провести тест с тремя или более средствами, необходимо использовать дисперсионный анализ.

Ключевые выводы

  • t-тест — это тип выводимой статистики, используемый для определения, есть ли значительная разница между средними значениями двух групп, которые могут быть связаны по определенным признакам.
  • t-критерий — один из многих тестов, используемых для проверки гипотез в статистике.
  • Для расчета t-критерия требуются три ключевых значения данных. Они включают разницу между средними значениями из каждого набора данных (называемую средней разницей), стандартное отклонение каждой группы и количество значений данных каждой группы.
  • Существует несколько различных типов t-теста, которые могут быть выполнены в зависимости от данных и типа требуемого анализа.

Объяснение Т-теста

По сути, t-тест позволяет нам сравнивать средние значения двух наборов данных и определять, принадлежат ли они к одной и той же совокупности. В приведенных выше примерах, если мы возьмем выборку студентов из класса A и другую выборку студентов из класса B, мы не ожидаем, что у них будут точно такие же среднее значение и стандартное отклонение.Точно так же образцы, взятые из контрольной группы, получавшей плацебо, и образцы, взятые из группы прописанного лекарства, должны иметь немного разные среднее значение и стандартное отклонение.

Математически t-критерий берет выборку из каждого из двух наборов и устанавливает постановку задачи, предполагая нулевую гипотезу о том, что два средних значения равны. На основе применимых формул вычисляются определенные значения и сравниваются со стандартными значениями, и предполагаемая нулевая гипотеза принимается или отклоняется соответственно.

Если нулевая гипотеза подлежит отклонению, это означает, что показания данных надежны и, вероятно, не являются случайными. T-тест — лишь один из многих тестов, используемых для этой цели. Статистики должны дополнительно использовать тесты, отличные от t-критерия, для изучения большего количества переменных и тестов с более крупными размерами выборки. Для большой выборки статистики используют z-критерий. Другие варианты тестирования включают тест хи-квадрат и f-тест.

Существует три типа t-критериев, которые подразделяются на зависимые и независимые t-тесты.

Неоднозначные результаты испытаний

Предположим, производитель лекарств хочет протестировать недавно изобретенное лекарство. Он следует стандартной процедуре: опробовать препарат на одной группе пациентов и дать плацебо другой группе, называемой контрольной группой. Плацебо, назначенное контрольной группе, представляет собой вещество, не имеющее предполагаемой терапевтической ценности, и служит эталоном для измерения реакции другой группы, которой вводят данное лекарство.

После испытания препарата члены контрольной группы, получавшей плацебо, сообщили об увеличении средней продолжительности жизни на три года, в то время как члены группы, которым прописали новое лекарство, сообщили об увеличении средней продолжительности жизни на четыре года.Мгновенное наблюдение может указывать на то, что препарат действительно работает, поскольку результаты лучше для группы, принимающей препарат. Однако также возможно, что наблюдение может быть вызвано случайным происшествием, особенно неожиданной удачей. T-критерий полезен, чтобы сделать вывод, верны ли результаты и применимы ли они ко всей совокупности.

В школе 100 учеников класса А набрали в среднем 85% со стандартным отклонением 3%. Еще 100 учеников, принадлежащих к классу B, набрали в среднем 87% со стандартным отклонением 4%.Хотя средний показатель для класса B лучше, чем для класса A, может быть неправильно делать вывод о том, что общая успеваемость учеников в классе B лучше, чем у учеников в классе A. Это связано с естественной изменчивостью. в тестовых баллах в обоих классах, поэтому разница может быть чисто случайной. С помощью t-теста можно определить, справился ли один класс лучше, чем другой.

Допущения T-теста

  1. Первое предположение, сделанное в отношении t-критериев, касается шкалы измерения.Предположение для t-теста состоит в том, что шкала измерения, применяемая к собранным данным, соответствует непрерывной или порядковой шкале, такой как баллы для теста IQ.
  2. Второе допущение состоит в том, что для простой случайной выборки данные собираются из репрезентативной, случайно выбранной части общей совокупности.
  3. Третье предположение заключается в том, что данные при нанесении на график дают нормальное распределение, колоколообразную кривую распределения.
  4. Последнее предположение — однородность дисперсии.Однородная или равная дисперсия существует, когда стандартные отклонения образцов примерно равны.

Расчет Т-тестов

Для расчета t-критерия требуются три ключевых значения данных. Они включают разницу между средними значениями из каждого набора данных (называемую средней разницей), стандартное отклонение каждой группы и количество значений данных каждой группы.

Результат t-теста дает t-значение. Это вычисленное t-значение затем сравнивается со значением, полученным из таблицы критических значений (называемой таблицей T-распределения).Это сравнение помогает определить влияние одной только случайности на разницу и выходит ли разница за пределы этого диапазона вероятности. С помощью t-критерия задается вопрос, представляет ли разница между группами истинное различие в исследовании или это, возможно, бессмысленное случайное различие.

Таблицы Т-распределения

Таблица Т-распределения доступна в одностороннем и двухстороннем форматах. Первый используется для оценки случаев, которые имеют фиксированное значение или диапазон с четким направлением (положительным или отрицательным).Например, какова вероятность того, что выходное значение останется ниже -3 или получит больше семи при броске пары кубиков? Последний используется для анализа границ диапазона, например для запроса, попадают ли координаты в интервал от -2 до +2.

Расчеты можно выполнять с помощью стандартных программ, которые поддерживают необходимые статистические функции, например, в MS Excel.

Т-значения и степени свободы

На выходе t-критерий дает два значения: t-значение и степени свободы.Значение t представляет собой отношение разницы между средним значением двух наборов образцов и вариацией, которая существует в наборах образцов. В то время как значение числителя (разница между средним значением двух наборов образцов) легко вычислить, знаменатель (вариация, которая существует в наборах образцов) может стать немного сложнее в зависимости от типа задействованных значений данных. Знаменатель отношения является мерой дисперсии или изменчивости. Более высокие значения t-значения, также называемого t-оценкой, указывают на то, что между двумя наборами выборок существует большая разница.Чем меньше t-значение, тем больше сходства существует между двумя наборами образцов.

  • Большой t-балл указывает на то, что группы разные.
  • Маленький t-балл указывает на схожесть групп.

Степени свободы относятся к ценностям в исследовании, которые могут варьироваться и имеют важное значение для оценки важности и обоснованности нулевой гипотезы. Вычисление этих значений обычно зависит от количества записей данных, доступных в наборе выборки.

Коррелированный (или парный) Т-тест

Коррелированный t-тест выполняется, когда образцы обычно состоят из согласованных пар одинаковых единиц или когда есть случаи повторных измерений. Например, могут быть случаи, когда одни и те же пациенты проходят тестирование повторно — до и после получения определенного лечения. В таких случаях каждый пациент используется в качестве контрольного образца против самого себя.

Этот метод также применяется в случаях, когда образцы каким-либо образом связаны или имеют совпадающие характеристики, например, сравнительный анализ с участием детей, родителей или братьев и сестер.Коррелированные или парные t-тесты относятся к зависимому типу, поскольку они включают случаи, когда два набора выборок связаны.

Формула для вычисления t-значения и степеней свободы для парного t-критерия:

Взаимодействие с другими людьми Т знак равно иметь в виду 1 — иметь в виду 2 s ( разница ) ( п ) где: иметь в виду 1 а также иметь в виду 2 знак равно Средние значения каждого из наборов образцов s ( разница ) знак равно Стандартное отклонение разностей значений парных данных п знак равно Размер выборки (количество парных отличий) \ begin {align} & T = \ frac {\ textit {mean} 1 — \ textit {mean} 2} {\ frac {s (\ text {diff})} {\ sqrt {(n)}}} \\ & \ textbf {where:} \\ & \ textit {mean} 1 \ text {и} \ textit {mean} 2 = \ text {Средние значения каждого из наборов образцов} \\ & s (\ text {diff}) = \ text {Стандартное отклонение различий значений парных данных} \\ & n = \ text {Размер выборки (количество парных различий)} \\ & n-1 = \ text {Степени свободы} \ end {выровнено} T = (n) s (diff) mean1 − mean2, где: mean1 и mean2 = средние значения каждого из наборов выборок s (diff) = стандартное отклонение разностей значений парных данных n = размер выборки (количество парных отличий)

Остальные два типа относятся к независимым t-критериям.Выборки этих типов выбираются независимо друг от друга, то есть наборы данных в двух группах не относятся к одним и тем же значениям. Они включают такие случаи, как группа из 100 пациентов, разделенная на две группы по 50 пациентов в каждой. Одна из групп становится контрольной и получает плацебо, а другая группа получает предписанное лечение. Это две независимые выборочные группы, не связанные друг с другом.

Т-тест на равную дисперсию (или объединенный)

T-критерий равной дисперсии используется, когда количество выборок в каждой группе одинаково или дисперсия двух наборов данных одинакова.Следующая формула используется для вычисления t-значения и степеней свободы для t-критерия равной дисперсии:

Взаимодействие с другими людьми Т-значение знак равно м е а п 1 — м е а п 2 ( п 1 — 1 ) × v а р 1 2 + ( п 2 — 1 ) × v а р 2 2 п 1 + п 2 — 2 × 1 п 1 + 1 п 2 где: м е а п 1 а также м е а п 2 знак равно Средние значения каждого наборов образцов v а р 1 а также v а р 2 знак равно Дисперсия каждого из наборов образцов \ begin {align} & \ text {T-value} = \ frac {mean1 — mean2} {\ frac {(n1 — 1) \ times var1 ^ 2 + (n2 — 1) \ times var2 ^ 2} {n1 + n2 — 2} \ times \ sqrt {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf {где:} \\ & mean1 \ text {и} mean2 = \ text { Средние значения каждого} \\ & \ text {из наборов выборок} \\ & var1 \ text {и} var2 = \ text {Дисперсия каждого из наборов образцов} \\ & n1 \ text {и} n2 = \ text { Количество записей в каждом наборе образцов} \ end {выровнено} T-значение = n1 + n2−2 (n1−1) × var12 + (n2−1) × var22 × n11 + n21 mean1 − mean2, где: mean1 и mean2 = средние значения каждого из наборов выборок var1 и var2 = Дисперсия каждого из наборов образцов

а также,

Взаимодействие с другими людьми Степени свободы знак равно п 1 + п 2 — 2 где: п 1 а также п 2 знак равно Количество записей в каждом наборе образцов \ begin {align} & \ text {Степени свободы} = n1 + n2 — 2 \\ & \ textbf {где:} \\ & n1 \ text {и} n2 = \ text {Количество записей в каждом наборе образцов} \ \ \ end {выровнено} Степени свободы = n1 + n2−2, где: n1 и n2 = количество записей в каждом наборе образцов. 2} {n2}} \\ & \ textbf { где:} \\ & mean1 \ text {и} mean2 = \ text {Средние значения каждого} \\ & \ text {наборов выборок} \\ & var1 \ text {и} var2 = \ text {Дисперсия каждого из наборы образцов} \\ & n1 \ text {и} n2 = \ text {Количество записей в каждом наборе образцов} \\ \ end {выровнено} T-значение = n1var12 + n2var22 mean1 − mean2, где: mean1 и mean2 = средние значения каждого из наборов образцов, var1 и var2 = дисперсия каждого из наборов образцов, n1 и n2 = количество записей в каждом наборе образцов.

а также,

Взаимодействие с другими людьми Степени свободы знак равно ( v а р 1 2 п 1 + v а р 2 2 п 2 ) 2 ( v а р 1 2 п 1 ) 2 п 1 — 1 + ( v а р 2 2 п 2 ) 2 п 2 — 1 где: v а р 1 а также v а р 2 знак равно Дисперсия каждого из наборов образцов п 1 а также п 2 знак равно Количество записей в каждом наборе образцов \ begin {align} & \ text {Degrees of Freedom} = \ frac {\ left (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ right) ^ 2} {\ frac {\ left (\ frac {var1 ^ 2} {n1} \ right) ^ 2} {n1 — 1} + \ frac {\ left (\ frac {var2 ^ 2} {n2} \ right) ^ 2} {n2 — 1}} \\ & \ textbf {где:} \\ & var1 \ text {и} var2 = \ text {Дисперсия каждого из наборов образцов} \\ & n1 \ text {и} n2 = \ text {Количество записей в каждом наборе образцов} \\ \ end {выровнено} Степени свободы = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2, где: var1 и var2 = дисперсия каждого из наборов выборок n1 и n2 = число записей в каждом наборе выборок

Определение правильного Т-теста для использования

Следующая блок-схема может использоваться для определения того, какой t-критерий следует использовать на основе характеристик наборов образцов.Ключевые элементы, которые следует учитывать, включают сходство записей выборки, количество записей данных в каждом наборе выборки и дисперсию каждого набора выборок.

Изображение Джули Банг © Investopedia 2019

Пример Т-теста неравной дисперсии

Предположим, что мы измеряем по диагонали картины, полученные в художественной галерее. Одна группа образцов включает 10 картин, а другая — 20 картин. Наборы данных с соответствующими средними значениями и значениями дисперсии следующие:

Набор 1 Набор 2
19.7 28,3
20,4 26,7
19,6 20,1
17,8 23,3
18,5 25,2
18,9 22,1
18,3 17,7
18,9 27,6
19.5 20,6
21,95 13,7
23,2
17,5
20,6
18
23,9
21,6
24.3
20,4
23,9
13,3
Среднее 19,4 21,6
Разница 1,4 17,1

Хотя среднее значение набора 2 выше, чем среднее значение набора 1, мы не можем заключить, что популяция, соответствующая набору 2, имеет более высокое среднее значение, чем совокупность, соответствующая набору 1.Является ли разница с 19,4 до 21,6 результатом чистой случайности или действительно существуют различия в общей численности всех картин, полученных в художественной галерее? Мы устанавливаем проблему, принимая нулевую гипотезу о том, что среднее значение одинаково для двух выборок, и проводим t-тест, чтобы проверить, правдоподобна ли гипотеза.

Поскольку количество записей данных различается (n1 = 10 и n2 = 20), и дисперсия также различается, значение t и степени свободы вычисляются для указанного выше набора данных с использованием формулы, упомянутой в T-тесте неравной дисперсии. раздел.

Значение t составляет -2,24787. Поскольку знак минус можно игнорировать при сравнении двух значений t, вычисленное значение составляет 2,24787.

Значение степеней свободы составляет 24,38 и уменьшается до 24 из-за определения формулы, требующей округления значения до минимально возможного целого числа.

Можно указать уровень вероятности (альфа-уровень, уровень значимости, p ) в качестве критерия для принятия. В большинстве случаев можно принять значение 5%.

Используя значение степени свободы как 24 и уровень значимости 5%, просмотр таблицы распределения значений t дает значение 2,064. Сравнение этого значения с вычисленным значением 2,247 показывает, что вычисленное значение t больше табличного значения на уровне значимости 5%. Следовательно, можно с уверенностью отвергнуть нулевую гипотезу об отсутствии разницы между средними. Набор населения имеет внутренние различия, и они не случайны.

что такое размер эффекта и почему он важен

Это размер эффекта, глупо: какой размер эффекта и почему он важен

Это размер эффекта, глупо
Что такое размер эффекта и почему он важен

Роберт Коу
Педагогическая школа Даремского университета, электронная почта [email protected]

Статья , представленная на Ежегодной конференции британских образовательных учреждений. Исследовательская ассоциация, Эксетерский университет, Англия, 12-14 сентября. 2002 г.

Аннотация

Размер эффекта — это простой способ количественной оценки разницы между две группы, которые имеют много преимуществ перед использованием тестов только статистическая значимость. Размер эффекта подчеркивает размер разница, а не путать это с размером выборки.Тем не мение, в первичных отчетах редко упоминается величина эффекта и мало учебников, Курсы по методам исследования или компьютерные пакеты обращаются к этой концепции. В этой статье дается объяснение того, что такое размер эффекта, как он рассчитывается и как его можно интерпретировать. Отношение между обсуждается размер эффекта и статистическая значимость, а также использование Доверительные интервалы для последнего обозначены. Некоторые преимущества и обсуждаются опасности использования размеров эффекта в метаанализе и другие возникают проблемы с использованием размеров эффекта.Номер описаны альтернативные меры величины эффекта. Наконец, совет по резюмируется использование размеров эффекта.

В 1992 г. Билл Клинтон и Джордж Буш-старший. боролись за пост президента США Состояния. Клинтон с трудом удерживал свое место в мнении опросы. Буш продвигался вперед, опираясь на свой статус опытный мировой лидер. Джеймс Карвилл, один из лучших Клинтона советники решили, что их стремление к президентству необходимо сосредоточить.Опираясь на проведенное им исследование, он придумал простой фокус для своей кампании. Карвилл писал, что все возможности, которые у него были. четыре слова — «Это экономика, тупица» — на доске для Билла. Клинтона видеть каждый раз, когда он выходил говорить.

«Размер эффекта» — это просто способ количественной оценки размера разница между двумя группами. Легко подсчитать, легко понятны и могут применяться к любому измеренному результату в образовании или Социальная наука.Это особенно ценно для количественной оценки эффективность конкретного вмешательства по сравнению с некоторыми сравнение. Это позволяет нам выйти за рамки упрощенного «ли это?» работать или нет? гораздо более изощренным: «Насколько хорошо это работать в разных контекстах? ‘ Более того, делая акцент на самый важный аспект вмешательства — размер эффект, а не его статистическая значимость (что объединяет размер эффекта и размер выборки), он способствует более научному подходу к накоплению знаний.По этим причинам размер эффекта важный инструмент в отчетности и интерпретации эффективности.

Однако рутинное использование размеров эффекта обычно ограничивается метаанализом — для объединения и сравнения оценок из разных исследований — и это слишком редко в оригинальных отчетах о образовательные исследования (Кесельман и др. , 1998). Это несмотря на тот факт, что измерения величины эффекта были доступны по крайней мере для 60 лет (Huberty, 2002) и Американская психологическая ассоциация официально побуждает авторов сообщать о размерах эффекта с тех пор, как 1994 — но с ограниченным успехом (Wilkinson et al., 1999). Формулы для расчета размеров эффекта не появляются в большинстве учебники по статистике (кроме тех, которые посвящены метаанализу), являются не фигурирует во многих статистических компьютерных пакетах и ​​редко преподается на курсах по стандартным методам исследования. По этим причинам даже исследователь, убежденный в мудрости использования мер размер эффекта, и не боится противостоять ортодоксальности обычная практика, может оказаться, что точно знать довольно сложно как это сделать.

Однако следующее руководство написано для не статистиков. неизбежно использовались некоторые уравнения и технический язык.Это описывает, что такое размер эффекта, что он означает, как его можно использовать и некоторые потенциальные проблемы, связанные с его использованием.

1. Зачем нам нужен «размер эффекта»?

Рассмотрим эксперимент, проведенный Доусоном (2000) для исследования влияние времени суток на обучение: учатся ли дети лучше в утром или днем? В состав группы вошли 38 детей. эксперимент. Половина были случайным образом распределены для прослушивания рассказа и ответить на вопросы об этом (на пленке) в 9 утра, чтобы другая половина услышала точно такая же история и ответьте на те же вопросы в 3 часа дня.Их понимание измерялось количеством ответов на вопросы правильно из 20.

Средний балл для утренней группы составил 15,2, для утренней — 17,9. дневная группа: разница 2,7. Но насколько велика разница это? Если результат был измерен по знакомой шкале, например, GCSE оценок, интерпретация разницы не будет проблемой. Если средняя разница составляла, скажем, пол-балла, у большинства людей ясное представление об образовательном значении эффекта чтения рассказ в разное время суток.Однако во многих экспериментах есть нет знакомой шкалы для записи результатов. В экспериментатору часто приходится изобретать шкалу или использовать (или адаптировать) уже существующий — но, как правило, не тот, чья интерпретация будет знаком большинству людей.

(а) (б)

Рисунок 1

Один из способов решить эту проблему — использовать величину вариации в баллах, чтобы контекстуализировать разницу. Если бы не было перекрытия в все и каждый человек в послеобеденной группе добился большего успеха тест, чем все в утренней группе, тогда это могло бы показаться очень существенная разница.С другой стороны, если распространение оценки были большими, и перекрытие было намного больше, чем разница между группами, тогда эффект может показаться менее значительным. Поскольку у нас есть представление о количестве вариаций, обнаруженных в группы, мы можем использовать это как критерий для сравнения разница. Эта идея выражена количественно при расчете эффекта . размер . Эта концепция проиллюстрирована на рисунке 1, на котором показаны два возможные способы, которыми разница может варьироваться в зависимости от перекрытия.Если разница была такая, как на графике (а), она была бы очень значительной; в график (б), с другой стороны, разница вряд ли будет заметно.

2. Как рассчитывается?

Размер эффекта — это просто стандартизированная средняя разница между две группы. Другими словами:

Уравнение 1

Если не очевидно, какая из двух групп является «экспериментальной» (т. е. тот, которому давали тестируемое «новое» лечение) и какой «контроль» (тот, которому дан «стандарт» лечение — или отсутствие лечения — для сравнения), разница может еще рассчитать.В этом случае «размер эффекта» просто измеряет разницу между ними, поэтому при цитировании важно размер эффекта, чтобы сказать, в каком направлении производился расчет.

Стандартное отклонение — это мера разброса набора значения. Здесь это относится к стандартному отклонению населения. из которых были взяты разные группы лечения. На практике, однако об этом почти никогда не известно, поэтому от стандартного отклонения контрольной группы или от «объединенного» значение от обеих групп (см. вопрос 7 ниже, чтобы подробнее обсудить это).

В эксперименте Доусона с эффектами времени суток стандартная отклонение (SD) = 3,3, поэтому величина эффекта составила (17,9 — 15,2) / 3,3 = 0.8.

3. Как можно интерпретировать величину эффекта?

Одной из особенностей размера эффекта является то, что он может быть напрямую преобразован в заявления о совпадении двух образцов с точки зрения сравнение процентилей.

Размер эффекта в точности эквивалентен Z-баллу стандартное нормальное распределение.Например, размер эффекта 0,8 означает что средний балл человека в экспериментальной группе составляет 0,8 стандартные отклонения выше среднего человека в контрольной группе, и следовательно, превосходит 79% контрольной группы. С двумя группы из 19 человек в эксперименте с эффектами времени суток, средний человек в «дневной» группе (то есть тот, кто был бы ранжирован 10 в группе) набрали бы примерно столько же, сколько и 4 самый высокий человек в «утренней» группе.Визуализация эти два человека могут дать довольно наглядную интерпретацию разница между двумя эффектами.

В таблице I показано преобразование величины эффекта (столбец 1) в процентили. (столбец 2) и эквивалентное изменение в порядке ранжирования для группы из 25 человек. (столбец 3). Например, для размера эффекта 0,6 значение 73% указывает на то, что средний человек в экспериментальной группе оценка выше 73% от контрольной группы, которая изначально была эквивалент. Если группа состояла из 25 человек, это то же самое, что говоря, что средний человек (т.е. занял 13 место в рейтинге группа) теперь будет на одном уровне с человеком, занимающим 7 место в контрольная группа. Обратите внимание, что размер эффекта 1,6 повысит средний человек должен быть на одном уровне с человеком с самым высоким рейтингом в контрольной группе, поэтому размеры эффекта больше указанного показаны на с точки зрения высшего человека в большой группе. Например, размер эффекта 3,0 принесет среднему человеку в группе 740 уровень с ранее занимал первое место в группе.

Таблица I: Расшифровка величины эффекта

Размер эффекта

Процент контрольной группы, которая будет ниже средний человек в экспериментальной группе

Место человека в контрольной группе из 25 человек, которые будет эквивалентно среднему человеку в экспериментальной группе

Вероятность того, что вы могли догадаться, какая группа человек вошел из-за знания своей «оценки».

Эквивалентная корреляция, r
(= разница в процентном соотношении «успешных» в каждом из двух группы, BESD)

Вероятность того человека из подопытного группа будет выше, чем человек из контроля, если оба выбраны на случайный (= CLES)

0,0

50%

13

0.50

0,00

0,50

0,1

54%

12

0,52

0,05

0,53

0.2

58%

11

0,54

0,10

0,56

0,3

62%

10

0,56

0.15

0,58

0,4

66%

9

0,58

0,20

0,61

0,5

69%

8

0.60

0,24

0,64

0,6

73%

7

0,62

0,29

0,66

0.7

76%

6

0,64

0,33

0,69

0,8

79%

6

0,66

0.37

0,71

0,9

82%

5

0,67

0,41

0,74

1,0

84%

4

0.69

0,45

0,76

1,2

88%

3 рд

0,73

0,51

0,80

1.4

92%

2 nd

0,76

0,57

0,84

1,6

95%

1 ул

0,79

0.62

0,87

1,8

96%

1 ул

0,82

0,67

0,90

2,0

98%

1 st (или 1 st из 44)

0.84

0,71

0,92

2,5

99%

1 st (или 1 st из 160)

0,89

0,78

0,96

3.0

99,9%

1 st (или 1 st из 740)

0,93

0,83

0,98

Другой способ концептуализировать перекрытие — это вероятность того, что можно было угадать, из какой группы пришел человек, на основе только по их тестовой оценке — или какому-либо другому значению, которое сравнивали.Если величина эффекта была 0 (т.е. две группы были одинаковыми), тогда вероятность правильного предположения будет ровно половиной или 0,50. С разницей между двумя группами, эквивалентной размеру эффекта 0,3, перекрытия еще много, и вероятность при правильном определении групп возрастает лишь незначительно до 0,56. С размер эффекта 1, вероятность сейчас 0,69, чуть более двух третей шанс. Эти вероятности показаны в четвертом столбце таблицы I. Понятно, что совпадение экспериментальной и контрольной групп является существенным (и поэтому вероятность все еще близка к 0.5), даже если размер эффекта довольно большой.

Немного другой способ интерпретации размеров эффекта использует эквивалентность стандартизованной разницы средних ( d ) и коэффициент корреляции, р . Если членство в группе закодировано с фиктивной переменной (например, обозначая контрольную группу 0 и экспериментальной группы на 1) и корреляцию между этой переменной и рассчитав результат, можно получить значение р. . От сделав некоторые дополнительные предположения, можно легко преобразовать d в r в целом, используя уравнение r 2 = d 2 / (4 + d 2 ) (другие формулы и таблицу преобразования см. в Cohen, 1969, стр. 20-22).Розенталь и Рубин (1982) используют интересное свойство r , чтобы предложить дальнейшую интерпретацию, которую они называют отображение размера биномиального эффекта (BESD). Если показатель результата снижен к простой дихотомии (например, является ли оценка выше или ниже конкретное значение, такое как медиана, которое можно рассматривать как ‘успех’ или ‘неудача’), r можно интерпретировать как разница в пропорциях в каждой категории. Например, эффект размер 0.2 указывает на разницу в 0,10 в этих пропорциях, так как будет в том случае, если 45% контрольной группы и 55% лечения группа достигла определенного порога «успеха». Обратите внимание, однако, что если общая доля «успешных» не приближается к 50%, это интерпретация может вводить в заблуждение (Strahan, 1991; McGraw, 1991). Значения BESD показаны в столбце 5.

Наконец, Макгроу и Вонг (1992) предложили Статистические данные размера эффекта (CLES), которые, как они утверждают, легко понятны не статистикам (показано в столбце 6 Таблицы I).Этот вероятность того, что оценка, полученная случайным образом из одного распределение будет больше, чем оценка, полученная от другого. Они приведите пример роста молодых людей мужского и женского пола, которые отличаются размером эффекта около 2, и переводим это разница с CLES 0,92. Другими словами, «в 92 из 100 слепых свиданий среди молодых людей самец будет выше самки » (стр. 361).

Следует отметить, что значения в таблице I зависят от предположение о нормальном распределении.Интерпретация эффекта размеры с точки зрения процентилей очень чувствительны к нарушениям этого предположение (см. вопрос 7 ниже).

Другой способ интерпретировать размеры эффекта — сравнить их с влияют на размеры знакомых различий. Например, Коэн (1969, стр. 23) описывает размер эффекта 0,2 как «малый» и дает чтобы проиллюстрировать это на примере, разница между высотами 15-летних и 16-летних девочек в США соответствует эффект такого размера. Размер эффекта 0.5 описывается как «средний» и «достаточно большой, чтобы быть видимым невооруженным глазом». Эффект 0,5 размер соответствует разнице роста 14 лет и 18-летние девушки. Коэн описывает величину эффекта 0,8 как «грубо ощутимый и, следовательно, большой » и приравнивает его к различию от 13 до 18 лет. В качестве дальнейшего Например, он утверждает, что разница в IQ между обладателями Кандидат наук. степень и «типичный первокурсник колледжа» сопоставимы с размер эффекта 0.8.

Коэн признает опасность использования таких терминов, как «маленький», «средний» и «большой» вне контекста. Glass et al. (1981, стр.104) особенно критически относятся к этому подходу, утверждая, что эффективность конкретного вмешательства можно интерпретировать только в отношении других вмешательств, направленных на то же эффект. Они также отмечают, что практическая важность эффекта полностью зависит от его относительных затрат и выгод. В образовании, если можно было бы показать, что внесение небольших и недорогих изменений повысить успеваемость даже на 0.1, тогда это может быть очень значительным улучшением, особенно если улучшение применяется единообразно ко всем учащимся, и тем более, если Эффект был кумулятивным с течением времени.

Таблица II: Примеры средней величины эффекта от исследования

Вмешательство

Результат

Размер эффекта

Источник

Успеваемость учащихся по чтению

0.30

Успеваемость учащихся по математике

0,32

Отношение студентов

0,47

Отношение учителей

1,03

Достижение учащихся (всего)

0.00

Студенческая успеваемость (для отличников)

0,08

Студенческая успеваемость (для малоуспевающих)

-0,06

Студенческое достижение

-0,06

Отношение учеников к школе

0.17

Всестороннее и специальное образование (для младшего возраста, инвалиды студенты)

Достижение

0,44

Ван и Бейкер (1986)

Сдача практических экзаменов

Результаты тестов

0.32

Кулик, Бангерт и Кулик (1984)

Учебная программа, основанная на запросах, по сравнению с традиционной учебной программой по естествознанию

Достижение

0,30

Шиманский, Хеджес и Вудворт (1990)

Терапия тестовой тревожности (для тревожных студентов)

Производительность теста

0.42

Хембри (1988)

Отзыв учителям об успеваемости учащихся (учащихся с IEP)

Студенческое достижение

0,70

Fuchs and Fuchs (1986)

Достижение учеников

0.40

Достижения наставников

0,33

Индивидуальная инструкция

Достижение

0,10

Бангерт, Кулик и Кулик (1983)

Достижение (все исследования)

0.24

Достижение (в хорошо контролируемых исследованиях)

0,02

Диета без добавок

Детская гиперактивность

0,02

Кавале и Форнесс (1983)

Тренинг релаксации

Медицинские симптомы

0.52

Hyman et al. (1989)

Целевые вмешательства для студентов из групп риска

Достижение

0,63

Славин и Мэдден (1989)

Просвещение по вопросам злоупотребления психоактивными веществами в школах

Использование психоактивных веществ

0.12

Бангер-Дроунс (1988)

Программы лечения несовершеннолетних правонарушителей

Просрочка

0,17

Липси (1992)

Стекло и др. (1981, стр.102) приводят пример того, что эффект размер 1 соответствует разнице примерно в год обучения об успеваемости учащихся начальной школы (т.е. начальные школы. Однако анализ стандартного теста на правописание использованный в Великобритании (Vincent and Crumpler, 1997) предполагает, что увеличение возраста правописания с 11 до 12 соответствует величине эффекта около 0,3, но, кажется, варьируется в зависимости от конкретного используемого теста.

В Англии распределение оценок GCSE по обязательным предметам (например, математика и английский) имеют стандартные отклонения от 1,5 до 1,8 балла, поэтому улучшение на одну оценку GCSE представляет собой эффект размер 0.5 — 0,7. Поэтому в контексте средних школ внесение изменения в практику, величина эффекта которого была известна как 0,6 приведет к улучшению оценки GCSE для каждого ученика в каждый предмет. Для школы, в которой раньше учились 50% учеников. при получении пяти или более оценок A * — C этот процент (другие вещи равны, и предполагая, что эффект одинаково распространяется на весь учебный план) возрастет до 73%. Даже «небольшой» эффект Коэна 0,2 приведет к увеличению с 50% до 58% — разница в том, что большинство школ, вероятно, отнесли бы к категории весьма существенных.Олейник и Algina (2000) приводят аналогичный пример, основанный на тесте Iowa Test of Базовые навыки

Наконец, может значительно помочь интерпретация размеров эффекта. на нескольких примерах из существующих исследований. В таблице II перечислены выбранные из них, многие из которых взяты из работы Липси и Уилсона (1993). В Приведенные примеры приведены для иллюстрации использования размера эффекта. меры; они не предназначены для того, чтобы быть окончательным суждением по относительная эффективность различных вмешательств. Интерпретируя их, поэтому следует иметь в виду, что большинство метаанализов из которые они получены, могут быть (и часто подвергались) критике за множество слабых мест, то ряд обстоятельств, при которых эффекты могут быть ограничены, и что размер эффекта цитируемое среднее значение, которое часто основано на довольно сильно различающихся значения.

Похоже, что очень немногие из них имеют эффекты, которые были бы описаны в книге Коэна. классификация как нечто иное, чем «малый». Это кажется особенно это касается влияния на успеваемость учащихся. Без сомнения, это отчасти в результате широкого разброса популяции как целое, относительно которого рассчитывается мера величины эффекта. Один может также предположить, что на достижения труднее повлиять, чем другие результаты, возможно, потому что большинство школ уже используют оптимальные стратегии, или потому что разные стратегии могут быть эффективными в разных ситуациях — сложность, которая плохо улавливается единая средняя величина эффекта.

4. Какова взаимосвязь между «величиной эффекта» и «значимостью»?

Размер эффекта определяет величину разницы между двумя групп, и поэтому можно сказать, что это истинная мера значимость разницы. Если, например, результаты Доусона Эксперимент «эффекты времени суток» применим в целом, мы может задать вопрос: «Насколько сильно это изменит обучение детей, если им преподали конкретную тему в днем, а не утром? Лучший ответ, который мы могли бы дать это было бы с точки зрения размера эффекта.

Однако в статистике слово «значимость» часто используется для обозначения означают «статистическую значимость», то есть вероятность того, что разница между двумя группами могла быть просто случайностью отбор проб. Если вы возьмете две пробы из одной и той же популяции, всегда будет разница между ними. Статистическая значимость составляет обычно рассчитывается как p-значение, вероятность того, что разница хотя бы одного размера возникла бы случайно, даже если бы действительно не было разницы между двумя популяциями.Для различия между средними значениями двух групп, это p-значение будет обычно рассчитывается по t-критерию. Условно, если p < 0,05 (т.е. менее 5%), разница считается достаточно большой, чтобы 'значительный'; если нет, то это «несущественно».

Есть ряд проблем с использованием «критериев значимости» таким образом (см., например, Cohen, 1994; Harlow et al. ., 1997; Томпсон, 1999). Главный из них заключается в том, что величина p существенно зависит от на две вещи: размер эффекта и размер образец.Можно было бы получить «значительный» результат, если бы эффект были очень большими (несмотря на то, что у них была лишь небольшая выборка), или если выборка были очень большими (даже если реальный размер эффекта был крошечным). это важно знать статистическую значимость результата, так как без этого есть опасность сделать твердые выводы из исследований где выборка слишком мала, чтобы оправдать такое доверие. Тем не мение, статистическая значимость не , а не говорит вам о самом важном вещь: размер эффекта .Один из способов преодолеть это путаница заключается в том, чтобы сообщить о величине эффекта вместе с оценкой его вероятный «предел ошибки» или «доверительный интервал».

5. Каков предел погрешности при оценке величины эффекта?

Понятно, что если размер эффекта рассчитывается по очень большой выборке он, вероятно, будет более точным, чем рассчитанный на основе небольшого образец. Этот «предел ошибки» можно количественно оценить, используя идею доверительного интервала, который предоставляет ту же информацию, что и обычно содержится в тесте значимости: с доверительной вероятностью 95% интервал »эквивалентен принятию« 5% уровня значимости ».К рассчитать 95% доверительный интервал, вы предполагаете, что полученное вами значение (например, оценка размера эффекта 0,8) является «истинным» значением, но подсчитайте величину вариации этой оценки, которую вы получите, если вы неоднократно брали новые образцы того же размера (т. е. разных выборки 38 детей). На каждые 100 таких гипотетических новых выборки, по определению, 95 дадут оценки величины эффекта в пределах «95% доверительного интервала». Если этот доверительный интервал включает ноль, то это то же самое, что сказать, что результат не статистически значимый.Если же, с другой стороны, ноль находится за пределами диапазон, то он «статистически значим на уровне 5%». Использование доверительного интервала — лучший способ передать это информации, поскольку акцент делается на размере эффекта, который важная информация, а не p-значение.

Формула для расчета доверительного интервала для эффекта размер дан Hedges and Olkin (1985, стр. 86). Если размер эффекта оценка по выборке d , тогда она нормально распределена, со стандартным отклонением:

Уравнение 2

(где N E и N C — числа в опытная и контрольная группы соответственно.)

Следовательно, 95% доверительный интервал для d будет от

d — 1,96 с [ d ] к д + 1,96 с [ д ]

Уравнение 3

Чтобы снова использовать цифры из эксперимента со временем суток, N E = N C = 19 и d = 0,8, поэтому s [ d ] = (0,105 + 0,008) = 0,34. Следовательно, 95% доверительный интервал равен [0,14, 1,46].Обычно это интерпретируется (несмотря на факт, что такая интерпретация не является строго оправданной — см. Oakes, 1986 за поучительное обсуждение этого) как означающего, что «истинный» эффект времени суток, скорее всего, будет между 0,14 и 1,46. Другими словами, он почти наверняка положительный (т.е. днем лучше, чем утром) и разница вполне может быть большой.

6. Как можно объединить знания о величине эффекта?

Одним из основных преимуществ использования размера эффекта является то, что когда конкретный эксперимент был воспроизведен, различная величина эффекта оценки из каждого исследования можно легко объединить, чтобы получить общую наилучшая оценка размера эффекта.Этот процесс синтеза результаты экспериментов в единую оценку размера эффекта известны как «метаанализ». В его нынешнем виде он был разработан специалист по статистике образования, Джин Гласс (См. Гласс и др. ., 1981) хотя корни метаанализа можно проследить гораздо дальше назад (см. Lepper et al. , 1999), и в настоящее время широко используется не только в образовании, но в медицине и во всех социальных науках. А краткое и доступное введение в идею метаанализа может быть найдено у Фитц-Гиббона (1984).

Метаанализ, однако, может гораздо больше, чем просто произвести общий «средний» размер эффекта, хотя это часто и важно. Если, для конкретного вмешательства некоторые исследования дали большие эффекты, и некоторые небольшие эффекты, будет иметь ограниченную ценность просто объединить их вместе и говорят, что средний эффект был «средний». Много более полезным было бы изучить оригинальные исследования на предмет каких-либо различия между теми, с большими и маленькими эффектами, и попытаться понять, какие факторы могут объяснить разницу.Самый лучший метаанализ, таким образом, предполагает поиск отношений между размеры эффекта и характеристики вмешательства, контекст и дизайн исследования, в котором они были обнаружены (Rubin, 1992; см. также Lepper et al. al. (1999) для обсуждения проблем, которые могут быть созданы невыполнение этого требования, а также некоторые другие ограничения применимости метаанализ).

Важность репликации в получении доказательств того, что работает нельзя переоценить. В эксперименте Доусона с определением времени суток Эффект оказался достаточно большим, чтобы его можно было статистически и образовательно значимый.Потому что мы знаем, что ученики были распределены случайным образом для каждой группы, мы можем быть уверены, что шанс начальные различия между двумя группами маловероятны учитывать разницу в результатах. Кроме того, использование предварительное тестирование обеих групп перед вмешательством делает это еще меньше вероятный. Однако мы не можем исключить возможность того, что разница возникла из-за какой-то особенности, свойственной детям в этот конкретный эксперимент. Например, если ни у кого из них не было завтрака в тот день, это может быть причиной плохой работы утренняя группа.Однако в этом случае результат, вероятно, не будет обобщить на более широкую популяцию школьников, большинство из которых позавтракал бы. В качестве альтернативы эффект может зависеть от от возраста студентов. Студентам Доусона было 7-8 лет; Это вполне возможно, что эффект можно уменьшить или обратить вспять с помощью старшие (или младшие) ученики. Это иллюстрирует опасность реализация политики на основе единственного эксперимента. Уверенность в общность результата может быть только после повсеместного тиражирования.

Важное следствие способности метаанализа объединить результаты в том, что даже небольшие исследования могут дать значительный вклад в знания. Тип эксперимента, который может быть проведен один учитель в школе может задействовать в общей сложности менее 30 человек. студенты. Если эффект не будет огромным, исследование такого размера будет наиболее целесообразным. маловероятно получить статистически значимый результат. В соответствии с общепринятая статистическая мудрость, следовательно, эксперимент не Стоит делать. Однако если результаты нескольких таких экспериментов в сочетании с метаанализом общий результат, вероятно, будет статистически значимо.Кроме того, в нем будут важные сильные стороны того, что они получены из различных контекстов (таким образом, увеличивая уверенность в его универсальности) и из реальной производственной практики (тем самым повышая вероятность того, что политика осуществима и может быть реализовано достоверно).

Здесь следует сделать последнее предостережение об опасности комбинирования несоизмеримые результаты. Учитывая два (или более) числа, всегда можно рассчитать среднее. Однако, если они имеют размер эффекта от эксперименты, которые существенно различаются по показателям результатов использованный, то результат может быть совершенно бессмысленным.Это может быть очень заманчиво, после того как были рассчитаны размеры эффекта, рассматривать их как все то же самое и теряют из виду свое происхождение. Конечно, есть много примеров метаанализа, в котором сопоставление эффекта размеры несколько сомнительны.

Следовательно, при сравнении (или объединении) размеров эффектов следует внимательно подумайте, относятся ли они к одним и тем же результатам. Этот совет применим не только к метаанализу, но и к любому другому сравнению размеров эффекта. Кроме того, из-за чувствительности размера эффекта оценки надежности и ограничения диапазона (см. ниже), следует также подумайте, основаны ли эти показатели результатов на одном и том же (или достаточно похожие) инструменты и такие же (или в достаточной мере аналогичные) популяции.

Также важно сравнивать только подобное с похожим с точки зрения процедуры, используемые для создания измеряемых различий. в учебная литература, такое же название часто называют вмешательствами которые на самом деле очень разные, например, если они по-разному, или если они просто недостаточно хорошо определены, чтобы было ясно, являются ли они одинаковыми или нет. Это могло бы также будет то, что в разных исследованиях использовались одни и те же четко определенные и практические методы лечения, но фактическая реализация отличалась, или что одно и то же лечение могло иметь разные уровни интенсивности в разные исследования.В любом из этих случаев нет смысла усреднять из их эффектов.

7. Какие еще факторы могут повлиять на величину эффекта?

Хотя величина эффекта является простой и легко интерпретируемой мерой эффективности, он также может быть чувствителен к ряду ложных влияний, поэтому при его использовании необходимо соблюдать осторожность. Что-нибудь из этого проблемы описаны здесь.

Какое «стандартное отклонение»?

Первая проблема заключается в том, какое «стандартное отклонение» использовать.В идеале контрольная группа обеспечит наилучшую оценку стандартное отклонение, поскольку оно состоит из репрезентативной группы население, не пострадавшее от экспериментального вмешательство. Однако, если контрольная группа не очень большая, оценка «истинного» стандартного отклонения совокупности, полученная из только контрольная группа может быть значительно менее точной, чем оценка, полученная как из контрольной, так и из экспериментальной групп. Более того, в исследованиях, где нет настоящей «контрольной» группы (например, эксперимент с эффектами времени суток), тогда это может быть произвольное решение, какое стандартное отклонение группы использовать, и это часто существенно влияет на оценку эффекта размер.

По этим причинам часто лучше использовать «объединенный» оценка стандартного отклонения. Объединенная оценка — это, по сути, среднее значение стандартных отклонений опытных и контрольных группы (уравнение 4). Обратите внимание, что это не то же самое, что и стандарт отклонение всех значений в обеих группах, объединенных вместе. Если, например, у каждой группы было низкое стандартное отклонение, но два средних значения существенно различались, истинная совокупная оценка (рассчитанная по уравнению 4) будет намного ниже, чем значение, полученное путем объединения все значения вместе и вычисление стандартного отклонения.В последствия выбора того, какое стандартное отклонение использовать обсуждается Олейник и Альгина (2000).

Уравнение 4

(где N E и N C — числа в опытная и контрольная группы соответственно и SD E и SD C — их стандартные отклонения.)

Использование объединенной оценки стандартного отклонения зависит от предположение, что два рассчитанных стандартных отклонения являются оценками из такая же численность населения .Другими словами, что Стандартные отклонения экспериментальной и контрольной групп различаются только результат вариации выборки. Где это предположение не может быть сделано (либо потому, что есть основания полагать, что два стандартных отклонения, вероятно, будут систематически отличаться, или если фактические измеренные значения сильно различаются), то объединенная оценка не должна использоваться.

В примере эксперимента Доусона с временем суток стандартная отклонения для утренней и дневной групп составили 4.12 и 2.10 соответственно. При N E = N C = 19, уравнение 2 поэтому дает SD , объединенный , как 3,3, что и было используемым значением. в уравнении 1, чтобы получить размер эффекта 0,8. Однако разница между двумя стандартными отклонениями в этом случае кажется довольно большим. Учитывая, что среднее значение дневной группы было 17,9 из 20, кажется, вероятно, что его стандартное отклонение могло быть уменьшено на «потолок». эффект ‘- т.е. разброс оценок ограничивался максимальным в наличии отметка 20.Поэтому в этом случае может быть больше целесообразно использовать стандартное отклонение утренней группы в качестве лучшая оценка. Это уменьшит размер эффекта до 0,7, и затем становится несколько произвольным решением, какое значение эффекта размер для использования. Общее практическое правило статистики, когда два действительных методы дают разные ответы: «Если сомневаетесь, цитируйте оба».

Поправки на смещение

Хотя использование объединенного стандартного отклонения для расчета размер эффекта обычно дает лучшую оценку, чем контрольная группа SD, к сожалению, он все еще немного предвзят и в целом дает значение немного больше, чем истинное значение численности населения (Hedges and Olkin, 1985).Хеджес и Олкин (1985, стр. 80) дают формулу, которая дает приблизительная коррекция этого смещения.

В эксперименте Доусона с 38 значениями поправочный коэффициент будет быть 0,98, поэтому разница очень незначительна, уменьшая размер эффекта оценка от 0,82 до 0,80. Учитывая вероятную точность цифр на котором это основано, вероятно, стоит указывать только один десятичный знак место, так стоит цифра 0,8. Фактически, исправление только становится существенным для небольших образцов, в которых точность в любом случае значительно меньше.Поэтому вряд ли стоит беспокоиться об этом в начальной школе. отчеты об эмпирических результатах. Однако в метаанализе, где результаты из первичных исследований совмещены, коррекция важна, так как без него эта предвзятость накапливалась бы.

Ограниченный диапазон

Предположим, что эксперимент с эффектами времени суток нужно повторить, один раз с лучшим набором в школе с высокой степенью отбора и снова с разноплановая группа в комплексном. Если бы студентов распределили по утренние и дневные группы наугад, соответствующие различия между ними может быть то же самое в каждом случае; оба средства в отборная школа может быть выше, но разница между ними группы могли быть такими же, как разница в комплексном.Однако маловероятно, что стандартные отклонения будут одно и тоже. Разброс оценок внутри тщательно отобранной группы будет намного меньше, чем в истинном сечении населения, как, например, в общеобразовательном классе с разной степенью способностей. Это, конечно, окажет существенное влияние на расчет размер эффекта. С очень ограниченным диапазоном, найденным в выборочная школа, размер эффекта будет намного больше, чем найденный в комплексном.

В идеале при расчете величины эффекта следует использовать стандартную отклонение всей совокупности, чтобы сравнение было справедливым.Однако во многих случаях неограниченные значения не доступны либо на практике, либо в принципе. Например, в учитывая эффект вмешательства со студентами университета, или с учениками, испытывающими трудности с чтением, следует помнить, что эти ограниченные группы населения. Сообщая о величине эффекта, следует обратить на это внимание; если размер ограничения может быть количественно можно сделать поправку на это. Любое сравнение с величиной эффекта, рассчитанной на основе полной популяции. с большой осторожностью, если вообще.

Ненормальные распределения

Интерпретация величины эффекта, приведенная в Таблице I, зависит от предположение, что и контрольная, и экспериментальная группы имеют «Нормальный» распределение, то есть показанная знакомая « колоколообразная » кривая для Например, на рисунке 1. Излишне говорить, что если это предположение неверно тогда интерпретация может быть изменена, и, в частности, она может быть трудно провести честное сравнение между размером эффекта на основе Нормальные распределения и одно, основанное на ненормальных распределениях.

Рисунок 2: Сравнение нормального и ненормального дистрибутивы

Это проиллюстрировано на Рисунке 2, который показывает частотные кривые для двух распределений, одно из которых Нормальное, другое «загрязненное нормальное» распределение (Wilcox, 1998), которое похожи по форме, но с несколько более толстыми крайностями. Фактически последний действительно выглядит немного более рассредоточенным, чем нормальный распределения, но его стандартное отклонение на самом деле более чем в три раза такой же большой.Следствием этого с точки зрения разницы в величине эффекта является показано на рисунке 3. На обоих графиках показаны распределения, различающиеся размер эффекта равен 1, но появление размера эффекта отличие от графиков весьма несходное. На графике (б) разделение между экспериментальной и контрольной группами кажется намного большим, тем не менее, размер эффекта на самом деле такой же, как у обычного распределения, нанесенные на график (а). Что касается количества перекрытий, на графике (b) 97% «экспериментальной» группы выше контрольной среднее значение группы по сравнению со значением 84% для нормального распределения графа (а) (как указано в таблице I).Это довольно существенный разница и иллюстрирует опасность использования значений в Таблице I когда распределение заведомо не является нормальным.

(а) (б)

Рисунок 3: Нормальное и ненормальное распределение с размер эффекта = 1

Надежность измерения

Третий фактор, который может ложно повлиять на размер эффекта, — это надежность измерения, на котором оно основано. В соответствии с классической теории измерения, любая мера конкретного результата может считаться состоящим из «истинной» базовой ценности вместе с компонентом «ошибка».Проблема в том, что количество вариации в оценках для конкретной выборки (т. е. ее стандартное отклонение) будет зависеть как от вариации базового оценки и количество ошибок в их измерении.

В качестве примера представьте, что эксперимент с определением времени суток был проведено дважды с двумя (гипотетически) идентичными образцами студенты. В первой версии тест использовался для оценки их понимание состояло всего из 10 пунктов, и их оценки были конвертируется в процент.Во второй версии тест с 50 элементы были использованы и снова преобразованы в процент. Два теста были равной сложности, и действительный эффект разницы в время дня было одинаковым в каждом случае, поэтому соответствующее среднее процентное соотношение утренних и дневных групп было одинаковым для обоих версии. Однако почти всегда более длительный тест будет более надежным, и, следовательно, стандартное отклонение процентное соотношение по тесту из 50 пунктов будет ниже стандартного отклонение для теста из 10 пунктов.Таким образом, хотя истинный эффект был То же самое, рассчитанная величина эффекта будет отличаться.

Поэтому при интерпретации величины эффекта важно знать надежность измерения, на основании которого он был рассчитан. Этот это одна из причин, по которой надежность любого используемого показателя результатов должна быть сообщенным. Теоретически можно сделать поправку на ненадежность (иногда называемая «затуханием»), которая дает оценка того, какой была бы величина эффекта, если бы надежность теста были идеальными.Однако на практике эффект от этого довольно настораживает, так как чем хуже был тест, тем больше вы увеличиваете оценка величины эффекта. Кроме того, оценки надежности зависят от конкретной популяции, в которой использовался тест, и сами в любом случае подвержены ошибкам выборки. Для дальнейшего обсуждение влияния надежности на величину эффекта см. Baugh (2002).

8. Существуют ли альтернативные меры величины эффекта?

Иногда предлагается ряд статистических данных в качестве альтернативы. меры величины эффекта, кроме ‘стандартизованного среднего разница’.Некоторые из них будут рассмотрены здесь.

Доля дисперсии, приходящаяся на

Если корреляция между двумя переменными равна ‘r’, квадрат это значение (часто обозначается заглавной буквой: R 2 ) представляет собой долю дисперсии в каждой учтенной для ‘другим. Другими словами, это пропорция, на которую дисперсия показателя результата уменьшается, когда его заменяют на дисперсия остатков из уравнения регрессии.Эта идея может быть расширен до множественной регрессии (где он представляет доля дисперсии, приходящаяся на все независимые вместе) и имеет близкие аналогии в ANOVA (где это обычно называется «эта-квадрат», h 2 ). Расчет р (и, следовательно, R 2 ) для той экспериментальной ситуации, которую мы были рассмотрены уже упоминалось выше.

Поскольку R 2 имеет эту готовую конвертируемость, он (или учитываются альтернативные меры дисперсии) иногда рекомендуется как универсальная мера величины эффекта (например,грамм. Томпсон, 1999). Один Недостатком такого подхода является то, что измерение величины эффекта на основе учтенная дисперсия имеет ряд технических ограничений, такие как чувствительность к нарушению допущений (неоднородность дисперсия, сбалансированные планы) и их стандартные ошибки могут быть большими (Олейник и Альгина, 2000). Кроме того, они обычно более сложны со статистической точки зрения. и поэтому, возможно, труднее понять. Кроме того, они ненаправленного; два исследования с совершенно противоположными результатами сообщить точно такую ​​же учтенную дисперсию.Однако есть более серьезное возражение против использования того, что по сути является мерой ассоциации, чтобы указать силу «эффекта».

Выражение разных показателей с помощью одной и той же статистики может скрыть важные различия между ними; на самом деле, эти разные эффекты размеры ‘принципиально разные, и их не следует путать. В принципиальное различие между величиной эффекта, рассчитанной из эксперимент и один, рассчитанный на основе корреляции, находится в причинно-следственной характер предъявленной претензии.Кроме того, слово «эффект» имеет неотъемлемое значение причинно-следственной связи: разговор о « эффекте A на B ‘действительно предполагает причинно-следственную связь, а не просто ассоциация. К сожалению, слово «эффект» часто используется, когда не делается явного причинно-следственного утверждения, но его значение иногда разрешается плавать в значении и исчезать, принимая преимущество двусмысленности, чтобы предложить подсознательную причинно-следственную связь, где ничто действительно не оправдано.

Подобная путаница настолько распространена в образовании, что здесь рекомендуется, чтобы слово «эффект» (и, следовательно, «эффект» size ‘) не следует использовать, за исключением случаев намеренного и явного причинно-следственного претензия предъявляется.Когда таких заявлений не поступает, мы можем говорить о «учтенной дисперсии» (R 2 ) или «силе ассоциации ‘(r), или просто — и, возможно, наиболее информативно — просто процитируйте коэффициент регрессии (Tukey, 1969). Если причинно-следственная претензия должна быть явной и с указанием обоснования. Фитц-Гиббон ​​(2002) рекомендовал альтернативный подход к этому проблема. Она предложила систему номенклатуры для разных виды размеров эффекта, которые четко различают размеры эффекта полученный, например, из рандомизированных контролируемых квазиэкспериментальных и корреляционные исследования.

Прочие меры воздействия

Было показано, что интерпретация «стандартизованного мера величины эффекта средней разницы очень чувствительна к нарушения предположения о нормальности. По этой причине число были предложены более надежные (непараметрические) альтернативы. An Пример этого дан Клиффом (1993). Также есть эффект размера меры для многомерных результатов. Подробное объяснение можно найдено у Олейника и Альгины (2000).Наконец, метод расчета размеры эффекта в многоуровневых моделях были предложены Tymms et al. al. (1997). Хорошие обобщения многих различных видов эффектов меры размера, которые можно использовать, и отношения между ними могут быть найдено у Снайдера и Лоусона (1993), Розенталя (1994) и Кирка (1996).

Наконец, общепринятая мера величины эффекта, широко используемая в медицине, — это «отношение шансов». Это уместно, когда результат дихотомический: успех или неудача, выживает пациент или нет.Объяснения отношения шансов можно найти в ряде медицинских статистические тексты, включая Altman (1991) и Fleiss (1994).

Выводы

Рекомендации по использованию размеров эффекта можно резюмировать следующим образом:

  • Размер эффекта — это стандартизированная безмасштабная мера относительный размер эффекта вмешательства. Это особенно полезен для количественной оценки эффектов, измеренных на незнакомых или произвольных шкалы и для сравнения относительных размеров эффектов от разные исследования.
  • Интерпретация величины эффекта обычно зависит от предположения о том, что значения «контрольной» и «экспериментальной» группы обычно распределяются и имеют одинаковые стандартные отклонения. Величину эффекта можно интерпретировать в терминах процентилей или рангов. при котором два распределения перекрываются, с точки зрения вероятности с указанием источника значения или со ссылкой на известные эффекты или исходы.
  • Использование размера эффекта с доверительным интервалом передает та же информация, что и тест статистической значимости, но с акцент на значимости эффекта, а не на выборке размер.
  • Размеры эффекта (с доверительными интервалами) должны быть рассчитаны и сообщается в первичных исследованиях, а также в метаанализах.
  • Интерпретация стандартизованной величины эффекта может быть проблематичной когда образец имеет ограниченный диапазон или не соответствует нормальному распределения, или если измерение, на основе которого оно было получено, неизвестная надежность.
  • Использование «нестандартной» разницы средних (т. Е. Необработанных разница между двумя группами вместе с уверенностью интервал) может быть предпочтительнее, когда:
    • — результат измеряется по знакомой шкале
    • — образец имеет ограниченный диапазон
    • — родительская популяция значительно ненормальна
    • — контрольная и опытная группы заметно различались стандартные отклонения
    • — показатель результата имеет очень низкую или неизвестную надежность
  • Следует проявлять осторожность при сравнении или суммировании величин эффекта. основанный на разных результатах, разном вводе в действие одинаковый результат, разные методы лечения или уровни одного и того же лечения, или меры, полученные из разных групп населения.
  • Слово «эффект» подразумевает причинную связь, и поэтому выражение «размер эффекта» не следует использовать, если только это подразумевается намеренно и может быть оправдано.

Список литературы

Альтман, Д.Г. (1991) Практическая статистика медицинских исследований . Лондон: Чепмен и Холл.

Бангерт, Р.Л., Кулик, Дж. А. и Кулик, К. (1983) ‘Индивидуальный системы обучения в средних школах.’ Обзор Образовательные исследования , 53, 143-158.

Бангерт-Дроунс, Р.Л. (1988) «Влияние школьного образование по злоупотреблению психоактивными веществами: метаанализ ». Журнал лекарств Образование , 18, 3, 243-65.

Baugh, F. (2002) «Размер корректирующего эффекта для надежности оценки: Напоминание о том, что измерение и существенные вопросы связаны неразрывно ». Образовательная и психологическая оценка , 62, 2, 254-263.

Клифф, Н. (1993) «Статистика доминирования — порядковый анализ Ответьте на порядковые вопросы ‘ Психологический бюллетень , 114, 3.494-509.

Коэн, Дж. (1969) Статистический анализ мощности поведения Наук . Нью-Йорк: Academic Press.

Коэн, Дж. (1994) «Земля круглая (p <0,05)». Американский Психолог , 49, 997-1003.

Коэн П.А., Кулик Я.А. и Кулик, К. (1982) ‘Образовательные результаты обучения: метаанализ результатов ». Американский Образовательный исследовательский журнал , 19, 237-248.

Доусон В. (2000) «Эффекты времени суток у школьников. немедленный и отсроченный отзыв значимого материала «. ТЕРСА Отчет http://www.cem.dur.ac.uk/ebeuk/research/terse/library.htm

Финн, Д.Д. и Ахиллес, К.М. (1990) ‘Ответы и вопросы о размер класса: эксперимент в масштабе штата ». Американский образовательный Research Journal , 27, 557-577.

Фитц-Гиббон ​​К.Т. (1984) «Мета-анализ: экспликация». Британский Образовательный исследовательский журнал , 10, 2, 135-144.

Фитц-Гиббон ​​К.Т. (2002) «Типология индикаторов для Подход к оценке и обратной связи » в А.Дж. Вишер и Р. Коу (ред.) Школа Улучшение за счет обратной связи . Лиссе: Светс и Zeitlinger.

Fleiss, J.L. (1994) «Меры величины эффекта для категориальных данных» у Х. Купера и Л.В. Hedges (Eds.), Справочник по исследованиям Синтез . Нью-Йорк: Фонд Рассела Сейджа.

Флетчер-Флинн, C.M. и Gravatt, B. (1995) «Эффективность Компьютерное обучение (CAI): метаанализ ». Журнал исследований в области образовательной вычислительной техники , 12 (3), 219-242.

Fuchs, L.S. и Фукс, Д. (1986) «Эффекты систематического формирующего оценка: метаанализ ». Исключительные дети , 53, 199-208.

Джакония Р.М. и Hedges, L.V. (1982) «Идентификационные особенности эффективное открытое образование ». Обзор исследований в области образования , 52, 579-602.

Гласс, Г.В., Макгоу, Б., Смит, М.Л. (1981) Метаанализ в Социальные исследования . Лондон: Мудрец.

Харлоу, Л.Л., Мулайк, С.С., Стейгер, Дж.H. (ред.) (1997) What если бы не было тестов на значимость? Mahwah NJ: Эрлбаум.

Хеджес, Л. и Олкин, И. (1985) Статистические методы для Метаанализ . Нью-Йорк: Academic Press.

Hembree, R. (1988) «Коррелирует, вызывает эффекты и лечение испытать тревогу ». Обзор исследований в области образования , 58 (1), 47-77.

Хуберти, C.J .. (2002) «История индексов размера эффекта». Образовательный и психологическое измерение , 62, 2, 227-240.

Хайман, Р. Б., Фельдман, Х. Р., Харрис, Р. Б., Левин, Р. Ф. и Маллой, Г. Б. (1989) «Влияние тренировки на расслабление на медицинские симптомы: анализ мяса ». Медсестринское дело , 38, 216-220.

Кавале, К.А. и Форнесс, С. (1983) ‘Гиперактивность и диета лечение: мясной анализ гипотезы Фейнгольда ». Журнал инвалидов обучения , 16, 324-330.

Кесельман, Х.Дж., Хуберти, К.Дж., Ликс, Л.М., Олейник, С. Крибби, Р.А., Донахью, Б., Ковальчук, Р.К., Лоуман, Л.Л., Петоски, М.Д., Кесельман, Дж. К., Левин, Дж. Р. (1998). исследователи: анализ их анализов ANOVA, MANOVA и ANCOVA ». Обзор исследований в области образования , 68, 3, 350-386.

Кирк Р.Э. (1996) ‘Практическое значение: концепция, время которой пришел’. Образовательная и психологическая оценка , 56, 5, 746-759.

Кулик Ю.А., Кулик К.С. и Бангерт, Р.Л. (1984) «Эффекты практика по оценке способностей и достижений. американец Журнал исследований в области образования , 21, 435-447.

Леппер, М.Р., Хендерлонг, Дж., И Гинграс, И. (1999) ‘Понимание влияние внешних вознаграждений на внутреннюю мотивацию — Использование и злоупотребления метаанализом: комментарий к Деци, Кестнеру и Райану. Психологический Бюллетень , 125, 6, 669-676.

Lipsey, M.W. (1992) ‘Лечение преступности среди несовершеннолетних: a метааналитическое исследование изменчивости эффектов ». В T.D. Кук, Х. Купер, Д.С. Кордрей, Х.Хартманн, Л. Хеджес, Р.Дж. Свет, Т.А. Луис и Ф. Мостеллер (ред.) Мета-анализ для объяснения . Нью-Йорк: Фонд Рассела Сейджа.

Липси, М.В. и Уилсон, Д. (1993) ‘Эффективность Психологическое, образовательное и поведенческое лечение: подтверждение из метаанализа ». Американский психолог , 48, 12, 1181-1209.

МакГроу, К.О. (1991) ‘Проблемы с BESD: комментарий к Розенталя «Как у нас дела в мягкой психологии». Американский Психолог , 46, 1084-6.

МакГроу, К.О. и Вонг, С.П. (1992) ‘Величина эффекта общего языка Статистика ». Психологический бюллетень , 111, 361-365.

Mosteller, F., Light, R.J. и Сакс, Дж. (1996) ‘Устойчивый исследование в образовании: уроки групп навыков и размер класса ». Гарвард Обзор образования , 66, 797-842.

Оукс, М. (1986) Статистический вывод: комментарий к Социальные и поведенческие науки . Нью-Йорк: Вили.

Олейник, С.и Альгина, Дж. (2000) «Измерение величины эффекта для Сравнительные исследования: приложения, интерпретации и ограничения ». Современная психология образования , 25, 241-286.

Rosenthal, R. (1994) «Параметрические меры величины эффекта» в H. Купер и Л. Hedges (Eds.), Справочник по синтезу исследований . Нью-Йорк: Фонд Рассела Сейджа.

Розенталь Р., Рубин Д. (1982) ‘Простая, универсальная отображение величины экспериментального эффекта.’ Журнал Педагогическая психология , 74, 166-169.

Рубин, Д. (1992) «Метаанализ: синтез литературы или оценка размера эффекта поверхности ». Журнал образовательного Статистика , 17, 4, 363-374.

Шиманский Ю.А., Хеджес Л.В. и Вудворт, Г. (1990) A переоценка результатов исследовательских программ естественных наук 60-е по успеваемости студентов ». Научно-исследовательский журнал Обучение , 27, 127-144.

Славин, Р.Э. и Мэдден Н.А. (1989) «Что работает для студентов в риск? Обобщение исследований ». Образовательное лидерство , 46 (4), 4-13.

Смит, М.Л. и Гласс, Г. (1980) ‘Метаанализ исследований по размер класса и его отношение к отношениям и обучению ». Американский Журнал исследований в области образования, 17, 419-433.

Снайдер П. и Лоусон С. (1993) «Оценка результатов с использованием Скорректированные и нескорректированные оценки величины эффекта ». Журнал Экспериментальное образование , 61, 4, 334-349.

Страхан, Р.Ф. (1991) «Замечания по отображению размера биномиального эффекта». Американский психолог , 46, 1083-4.

Томпсон, Б. (1999) «Распространенные методологические ошибки в образовательной пересмотренное исследование, а также праймеры по величине эффекта и бутстрап. Приглашенное обращение, представленное на ежегодном собрании Американская ассоциация исследований в области образования, Монреаль. [Доступ с http://acs.tamu.edu/~bbt6147/aeraad99.htm , Январь 2000 г.]

Тиммс, П., Меррелл, К.и Хендерсон Б. (1997) ‘Первый год как школа: количественное исследование достижений и прогресса школьников. Образовательные исследования и оценка , 3, 2, 101-118.

Винсент, Д. и Крамплер, М. (1997) Британская серия тестов по орфографии Инструкция 3X / Y . Виндзор: NFER-Nelson.

Ван, М.С. и Бейкер, Э. (1986) ‘Программы интеграции: дизайн особенности и эффекты. Журнал специального образования , 19, 503-523.

Уилкокс, Р.Р. (1998) «Сколько открытий было потеряно игнорируя современные статистические методы? ». Американский психолог , 53, 3, 300-314.

Wilkinson, L. и Целевая группа по статистическим выводам, Совет APA Научные дела (1999) ‘Статистические методы в психологии Журналы: рекомендации и пояснения ». Американский психолог , 54, 8, 594-604.

.