lovmedukr.ru

Статистичні основи пошуку надійності та валідності тесту і тестових батарей

Метод тестів полягає в діагностиці (псіхопрогностіке) особистості, її психічних станів, функцій, якостей на основі виконання будь-якого стандартизованого завдання із заздалегідь визначеною валідність і надійністю.

Нами вже розглянуто поняття надійність і валідність.

Зупинимося детальніше на аналізі валідності тесту, статистичних основ її обчислення.

Валідність тесту - міра достовірності вимірювання того психічного властивості, якості, явища, яке хочуть виміряти за допомогою даного тесту. Розрізняють декілька видів валідності: валідність тесту за змістом, валідність тесту за критерієм, конструктивна валідність, прогностична валідність тесту і ін.

Валідність тесту за змістом показує наскільки повно тест охоплює досліджувану вибірку по сукупності вимірюваних параметрів. Припустимо, якщо ми хочемо за допомогою тесту перевірити математичну підготовку абітурієнтів ВНЗ, то в пропонований тест повинні бути включені завдання, які рівномірно охоплюють всі розділи математики, прохідною в середній школі. Ступінь відповідності структури тесту структурі курсу математики

середньої школи і буде називатися валідність тесту за змістом. Однак, якщо ми застосуємо розроблені для вступу до вузу тести по визначенню математичних знань, навичок, умінь колишніх школярів при прийомі, припустимо, в Російську академію управління, то це буде некоректно з наукової точки

зору, так як валідність за змістом буде мала: не враховуються знання математики, отримані в вузі. І може статися, що хтось блискуче володіючи вищою математикою, теорією

ймовірності, але грунтовно призабувши шкільний курс, отримає більш низький бал, ніж той, хто ще не встиг його забути, але хто не здатний ні на що більше в математиці як відтворити його. Для цієї мети повинні бути розроблені свої тести.

Валідність тесту за критерієм - міра достовірності, з якою можна судити про нас аспекті поведінки індивіда в сьогоденні і майбутньому, про який нас цікавить психологічному якості. Для її визначення необхідно зіставити результати тестування з рівнем розвитку змінюваного ознаки

на практиці, в дійсності, який проявляється в діяльності. Припустимо, для тесту на математичні здібності критерієм точності тесту (нерідко називають зовнішнім критерієм) виступатимуть результати діяльності за рішенням математичних задач, проблем, з освоєння курсу математики. При цьому

шукається коефіцієнт кореляції між результатами тестування під час вступу до вузу і зовнішнім критерієм, сформованому на старших курсах. У кращих тестах валідність за критерієм, виміряна коефіцієнтом кореляції, становить від 0,3 до 0,8. але

застосування тесту виправдано часом і коли валідність дещо менше 0,3. При валідності, що дорівнює 0, кількість помилок і точних прогнозів приблизно однаково. При негативній валідності

прогноз вірний за принципом "все навпаки". Нерідко тривале застосування тестів в процесі професійного відбору стикається з проблемною ситуацією, коли валідність тестових батарей на практичну діяльність виявляється мізерно мала.

На жаль, тестів, що діагностують схильність до тієї чи іншої професійної діяльності з достатнім ступенем точності мало, дуже мало. Але навіть точність цих тестів, об`єднуючи їх з менш валідними і тим самим знижуючи в цілому валідність тестових батарей, виявляється нерідко зниженою за рахунок недостатньо грамотного їх застосування.

Валідність тесту конструктивна - міра вимірювання будь-якого складного психічного феномена, що має ієрархічну структуру, виміряти яку неможливо при одному акті тестування. Припустимо, діагностика інтелекту неможлива без будь-якого попереднього розуміння суті, структури самого інтелекту, на вимір якого може бути спрямована ціла

серія тестів. Ступінь відповідності нашого попереднього розуміння інтелекту і реальної можливості даної серії тестів (батареї тестів) і є валідність тестів конструктивна. Валідність тесту конструктивна - виключно плідну поняття при визначенні професійної придатності обстежуваних, яка досліджується в рамках профессіологіі, акмеології.

Деякий час назад у вітчизняній психології йшли бурхливі дискусії про правомірність застосування тестів в інтересах професійного психологічного відбору. Наводилися факти за і проти. Мабуть, питання слід конкретизувати: високонадійні і високовалідние тести можна і потрібно застосовувати в інтересах відбору, тести же з невисокою валідність і надійністю - немає. На жаль є випадки, коли тести застосовуються без визначення їх надійності та валідності. І в результаті виявляється, що вони не приносять користі або навіть шкідливі

(Якщо валідність негативна). Валідність тесту - це ступінь його ефективності, вона, природно, змінюється в залежності від контингенту людей, які піддаються дослідженню,

і характеру їх майбутньої діяльності. Один і той же тест може бути високовалідним при відборі на одну професію, марним при відборі на іншу і навіть шкідливим при відборі на третю. В даний час експериментально встановлено факт варіації валідності тесту навіть при відборі на однотипні професії, але в різних місцях: валідність залежить і від системи навчання, підготовки майбутніх фахівців (в одному випадку більш високі оцінки отримують більш творчі, самостійні особистості, в іншому - більш дисципліновані і виконавчі), від середовища в яку вони потрапляють. У зв`язку з цим виникає чимало проблем: як формувати зовнішній критерій, на яку вибірку можна поширити отриману валідність і т.д.

Як же реально визначити валідність тесту?

Коректне визначення надійності та валідності тесту залежить від його вихідної структури, його складових компонентів. У найзагальнішому вигляді тести або відносяться до трьох груп (L-date, Q-date, Т-date), або містять в собі аналогічні три компоненти: а) дані життєвого шляху, соціально-демографічні, біографічні дані-б) питання, відповіді на які варіюють в залежності від настрою, мотивації випробуваного (Q-date) - в) завдання, виконання яких вимагають реальних розумових, психічних, фізичних зусиль, дій (Т-date). Ці різноякісні дані по-різному пов`язані з зовнішнім критерієм в прогностичному плані. Соціально-демографічні, біографічні дані найбільш стійкі і менш залежать від настрою, динамічною мотивації обстежуваних. Тому для перевірки валідності даних тестів досить взяти фахівців даного профілю, оцінити в шкалі порядку, експертною оцінкою рівень розвитку їх професійної майстерності, професійно важливих якостей особистості і знайти статистичні залежності між біографічними даними і зовнішнім критерієм. Високий рівень валідності дає нам право застосовувати дані тести при початковій оцінці особистості: відбір до вузів, підбір на професії, які раніше були деятельностно не знайомі особистості і т.д.

Подібний спосіб перевірки валідності тестів, побудованих за принципом Q-date, виявляється недостатнім. Справа в тому, що відповіді на ці тести варіюють в залежності від мотивації, психічного стану обстежуваного. Тому в ситуації відбору велика частина обстежуваних відповідатиме "як треба", а не як є насправді. У цій ситуації будуть активно спрацьовувати захисні механізми, прикриватися всі недоліки і випинатися гідності. Так, наприклад, при відборі на високооплачувану роботу обстежувані в момент відбору будуть відповідати

зовсім не так, як після надходження на роботу і успішного затвердження в організації. І щоб перевірити ще раз валідність тестів, що застосовуються в інтересах відбору, при оцінці осіб в доленосні моменти їх біографії, слід дочекатися, коли протестовані всебічно адаптуються на посаді, нової професії, коли вони всебічно проявляться як професіонали (а

для цього потрібні часом роки), коли можна буде сформувати досить точний і об`єктивний зовнішній критерій і тільки коли і можна буде перевірити реальну валідність тесту.

У третьому випадку (коли потрібно визначити валідність тесту на виконання реальних дій - рішення арифметичних задач, робота на ключі при відборі на професію радіотелеграфіста, робота на тренажері і т.д.) важливо при визначенні валідності методики не допустити змішування навичок і здібностей. Так при роботі "на ключі" обстежувані, до цього займалися радіосправою і працювали при передачі тексту за допомогою

"Ключа", різко вийдуть вперед. У той же час раніше відсталі від них в подальшому можуть показати все ж більш високі результати за рахунок своєї мотивації, бажання, працьовитості, працездатності. Тому щоб сформувати досить об`єктивний і надійний критерій слід дочекатися вирівнювання вихідних навичок і умінь у обстежуваних в процесі їх професійної діяльності. Для різних професій, для різних

ситуацій це може бути різний термін. Зовнішній критерій при цьому слід формувати після досить надійного визначення реального рівня розвитку здібностей обстежуваних до даного виду діяльності, після реального прояву їх професійної схильності в ній.

При формуванні зовнішнього критерію частіше використовується думка експертів. Якщо вибираються висококваліфіковані експерти, то вони нерідко не погоджуються зі спочатку запропонованої

схемою оцінки професійної майстерності особистості, пропонуючи свої критерії. Так наприклад, при оцінці ефективності інженерної діяльності експерти можуть підказати, що якості забезпечують успіх дослідницької інженерної роботи і роботу інженера-організатора дещо інші. В цьому випадку професію інженера поділяють на дві підгрупи і т.д. Найчастіше складні види діяльностей як би складаються з ряду виробничих функцій, нерідко між якими існує протиріччя. В цьому випадку зовнішній критерій повинен бути різноякісні, структурованим, і кожен структурний компонент

входити в професійну придатність особистості з різним ваговим коефіцієнтом.

В кінцевому рахунку при пошуку валідності тесту виходить принаймні одна колонка цифр, що відображає результати тестування, і принаймні одна колонка цифр - формалізований зовнішній критерій. Між цими колонками цифр шукається коефіцієнт кореляції. Якщо результати тестування і зовнішній критерій виражені в шкалах інтервалів і відносин, то можливо

застосування лінійного коефіцієнта кореляції. Якщо ж хоча б одна з цих величин виражена в шкалі порядку, то застосовні рангові коефіцієнти кореляції. При цьому одна з вищих шкал перекладається в шкалу порядку, так щоб дві шкали були шкалами порядку. Якщо ж одна з шкал є номінальною, то валідність знаходиться за допомогою процентних залежностей, не більше. Наведемо приклад.

У коледжі готувалися фахівці з ремонту обчислювальної техніки. Оцінка ставилася по 10 предметів по спеціально відпрацьованою батареї тестів. Через рік роботи на одній фірмі було вибрано 20 осіб, які виконували однотипні, найбільш складні ремонти. За зовнішній критерій була взята норма їх вироблення. Вона коливалася від 95 до 118%. Спробуємо знайти валідність застосованої батареї тестів.



В даному випадку для пошуку валідності батареї тестів можна застосувати лінійний коефіцієнт кореляції Пірсона. Він знаходиться за формулою:



За своєю величиною коефіцієнт кореляції Пірсона (лінійний коефіцієнт кореляції) змінюється в діапазоні від -1 до +1.

Смислова інтерпретація значень коефіцієнтів кореляції залежить від характеру зв`язку між собою X і Y. Якщо за критерій істинності, вірності взяти лінійну зв`язок (при пошуку валідності це виправдано), то графічно ця інтерпретація може бути такою (див .: Гласс Дж., Стенлі Дж. Статистичні методи в педагогіці і психології. - М .: Прогрес, 1976, с.110.).

Інтерпретація значень Rxy



Відразу ж слід зазначити, що в психологічних, акмеологічних дослідженнях вкрай рідко зустрічається лінійна зв`язок. Найчастіше коефіцієнт кореляції коливається навколо величин 0,2-0,6. Це той діапазон, де реально працюють більшість кращих тестів. Невідпрацьовані ж тести нерідко дають

нульове, а іноді і негативне значення коефіцієнта кореляції. При цьому не завжди нульове значення коефіцієнта кореляції означає відсутність якоїсь зв`язку між двома параметрами. Просто цей зв`язок може носити нелінійний характер і Пороста не відбиватися однозначним значенням коефіцієнта кореляції. Припустимо закон оптимуму мотивації Йеркса-Додсон виражається залежністю:



Де: W - рівень мотивації в умовних одиницях

Q - ефективність діяльності особистості

У будь-якій діяльності існує оптимум мотивації, при цьому в інтелектуальній діяльності цей оптимум настає раніше, ніж при фізично насиченого, відносно простий. І якщо для пошуку залежності між силою мотивації і ефективністю діяльності особистості використовувати лінійний коефіцієнт кореляції, то ми просто "не побачимо" виражену графічну залежність. Коефіцієнт кореляції Пірсона в цьому випадку буде коливатися навколо нуля. Але тим не менше при пошуку валідності тесту даний коефіцієнт вельми зручний. І в більшості випадків валідність вказується величиною даного коефіцієнта і ступенем достовірності, надійності отриманого результату. Справді, уявімо собі, що валідність методики визначалася на випробовуваних подномерамі:

1,3,4,5,9,12,14,17.



Графічно це виглядає так:



У цьому випадку коефіцієнт кореляції Пірсона буде близький до + 1. Якщо ж коефіцієнт кореляції буде визначатися по випробуваним під номерами 6,7,8,10,11,13,15 - він буде близький до О, 5. Уявімо отримані дані наочно:



Графічно він виглядає так:



Таким чином, ступінь надійності отриманих результатів залежить істотно від того на який вибірці знаходиться коефіцієнт кореляції. Коефіцієнт кореляції зазвичай знаходиться за результатами обстеження певної вибірки. Існують спеціальні формули, таблиці для пошуку критичного значення коефіцієнтів кореляції, тобто значення яким можна довіряти з певною, досить великий, часткою ймовірності. Імовірність з якої можна довіряти дослідженням в психології

зазвичай приймається за О, 95 (a = 0,05). Тобто в 95 випадках зі ста ми очікує аналогічні результати. Якщо врахувати, що валідність прогнозу рідко буває вище О, 9, то ця можливість нас цілком влаштовує. У масштабних дослідженнях в психології нерідко береться і ймовірність О, 99 (а = 0,01). Для пошуку критичних значень коефіцієнта кореляції по таблиці використовують величини m і q. m = n - 2 і q = 1 - a / 2. Величина a задається самим дослідником. Наводимо цю таблицю (Див .: Мюллер П., Нойман П., Шторм Р. Таблиці по математичній статистиці. - М .: Фінанси і статистика, 1982, с.169.).

Табіца критичних значень для коефіцієнта кореляції R m: q



Табіца критичних значень для коефіцієнта кореляції R m: q





Наведемо розрахунки для нашого обчислення на прикладі 20 обстежуваних. m = 20 -2 = 18. g = 1 - 0,05 (ми взяли а = o, 1).

За наведеною таблиці критичні значення Rxy рівні 0.3783 при а = 0.1 і 0.5614 при а = 0,01. Це означає, що якщо коефіцієнт кореляції за абсолютною величиною більше 0,3873, то з точністю 90% ми можемо довіряти виявленої тенденції: застосована батарея тестів досить прогностична.

Якщо ж ми хочемо переконатися в цьому з імовірністю 99%, то коефіцієнт кореляції повинен бути не менше / 0,5614 /. У нас Rxy = 0,861, тобто ми можемо бути досить впевненими у високій прогностичності застосованих тестів на практичну роботу.

Але ось ми це визначили на прикладі 8 осіб (обстежувані під номерами 1,3,4,5,9,12,14,17) - Rxy близький до +1. Які критичні значення Rxy для цього випадку? m = 8 - 2 = 6. По таблиці знаходимо ці значення: 0. 6215 для а = 0,1 і 0.8343 для а = 0,01. І в цьому випадку ми можемо бути досить впевнені в істинності висновку про прогностичності отриманих результатів.

Але ось в третьому випадку, коли коефіцієнт кореляції близький до О, 5 (це знайдено на прикладі 6 обстежуваних - під номерами 6,7,8,10,11,13), зробити висновок про надійність отриманих результатів можна. В цьому випадку m = 4. Критичні значення Rxy рівні відповідно 0.7293 і 0.9172. Наше значення Rxy менше критичного. Ми не можемо сказати нічого певного про достовірність проведених обчислень, припускаючи все ж, що статистично значущою зв`язку між двома змінними немає.

Подібним чином відкидаються або навпаки доводяться гіпотеза про незалежність двох змінних - X і Y, так звана 0-гіпотеза.

Наведений приклад показовий і в тому відношенні, що на малих вибірках, навіть користуючись статистичними таблицями, можна отримати різні, часом досить суперечливі висновки.

Дійсно стійкі результати виходять на вибірках від 100 випробовуваних і більш, а висновок про достатню валідності - від 250 і більше. Справа в тому, що найчастіше валідність коливається навколо величин 0,2 - 0,3. У цій ситуації в залежності від точності в 0,1 вирішується питання про можливість застосування тестових методик. У той же час достовірність обчислень з точністю до 0,1 досягається при кількості випробовуваних більше 250,

краще від 1000 і більше. Тому знання на якому масиві знайдено валідність принципово важлива як з точки зору наскільки дані тести будуть ефективні на різноякісних масивах обстежуваних, так і з точки зору наскільки слід довіряти надійності отриманих результатів зі статистичної точки зору. На жаль, нерідко ці проблеми тестології дивно наполегливо обходяться експериментаторами з недостатньо високою наукової сумлінністю.

Таким чином, надійність і валідність тесту, тестових батарей є їх найголовнішою якісною характеристикою в залежності від якої приймається рішення про доцільність

або недоцільності застосування тестів в психологічному обстеженні. Застосування тестових методик виправдано навіть при їх валідності в О, 2. Хоча в цьому випадку аморально цілком довірятися статистичними залежностями: в цьому випадку результати тестування служать як би підмогою для досвідчених психологів, досвідчених керівників кадрових органів при прийнятті тих

чи інших рішень. У цьому випадку не слід абсолютизувати і деякі відмінності в результатах тестування: реальна різниця між особами з високими і дуже високими результатами тестування буде не дуже велика. У разі відносно високою валідності тестів (від 0,5 і вище) відмінність між подібними результатами тестування може реально відображати і відмінність між тестованих по діагностуються параметрам. У цьому випадку можливі й необхідні більш певні рішення з опорою на результати тестування, можливе створення і автоматизованих систем психодіагностики, експертних систем з високим ступенем достовірності одержуваних висновків. Однак при цьому не слід очікувати досить високих показників валідності (але не надійності) тесту. Справа в тому, що результати діяльності, поведінку людини в істотному ступені залежать

не тільки від того який він сам, але і від того - в які ситуації він потрапляє. У різних ситуаціях один і той же чоловік,

з одними і тими ж результатами тестування може і реально веде себе по-різному. Раз так, то і невисока валідність пояснюється часом не стільки недоліками методики, скільки разнокачественностью результатів діяльностей, різноманітністю ситуацій в які потрапляють тестовані і за якими визначається валідність методики. У будь-якому випадку, коли оголошується

валідність більше 0,7 - слід більш критично підійти до апробації тесту, більш конкретно визначити як визначалася валідність - на якому масиві, якими статистичними методами,

що взято за зовнішній критерій. В принципі валідність такої величини зустрічається, але коли мова йде про псіхопрогностіке, психодіагностики окремих психічних функцій - особливостей пам`яті, мислення і т.д. Але як тільки мова йде про акмеологічному, про профессіологіческом тестуванні, тобто тестуванні з метою прогнозування профпридатності особистості, реальна

валідність, на жаль, буває меншою. Це особливо характерно для складних видів професійної діяльності. Буває, що в ситуаціях різноякісні, різнофункціональних професійної діяльності підбирається батарея тестів для діагностики

схильності до цих різним професійним функціям. Більш того, в залежності від ситуації одна і та ж професійна функція може виконуватися успішно за рахунок різних, часом протилежних якостей особистості. Так керівництво творчим колективом вимагає одних якостей особистості,

колективом характерних людей в жорстких, стресових ситуаціях - інших. Тому спостерігається залежність: чим вище валідність методики, тим вже, як правило, спектр її застосування. висока

валідність - ідеал творця тесту і користувача, але ця валідність часом реально недосяжна в силу залежності результату валідалізаціі від ситуативної варіабельності професійної діяльності, в силу її різноякісності. В теж

час є тести з відносно невисокою валідність, але які беруть глибинні компоненти особистості (припустимо, сила її EGO і т.д.), які стійко корелюють з успіхом в різних видах діяльності, але природно, ця кореляція не може бути високою в усіх різноманітних конкретних випадках, ситуаціях.

Зробимо висновок по главі.

В рамках класичної тестології склався статистичний апарат створення стандартизованих тестів і їх перевірки на ефективність. Цей апарат повинен бути використаний і при розвитку досягнень сучасної тестології, в акмеологічному тестуванні.lt; lt; ПопереднєНаступна gt; gt;
Поділитися в соц мережах:

Увага, тільки СЬОГОДНІ!
Схожі
» » Статистичні основи пошуку надійності та валідності тесту і тестових батарей