Тестування
Сторінка: Перша < 2 3 4 5 > цілком
Зупинимося трохи докладніше на цьому останньому прикладі. Тут ми маємо один із самих простих і популярних методів емпіричного (статистичного) вимірювання валідності. Це метод "відомих груп". До участі в психометрическом експеримент з перевірки валідності тесту запрошуються кандидати, про яких відомо, до якої групи за критерієм вони належать. У випадку з тестом дисциплінованості підбираються учні, свідомо дисципліновані, за даними експертної оцінки вчителів ("висока" група за критерієм), і свідомо недисципліновані ("низька" група за критерієм). Учні з середніми показниками за критерієм у тестуванні не беруть участь.
Після проведення тесту ми розраховуємо, наприклад, найпростішу четырехклеточную кореляцію між тестом і критерієм. Для цього заповнюється наступна четерехклеточная таблиця.
ВИС. КРИТ. | НИЗ. КРІТ | |
ВИС. ТЕСТ | A | B |
ВИС. ТЕСТ | C | D |
Елемент "А" в цій табличці - це число випробовуваних, що потрапили у "високу" групу по тесту і за критерієм, елемент - число піддослідних, які потрапили у високу групу по тесту, але низьку групу за критерієм і т. д.
Очевидно, що при повній валідності тесту елементи В і С таблички повинні бути рівні нулю. Тобто тест не повинен давати помилок - говорити про те, що учень низкодисциплинированный, коли вчителі говорять про те, що учень высокодисциплинированный (випадок).
Міру збігу (кореляції) між крайніми групами по тесту і за критерієм оцінюють з допомогою самого простого Фі-коефіцієнта Гілфорда:
При чисельності протестованої групи до 30 осіб (це мінімальна вибірка для перевірки валідності) статистично значущий зв'язок тесту з критерієм ми можемо констатувати, коли Phi>=0,36. Хоча це, звичайно, невисока валідність, але все ж тест у цьому випадку дає значно кращі результати, ніж випадкове ворожіння. Тобто, якщо у вашому навчальному закладі є конкурс і ви хочете відібрати не тільки обдарованих, але і дисциплінованих учнів, ви можете використовувати тест, валідність якого ви перевірили, і вона виявилася значущою.
Але... Метод "відомих груп" володіє серйозним недоліком. Він не завжди дозволяє використовувати тест для прогнозу, адже при формуванні "відомих груп" оцінюється поведінка в минулому, а ми хочемо зробити тест дня прогнозу поведінки в майбутньому. Багато тестів, які використовуються в освітній психодіагностики, володіють зазначеним недоліком. Вони пройшли в кращому разі перевірку за методикою "відомих груп" і не мають так званої прогностичною валідністю (або принаймні ця валідність суворо експериментально не доведено). Звичайно, на місцевому рівні завдання забезпечення прогностичної валідності не вирішити. Це під силу тільки великим науково-методичним центрам. Адже до психометрическому дослідження з перевірки прогностичної валідності треба залучати приблизно на порядок більше випробовуваних - не 30, а мінімум 300. Адже ми просто не знаємо, хто з цих 300 потрапить в майбутньому в крайні групи.
Наприклад, ми хочемо використовувати тест для прогнозу готовності школярів до навчання у внз. Це типова прогностична психодіагностична завдання. Хтось повинен взятися за нелегку багаторічну програму перевірки прогностичного потенціалу цього тесту. Потрібно протестувати 300-500 школярів, а потім почекати, хто з них вступить до вузу і буде успішно там вчитися. Після двох-трирічного інтервалу можна сформувати критеріальні групи і підрахувати кореляцію групи з колишніми тестовими показниками цих колишніх школярів. Тільки після реалізації такої схеми психометричного експерименту можна.
Стандартизація тестів
Що, безсумнівно, повинен знати і вміти робити кожен грамотний користувач тесту - це розуміти, що таке тестові норми і як ними користуватися.
Початковий сумарний бал, виміряний за допомогою ключа, не є показником, який можна діагностично інтерпретувати. Його називають в тестології "сирим тестовим балом". Застосування тестових норм у професійно організованої психодіагностиці ґрунтується на переведення тестових балів із "сирої" шкали в "стандартну". Ця процедура називається "стандартизацією тестового бала".
Нехай ми провели тест з 20 завдань і випробуваний дав 12 правильних відповідей. Чи можна при цьому сказати, що здатність у випробуваного виражена краще або гірше, ніж в середньому? Немає. Для такого висновку потрібно порівняти бал 12 з середнім балом по представницькій вибірці випробовуваних.
Вибірка, на якій визначаються статистичні тестові норми, називається вибіркою стандартизації. Її чисельність, як правило, не менше 200 осіб. Стільки людей має взяти участь у психометрическом експерименті з визначення тестових норм - в експерименті по стандартизації тесту.
Якщо після стандартизації тесту з'ясовується, наприклад, що середнє арифметичне по сирій шкалою тесту дорівнює 14, то виявляється бал 12 - це не краще, а гірше середнього (хоча випробуваний і впорався більше ніж з половиною завдань). Просто в даному випадку тест містить занадто прості завдання, трохи відхиляючись за цим параметром від оптимальної труднощі.
Проста лінійна стандартизація тестового бала проводиться за формулою
де Z - стандартний бал на так званій стандартній шкалі Z (з центром 0 і відхиленням 1);
Х - сирої бал по тесту;
- середній бал по вибірці стандартизації,
Sх - стандартне відхилення по вибірці стандартизації.
Після отримання стандартного бали Z можна перевести тестовий бал в будь-яку стандартну тестову шкалу, прийняту в психодіагностиці. Наприклад, переведення у шкалу IQ проводиться за формулою
IQ=Z..15=100.
Нагадаємо, що в шкалі IQ центр дорівнює 100, а відхилення - 15.
Якщо переказ потрібно в так звану шкалу "стенів" (від англ. "standart ten" - стандартна десятка), то формула перерахунку з шкали Z виглядає так:
Sten = Z..2 +5,5,
так як в шкалі стенів центр дорівнює 5,5, а відхилення дорівнює 2.
Узагальнена формула перекладу сирого бали в задану стандартну шкалу має вигляд:
Y = SsЧZ+M, (7)
де Y - стандартний бал, за довільною шкалою, з центром М і відхиленням Ss.
Для серйозних професійних тестів замість описаної тут найпростішої лінійної стандартизації використовується більш складна процедура нелінійної нормалізації (форсований перехід до нормального розподілу). В результаті цієї, більш точної процедури розробники забезпечують користувачів тесту так званої конверсійної таблицею для перекладу сирих балів у стандартні бали за заданою шкалою. У ній наводиться повний перелік відповідностей між інтервалами сирої шкали і стандартною.
Нижче наведено приклад того, як може виглядати конверсійна таблиця для деякого тесту арифметичних обчислень з 30 завдань. Найпростіша процедура підрахунку балів (за правильну відповідь - 1 очко, за помилку -0) дає нам сиру шкалу від 0 до 30.
Таблиця 1
Приклад фрагмента конверсійної таблиці для перекладу сирих балів у стіни
Сирий бал | 0-6 | 7-8 | 8-9 | 10-13 | 14-16 | 17-19 | 20-22 | 23-24 |
Стіни | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Як користувалися таблицею? Якщо випробуваний показав 5 сирих очок (вирішив тільки 5 завдань), то йому ставиться мінімальний стандартний бал 1. Якщо випробуваний вирішив 25 завдань, отримує бал 9.
Після того, як бал по тесту стандартизований, можна виносити діагностичний висновок. Загальне правило тут таке: якщо стандартний бал Y перевищує одиницю "верхній" (чи "високої") групи M+Ss, то цього випробуваному приписується підвищене значення виміряного психічного властивості. Наприклад, про учня кажуть, що він є безумовно більш дисциплінованим, ніж середній учень в російській школі (чи московської, або іркутській - в залежності від того, на якій вибірці стандартизації отримані норми). Якщо ж стандартний бал Y нижче межі "нижній" ("низької") групи M-Ss, то про даному випробуваному формулюється висновок, що відповідає низькому полюса вимірюваного властивості. Якщо стандартний тестовий бал Y укладено в межах центрального інтервалу (M-Ss, M+Ss), то про випробуваного кажуть, що у нього виміряне властивість виражена в середньому ступені - як у більшості людей.
На шкалі стенів кордон "верхній" групи дорівнює 7,5, а "нижній" - 3,5, тобто при отриманні 8 стенів і більше випробуваний зараховується в "верхню" групу, а при отриманні 3 стенів і менше - в "нижню".
Якщо ми маємо справу з біполярним (двополюсним) психічним властивістю, наприклад, "гнучкість - ригідність", то для "високої" групи формулюється висновок як для "гнучких" людей, а для "низькою" групи - як для ригідних людей. Відповідно середня група з центрального інтервалу визнається нейтральною, неполяризованной з даного тестового параметру.
Будь тестові висновку при використанні статистичних тестових норм є відносними. Вони залежать від тієї вибірки, на якій здійснювалася стандартизація тесту. Те, наскільки вибірка стандартизації дозволяє застосовувати тест на широкої популяції, називається репрезентативністю тестових норм. Репрезентативність - третє найважливіше психометричне властивість тесту. Розуміння сенсу цього вимоги до тесту допомагає правильно враховувати обмеження у сфері його застосування.
Наприклад, якщо тест проходив стандартизацію на студентах, то перед його застосуванням на школярах слід спочатку зробити рестандартизацию, тобто знову зібрати тестові норми на представницькій вибірці, сформованої саме з школярів. В іншому випадку діагностичні висновки, зроблені за неадекватним тестовим нормам, будуть неточні і неправильні.
Перевірка репрезентативність тестових норм здійснюється за допомогою аналізу так званого розподілу частот тестових балів. Одним з найпростіших методів є перевірка нормальності цього розподілу. Більш складний і універсальний підхід передбачає порівняння двох розподілів, побудованих для двох випадкових половин вибірки стандартизації. Якщо ці два розподілу виявляються практично тотожними, то можна говорити про репрезентативність тестових норм.
Введення поняття репрезентативності дозволяє нам дати більш чітке визначення того, що таке стандартизація тесту. Про стандартизацію тіста в строгому сенсі можна говорити, коли задана повна таблиця відповідності сирої шкали і стандартної шкали і зміст цієї таблиці обґрунтовано статистичної структурою розподілу тестових балів на вибірці стандартизації.
Крім статистичних тестових норм у сучасних тестах часто використовуються критеріальні норми. Вони особливо важливі для сфери освіти. Дійсно, що дає нам знання про те, що Петров виконав тест краще середнього випробуваного, якщо середній випробуваний теж не впорався з більшістю завдань? Ми прогнозуємо, що переважно більшість випробовуваних без спеціального додаткового навчання не зможуть показати необхідного рівня ефективності майбутньої діяльності.