Тестування

Джерело: coolreferat.com

1. Тести, їх класифікація

Тести - це спеціалізовані методи психологічного діагностичного дослідження, застосовуючи які можна отримати точну кількісну чи якісну характеристику досліджуваного явища.

Від інших методів дослідження тести відрізняються тим, що: 1) припускають стандартизованную, вивірену процедуру збору і обробки даних, а також їх інтерпретації; 2) з допомогою тестів можна вивчати і порівнювати між собою людей, давати оцінки їх психології і поведінці.

1. Тест-опитувальник заснований на системі заздалегідь відібраних і перевірених з точки зору їх валідності і надійності питань, по відповідях піддослідних, на які виразно можна судити про їх психологічних якостях.

2. Тест-завдання передбачає оцінку психології та поведінки людини не на основі того, що він говорить, а на базі того, що він робить. У тестах цього типу людині дається серія спеціальних завдань, за підсумками виконання яких судять про досліджуваному якості.

Тести-опитувальники і тести-завдання - застосовні до людей різного віку, які належать до різних культур, які мають різний рівень освіти, різні професії і неоднаковий життєвий досвід. Це позитивна риса даних тестів.

Недолік полягає в тому, що при використанні їх випробуваний при бажанні може свідомо вплинути на отримані результати, особливо якщо він знає, як влаштований тест і яким чином за його результатами будуть оцінювати його психологію і поведінку.

Тести-опитувальники і тести-завдання не застосовують у тих випадках, коли вивченню підлягають властивості і характеристики, в існуванні яких випробуваний не може бути повністю впевнений, не усвідомлює або не хоче визнавати їх наявність у себе. Такими характеристиками є, наприклад, багато негативні якості і мотиви поведінки, інші властивості, наявність яких засуджується.

3. Проективні тести зазвичай призначені якраз для вивчення тих психологічних і поведінкових особливостей людини, які їм слабо усвідомлюються або викликають до себе з його боку вкрай негативне ставлення.

В основі проективних тестів лежить механізм проекції, згідно з яким не усвідомлювані людиною позитивні і особливо негативні характеристики він схильний приписувати не собі, а іншим людям, "проектувати" їх на інших.

При застосуванні тестів подібного роду про випробуваному судять на основі того, як він оцінює ситуації, інших людей, які властивості їм приписує.

Користуючись проективними тестами, психологи вводять випробуваних у невизначену ситуацію, з якої вони повинні самостійно знайти вихід. Такими ситуаціями можуть бути:

1) пошук певного сенсу в сюжетно-невизначених картинах;

2) завершення незакінчених речень;

3) оцінка поведінки і вчинків незнайомих людей у неясних ситуаціях і т. п.

Тести проективного типу:

1) пред'являють підвищені вимоги до рівня освіченості та інтелектуального розвитку піддослідних, і в цьому полягає їх основний недолік;

2) вимагають при їх застосуванні високої професійної кваліфікації психолога і великого досвіду роботи.

Усі розглянуті методи дослідження можна використовувати для збору даних про психологію і поведінку людей як у реальному житті, так і в спеціальних експериментальних умовах. В силу багатьох причин, які можуть надати вплив на психологію і поведінку людини, і того, що в звичайних умовах ці причини важко контролювати, психологи протягом останніх 40-50 років частіше зверталися до експерименту як самого надійного засобу одержання достовірної інформації про досліджуваних явищах.

2. Напрямки тестування

Ідея квантування як відрізка розрізнення була дуже эвристичной. Її сприйняли і почали застосовувати для розробки об'єктивних методів оцінки практично в усіх напрямках психології.

В основі методу об'єктивної психологічної оцінки лежить тест (або проба), який може являти собою:

1) стимул певної модальності, якщо це психофізичний дослідження;

2) завдання різного рівня складності, якщо це педагогічна психологія;

3) завдання, пов'язані з дослідженням уваги, пам'яті, кмітливості і т. д. в загальній та віковій психології.

Для того, щоб ці тести (проби) могли дати об'єктивні та вимірні дані, вони попередньо перевіряються на великій кількості досліджуваних. Наприклад, в педагогічній психології - на дітей одного віку або людей одного рівня освіти і т. д.

При цьому з усіх запропонованих завдань відбираються ті, які успішно вирішуються значним числом всіх випробовуваних (наприклад, двома третинами).

Ця процедура називається нормуванням, або визначенням "норми". З нею згодом порівнюються вирішення тих випробовуваних, знання, вміння та навички яких вимірюються.

Результати цих вимірювань оцінюються в умовних балах (або в рангових оцінках), об'єднаних в шкалу порядку і вказують, яке місце даний випробуваний міг би зайняти по відношенню до відповідної групі досліджуваних (тобто до "нормі").

Завдання психологічних тестів, таким чином, - виміряти відмінності між індивідами або між реакціями одного індивіда в різних умовах. Рішення цієї задачі призвело до розвитку диференціальної психології. Велике значення психологічних тестів і для інших напрямків психології.

Кількість і різноманітність різного роду тестів, опитувальників та шкал в даний час величезне. А починалося тестування з розробок Ф. Гальтона (1822-1911), який першим їх:

1) застосував для вимірювання психічних властивостей;

2) розробив методи математичної статистики для аналізу даних за індивідуальним відмінностям.

Надалі помітний внесок у розвиток психологічного тестування внесли роботи Джеймса Кеттела (1860-1944) з його "розумовими тестами", які містили вимірювання м'язової сили, швидкості руху, чутливості до болю, гостроти зору і слуху, часу реакції, пам'яті і т. д.

Вимірюванням пам'яті у школярів займався Р. Еббінгауз (1897).

У Франції в 1908 р. свою першу шкалу розумового розвитку для дітей створили А. Біне і Т. Симон.

Коли США вступили в Першу світову війну, під керівництвом Н. М. Йєркса (1876-1956) були розроблені армійські так звані "альфа і бета тести, що дозволяють відібрати придатних до військової служби осіб. Згодом ці тести неодноразово перероблялися і стали зразком для більшості групових тестів інтелекту. Тестування отримало потужний стимул для свого розвитку, і незабаром були розроблені групові тести інтелекту для всіх віків і рівнів освіченості (від дошкільнят до аспірантів). Їх почали широко використовувати в школах, коледжах. Коефіцієнт інтелекту враховувався при прийомі в навчальні заклади та на роботу. Однак незабаром стало ясно, що застосовуються тести є дуже грубим інструментом і область їхнього застосування досить обмежена. Тим не менш вони широко поширені, продовжують удосконалюватися і застосовуватися для різних цілей.

Поряд з тестами інтелекту у відповідь на запити практики виникли також тести досягнень. Їх ще називають тестами об'єктивного контролю успішності: шкільної, професійної, спортивної і т. п. Від різних типів контролю знань і умінь (усних і письмових) ці тести відрізняються своєю формою. Учням пропонується питання, відповідь на який в декількох варіантах представлений на цьому ж бланку. Один з відповідей не вірна, решта - ні. Потрібно відзначити правильну відповідь. При підготовці тестів досягнень практикується експертна оцінка знань, яка проводиться паралельно з тестуванням. Коли тест відпрацьований і стандартизований, необхідність у цьому відпадає. На жаль, застосування тесту досягнень обмежена тільки тією областю знань, яка піддається формалізації.

Застосування тестів

Як методичний інструмент тести широко використовуються в сучасних дослідженнях. Однак перш ніж вирішити, який із сотень наявних тестів може бути застосований для дослідження, психолог запитує:

1) яка мета тесту?

2) для якої групи осіб він краще підходить?

3) чим він відрізняється від інших методів вивчення індивідуальності людини?

4) наскільки відповідально він конструювався?

5) наскільки він точний?

6) наскільки адекватні і дійсні його результати?

Від кожного вимірювального інструменту потрібно, щоб він був як можна більш точним, щоб отримані результати можна було покластися як на дані, близькі до "справжньої" величиною вимірюваного ознаки. Отже, точність можна розуміти як міру достовірності, з якою тест вимірює її. Існує ряд джерел похибок, які знижують точність тестів і надійність результатів. До них відносяться:

1) несприятливі умови тестування;

2) недостатня увага до стану випробовуваних в момент випробування;

3) неправильна поведінка експериментатора;

4) суб'єктивність у витлумаченні результатів тесту.

Крім обліку і усунення джерел похибок, надійність тесту (тобто його узгодженість) підвищують допомогою повторного випробування з подальшим обчисленням коефіцієнта кореляції між даними першого і другого тестування. Така ретельна і об'єктивна перевірка надійності тесту необхідна психологам, щоб знати, для яких цілей і в яких межах його можна застосовувати.

Поряд з надійністю до тесту пред'являється вимога валідності, або адекватності. Валідність - це ступінь, в якій тест є інструментом, що вимірює те, для чого він призначений.

Для встановлення валідності зазвичай потрібно незалежний зовнішній критерій по відношенню до того, що тест повинен вимірювати. Наприклад, якщо тест призначений для вимірювання схильності до ризику, то він може бути валидизирован перевіркою цієї схильності в групі мотогонщиків, каскадерів і т. д. Сукупність таких зовнішніх показників ризику буде критерієм, з яким слід співвіднести вихідні тестові показники ризику. Далі визначається коефіцієнт валідності за допомогою коефіцієнта кореляції. При конструюванні тестів застосовується цілий ряд спеціальних статистичних процедур, що дозволяють зробити тест більш чутливим і надійним інструментом.

При роботі з тестами слід відзначити також і етичний аспект. Використання, проведення та інтерпретація психологічних тестів обов'язково повинні йти під контролем кваліфікованого психолога. В руках несумлінного чи некомпетентного експериментатора тести можуть принести серйозної шкоди. Особливо це стосується особистісних тестів або опитувальників, у зв'язку з чим важливо запобігти їх доступність змісту для будь-якого охочого.

Описані вище базові методи досліджень, а також методи вимірювання і тестового оцінювання індивідуальних відмінностей лежать в основі багатьох сучасних об'єктивних методів емпіричних досліджень. До основних з них відносяться методи опитування, проективный і відбитої суб'єктивності.

Технологія тестування

Метод тестів є одним з основних у сучасній психології. За рівнем популярності в освітній і професійній психодіагностиці він міцно утримує перше місце в світовій психодіагностичній практиці вже фактично протягом сторіччя.

Домовимося розуміти під тестами в цьому розділі технології, які складаються з серії завдань з вибором з готових варіантів відповіді. При підрахунку балів по тесту вибрані відповіді отримують однозначну кількісну інтерпретацію і підсумовуються. Сумарний бал порівнюється з кількісними тестовими нормами, і після цього порівнюються стандартні діагностичні висновки.

Переваги методу тестів

Популярність методу тестів пояснюється наступними головними його перевагами.

1. Стандартизація умов і результатів

Тестові методики відносно незалежні від кваліфікації користувача (виконавця), на роль якого можна підготувати навіть лаборанта з середньою освітою. Це однак не означає того, що для підготовки комплексного висновку по батареї тестів не треба залучати кваліфікованого спеціаліста з повноцінною вищою психологічною освітою.

2. Оперативність та економічність

Типовий тест складається з серії коротких завдань, виконання кожного з яких потрібно, як правило, не більше півхвилини, а весь тест займає не більше години (у шкільній практиці це один урок); тестування одночасно піддається відразу група випробовуваних, таким чином, відбувається значна економія часу (людино-годин) на збір даних.

3. Кількісний диференційований характер оцінки

Дрібність шкали і стандартизованность тесту дозволяють розглядати його як "вимірювальний інструмент, що дає кількісну оцінку вимірюваним властивостями (знань, умінь в даній області). Хороший тест дозволяє розрізняти не тільки три категорії учнів - відмінників, "середнячків" і "хвостистов", але і добре диференціювати випробовуваних на полюсах шкали - відрізняти просто здатних від дуже здібних і талановитих, а серед відстаючих відрізняти небезнадежных від "безнадійних" (або зовсім непідготовлених). Крім того, кількісний характер тестових результатів дає можливість застосувати в разі тестів добре розроблений апарат психометрії, що дозволяє оцінити, наскільки добре працює даний тест на даній вибірці випробовуваних в даних умовах.

4. Оптимальна трудність

Професійно зроблений тест складається із завдань оптимальної труднощі. При цьому середній випробуваний набирає приблизно 50 відсотків з максимально можливої кількості балів. Це досягається за рахунок попередніх випробувань - психометричного експерименту, або пілотажу. Якщо в ході пілотажу стає відомо, що із завданням справляється приблизно половина з обстежуваного контингенту, то таке завдання визнається вдалим, і його залишають в тесті.

5. Надійність

Це, може бути, найголовніше гідність тестів. "Лотерейний" характер сучасних іспитів з витягуванням "щасливих" або "нещасливих" квитків давно став притчею во язицех. Лотерейного для абітурієнта тут обертається низькою надійністю для екзаменатора - відповідь на один фрагмент навчальної програми, як правило, не показовий для рівня засвоєння всього матеріалу. На відміну від цього будь-який грамотно побудований тест охоплює основні розділи навчальної програми (досліджуваної області знань або проявів якогось вміння і здібності). У результаті можливість для "хвостиків" вибитися в відмінники, а для відмінника раптом "провалитися" різко скорочується.

Назвемо також ряд переваг, які в логічному сенсі є наслідками, похідними від перерахованих вище, але заслуговують самостійного згадки.

6. Справедливість

Справедливість є найважливішим соціальним наслідком перерахованих вище достоїнств методу тестів. Її слід розуміти як захищеність від упередженості екзаменатора. Хороший тест ставить всіх випробовуваних в рівні умови. Найбільш сильно суб'єктивізм екзаменаторів проявляється, як відомо, не у трактуванні рівня вирішення завдання (не так просто можна назвати чорне білим, вирішеної задачу - невирішеною), а в тенденційний підбір завдань: своїм - легше, чужим - важче. У вступі до цього підручника вже йшлося про те, що саме тести забезпечують найважливішу функцію школи як соціального фільтра, функцію "соціально-професійної селекції". Те, наскільки справедливою виявляється подібна селекція, має велетенське значення для розвитку суспільства. Тому так важливо для всіх, хто має доступ до тестів та їх результатами, вчитися культурі грамотного і гармонійного їх застосування. Бо тільки сумлінне і кваліфіковане ставлення користувачів до тестів перетворює їх в інструмент, що підвищує, а не знижує рівень справедливості в суспільстві.

7. Можливість комп'ютеризації

В даному випадку це не просто додаткове зручність, скорочує живої працю кваліфікованих виконавців при масовому обстеженні. В результаті комп'ютеризації підвищуються всі параметри тестування (наприклад, при адаптивному комп'ютерному тестуванні різко скорочується час тестування). Спеціально підкреслимо, що комп'ютеризація - це потужний інструмент забезпечення інформаційної безпеки (достовірності діагностики). Комп'ютерна організація тестування, що передбачає створення потужних інформаційних банків тестових завдань", дозволяє технічно попередити зловживання з боку недобросовісних екзаменаторів. Вибір завдань, пропонованих конкурентного випробуваному, може виробляти з такого банку сама комп'ютерна програма прямо в ході тестування, та пред'явлення цього випробуваному певного завдання в цьому випадку є таким же сюрпризом для екзаменатора, як і для випробуваного.

8. Психологічна адекватність

Це найважливіше психологічне наслідок оптимальної складності. Наявність в тесті (порівняно з традиційними екзаменаційними варіантами) великої кількості коротких завдань середньої труднощі дає багатьом випробуваним (особливо тривожним, невпевненим у собі) шанс "зачепитися", повірити в себе, активізувати психологічно оптимальну установку "на подолання". Адже коли такий випробуваний залишається обличчям до обличчя з однією-двома дуже складними і великими завданнями і не бачить, як можна з ними впоратися взагалі, то він падає духом і не розкриває всіх своїх можливостей. А якщо завдань багато, і частина з них явно починає "піддаватися" (випробуваний впевнений, що він з ними впорається), людина в процесі тестування ободряется і починає боротися за максимальний результат. Вже згадане нами властивість оптимальної складності важливо для тіста тим, що воно забезпечує не тільки вимірювальну (различающую) силу тесту, але й оптимальний психологічний настрій випробовуваних. Людина не є пасивним об'єктом вимірювань при тестуванні (подібно гирі при зважуванні), а він завжди гостро емоційно реагує на тест. Тестова ситуація оптимальної складності є оптимальним збудником - люди відчувають нормальний рівень стресу (напруги), необхідний для того, щоб показати найвищий результат. Недолік стресу (у разі легкого тіста), а тим більше надлишок (у разі важкого) спотворюють результати вимірювань. Цього, як правило, абсолютно не розуміють організатори наших конкурсних іспитів, які намагаються в разі високого конкурсу дати абітурієнтам задачки складніше ("на засипку"), що створює надмірний стрес, який не дає можливості проявити себе людям, добре підготовленим, але володіє зниженою стресостійкістю.

У багатьох країнах впровадження методів тестування (як і опір цьому впровадження) тісно пов'язане з соціально-політичними обставинами. Впровадження технічно добре оснащених тестових служб в освіті - найважливіший інструмент у боротьбі з корупцією, що вражає правлячу еліту (номенклатуру) у багатьох країнах. На Заході тестові служби працюють незалежно від "випускають" (школи) і "приймаючих" (вузи) організацій і забезпечують абітурієнта незалежним сертифікатом за результатами тестування, з яким він може відправлятися в будь-яку установу. Ця незалежність служби тестування від випускають і приймаючих організацій є додатковим чинником демократизації процесу селекції професійних кадрів у суспільстві, дає талановитому і просто працездатного людині зайвий шанс проявити себе.

Проте все перераховане вище не означає, що метод тестів не володіє деякими серйозними недоліками, що не дозволяють звести всю діагностику здібностей і знань виключно до тестування.

Недоліки тестування

Як завжди, певні недоліки методу тестів є продовженням його достоїнств.

1. Небезпека "сліпих" (автоматичних) помилок

Сліпа віра низькокваліфікованих виконавців в те, що тест повинен спрацювати правильно автоматично, породжує іноді важкі помилки і казуси: випробуваний не зрозумів інструкцію і став відповідати зовсім не так, як вимагає стандартна інструкція, або з якихось причин застосував спотворює тактику, виник "зсув" у додатку трафаретки-ключа до бланку відповідей (при ручному, некомпьютерном підрахунку балів) і т. п. Мораль - користувач не повинен підходити до тесту з "магічної установкою", ніби цей чарівний "чорний ящик" повинен завжди працювати справно без всякого контролю з боку людини.

2. Небезпеку профанації

Це ефект діяльності "профанів" в буквальному сенсі слова. Не секрет, що зовнішня легкість проведення тестів приваблює людей, непридатних до кваліфікованої праці. Оснастившись тестами, їм самим незрозумілого якості, але з гучними рекламними назвами, профани від тестування агресивно пропонують свої послуги всім і вся. В результаті всі проблеми передбачається вирішувати за допомогою 2-3 тестів - "на всі випадки життя".

До кількісного тестового балу приклеюється ярлик - висновок, що створює видимість відповідності діагностичної задачі. Ходовий приклад - повальне використання клінічного тесту MMPI для відбору кадрів в нашій країні. У цьому випадку високий бал за восьмий шкалою "Шизофренія" інтерпретується як "оригінальність мислення", по четвертій шкалі "Психопатія" - як "імпульсивність" і т. п. Думка про те, що нормальний здоровий випробуваний насторожується при вигляді багатьох питань MMPI, в яких відверто називаються психіатричні симптоми ("Я часто чую голоси") і видають чисто "захисний" профіль, профанів не турбує.

Ще раз підкреслимо, що недобросовісна профанація і елементарне невігластво йдуть в галузі тестування рука об руку.

3. Втрата індивідуального підходу, "стрессогонность"

Тест - найзагальніша "гребінка", під яку підганяють всіх людей. Можливість втратити унікальну індивідуальність нестандартного людини (тим більше дитини), на жаль, досить імовірна. Це відчувають самі випробувані, і це їх нервує - особливо в ситуації атестаційного тестування.

У людей зі зниженою стресостійкістю виникає навіть певне порушення саморегуляції - вони починають хвилюватися і помилятися в елементарних для себе питаннях (просто з-за "мандражу"). Вчасно помітити таку реакцію на тест - завдання, яке під силу кваліфікованому виконавцю.

4. Втрата індивідуального підходу, "репродуктивність"

Тести знань апелюють, насамперед, до стандартного застосування готових знань. Відсутність можливості розкрити свою індивідуальність при наявності стандартних, заданих відповідей - нічим не восполнимый недолік методу тестів. З точки зору виявлення творчого потенціалу більшість тестів досить обмежені саме тим, що вони не апелюють до творчої, конструктивної діяльності. У всякому разі, окремі стандартизовані творчі тести мають справу з досить абстрактним матеріалом, а тести досягнень (знань), адаптовані на життєво важливому матеріалі (професійно релевантному), як правило, виконані у формі стандартного набору завдань з заданим відповіддю.

5. Відсутність довірчої обстановки

Бездушний і формалізований характер процедури тестування, звичайно, обертається тим, що випробуваний позбавляється відчуття того, що психолог зацікавлений в ньому особисто, в тому, щоб допомогти йому. Діалогічні методи (бесіда, гра тощо) у цьому плані мають безсумнівні переваги: безпосередньо спілкуючись з випробуваним, кваліфікований психолог може встановити довірчий контакт, проявити персональну участь, створити атмосферу, яка знімає напругу і захист.

6. Втрата індивідуального підходу, неадекватна складність

Іноді некваліфіковані "експертитестологи" виливають на дитину тести занадто складні, складні для його віку. У нього ще не склалися необхідні поняття і понятійні навички, щоб адекватно осмислити як загальну інструкцію до тесту, так і сенс окремих питань. Ми вже говорили про драматичних казуси різкої недооцінки розумового розвитку дітей при застосуванні вербальних тестів. Але багато "невербальні" тести також вимагають розвитку мовного мислення хоча б для осмислення того, що говорить дорослий у своїй інструкції. Альтернатива "дорослому" тестування в дитячій психології - ігровий підхід до тестування, коли тест включається в контекст гри, і дитина виконує його як би граючи.

Таким чином, тести не можна робити єдиним вичерпним методом діагностики (і освітньо-професійної і особистої). Вони вимагають паралельного використання вільних письмових робіт (особистісної діагностики місце творів займають проективні тести з вільним відповіддю), а також усної співбесіди (інтерв'ю). Тобто місце тестів - доповнювати зазначені вище традиційні методи. У цій якості тести незамінні, оскільки не мають багатьох недоліків, властивих традиційним методам.

Спокійне раціональне усвідомлення переваг і недоліків методу тестування звільняє всіх (виконавців, замовників, випробовуваних) як від надмірних сподівань на метод тестів, так і від зневаги до нього.

Найкраща гарантія від профанів і профанації - серйозний і кваліфікований інтерес до того, яку експериментально-наукову роботу зробили розробники тесту, як повно ця робота і її результати відображені в супутньої документації. Це насамперед питання надійності, витривалості і репрезентативності.

Надійність тесту

Надійність - одна з трьох головних психометричних властивостей будь-вимірювальної психодіагностичної методики (тесту). Надійність - це стійкість тіста, незалежність результатів від дії різних випадкових факторів. До числа таких факторів слід віднести:

  • різноманітність зовнішніх матеріальних умов тестування, які змінюються від одного випробуваного до іншого (час доби, освітленість, температура в приміщенні, наявність сторонніх звуків, відволікаючих увагу тощо);
  • динамічні внутрішні фактори, які по-різному діють на різних випробуваних в ході тестування (час так званої "вырабатываемости" - виходу на стабільні показники темпу і точності дій після початку тестування, швидкість стомлення тощо);
  • інформаційно-соціальні обставини (різна динаміка у встановленні контакту з психологом або лаборантом, проводять тестування; можливу наявність інших людей в приміщенні; наявність попереднього досвіду знайомства з даним тестом; наявність якогось знання і ставлення до тестів тощо).

Різноманітність і мінливість усіх цих чинників так великі, що вони зумовлюють появу у кожного випробуваного непрогнозованого за розмірами й напрямку відхилення - виміряного тестового бала від істинного тестового бала (який можна було б у принципі отримувати в ідеальних умовах). Середня відносна величина цього відхилення визначається як "стандартна помилка вимірювання" (Se). Величина помилки вимірювання вказує на рівень неточності або ненадійності тестової шкали (спеціально підкреслимо, що в психометричної теорії надійність і точність виявляються синонімами).

Помилка вимірювання (Se) і надійність вимірювання (R), згідно загальноприйнятої психометричної теорії, пов'язані наступною формулою:

R= 1 - S e2/ S x2, (1)

де Sх - дисперсія тестових показників Х.

Формула (1) є суто теоретичною, і на її основі не можна визначити ступінь надійності тесту, так як величина Se виявляється також невідомою величиною. Тому на практиці застосовують кореляційні методи. Найвідоміший з них - метод перетестирования (тест-ретест), або метод вимірювання ретестовой надійності. На одній і тій же вибірці випробуваних (не менше 30 осіб, які беруть участь у пілотажному психометрическом експериментальному дослідженні) проводять перше тестування Х, а потім повторне тестування Y. Інтервал, як правило, - два тижні, що гарантує забування запитань тесту.

де SX, SY - стандартні відхилення Х і Y;

Cov (x, y) - коваріація двох змінних Х і Y.

У цій книзі ми не ставимо за мету навчити студентів-педагогів кореляційним методів і намагаємося викласти лише принципову суть справи. Зацікавлені знайдуть всі необхідні обчислювальні формули та приклади в будь-якому підручнику по статистиці, а також у спеціалізованих виданнях з психодіагностики і психометрике ("Загальна психодіагностика", 1987; Клейн, 1994).

Що важливо для суті теорії надійності тестів, так це можливість визначити помилку вимірювання після того, як підрахована кореляція "тест-ретест" за формулою (3), отриманої шляхом простого перетворення формули (1):

Se = Sх Ч V1 - R. (3)

Таким чином, якщо стандартне відхилення в тесті склало 10 очок (середнє відхилення, яке в середньому допускають випробовувані від середнього балу для вибірки), а кореляція "тест-ретест" виявилася рівною лише 1,5, то помилка вимірювання виявляється дуже великий:

Se=10ЧV1-0,5»7,1. (4)

Тобто виявляється, що помилка вимірювання перекриває більшу частину розкиду тестових показників, так як справжній бал по тесту може відхилятися від виміряного бали аж на 7 очок! І якщо випробуваний набрав на 6 очок більше, ніж "середній" випробуваний, ми не можемо з достатньою впевненістю (статистичною достовірністю) говорити про те, що він істотно перевершив середнього випробуваного, так як це відхилення виявляється в межах стандартної похибки вимірювання.

Таким чином, низька кореляція результатів тесту між першим і повторним тестуванням говорить про те, що випадкові фактори суттєво спотворюють результати тесту. Це значить, що тест не володіє необхідною завадостійкістю і його не можна використовувати як вимірювальний інструмент.

Показник надійності R, який прийнято вважати досить високим, дорівнює або перевищує 0,95. Хоча в особистісних тестах часто користуються значно менш надійними тестами з показниками 0,8-0,9.

Метод вимірювання "ретестовой надійності" придатний лише для психічних властивостей, стабільних у часі. Надійність тестів на психічні стани і динамічні установки особистості не можна перевірити таким чином. В цьому випадку застосовують різні методи "розщеплення" тесту на окремі пункти, висвітлення яких виходить за межі цього посібника

Валідність тесту

Відповідність тесту вимірюваному психічному властивості називається валідність тесту. Це, без перебільшення, найважливіше психометричне властивість тесту. Якщо висока надійність тесту говорить нам про те, що тест справді "щось" вимірює, то висока валідність вказує на те, що тест вимірює саме те, що ми хочемо. Звичайно, на валідність тесту також негативно впливають випадкові фактори. Тому в психометрике прийнято наступне основне психометричне нерівність:

ВАЛІДНІСТЬ< НАДІЙНІСТЬ,

що означає, що валідність не може перевищувати надійності тесту.

Але на відміну від надійності, крім випадкових факторів, на валідність тесту впливають систематичні фактори. Вони привносять систематичні похибки в результати. Ці фактори є інші психічні властивості, які заважають проявитися в результатах тесту того властивості, на яке тест спрямований.

Наприклад, ми хочемо вимірювати "потенціал навченості" (найважливіший компонент загальних інтелектуальних здібностей людини), але даємо піддослідному тест з жорстким обмеженням часу виконання і відсутністю можливості повернутися і виправити допущену помилку. Цілком очевидно, що шукане психічне властивість виявляється змішаним у тесті з помилковим психічним властивістю - "стресостійкість": випробувані з високими показниками стресостійкості будуть краще виконувати тест. У цьому проявиться ефект систематичного спотворення.

У сучасній психометрике розроблені буквально десятки різноманітних теоретичних і експериментальних методів перевірки валідності тестів. Основним елементом практично всіх цих методів є так званий критерій валідності - це незалежний від тіста, зовнішній по відношенню до тесту джерело інформації про вимірюваному психічному властивості. Ми не можемо судити про валідності тесту до тих пір, поки не порівняти його результати з джерелом істинної (або хоча б свідомо більш валидной) інформації про вимірюваному властивості - з критерієм.

У наукових дослідженнях переважають спеціальні лабораторні критерії. Наприклад, конструюється компактний тест-опитувальник на тривожність. А в якості критерію валідності для нього використовується спеціальний трудомісткий об'єктивний лабораторний експеримент, в якому відтворюється реальна ситуація тривожності (випробуваним-добровольцям погрожують за помилкові дії ударами струму тощо).

На практиці дуже часто в якості критерію валідності використовуються прагматичні критерії - показники ефективності тієї діяльності, заради прогнозування якій здійснюється тестування. У школі самий типовий критеріальний показник - це успішність. Але для соціально-психологічної адаптації дитини зовнішнім критеріальним показником може бути рівень популярності в класі.

Дуже часто в якості критерію валідності використовується експертна оцінка. Наприклад, ми хочемо переконатися, що короткий тест на вимірювання рівня дисциплінованості валиден. Для цього опитуємо вчителів про рівень дисциплінованості добре відомих їм учнів. І після цього порівнюємо (коррелируем) результати тесту і експертний рейтинг учнів дисциплінованості.

Зупинимося трохи докладніше на цьому останньому прикладі. Тут ми маємо один із самих простих і популярних методів емпіричного (статистичного) вимірювання валідності. Це метод "відомих груп". До участі в психометрическом експеримент з перевірки валідності тесту запрошуються кандидати, про яких відомо, до якої групи за критерієм вони належать. У випадку з тестом дисциплінованості підбираються учні, свідомо дисципліновані, за даними експертної оцінки вчителів ("висока" група за критерієм), і свідомо недисципліновані ("низька" група за критерієм). Учні з середніми показниками за критерієм у тестуванні не беруть участь.

Після проведення тесту ми розраховуємо, наприклад, найпростішу четырехклеточную кореляцію між тестом і критерієм. Для цього заповнюється наступна четерехклеточная таблиця.


ВИС. КРИТ.
НИЗ. КРІТ
ВИС. ТЕСТ
A
B
ВИС. ТЕСТ
C
D

Елемент "А" в цій табличці - це число випробовуваних, що потрапили у "високу" групу по тесту і за критерієм, елемент - число піддослідних, які потрапили у високу групу по тесту, але низьку групу за критерієм і т. д.

Очевидно, що при повній валідності тесту елементи В і С таблички повинні бути рівні нулю. Тобто тест не повинен давати помилок - говорити про те, що учень низкодисциплинированный, коли вчителі говорять про те, що учень высокодисциплинированный (випадок).

Міру збігу (кореляції) між крайніми групами по тесту і за критерієм оцінюють з допомогою самого простого Фі-коефіцієнта Гілфорда:

При чисельності протестованої групи до 30 осіб (це мінімальна вибірка для перевірки валідності) статистично значущий зв'язок тесту з критерієм ми можемо констатувати, коли Phi>=0,36. Хоча це, звичайно, невисока валідність, але все ж тест у цьому випадку дає значно кращі результати, ніж випадкове ворожіння. Тобто, якщо у вашому навчальному закладі є конкурс і ви хочете відібрати не тільки обдарованих, але і дисциплінованих учнів, ви можете використовувати тест, валідність якого ви перевірили, і вона виявилася значущою.

Але... Метод "відомих груп" володіє серйозним недоліком. Він не завжди дозволяє використовувати тест для прогнозу, адже при формуванні "відомих груп" оцінюється поведінка в минулому, а ми хочемо зробити тест дня прогнозу поведінки в майбутньому. Багато тестів, які використовуються в освітній психодіагностики, володіють зазначеним недоліком. Вони пройшли в кращому разі перевірку за методикою "відомих груп" і не мають так званої прогностичною валідністю (або принаймні ця валідність суворо експериментально не доведено). Звичайно, на місцевому рівні завдання забезпечення прогностичної валідності не вирішити. Це під силу тільки великим науково-методичним центрам. Адже до психометрическому дослідження з перевірки прогностичної валідності треба залучати приблизно на порядок більше випробовуваних - не 30, а мінімум 300. Адже ми просто не знаємо, хто з цих 300 потрапить в майбутньому в крайні групи.

Наприклад, ми хочемо використовувати тест для прогнозу готовності школярів до навчання у внз. Це типова прогностична психодіагностична завдання. Хтось повинен взятися за нелегку багаторічну програму перевірки прогностичного потенціалу цього тесту. Потрібно протестувати 300-500 школярів, а потім почекати, хто з них вступить до вузу і буде успішно там вчитися. Після двох-трирічного інтервалу можна сформувати критеріальні групи і підрахувати кореляцію групи з колишніми тестовими показниками цих колишніх школярів. Тільки після реалізації такої схеми психометричного експерименту можна.

Стандартизація тестів

Що, безсумнівно, повинен знати і вміти робити кожен грамотний користувач тесту - це розуміти, що таке тестові норми і як ними користуватися.

Початковий сумарний бал, виміряний за допомогою ключа, не є показником, який можна діагностично інтерпретувати. Його називають в тестології "сирим тестовим балом". Застосування тестових норм у професійно організованої психодіагностиці ґрунтується на переведення тестових балів із "сирої" шкали в "стандартну". Ця процедура називається "стандартизацією тестового бала".

Нехай ми провели тест з 20 завдань і випробуваний дав 12 правильних відповідей. Чи можна при цьому сказати, що здатність у випробуваного виражена краще або гірше, ніж в середньому? Немає. Для такого висновку потрібно порівняти бал 12 з середнім балом по представницькій вибірці випробовуваних.

Вибірка, на якій визначаються статистичні тестові норми, називається вибіркою стандартизації. Її чисельність, як правило, не менше 200 осіб. Стільки людей має взяти участь у психометрическом експерименті з визначення тестових норм - в експерименті по стандартизації тесту.

Якщо після стандартизації тесту з'ясовується, наприклад, що середнє арифметичне по сирій шкалою тесту дорівнює 14, то виявляється бал 12 - це не краще, а гірше середнього (хоча випробуваний і впорався більше ніж з половиною завдань). Просто в даному випадку тест містить занадто прості завдання, трохи відхиляючись за цим параметром від оптимальної труднощі.

Проста лінійна стандартизація тестового бала проводиться за формулою

де Z - стандартний бал на так званій стандартній шкалі Z (з центром 0 і відхиленням 1);

Х - сирої бал по тесту;

- середній бал по вибірці стандартизації,

Sх - стандартне відхилення по вибірці стандартизації.

Після отримання стандартного бали Z можна перевести тестовий бал в будь-яку стандартну тестову шкалу, прийняту в психодіагностиці. Наприклад, переведення у шкалу IQ проводиться за формулою

IQ=Z..15=100.

Нагадаємо, що в шкалі IQ центр дорівнює 100, а відхилення - 15.

Якщо переказ потрібно в так звану шкалу "стенів" (від англ. "standart ten" - стандартна десятка), то формула перерахунку з шкали Z виглядає так:

Sten = Z..2 +5,5,

так як в шкалі стенів центр дорівнює 5,5, а відхилення дорівнює 2.

Узагальнена формула перекладу сирого бали в задану стандартну шкалу має вигляд:

Y = SsЧZ+M, (7)

де Y - стандартний бал, за довільною шкалою, з центром М і відхиленням Ss.

Для серйозних професійних тестів замість описаної тут найпростішої лінійної стандартизації використовується більш складна процедура нелінійної нормалізації (форсований перехід до нормального розподілу). В результаті цієї, більш точної процедури розробники забезпечують користувачів тесту так званої конверсійної таблицею для перекладу сирих балів у стандартні бали за заданою шкалою. У ній наводиться повний перелік відповідностей між інтервалами сирої шкали і стандартною.

Нижче наведено приклад того, як може виглядати конверсійна таблиця для деякого тесту арифметичних обчислень з 30 завдань. Найпростіша процедура підрахунку балів (за правильну відповідь - 1 очко, за помилку -0) дає нам сиру шкалу від 0 до 30.

Таблиця 1

Приклад фрагмента конверсійної таблиці для перекладу сирих балів у стіни

Сирий бал
0-6
7-8
8-9
10-13
14-16
17-19
20-22
23-24
Стіни12345678

Як користувалися таблицею? Якщо випробуваний показав 5 сирих очок (вирішив тільки 5 завдань), то йому ставиться мінімальний стандартний бал 1. Якщо випробуваний вирішив 25 завдань, отримує бал 9.

Після того, як бал по тесту стандартизований, можна виносити діагностичний висновок. Загальне правило тут таке: якщо стандартний бал Y перевищує одиницю "верхній" (чи "високої") групи M+Ss, то цього випробуваному приписується підвищене значення виміряного психічного властивості. Наприклад, про учня кажуть, що він є безумовно більш дисциплінованим, ніж середній учень в російській школі (чи московської, або іркутській - в залежності від того, на якій вибірці стандартизації отримані норми). Якщо ж стандартний бал Y нижче межі "нижній" ("низької") групи M-Ss, то про даному випробуваному формулюється висновок, що відповідає низькому полюса вимірюваного властивості. Якщо стандартний тестовий бал Y укладено в межах центрального інтервалу (M-Ss, M+Ss), то про випробуваного кажуть, що у нього виміряне властивість виражена в середньому ступені - як у більшості людей.

На шкалі стенів кордон "верхній" групи дорівнює 7,5, а "нижній" - 3,5, тобто при отриманні 8 стенів і більше випробуваний зараховується в "верхню" групу, а при отриманні 3 стенів і менше - в "нижню".

Якщо ми маємо справу з біполярним (двополюсним) психічним властивістю, наприклад, "гнучкість - ригідність", то для "високої" групи формулюється висновок як для "гнучких" людей, а для "низькою" групи - як для ригідних людей. Відповідно середня група з центрального інтервалу визнається нейтральною, неполяризованной з даного тестового параметру.

Будь тестові висновку при використанні статистичних тестових норм є відносними. Вони залежать від тієї вибірки, на якій здійснювалася стандартизація тесту. Те, наскільки вибірка стандартизації дозволяє застосовувати тест на широкої популяції, називається репрезентативністю тестових норм. Репрезентативність - третє найважливіше психометричне властивість тесту. Розуміння сенсу цього вимоги до тесту допомагає правильно враховувати обмеження у сфері його застосування.

Наприклад, якщо тест проходив стандартизацію на студентах, то перед його застосуванням на школярах слід спочатку зробити рестандартизацию, тобто знову зібрати тестові норми на представницькій вибірці, сформованої саме з школярів. В іншому випадку діагностичні висновки, зроблені за неадекватним тестовим нормам, будуть неточні і неправильні.

Перевірка репрезентативність тестових норм здійснюється за допомогою аналізу так званого розподілу частот тестових балів. Одним з найпростіших методів є перевірка нормальності цього розподілу. Більш складний і універсальний підхід передбачає порівняння двох розподілів, побудованих для двох випадкових половин вибірки стандартизації. Якщо ці два розподілу виявляються практично тотожними, то можна говорити про репрезентативність тестових норм.

Введення поняття репрезентативності дозволяє нам дати більш чітке визначення того, що таке стандартизація тесту. Про стандартизацію тіста в строгому сенсі можна говорити, коли задана повна таблиця відповідності сирої шкали і стандартної шкали і зміст цієї таблиці обґрунтовано статистичної структурою розподілу тестових балів на вибірці стандартизації.

Крім статистичних тестових норм у сучасних тестах часто використовуються критеріальні норми. Вони особливо важливі для сфери освіти. Дійсно, що дає нам знання про те, що Петров виконав тест краще середнього випробуваного, якщо середній випробуваний теж не впорався з більшістю завдань? Ми прогнозуємо, що переважно більшість випробовуваних без спеціального додаткового навчання не зможуть показати необхідного рівня ефективності майбутньої діяльності.

При побудові так званого "тесту за критерієм" шкала сирих тестових балів калібрується особливими реперными точками, які відповідають рівням розрахованої імовірності досягнення певного критерію (заданої ефективності діяльності). Наприклад, якщо оператор АЕС був точний у 45 з 48 відсотків завдань, то це може не відповідати необхідному рівню критеріальної "надійності оператора" (в даному випадку "надійність" - вимірюється властивість), а от якщо він був точний у 47 з 48 завдань, то це може вважатися достатнім рівнем "надійності". Таким чином, при побудові діагностичних висновків за критеріальним тестів ми цікавимося не ступенем відхилення бали від центру шкали, а досягненням або недосягнення якогось критичного рівня на шкалі.

Достовірність тесту

Особливою різновидом валідності є достовірність, яка не завжди виділяється в підручниках з психодіагностики, хоча вимагає спеціальних зусиль і процедур по забезпеченню. Мова йде про свідомих чи несвідомих викривлення, які вносить в тестові результати сам випробуваний, керуючись у ході тесту особливою мотивацією, що відрізняється від тієї, яка притаманна йому в реальному поведінці. Здатність тесту захищати інформацію від мотиваційних спотворень і є достовірність тесту. Особливо гостро проблема достовірності стоїть у разі тест-опитувальників, які допускають більше свободи у виборі випробуваним будь-якого варіанту відповіді.

Типовий прийом забезпечення достовірності - наявність в тест-опитувальниках ШКАЛ БРЕХНІ. Ці шкали ґрунтуються головним чином на феномен соціальної бажаності - прагненні випробовуваних давати в ході тестування соціально одобряемую інформацію.

Якщо випробуваний набрав за шкалою брехні бал вище критичного, то його протокол оголошується невірогідним і йому пропонується або виконати цей тест ще раз більш відверто, або виконати інший тест. Багато більш специфічні "пастки", спрямовані на вимірювання достовірності, часто входять як компонент в структуру конкретного тесту, а іноді навіть не підлягають розголошенню як елемент "ноу-хау" (інформаційного винаходу) та професійної таємниці, поділюваної розробниками тільки з ліцензованими користувачами методики, що підписали особливу ліцензоване угода при придбанні тесту.

Достовірність тестування тісно пов'язана зі ступенем довірчості спілкування, яку психолог зміг встановити з даними випробуваним. Тут корисно розрізняти дві діагностичні ситуації: консультативну (ситуація клієнта) та атестаційну (ситуація експертизи). У першому випадку випробуваний бере участь в тестуванні на добровільній основі і сам зацікавлений отримати рекомендації за результатами тестування (як, наприклад, профорієнтаційної консультації). У другому випадку тестування проводиться за ініціативою педагога або адміністрації, психолога, батьків, тобто інших осіб, і ці інші більше зацікавлені в результатах, ніж сам випробуваний.

Зрозуміло, що у атестаційної ситуації питання про достовірність особливо актуальне. І опитувальники, не забезпечені шкалами брехні, використовувати в таких ситуаціях марно. Навпаки, в ситуації клієнта можуть бути використані такі методики, на які випробуваний свідомо буде відповідати некоректно у ситуації експертизи.

Питання достовірності та стандартизації тісно пов'язані між собою. Дуже часто навіть об'єктивні тести досягнень, якщо вони проходили стандартизацію на добровольцях (у ситуації консультації), повинні бути рестандартизированы для того, щоб їх використовували у атестаційної ситуації.

стверджувати, що тест пройшов перевірку на прогностичну валідність. Без цього ми виходимо просто з довіри до наукової інтуїції розробника тесту і не маємо незалежних доказів того, що тест можна використовувати для прогнозу.

Відмінність звичайної дешевої схеми валідизації тесту (за "відомих груп") і дорогий прогностичної схеми валідизації тесту - найважливіший елемент психодіагностичної грамотності не тільки для психологів, але й для педагогів, як, втім, і для будь-яких замовників психодіагностичної інформації.

Коли замовник твердо знає, яких доказів ефективності запропонованого тесту можна вимагати від тестологи, він буде надійно застрахований від профанації.

На закінчення даної теми підкреслимо, що вимірювання психометричних характеристик тесту, звичайно, є насамперед обов'язком розробників тестів. Але кваліфікований шкільний психолог-методист з повним курсом університетської освіти має по своїй підготовці вміти самостійно провести найпростіший психометричний експеримент і перерахувати тестові норми, а також психометричні індекси надійності і валідності тесту на своїй власній вибірці (у своєму регіоні, має певної національно-культурної та соціальної специфікою). Без цієї перевірки ніхто не може гарантувати, що тест справді працює в даних умовах.

На сьогодні подібна психометрическая робота з тестами полегшується, так як від маси рутинних обчислень спеціаліста звільняє комп'ютер. Наукова фірма "Гуманітарні технології" (МДУ) поширює з 1993 року спеціалізований пакет програм ТЕСТАН (розробник - А. Р. Шмельов) для психометричного Аналізу Тестів. Завдання користувача такої програми - не витрачати час на обчислення, а тільки змістовно розбиратися в тому, що означає той або інший коефіцієнт.