Temat 09

Analiza statystyczna danych ERP

Sygnał ERP zawiera tysiące punktów czasowych na każdą elektrodę, a elektrody są przestrzennie skorelowane — co sprawia, że testowanie każdego punktu z osobna influje błąd I rodzaju. Rozwiązania: pomiar amplitudy odporny na szum, korekcja Greenhouse-Geisser dla ANOVA, cluster-based permutation testing i liniowe modele mieszane.

Pomiar amplitudy i latencji

Amplituda komponentu ERP może być mierzona na dwa sposoby: jako amplituda szczytowa (wartość maksymalna lub minimalna w oknie pomiarowym) lub jako amplituda uśredniona (mean amplitude — średnia wartości próbek w wybranym oknie czasu).

Amplituda szczytowa jest wrażliwa na szum — przy małej liczbie uśrednionych prób szum o dużej amplitudzie może być błędnie zidentyfikowany jako szczyt komponentu, co prowadzi do systematycznego zawyżania mierzonych wartości. Amplituda uśredniona jest odporniejsza na ten błąd, lecz zależy od właściwego doboru okna czasowego. Dla komponentów o wyraźnym, wąskim szczycie (np. N1, P1) amplituda szczytowa bywa akceptowalna; dla szerokich komponentów (P300, N400) amplituda uśredniona jest standardem.

Latencja mierzona jako pozycja wartości ekstremalnej jest jeszcze bardziej wrażliwa na szum niż amplituda szczytowa. Odporną alternatywą jest latencja frakcyjna (fractional area latency, np. 50% area): punkt w czasie, w którym skumulowana energia komponentu w oknie pomiarowym osiąga połowę wartości całkowitej. Ta miara jest znacznie bardziej stabilna przy niskim stosunku sygnał-szum.

Zasada okna a priori: okno pomiarowe oraz elektrody do analizy muszą być zdefiniowane przed analizą danych — na podstawie wcześniejszej literatury lub odrębnego eksperymentu pilotażowego. Selekcja okna post-hoc, na podstawie obserwowanych szczytów w bieżących danych, maksymalizuje ryzyko wybrania szumu jako sygnału (selection bias) i jest formą p-hackingu.

ANOVA dla danych ERP

Typowy schemat analizy ERP opiera się na ANOVA wewnątrzgrupowej (within-subjects). Czynniki obejmują zazwyczaj: Warunek (Condition), Elektrodę (Electrode) oraz często Półkulę (Hemisphere — lewy vs. prawy rząd elektrod). Interakcje Warunek × Elektroda informują, czy efekt eksperymentalny różni się topograficznie — co jest ważną wskazówką co do anatomicznego źródła komponentu.

Kluczowym założeniem ANOVA dla danych powtarzanych jest sferyczność (sphericity) — jednorodność wariancji różnic między parami poziomów czynnika. Przy trzech lub więcej warunkach sferyczność często jest naruszana. Test Mauchly'ego sprawdza to założenie, lecz sam bywa mało moc przy małym N. Standardową procedurą jest stosowanie korekcji Greenhouse-Geisser (GG): modyfikuje liczniki i mianowniki stopni swobody, zmniejszając wartość F, co skutkuje bardziej konserwatywnym, lecz poprawnym testem. Wartość ε (epsilon) GG zawiera się w przedziale [1/(k−1), 1]; gdy ε < 0,75, korekcja jest szczególnie istotna.

Selekcja elektrod do analizy powinna być uzasadniona a priori — topografia danego komponentu jest opisana w literaturze. Wybór elektrod post-hoc na podstawie obserwowanych efektów jest formą p-hackingu i musi być raportowany jako odkrywczy (exploratory), nie konfirmacyjny. Recenzowane czasopisma ERP wymagają transparentnego raportowania procedury selekcji.

Problem porównań wielokrotnych i cluster permutation test

Sygnał ERP zawiera setki do tysięcy próbek czasowych na każdą elektrodę. Testowanie efektów w każdym punkcie czasowym osobno — bez korekcji — prowadzi do silnej inflacji błędu I rodzaju: przy α = .05 i 500 punktach oczekujemy 25 fałszywie pozytywnych wyników nawet przy braku efektu.

Korekcja Bonferroniego (podziel α przez liczbę porównań) jest zbyt konserwatywna dla danych ERP, ponieważ zakłada niezależność testów — tymczasem sąsiadujące próbki czasowe są wysoce skorelowane. Rzeczywista liczba niezależnych porównań jest znacznie mniejsza niż liczba punktów, więc Bonferroni dramatycznie redukuje moc statystyczną i generuje fałszywie negatywne wyniki.

Cluster-based permutation testing (Maris & Oostenveld, 2007) rozwiązuje oba problemy. Procedura:

Przeprowadź test t lub F w każdym punkcie czasowym — lub w każdej komórce siatki czas × elektroda. (2) Zidentyfikuj klastry sąsiadujących punktów przekraczających próg (np. p < .05 z testu punktowego). (3) Oblicz statystykę klastra jako sumę wartości t lub F² w klastrze (cluster mass). (4) Permutuj losowo etykiety warunków 1000–5000 razy; dla każdej permutacji oblicz największy klaster. Rozkład tych wartości tworzy rozkład zerowy. (5) Prawdziwy klaster jest istotny, jeśli jego statystyka przekracza 95. percentyl rozkładu zerowego

Metoda kontroluje FWER (Family-Wise Error Rate) bez zakładania niezależności próbek. Wnioskuje o całym klastrze, nie o jego precyzyjnych granicach — nie nadaje się do twierdzenia, że efekt zaczyna się dokładnie w milisekundzie X.

Liniowe modele mieszane (LMM)

Liniowe modele mieszane (LMM, ang. Linear Mixed Models) to alternatywa dla ANOVA wolna od kilku jej ograniczeń.

Główna przewaga: LMM może analizować dane na poziomie pojedynczej próby (trial-level), nie tylko uśrednionych ERP. Pozwala to uwzględnić zmienność wewnątrz-uczestnika (trial-to-trial variability), dodać ciągłe predyktory (np. czas reakcji, ocena subiektywna jako kowarianty) oraz modelować interakcje między predyktorami ciągłymi a kategorialnymi.

Efekty stałe (fixed effects) odpowiadają czynnikom eksperymentalnym: warunek, elektroda, półkula, interakcje. Efekty losowe (random effects) modelują różnice między uczestnikami:

random intercept per uczestnik — każdy ma własny poziom bazowy amplitudy ERP
random slope per warunek — każdy uczestnik może mieć inną wielkość efektu warunku. Właściwa specyfikacja efektów losowych chroni przed błędnym uogólnianiem efektów na populację

Brakujące dane i nierówna liczba prób: LMM radzi sobie z niekompletnymi danymi bez konieczności usuwania uczestników lub prób. Gdy odrzut artefaktów powoduje, że różni uczestnicy mają różną liczbę prób per warunek (co jest normą w badaniach klinicznych i pediatrycznych), LMM jest metodą z wyboru. ANOVA wymaga kompletnych danych i równej liczby prób na warunek — co często jest nierealistyczne.

Podsumowanie — kluczowe pojęcia

Amplituda uśredniona (mean amplitude) preferowana nad szczytową — mniej wrażliwa na szum; okno pomiaru musi być zdefiniowane a priori, nie na podstawie danych
Latencja frakcyjna (50% area) jest odporniejsza na szum niż latencja szczytu — rekomendowana przy niskim SNR
ANOVA for repeated measures: korekcja Greenhouse-Geisser konieczna gdy sferyczność naruszona; ε < 0,75 = korekta obowiązkowa
Selekcja okna czasowego i elektrod post-hoc na podstawie obserwowanych danych = p-hacking; musi być raportowana jako odkrywcza
Porównania wielokrotne bez korekcji influją błąd I rodzaju; Bonferroni zbyt konserwatywny — ignoruje korelację próbek czasowych
Cluster permutation test (Maris & Oostenveld, 2007): kontroluje FWER bez założenia niezależności próbek; wniosek o klastrze, nie o jego granicach — por. analiza statystyczna
LMM: analiza trial-level, brakujące dane, ciągłe predyktory — przewaga nad ANOVA gdy liczba prób jest nierówna między uczestnikami

Jak oceniasz trudność tego materiału?

1234567

Bardzo trudnyBardzo łatwy