Temat 03

Percepcja

Percepcja to aktywny proces konstruowania spostrzeżeń z informacji zmysłowej. Angażuje zarówno procesy oddolne jak i odgórne, a jej organizacja podlega prawom Gestaltu. Hierarchia detektorów cech w korze wzrokowej odkryta przez Hubla i Wiesela wyjaśnia neurologiczne podstawy percepcji.

Natura spostrzegania — debata Gibson vs. Gregory

Spostrzeganie jest procesem aktywnej interpretacji sygnałów zmysłowych, nie ich pasywnego rejestrowania. Ten sam bodziec może prowadzić do odmiennych spostrzeżeń w różnych kontekstach — co wskazuje, że percepcja jest więcej niż prostym odbiorem.

Przetwarzanie oddolne (bottom-up, data-driven): percepcja napędzana przez cechy sensoryczne wejścia. Na każdym kolejnym poziomie przetwarzania wykrywane są coraz bardziej abstrakcyjne właściwości (krawędzie → kąty → kształty → obiekty).

Przetwarzanie odgórne (top-down, conceptually-driven): spostrzeganie kształtowane przez wiedzę uprzednią, oczekiwania i kontekst. Efekt przewagi słowa nad literą (Reicher, 1969) jest klasycznym przykładem: litera rozpoznawana szybciej w słowie niż samotnie — wiedza leksykalna wpływa na percepcję składowych.

Teoria konstruktywistyczna Gregorego (1970, 1980): spostrzeżenie to hipoteza o świecie — mózg nie rejestruje rzeczywistości, lecz wytwarza jej model, weryfikowany przez dane zmysłowe. Iluzje optyczne (Müller-Lyera, Ponzo, itp.) są błędnymi hipotezami percepcyjnymi — gdy powszechnie trafne heurystyki (np. "im dłuższa linia strzałki, tym bliżej") zostają zastosowane w sytuacjach, gdzie prowadzą do błędów. Von Helmholtz (XIX w.) opisał ten sam mechanizm jako nieświadome wnioskowanie (unconscious inference).

Ekologiczna teoria Gibsona (1979): percepcja jest bezpośrednim pobieraniem informacji z przepływu optycznego (optic flow) — nie potrzeba wnioskowania ani pośrednich reprezentacji. Informacja o świecie jest bezpośrednio dostępna w strukturze światła. Kluczowe pojęcie: affordances — "zaproszenia do działania" oferowane przez środowisko (krzesło afforduje siedzenie, piłka — chwytanie). Gibson zdecydowanie odrzucał konstruktywizm. Spór nie jest rozstrzygnięty; większość badaczy uznaje, że percepcja angażuje oba tryby.

Prawa percepcji postaci — psychologia Gestaltu

Psychologowie Gestalt (Max Wertheimer, Wolfgang Köhler, Kurt Koffka, lata 10.–20. XX w.) wykazali, że spostrzegamy całości (Gestalten), nie sumy elementów. Naczelna zasada — Prägnanz: percepcja dąży do najprostszej, najbardziej stabilnej, regularnej organizacji możliwej w danych warunkach.

Prawo bliskości (proximity): elementy bliskie przestrzennie są grupowane. Gwiazdozbiory — arbitralnie bliskie gwiazdy widzimy jako wzorzec.

Prawo podobieństwa (similarity): elementy podobne (kolor, kształt, rozmiar) są grupowane. Szachownica spostrzegana jako kolumny lub wiersze.

Prawo dobrej kontynuacji (good continuation): elementy tworzące płynną krzywą są łączone. Dwa przecinające się łuki widziane jako dwie ciągłe linie, nie cztery kawałki.

Prawo zamkniętości (closure): tendencja do postrzegania niekompletnych figur jako zamkniętych. Logo olimpijskie (pierścienie z przerwami) spostrzegane jako koła.

Prawo wspólnego losu (common fate): elementy poruszające się razem są grupowane. Murmuracja szpaków spostrzegana jako jedna całość.

Prawo symetrii (symmetry): regiony symetryczne widziane jako figury na tle.

Prawo figury i tła (figure-ground): część pola wzrokowego spostrzegana jest jako figura (wyraźna, o stałym kształcie) na tle (rozciągającym się poza figurę). Klasyczny przykład: waza Rubina — przemienne postrzeganie wazy lub dwóch twarzy. Oba spostrzeżenia wzajemnie się wykluczają.

Prawa Gestaltu opisują automatyczne, preuwagowe procesy organizacji percepcyjnej. Neurobiologicznie: procesy lateralnej interakcji między neuronami kory wzrokowej (V1–V4). Ich znaczenie utylitarne: projektowanie graficzne, interfejsy, mapy, muzyka — tam, gdzie intencjonalne manipulowanie grupowaniem jest kluczowe.

Waza Rubina — figura i tło — Waza Rubina: przemienne postrzeganie wazy lub dwóch profili — klasyczna ilustracja prawa figury i tła

Spostrzeganie głębi — wskazówki monokularne i binokularne

Spostrzeganie głębi umożliwia trójwymiarową orientację w przestrzeni na podstawie płaskich obrazów siatkówkowych. Mózg integruje wiele wskazówek głębi, dzielonych na monokularne (dostępne dla jednego oka) i binokularne (wymagające dwóch oczu).

Wskazówki monokularne:

Gradacja faktury (texture gradient): faktura spostrzegana jako gęstsza w oddali — regularny wzór odległej podłogi wydaje się ciasno upakowany
Nakładanie się (interposition): obiekty przysłaniające inne spostrzegane jako bliższe
Rozmiar względny (relative size): identyczne obiekty różnej wielkości kątowej — mniejszy postrzegany jako dalszy; znajomość rozmiarów rzeczywistych wzmacnia efekt
Perspektywa linearna (linear perspective): równoległe linie zbiegają się w punkcie znikania; odległość od punktu znikania sygnalizuje głębię
Ruch paralaktyczny (motion parallax): podczas ruchu obserwatora bliższe obiekty przesuwają się szybciej w polu wzrokowym — silna wskazówka przy ruchu głowy
Wizualna ekspansja (looming): szybkie powiększanie obiektu sygnalizuje zbliżanie — wyzwala instynktowną reakcję obronną

Wskazówki binokularne:

Rozbieżność siatkówkowa (retinal disparity): każde oko widzi nieco inny obraz; mózg (V1) mierzy wielkość rozbieżności i koduje ją jako głębię. Dla obiektów powyżej ~6 m rozbieżność staje się zbyt mała — dominują wskazówki monokularne
Konwergencja (convergence): proprioceptywne sygnały z mięśni gałek ocznych informują o zbieżności — silna wskazówka dla obiektów bliskich (~<1 m)
Stereoskopia: synteza rozbieżności siatkówkowej w percepcję głębi. Julesz (1960) wykazał za pomocą stereogramów losowych punktów (Random Dot Stereograms), że stereoskopia zachodzi bez żadnych monokularnych wskazówek kształtu

Znaczenie kliniczne: stereoślep (stereoblindness) — niemożność odczytania rozbieżności siatkówkowej (zez niestabilny we wczesnym dzieciństwie) — eliminuje binokularne wskazówki głębi przy zachowanym widzeniu monokularnym.

Złudzenia percepcyjne i rola wiedzy odgórnej

Złudzenia percepcyjne to systematyczne błędy spostrzegania — przypadki, gdy percept systematycznie odbiega od fizycznych właściwości bodźca. Są laboratorium, w którym normalne mechanizmy percepcji ujawniają się przez swoje błędy.

Złudzenie Müllera-Lyera: dwie poziome linie identycznej długości wyglądają różnie zależnie od kątów na ich końcach — linia z kątami odchodzącymi wydaje się dłuższa, z kątami zbiegającymi — krótsza. Gregorego interpretacja: mózg stosuje heurystykę stałości rozmiaru (size constancy). Kąty odchodzące przypominają wewnętrzny narożnik pomieszczenia (dalej), zbiegające — zewnętrzny narożnik budynku (bliżej). Dla obiektu spostrzeganego jako dalszy mózg koryguje rozmiar kątowy w górę. Złudzenie jest słabsze u osób wychowanych w środowiskach bez prostokątnych budynków (Segall, Campbell i Herskovits, 1966).

Złudzenie szachownicy Adelsona (Adelson, 1995): pola A i B mają identyczny odcień szarości (wartości RGB identyczne), lecz B wydaje się jaśniejsze. Mózg stara się wyliczyć rzeczywistą reflektancję powierzchni, nie chwilową luminancję. Pole B leży "w cieniu" — system wzrokowy kompensuje, wyświetlając je jako jaśniejsze. Jest to efekt stałości jasności (lightness constancy). Złudzenie trwa mimo pełnej świadomości identycznych wartości pikseli.

Złudzenie księżyca: księżyc na horyzoncie wydaje się większy niż w zenicie mimo identycznego rozmiaru kątowego (~0,5°). Na horyzoncie wskazówki głębi (zbiegające drogi, budynki) sugerują dużą odległość — mózg przez stałość rozmiaru "powiększa" księżyc.

Rola wiedzy odgórnej: złudzenia trwają nawet gdy wiemy o ich istnieniu — dowód na modularną enkapsulację percepcji (Fodor, 1983). Wiedza o iluzji nie blokuje automatycznych procesów percepcyjnych, które ją generują. Gregory: spostrzeganie to aktywna hipoteza o świecie; iluzje to błędne hipotezy generowane przez heurystyki zwykle trafne w środowisku naturalnym.

Złudzenie szachownicy Adelsona: pola A i B mają identyczny odcień szarości — system wzrokowy kompensuje cień

Detekcja cech — hierarchia w korze wzrokowej

David Hubel i Torsten Wiesel (1959, 1962, Nagroda Nobla 1981) odkryli hierarchiczną organizację kory wzrokowej u kota i małpy, rejestrując mikroelektrodami aktywność pojedynczych neuronów w odpowiedzi na różne bodźce wzrokowe.

Komórki proste (simple cells, kora wzrokowa pierwszorzędowa V1): reagują na krawędź (edge) o określonej orientacji (pozioma, pionowa, skośna) i lokalizacji w polu wzrokowym. Pole recepcyjne ma strukturę ON-OFF — strefy aktywacyjne i hamulcowe.

Komórki złożone (complex cells, V1/V2): reagują na krawędź o konkretnej orientacji, lecz niezależnie od lokalizacji w obrębie dużego pola recepcyjnego. Wiele z nich jest selektywnych dla kierunku ruchu — reaguje silnie tylko gdy krawędź przesuwa się w określonym kierunku.

Komórki hiperzłożone (hypercomplex/end-stopped cells, V2, V4): selektywne na krawędzie o określonej orientacji i określonej długości — hamowane przez krawędzie przekraczające optymalną długość (wykrywanie narożników, zakończeń linii).

Ta hierarchia tworzy drabinkę abstrakcji: krawędź → kombinacje krawędzi → kąty i zakrzywienia → bardziej złożone wzorce. Stanowi neurologiczną podstawę dla teorii detekcji cech w modelach percepcji obiektów.

Irving Biederman (1987) zaproponował teorię rozpoznawania przez składowe (Recognition by Components, RBC): obiekty są rozpoznawane przez konfigurację 36 elementarnych brył 3D — geonów (geometric ions: walec, stożek, kostka, łuk, torus, itp.). Rozpoznanie:

segmentacja konturu na regiony wklęsłości → wyodrębnienie geonów
dopasowanie konfiguracji geonów do reprezentacji obiektów w LTM. Teoria wyjaśnia niezależność rozpoznawania od punktu widzenia (viewpoint invariance): jeśli obraz zachowuje tę samą konfigurację geonów, obiekt rozpoznawany jest niezależnie od perspektywy

Rozpoznawanie obiektów i twarzy

Rozpoznawanie obiektów wymaga dopasowania wzorca sensorycznego do reprezentacji w LTM. Różne klasy obiektów angażują odmienne mechanizmy.

Efekt przewagi słowa (word superiority effect, Reicher 1969): litera rozpoznawana szybciej i dokładniej jako część słowa ("K" w DARK) niż samotnie lub w losowym zestawie (DKRA). Klasyczne wyjaśnienie: wzajemne wzmacnianie aktywacji na poziomie liter i słów przez interaktywne sieci (model McClellanda i Rumelharta, Interactive Activation Model, 1981).

Rozpoznawanie twarzy: twarze przetwarzane holistycznie — jako całości, nie zestawy cech. Neurobiologiczny korelat: FFA (Fusiform Face Area, Kanwisher i in., 1997) — obszar w korze skroniowo-potylicznej aktywowany selektywnie przez twarze.

Efekt inwersji twarzy (Yin, 1969): twarze odwrócone o 180° są rozpoznawane znacznie gorzej niż inne obiekty odwrócone o taki sam kąt. Tłumaczenie: holizm percepcji twarzy jest wrażliwy na orientację — odwrócenie zaburza integrację.

Eksperyment twarzy kompozytowych (Young, Hellawell i Hay, 1987): górna połowa jednej twarzy i dolna połowa innej są składane w jedną. Gdy twarz kompozytowa jest we właściwej orientacji, rozpoznanie każdej połowy jest utrudnione — holizm integruje obie połowy i utrudnia ich niezależne przetwarzanie. Odwrócenie twarzy eliminuje ten efekt.

Prozopagnozja: niemożność rozpoznawania twarzy przy zachowanej zdolności rozpoznawania obiektów i prawidłowym opisaniu cech twarzy. Podwójna dysocjacja twarzy–obiekty potwierdza, że percepcja twarzy angażuje odrębne mechanizmy.

Zakręt wrzecionowaty (łac. gyrus fusiformis) to struktura w mózgu zlokalizowana na dolnej powierzchni płatów skroniowego i potylicznego. Odpowiada za zaawansowane przetwarzanie informacji wzrokowych, w tym rozpoznawanie twarzy, identyfikację przedmiotów oraz czytanie słów. Jej uszkodzenie prowadzi do prozopagnozji.

Ruchy gałek ocznych i procesy czytania

Badania ruchów gałek ocznych ujawniają, że percepcja wzrokowa jest procesem dyskretnym i aktywnym, nie ciągłym skanowaniem.

Sakkady i fiksacje: podczas czytania oko wykonuje skokowe ruchy zwane sakkadami (20–50 ms), między którymi następują fiksacje (200–250 ms). Wyłącznie podczas fiksacji zbierana jest użyteczna informacja. Zjawisko tłumienia sakkadowego (saccadic suppression, McConkie 1983): w czasie samego ruchu ostry wzrok jest blokowany.

Rozpiętość percepcyjna: obszar efektywnego pobierania informacji podczas fiksacji wynosi ok. 7–8 liter w kierunku czytania i 3–4 litery w kierunku odwrotnym (u czytelników pisma lewostronnego). U czytelników hebrajskiego — odwrotnie. Asymetria ta świadczy o uczeniu się, a nie biologicznej właściwości siatkówki.

Poprzedzanie percepcyjne (perceptual priming, Evett i Humphreys 1981): wyraz eksponowany podprogowo ułatwia identyfikację następnego wyrazu, jeśli dzielą litery lub morfemy — dowód, że system wzrokowy przetwarza litery równolegle, poza aktualnym punktem fiksacji.

Parapraksje i poprawy: około 10–15% fiksacji to regresje — cofnięcia wzroku w celu ponownej analizy trudnej lub niezrozumianej treści. Liczba regresji rośnie wraz z trudnością tekstu, a u osób z dysleksją jest wyraźnie podwyższona.

Implikacje dla nauki czytania: efektywne czytanie wymaga automatyzacji rozpoznawania liter i wyrazów (by uwolnić zasoby dla rozumienia), optymalizacji sakkad (mniej, dłuższe) i szerszej rozpiętości percepcyjnej. Trening szybkiego czytania w ograniczonym stopniu może poszerzyć rozpiętość percepcyjną.

Kluczowe eksperymenty

Cel	Odkrycie selektywnych detektorów cech w korze wzrokowej i hierarchicznej organizacji przetwarzania wzrokowego
Procedura	Mikroelektrodą wszczepiono w korę wzrokową kota pod znieczuleniem. Prezentowano różne bodźce wizualne (punkty światła, paski, krawędzie o różnych orientacjach i kierunkach ruchu) w różnych miejscach pola wzrokowego. Rejestrowano wyładowania pojedynczych neuronów.
Wyniki	Odkryto trzy typy komórek: proste (reagujące na krawędź o konkretnej orientacji i lokalizacji), złożone (na krawędź o konkretnej orientacji niezależnie od lokalizacji, selektywne dla kierunku ruchu) i hiperzłożone (selektywne dla krawędzi o określonej długości). Sąsiednie kolumny kory obsługiwały zbliżone orientacje.
Wnioski	Kora wzrokowa jest hierarchicznie zorganizowana: proste cechy (orientacja, kontrast) wykrywane przez komórki proste, kombinacje przez złożone. Jest to neurologiczne potwierdzenie teorii detekcji cech. Odkrycie przyniosło Nagrodę Nobla w 1981 r.

Cel	Wykazanie, że kontekst słowny ułatwia rozpoznawanie liter — dowód na procesy odgórne (word superiority effect)
Procedura	Prezentowano tachistoskopowo przez ~160 ms: słowo (WORK), pojedynczą literę (W) lub losowy zestaw liter (OWKR). Bezpośrednio po bodźcu nakładano wzorzec maskujący. Pytano o konkretną literę (np. w 4. pozycji), dając do wyboru dwie alternatywy różniące się jedynie testowaną literą.
Wyniki	Poprawność identyfikacji litery była istotnie wyższa w warunku słowa niż litery samotnej lub losowego zestawu, mimo identycznej ekspozycji we wszystkich warunkach.
Wnioski	Kontekst słowny wspomagał percepcję składowych liter — wiedza leksykalna aktywuje procesy odgórne wspierające identyfikację. Jest to dowód, że percepcja wzrokowa nie jest wyłącznie oddolna.

Cel	Wykazanie holistycznego przetwarzania twarzy za pomocą paradygmatu twarzy kompozytowych
Procedura	Tworzono twarze kompozytowe: górna połowa należała do jednej osoby, dolna do innej. Badanym pokazywano takie twarze we właściwej orientacji lub odwrócone. Zadanie: rozpoznać górną lub dolną połowę.
Wyniki	We właściwej orientacji: rozpoznanie każdej połowy twarzy kompozytowej było znacznie trudniejsze niż twarzy niekompozyto wej — efekt kompozytowy. Po odwróceniu twarzy: efekt zanikał.
Wnioski	Twarze przetwarzane holistycznie — górna i dolna połowa integrują się w jedną reprezentację. Odwrócenie zaburza holistyczną integrację i ujawnia, że jest ona wrażliwa na orientację. Potwierdza wyjątkowość percepcji twarzy w stosunku do innych obiektów.

Powiązane materialy

Galeria iluzji wzrokowych →

Jak oceniasz trudność tego materiału?

1234567

Bardzo trudnyBardzo łatwy