知覚（情報処理理論）：ゲシュタルト理論と記憶

導入

知覚（パターン認識）とは、感覚を通して受け取った環境からの入力に意味を与えることを指します。入力が知覚されるためには、感覚記憶の1つまたは複数に保持され、長期記憶（LTM）の知識と比較されなければなりません。

ゲシュタルト理論は、行動主義の多くの仮定に異議を唱えた初期の認知的な見解でした。ゲシュタルト理論はもはや実行可能ではありませんが、現在の知覚と学習の概念に見られる重要な原則を提供しました。次にこの理論を説明し、続いて情報処理の観点からの知覚に関する議論を行います。

ゲシュタルト理論

ゲシュタルト運動は、20世紀初頭のドイツにおける心理学者たちの小さなグループから始まりました。1912年、マックス・ヴェルトハイマーは仮現運動に関する論文を書きました。この論文はドイツの心理学者たちの間では重要でしたが、ゲシュタルト運動がまだ始まっていなかったアメリカ合衆国では影響力を持っていませんでした。クルト・コフカの『精神の成長』（1924年）とヴォルフガング・ケーラーの『類人猿の知能』（1925年）が英語で出版されたことが、ゲシュタルト運動がアメリカ合衆国に広がるのを助けました。ヴェルトハイマー、コフカ、ケーラーを含む多くのゲシュタルト心理学者は、最終的にアメリカ合衆国に移住し、そこで彼らのアイデアを心理現象に応用しました。

仮現運動の知覚現象の典型的なデモンストレーションでは、互いに接近した2本の線が、それぞれの露出の間に短い時間間隔を置いて、一瞬ずつ連続して露出されます。観察者は2本の線を見るのではなく、最初に露出された線から2番目に露出された線に向かって移動する1本の線を見ます。デモンストレーションのタイミングが重要です。2本の線の露出の間の時間間隔が長すぎると、観察者は最初の線を見て、次に2番目の線を見ますが、動きは見えません。間隔が短すぎると、観察者は2本の線が並んで見えますが、動きは見えません。

この仮現運動はファイ現象として知られており、主観的な経験は、関与する客観的な要素を参照することによっては説明できないことを示しています。観察者は、何も起こっていないにもかかわらず、動きを知覚します。現象学的経験（仮現運動）は、感覚経験（線の露出）とは異なります。この現象および関連する現象を説明する試みから、ヴェルトハイマーは、知覚のユニークな全体性を考慮に入れていないため、知覚の心理学的説明を個人の感覚経験の合計として捉えることに異議を唱えました。

知覚の有意味性

ベティという名前の身長5フィートの女性を想像してみてください。私たちがベティを遠くから見ると、網膜像はベティを近くで見るよりもはるかに小さくなります。それでも、ベティは5フィートの身長であり、彼女がどれだけ離れていてもそうであることを私たちは知っています。知覚（網膜像）は変化しますが、像の意味は一定のままです。

ドイツ語のGestaltは、「形」、「図」、「形状」、または「構成」と訳されます。ゲシュタルト心理学の本質は、物体や出来事が組織化された全体として見られるということです（Köhler, 1947/1959）。基本的な組織化は、図（人が焦点を当てるもの）と地（背景）を含みます。意味があるのは構成であり、個々の部分ではありません（Koffka, 1922）。木は、葉、枝、根、幹のランダムな集まりではありません。それはこれらの要素の有意味な構成です。木を見るとき、人々は通常、個々の要素ではなく、全体に焦点を当てます。人間の脳は、客観的な現実を有意味な全体として組織化された精神的な出来事に変換します。物事を全体として見るこの能力は、生来の性質ですが、知覚は経験と訓練によって修正されます（Köhler, 1947/1959; Leeper, 1935）。

ゲシュタルト理論は元々知覚に適用されましたが、そのヨーロッパの提唱者がアメリカ合衆国に来たとき、彼らは学習に重点が置かれていることに気づきました。ゲシュタルトのアイデアを学習に応用することは難しくありませんでした。ゲシュタルトの視点では、学習は、物事、人々、または出来事のさまざまな知覚に経験を再編成することを含む認知現象です（Koffka, 1922, 1926）。人間の学習の多くは洞察力に富んでおり、それは無知から知識への変換が急速に起こることを意味します。問題に直面すると、個人は何が知られていて、何を決定する必要があるかを理解します。次に、彼らは可能な解決策について考えます。洞察は、人々が問題を解決する方法を突然「見る」ときに起こります。

ゲシュタルト理論家は、ワトソンや他の行動主義者と意識の役割について意見が異なりました。ゲシュタルト理論では、有意味な知覚と洞察は、意識的な認識を通してのみ起こります。ゲシュタルト心理学者はまた、複雑な現象を基本的な部分に分解できるという考えに異議を唱えました。行動主義者は連合を強調しました。全体は部分の合計に等しい。ゲシュタルト心理学者は、全体は有意味であり、個々のコンポーネントに還元されると意味を失うと感じました。（冒頭のシナリオでは、「x」は、より広範なカテゴリに関連付けることができない限り、意味を失います。）代わりに、全体は部分の合計よりも大きいです。興味深いことに、ゲシュタルト心理学者は、内観に反対する点で行動主義者と意見が一致していましたが、その理由は異なっていました。行動主義者はそれを意識を研究する試みと見なしました。ゲシュタルト理論家は、知覚を客観的な現実に合わせて修正することは不適切だと感じました。内観を使用した人々は、知覚から意味を分離しようとしましたが、ゲシュタルト心理学者は、知覚は有意味であると信じていました。

組織化の原理

ゲシュタルト理論は、人々が自分たちの知覚を組織化するために原理を使用すると仮定しています。最も重要な原理のいくつかは、図と地の関係、近接性、類似性、共通方向、単純性、および閉鎖です（Koffka, 1922; Köhler, 1926, 1947/1959）。

図と地の関係の原理は、あらゆる知覚フィールドを図と背景に細分化できると仮定しています。サイズ、形状、色、ピッチなどの顕著な特徴は、図をその背景から区別します。図と地があいまいな場合、知覚者は感覚経験を一方の方法で組織化し、次に別の方法で組織化する場合があります。

近接性の原理は、知覚フィールド内の要素は、空間または時間における互いの近さに従って、一緒に属するものとして見られると述べています。ほとんどの人は、図5.3bの線を、それぞれ3本の線の3つのグループとして見ますが、この構成を知覚する他の方法も可能です。この近接性の原理は、音声の知覚にも関与しています。人々は、ポーズで区切られた一連の単語またはフレーズとして音声を聞き（組織化し）ます。人々が聞き慣れない音声（たとえば、外国語）を聞くと、ポーズを識別するのが困難になります。

ゲシュタルト原理の例。

a.

a: 図と地

b.

近接性

c.

類似性

d.

類似性を上回る近接性

e.

共通方向

f.

単純性

g.

閉鎖

類似性の原理は、サイズや色などの側面が類似している要素は、一緒に属するものとして知覚されることを意味します。図c.を見ると、人々は3本の短い線のグループの後に、3本の長い線のグループなどを見る傾向があります。近接性は類似性を上回る可能性があります。類似していない刺激が類似している刺激よりも互いに近い場合（図d.）、知覚フィールドはそれぞれ2本の線の4つのグループに編成される傾向があります。

共通方向の原理は、パターンを構成しているように見える要素、または同じ方向に流れる要素は、図として知覚されることを意味します。図e.の線は、明確なパターンを形成していると認識される可能性が最も高いです。共通方向の原理は、1つ以上のルールが項目の順序を定義するアルファベットまたは数値シリーズにも適用されます。したがって、シリーズabdeghjkの次の文字はmです。これは、文字aから始めてアルファベット順に移動し、2つの文字をリストして1つを省略するというルールによって決定されます。

単純性の原理は、人々が自分たちの知覚フィールドを単純で規則的な特徴に編成し、対称性と規則性を含む優れたゲシュタルトを形成する傾向があると述べています。この考えは、ドイツ語のPragnanzという単語で捉えられており、おおよそ「有意味性」または「精度」を意味します。個人は、図f.の視覚パターンを、いくつかの不規則な形状の幾何学的パターンとしてではなく、1つの幾何学的パターンが別のパターンに重なっているものとして見る可能性が最も高いです。閉鎖の原理は、人々が不完全なパターンや経験を埋めることを意味します。図g.に示されているパターンに線が欠落しているにもかかわらず、人々はそのパターンを完成させて有意味な画像を見る傾向があります。

ゲシュタルト理論に組み込まれている概念の多くは、私たちの知覚に関連しています。ただし、ゲシュタルト原理は非常に一般的であり、知覚の実際のメカニズムに対処していません。個人が類似しているアイテムを一緒に属するものとして知覚すると言うことは、彼らがそもそもアイテムを類似しているとどのように知覚するかを説明するものではありません。ゲシュタルト原理は啓発的ですが、曖昧であり、説明的ではありません。研究はゲシュタルトの予測の一部を支持していません。Kubovy and van den Berg (2008) は、近接性と類似性の共同効果は、ゲシュタルト理論が予測するように、それらの別々の効果の合計よりも大きくはなく、合計に等しいことを発見しました。次に説明する情報処理の原則はより明確であり、知覚の良い説明を提供します。

感覚レジスタ

環境からの入力は、視覚、聴覚、触覚、嗅覚、味覚といった感覚を通して知覚され、受け取られます。情報処理理論では、それぞれの感覚には固有のレジスタがあり、受け取ったのと同じ形式で情報を一時的に保持すると考えられています（例えば、視覚情報は視覚形式で、聴覚情報は聴覚形式で保持されます）。情報は感覚レジスタにほんの一瞬しか保持されません。感覚入力の一部は、さらなる処理のためにワーキングメモリ（WM）に転送されます。残りの入力は消去され、新しい入力に置き換えられます。感覚レジスタは並行して動作します。なぜなら、複数の感覚が同時に、そして互いに独立して働くことができるからです。最も広範に研究されている2つの感覚記憶は、アイコニック記憶（視覚）とエコーイック記憶（聴覚）です（Neisser, 1967）。

アイコニック記憶を調べる典型的な実験では、研究者は学習者に文字の列を短時間（例えば、50ミリ秒）提示し、覚えている文字をできるだけ多く報告するように求めます。彼らは通常、配列から4〜5文字しか報告しません。Sperling（1960）による初期の研究は、アイコニックストレージへの洞察を提供しました。Sperlingは、学習者に文字の列を提示し、特定の行から文字を報告するように指示しました。Sperlingは、配列にさらされた後、約9文字を想起できると推定しました。感覚記憶は以前考えられていたよりも多くの情報を保持できる可能性がありますが、参加者が文字を想起している間、他の文字の痕跡は急速に薄れていきました。Sperlingはまた、配列の提示終了から想起開始までの時間が長くなるほど、想起が悪くなることを発見しました。この発見は、忘却が痕跡減衰、つまり感覚レジスタからの刺激の時間の経過による消失を伴うという考えを支持しています。

研究者は、アイコンが実際に記憶の貯蔵庫なのか、それとも持続的なイメージなのかについて議論しています。Sakittは、アイコンは眼の網膜の桿体にあると主張しました（Sakitt, 1976; Sakitt & Long, 1979）。アイコンが物理的な構造である場合、知覚におけるアイコンの積極的な役割は（完全には排除されませんが）小さくなります。ただし、すべての研究者がSakittの立場に同意しているわけではありません。

アイコニック記憶と同様の機能を持つエコーイック記憶の証拠があります。Darwin、Turvey、Crowder（1972）およびMoray、Bates、Barnett（1965）による研究は、Sperling（1960）と同等の結果をもたらしました。研究参加者は、3つまたは4つの録音セットを同時に聞き、その後、1つを報告するように求められました。調査結果は、エコーイック記憶が想起できるよりも多くの情報を保持できることを示しました。アイコニック情報と同様に、エコーイック情報の痕跡は、刺激の除去後急速に減衰します。エコーイックの減衰はアイコニックほど急速ではありませんが、刺激の提示終了から想起開始までの時間が2秒を超えると、想起が悪くなります。

長期記憶（LTM）の比較

知覚は、ボトムアップ処理とトップダウン処理を通じて起こる（Matlin, 2009）。ボトムアップ処理では、刺激の物理的特性が感覚レジスターによって受信され、その情報が長期記憶（LTM）の情報と比較するためにワーキングメモリ（WM）に渡され、意味が割り当てられる。環境からの入力には、明白な物理的特性がある。正常な色覚を持つ人は、黄色いテニスボールを見ればそれを黄色い物体として認識するだろうが、テニスに精通している人だけがそれをテニスボールとして認識するだろう。人が獲得した情報の種類が、物体に割り当てる異なる意味を説明する。

しかし、知覚は客観的な特性だけでなく、過去の経験や期待にも影響を受ける。トップダウン処理とは、知識や信念が知覚に及ぼす影響を指す（Matlin, 2009）。動機づけの状態も重要である。知覚は、人が何を認識したいか、何を認識したいと思っているかに影響される。人はしばしば、期待するものを認識し、期待しないものを認識しない。自分の名前が呼ばれたと思ったのに、別の名前が呼ばれていたことに気づいたことはないだろうか。公共の場所で友人を待ったり、レストランで注文を受け取ったりする際、自分の名前が呼ばれることを期待しているため、名前が聞こえることがある。また、外見が変わったものや、文脈から外れて起こるものを認識しないこともある。ビーチで同僚に会っても、ビーチでの服装を期待していないため、認識できないかもしれない。トップダウン処理は、曖昧な刺激や、ごく短時間だけ記録される刺激（例えば、「目の隅」で発見された刺激）でよく起こる。

知覚の情報処理理論の一つに、テンプレートマッチングがある。これは、人がテンプレート、つまり刺激のミニチュアコピーを長期記憶（LTM）に保存するという考え方である。刺激に遭遇すると、既存のテンプレートと比較し、一致するものが見つかればその刺激を識別する。この見方は魅力的だが、問題もある。人は、環境内のすべての人や物を認識できるようにするために、何百万ものテンプレートを頭の中に持ち歩かなければならないだろう。そのような大量のストックは、脳の能力を超えるだろう。テンプレート理論はまた、刺激のバリエーションを説明するのが苦手である。例えば、椅子にはあらゆるサイズ、形、色、デザインがあり、椅子を知覚するためだけに何百ものテンプレートが必要になるだろう。

テンプレートの問題は、テンプレートにある程度のバリエーションを持たせることができると仮定することで解決できる。プロトタイプ理論はこれに対処する。プロトタイプとは、刺激の基本的な要素を含む抽象的な形式のことである（Matlin, 2009; Rosch, 1973）。プロトタイプは長期記憶（LTM）に保存され、遭遇した刺激と比較され、その後、一致する、または形、匂い、音などで類似するプロトタイプに基づいて識別される。いくつかの研究がプロトタイプの存在を支持している（Franks & Bransford, 1971; Posner & Keele, 1968; Rosch, 1973）。

プロトタイプがテンプレートよりも優れている主な点は、各刺激に無数のバリエーションではなく、1つのプロトタイプしかないことである。したがって、いくつかのテンプレートと比較する必要がないため、刺激の識別が容易になるはずである。プロトタイプに関する懸念の一つは、刺激の許容可能な変動量、つまり、刺激がそのプロトタイプのインスタンスとして識別されるためには、プロトタイプにどれだけ密接に一致する必要があるかということである。

プロトタイプモデルのバリエーションとして、特徴分析がある（Matlin, 2009）。この見方では、刺激の重要な特徴を学び、これらをイメージまたは言語コードとして長期記憶（LTM）に保存する（Markman, 1999）。刺激が感覚レジスターに入ると、その特徴が記憶表現と比較される。十分な特徴が一致すれば、その刺激は識別される。椅子の重要な特徴は、脚、座面、背もたれかもしれない。他の多くの特徴（例えば、色、サイズ）は無関係である。基本的な特徴に対する例外はすべて学習する必要がある（例えば、脚のない観覧席やビーンバッグチェア）。プロトタイプ分析とは異なり、記憶に保存される情報は椅子の抽象的な表現ではなく、その重要な特徴を含む。特徴分析の利点の一つは、各刺激に1つのプロトタイプしかないわけではないことであり、許容可能な変動量に関する懸念に部分的に対処する。特徴分析を支持する経験的な研究がある（Matlin, 2009）。

Treisman (1992) は、物体を知覚することで、その現在の特性に関する情報を収集、統合、修正するオブジェクトファイルに一時的な表現が確立されると提唱した。ファイルの内容は、オブジェクトトークンとして保存されることがある。新たに知覚されたオブジェクトについては、オブジェクトタイプの記憶表現（辞書）にトークンを一致させようとするが、成功する場合としない場合がある。次にオブジェクトが現れるときには、その特徴と構造を指定するオブジェクトトークンを取得する。トークンは、すべての特徴が一致すれば知覚を促進するが、多くが一致しない場合は知覚を損なう可能性がある。

長期記憶（LTM）の比較がどのように行われるかにかかわらず、研究は、知覚がボトムアップ処理とトップダウン処理に依存するという考えを支持している（Anderson, 1980; Matlin, 2009; Resnick, 1985）。例えば、読書では、ボトムアップ処理は特徴を分析し、意味のある表現を構築して刺激を識別する。読書を始めたばかりの人は、文字や新しい単語に遭遇したとき、そしてそれらの発音を試みるときに、通常、ボトムアップ処理を使用する。また、人は、なじみのない刺激（例えば、手書き）を経験するときにも、ボトムアップ処理を使用する。

すべての知覚が特徴を詳細に分析する必要がある場合、読書はゆっくりと進むだろう。トップダウン処理では、個人は文脈に基づいて知覚に関する期待を発達させる。熟練した読者は、読書中に文脈のメンタル表現を構築し、テキスト内の特定の単語やフレーズを期待する（Resnick, 1985）。効果的なトップダウン処理は、広範な事前知識に依存する。