オペラント条件づけ:学習理論と行動変容

序論

よく知られた行動理論の一つに、B. F. (Burrhus Frederic) Skinner (1904–1990) によって定式化されたオペラント条件づけがある。1930年代から、スキナーは動物を用いた実験室研究の結果を報告する一連の論文を発表し、その中でオペラント条件づけの様々な構成要素を特定した。彼はこの初期の研究の多くを、影響力のある著書『有機体の行動』(Skinner, 1938) にまとめた。

スキナーは自身の考えを人間の問題に応用した。キャリアの初期には教育に関心を持ち、ティーチング・マシンやプログラム学習を開発した。『教育の技術』(Skinner, 1968) は、教授、動機づけ、規律、創造性を論じている。1948年、人生の困難な時期を経て、彼は『ウォールデン・ツー』を出版した。この本は、ユートピア社会を創造するために行動原理をいかに応用できるかを記述している。スキナー (1971) は『自由と尊厳を超えて』の中で、現代生活の問題を取り上げ、文化の設計に行動工学を応用することを提唱した。スキナーらは、学校での学習と規律、児童発達、言語習得、社会的行動、精神疾患、医療問題、薬物乱用、職業訓練といった領域にオペラント条件づけの原理を応用してきた (DeGrandpre, 2000; Karoly & Harris, 1986; Morris, 2003)。

青年時代のスキナーは作家を志していた (Skinner, 1970):
私は屋根裏に小さな書斎を作り、仕事に取り掛かった。結果は悲惨なものだった。私は時間を無駄に費やした。目的もなく本を読み、模型船を作り、ピアノを弾き、発明されたばかりのラジオを聴き、地元の新聞のユーモア欄に寄稿したが、それ以外はほとんど何も書かず、精神科医に診てもらおうかと考えた。(p. 6)

彼はパブロフ (1927) の『条件反射』とワトソン (1924) の『行動主義』を読んだ後、心理学に興味を持つようになった。その後の彼の経歴は、学習心理学に深遠な影響を与えた。

「作家として失敗したのは、言うべき重要なことが何もなかったからだ」(Skinner, 1970, p. 7) と認めているにもかかわらず、彼は多作な作家であり、その文学的野心を60年間にわたる科学的執筆活動に注ぎ込んだ (Lattal, 1992)。彼の専門職への献身は、死の8日前にアメリカ心理学会の大会で招待講演を行ったことからも明らかである (Holland, 1992; Skinner, 1990)。同学会は、その月刊誌『American Psychologist』の特集号で彼を称えた (American Psychological Association, 1992)。彼の理論は、高次で複雑な形態の学習を十分に説明できないため、現在の学習理論家によって信憑性が失墜しているが (Bargh & Ferguson, 2000)、オペラント条件づけの原理は学生の学習と行動を促進するために一般的に応用されており、その影響力は続いている (Morris, 2003)。例えば、冒頭のシナリオでは、レオは学生の不適切な行動を制御するためにオペラント条件づけの原理を用いている。一方、エミリーとシェイナは認知的要因の重要性を主張している。

概念的枠組み

本節では、オペラント条件づけの根底にある仮定、それが行動の機能分析をどのように反映しているか、および行動の予測と制御に対する理論の含意について議論する。オペラント条件づけの理論と原則は複雑であり(Dragoi & Staddon, 1999)、人間の学習に最も関連する原則を本章で取り上げる。

科学的仮定

パブロフは学習の場所を神経系に辿り、行動を神経学的機能の発現と見なした。スキナー(1938)は神経学的機能が行動に伴うことを否定しなかったが、行動心理学は神経学的または他の内部事象を参照することなく、それ自体の言葉で理解できると信じていた。

スキナーは、学習に対する現代の認知的見解によって提案された、観察不可能なプロセスや実体に対しても同様の異議を唱えた(Overskeid, 2007)。私的出来事、または内部反応は、個人だけがアクセスでき、人々の言語報告を通じて研究できる。言語報告は行動の形態である(Skinner, 1953)。スキナーは、態度、信念、意見、欲求、その他の自己認識の形態の存在を否定しなかった(結局のところ、彼はそれらを持っていた)。むしろ、それらの役割を限定した。

人々は意識や感情を経験するのではなく、自分の体を経験し、内部反応は内部刺激への反応である(Skinner, 1987)。内部プロセスのさらなる問題は、言語が内部経験の次元(例:痛み)を完全には捉えないため、それらを言語に翻訳することが難しいことである。知ることと呼ばれるものの多くは、言語(言語行動)を使用することを含む。思考は、他の刺激(環境的または私的)によって引き起こされ、反応(明白または潜在的)を生じさせる行動の種類である。私的出来事が明白な行動として表現される場合、機能分析におけるそれらの役割を決定できる。

行動の機能分析

スキナー(1953)は、彼の行動の調査手段を機能分析と呼んだ。
行動の機能である外部変数は、因果的または機能的分析と呼ばれるものを提供する。我々は、個々の生物の行動を予測し、制御することを約束する。これは我々の「従属変数」であり、我々が見つけるべき原因である。我々の「独立変数」であり、行動の原因は、行動の機能である外部条件である。2つの間の関係は、行動における「原因と結果の関係」であり、科学の法則である。定量的な用語で表現されたこれらの法則の統合は、行動するシステムとしての生物の包括的な図を提供する。(p. 35)

学習は「複雑な状況における反応の再分類」であり、条件づけは「強化から生じる行動の強化」を指す(Skinner, 1953, p. 65)。条件づけには、S型とR型の2種類がある。S型はパブロフ型条件づけであり、強化(無条件)刺激と別の(条件)刺激の対形成によって特徴付けられる。Sは、生物からの反応を引き出す際の刺激の重要性に注意を喚起する。誘発刺激に対して行われる反応は、レスポンデント行動として知られている。

S型条件づけは、条件付けられた感情的反応を説明するかもしれないが、ほとんどの人間の行動は、刺激によって自動的に引き出されるのではなく、刺激の存在下で放出される。反応は、先行する刺激ではなく、その結果によって制御される。スキナーが反応の側面を強調するためにR型と呼んだこのタイプの行動は、環境に作用して効果を生み出すため、オペラント行動である。

スキナー(1938, p. 21):
オペラントの発生が強化刺激の提示によって続く場合、強度は増加する。…条件づけによってすでに強化されているオペラントの発生が強化刺激によって続かない場合、強度は減少する。

オペラント行動は「やって学ぶ」と考えることができ、実際、多くの学習は行動を実行するときに起こる(Lesgold, 2001)。条件づけ前に発生しないレスポンデント行動とは異なり、オペラントの発生の確率は、強化が提供されるために反応が行われなければならないため、決してゼロではない。強化は、反応の可能性または発生率を変化させる。オペラント行動は環境に作用し、強化のために発生する可能性が高くなるか低くなる。

基本的なプロセス

このセクションでは、オペラント条件付けにおける基本的なプロセス、すなわち、強化、消去、一次および二次強化子、プレマックの原理、罰、強化スケジュール、般化、および弁別について検討します。

強化

強化は、反応の強化、すなわち、反応率の増加、または反応が起こりやすくなることに責任があります。強化子(または強化刺激)とは、反応に続いて反応の強化につながるあらゆる刺激またはイベントです。強化子(報酬)は、意識、意図、目標などの精神的なプロセスに依存しない、その効果に基づいて定義されます(Schultz, 2006)。強化子はその効果によって定義されるため、事前に決定することはできません。

スキナー(1953, pp. 72–73):
特定の条件下の特定の生物にとって、特定のイベントが強化的であるかどうかを知る唯一の方法は、直接的なテストを行うことです。選択された反応の頻度を観察し、次にイベントをそれに依存させ、頻度の変化を観察します。変化がある場合、イベントを既存の条件下で生物にとって強化的であると分類します。

強化子は状況に特異的です。特定の条件下で特定の個人に適用されます。読書中の特定の学生にとって強化的なものは、数学中、または後日の読書中にはそうではないかもしれません。この特異性にもかかわらず、行動を強化する刺激またはイベントは、ある程度予測できます(Skinner, 1953)。学生は通常、教師の称賛、自由時間、特権、ステッカー、および高成績などのイベントを強化的であると認識します。それにもかかわらず、結果が反応の後に提示され、行動が変化するかどうかを確認するまで、結果が強化的であるかどうかを確実に知ることはできません。

条件付けの基本的なオペラントモデルは、3項随伴性です:

弁別刺激 は、反応(R)が放出されるきっかけとなり、その後に強化刺激( 、または強化)が続きます。強化刺激は、弁別刺激が存在する場合に、将来反応が放出される確率を高めるあらゆる刺激(イベント、結果)です。より馴染みのある言葉で言えば、これをA-B-Cモデルと呼ぶことができます:

正の強化とは、反応に続いて刺激を提示するか、状況に何かを追加することで、その状況でその反応が将来発生する可能性を高めることです。正の強化子とは、反応に続いて提示された場合に、その状況でその反応が将来発生する可能性を高める刺激です。冒頭のシナリオでは、レオは良い行動に対する正の強化子としてポイントを使用しています。

'T'は教師、'L'は学習者を指します:

強化と罰のプロセス。
弁別刺激 反応 強化(罰)刺激
正の強化(正の強化子を提示) - -
'T': 自習時間を与える 'L': 学習する 'T': 'L'の良い働きを褒める
負の強化(負の強化子を取り除く) - -
'T': 自習時間を与える 'L': 学習する 'T': 'L': 宿題をする必要はないと言う
罰(負の強化子を提示) - -
'T': 自習時間を与える 'L': 時間を無駄にする 'T': 宿題を出す
罰(正の強化子を取り除く) - -
'T': 自習時間を与える 'L': 時間を無駄にする 'T': 'L': 自由時間を逃すと言う

負の強化とは、反応に続いて刺激を取り除くか、状況から何かを取り除くことで、その状況でその反応が将来発生する可能性を高めることです。負の強化子とは、反応によって取り除かれた場合に、その状況でその反応が将来発生する可能性を高める刺激です。負の強化子として機能することが多い刺激には、明るい光、騒音、批判、迷惑な人々、および低い成績などがあります。なぜなら、それらを取り除く行動は強化的になる傾向があるからです。正の強化と負の強化は同じ効果があります。それは、刺激が存在する場合に、将来反応が起こる可能性を高めます。

これらのプロセスを説明するために、教師がクラスで質疑応答セッションを開催していると仮定します。教師が質問( またはA)をし、正しい答えをするボランティアの学生を指名(RまたはB)し、学生を褒めます( またはC)。この学生によるボランティア活動が増加するか、高いレベルを維持する場合、称賛は正の強化子であり、これは称賛を与えることでボランティア活動が増加したため、正の強化の一例です。次に、学生が正解した後、教師がその学生に宿題をする必要はないと伝えると仮定します。この学生によるボランティア活動が増加するか、高いレベルを維持する場合、宿題は負の強化子であり、これは宿題を取り除くことでボランティア活動が増加したため、負の強化の一例です。

正の強化と負の強化

教師は正の強化と負の強化を使用して、学生にスキルを習得させ、タスクに費やす時間を増やすように動機付けることができます。たとえば、理科の単元で概念を教える際に、教師は学生に章末の質問を完了するように求めるかもしれません。教師はまた、レッスンに関連する実践的な実験を含むアクティビティセンターを部屋の周りに設置するかもしれません。学生は、章の質問に正しく答えることを条件に実験に参加します(正の強化)。この随伴性は、価値の低い活動(章の質問を完了する)を強化するための、より価値の高い活動(実験)に参加する機会を提供するというプレマックの原理を反映しています。質問の80%を正しく完了し、少なくとも2つの実験に参加する学生は、宿題を完了する必要はありません。これは、学生が宿題を負の強化子と認識する限り、負の強化として機能します。

教室での行動改善に取り組んでいる中学校のカウンセラーは、学生の各教師に、その日の授業行動に関連して「はい」または「いいえ」(許容できる、許容できない)をチェックしてもらうことができます。 「はい」の場合、学生はコンピューターラボで1分間、コンピューターゲームをプレイできます(この学生にとって正の強化)。週末には、学生は昼食後に獲得したコンピューター時間を使用できます。さらに、学生がラボで最低15分獲得した場合、保護者が署名する行動記録を家に持ち帰る必要はありません(これは、学生が行動記録を負の強化子と認識することを前提としています)。

消去

消去とは、非強化による反応強度の低下を意味します。授業中に手を挙げるものの、決して指名されない学生は、手を挙げるのを止めるかもしれません。同じ人に多くの電子メールメッセージを送信するものの、決して返信を受け取らない人は、最終的にその人にメッセージを送信するのを止めるかもしれません。

消去がどれだけ早く起こるかは、強化の歴史に依存します(Skinner, 1953)。先行する反応がほとんど強化されていない場合、消去は迅速に起こります。反応は、より長い強化の歴史があれば、はるかに耐久性があります。消去は忘却と同じではありません。消去された反応は実行できますが、強化がないために実行されません。上記の例では、学生は依然として手を挙げる方法を知っており、人々は依然として電子メールメッセージを送信する方法を知っています。忘却とは、反応する機会がなかった時間の経過とともに、条件付けが真に失われることを意味します。

一次および二次強化子

食料、水、避難所などの刺激は、生存に必要なため、一次強化子と呼ばれます。二次強化子とは、一次強化子との関連付けを通じて条件付けされる刺激です。子供のお気に入りのミルクグラスは、ミルク(一次強化子)との関連付けを通じて二次的に強化されます。複数の一次強化子とペアになる二次強化子は、一般化された強化子です。人々は、多くの強化子(食料、住宅、テレビ、休暇など)を購入するために、お金(一般化された強化子)を稼ぐために長時間働きます。

オペラント条件付けは、一般化された強化子による多くの社会的行動の発達と維持を説明します。子供たちは、大人の注意を引くように行動するかもしれません。注意は、大人からの一次強化子(食料、水、保護など)とペアになっているため、強化的です。重要な教育的一般化された強化子には、教師の称賛、高成績、特権、栄誉、および学位があります。これらの強化子は、承認(親や友人からの)やお金(大学の学位は良い仕事につながる)など、他の一般化された強化子とペアになることがよくあります。

プレマックの原理

行動の結果を強化としてラベル付けするのは、それを適用して、将来の行動にどのような影響を与えるかを確認した後であることを思い出してください。結果が強化子として機能するかどうかを事前に確実に知ることができないため、強化子を選択する際に、常識や試行錯誤を使用する必要があるのは、やや厄介です。

プレマック(1962, 1971)は、強化子を予測できる強化子を順序付けるための手段を説明しました。プレマックの原理は、より価値のある活動に参加する機会は、より価値の低い活動に参加することを強化すると述べています。「価値」は、強化がない場合の活動に費やす反応または時間の量で定義されます。2番目(偶発的)のイベントの値が1番目(道具的)のイベントの値よりも高いように偶発性が配置されている場合、1番目のイベントの発生確率の増加が予想されます(報酬の仮定)。2番目のイベントの値が1番目のイベントの値よりも低い場合、1番目のイベントの発生の可能性は低下するはずです(罰の仮定)。

子供が、アートプロジェクトに取り組む、メディアセンターに行く、教室で本を読む、またはコンピューターで作業するのいずれかを選択できると仮定します。そのような選択肢を10回行った場合、子供はメディアセンターに6回行き、コンピューターで3回作業し、アートプロジェクトに1回取り組み、教室で本を読むことはありません。この子供にとって、メディアセンターに行く機会は最も価値があります。プレマックの原理を適用するために、教師は子供に、「この本を読み終えたら、メディアセンターに行くことができます」と言うかもしれません。かなりの経験的証拠がプレマックのアイデア、特に報酬の仮定を支持しています(Dunham, 1977)。

プレマックの原理は、効果的な強化子を選択するためのガイダンスを提供します。人々が選択肢を持っているときに何をするかを観察し、それらの行動を可能性の観点から順序付けます。強化子の価値は変化する可能性があるため、順序は永続的ではありません。強化子は、頻繁に適用すると、飽和状態になり、反応が低下する可能性があります。プレマックの原理を採用する教師は、学生を観察したり、何をするのが好きかを尋ねたりして、学生の好みを定期的に確認する必要があります。行動変化のプログラムを計画する際には、どの強化子が状況で効果的である可能性が高いかを事前に判断することが重要です(Timberlake & Farmer-Dougan, 1991)。

罰は、刺激への反応の将来の可能性を低下させます。罰には、表「強化と罰のプロセス」に示すように、反応に続いて正の強化子を取り下げたり、負の強化子を提示したりすることが含まれる場合があります。質疑応答セッション中に、学生が教師が見ていないときに繰り返し別の学生を困らせると仮定します(教師が見ていない またはA、不正行為= RまたはB)。教師は不正行為を見つけて、「彼を困らせるのはやめなさい」と言います( またはC)。学生が他の学生を困らせるのをやめた場合、教師の批判は負の強化子として機能し、これは批判を与えることで不正行為が減少したため、罰の一例です。ただし、教師の視点からすると、これは負の強化の一例であることに注意してください(不正行為= またはA; 批判= RまたはB; 不正行為の終了= またはC)。教師は負に強化されているため、教師は学生の不正行為を批判し続ける可能性があります。

学生を批判する代わりに、教師が「今日は休憩時間に中にいなければなりません」と言うと仮定します。学生の不正行為が止まった場合、休憩時間は正の強化子として機能し、これは休憩時間の喪失が不正行為を止めるため、罰の一例です。以前と同様に、学生の不正行為の停止は教師にとって負に強化されます。

罰は反応を抑制しますが、排除しません。罰の脅威が取り除かれると、罰せられた反応が戻る可能性があります。罰の効果は複雑です。罰は、罰せられた行動と両立せず、それを抑制するのに十分なほど強い反応を引き起こすことがよくあります(Skinner, 1953)。不正行為をした子供を叩くと、罪悪感と恐怖が生じ、それが不正行為を抑制する可能性があります。子供が将来不正行為をした場合、条件付けられた罪悪感と恐怖が再発し、子供はすぐに不正行為をやめる可能性があります。罰はまた、罰から逃れたり、避けたりする反応を条件付けします。教師が間違った答えを批判する学生は、すぐに答えをボランティアすることを避けることを学びます。罰は、より生産的な行動をとる方法を教えないため、不適応行動を条件付けすることができます。罰はさらに、個人がどちらかの方法で反応するのをためらうような対立を生み出すことで、学習を妨げる可能性があります。教師が間違った答えに対して学生を批判したり、しなかったりする場合、学生は批判がいつ来るかを知りません。そのような変動的な行動は、学習を妨げる感情的な副産物(恐怖、怒り、泣き)を引き起こす可能性があります。

罰は、混乱に対処するために学校でよく使用されます。一般的な罰は、特権の喪失、教室からの退去、在校および停学、および退学です(Maag, 2001)。しかし、罰にはいくつかの代替手段があります。1つは、否定的な行動の弁別刺激を変えることです。たとえば、部屋の後ろの席に座っている学生は、不正行為をすることがよくあります。教師は、混乱した学生をクラスの前に移動させることで、弁別刺激を変えることができます。もう1つの代替手段は、加害者が飽和するまで、望ましくない行動を継続させることです。これは、ガスリーの疲労法に似ています。親は、癇癪を起こしている子供が疲れるまで、それを続けさせるかもしれません。3番目の代替手段は、望ましくない行動を無視することによって消滅させることです。これは、軽微な不正行為(学生がお互いにささやくなど)にはうまくいくかもしれませんが、教室が混乱した場合は、教師は他の方法で行動する必要があります。4番目の代替手段は、互換性のない行動を正の強化で条件付けることです。生産的な作業習慣に対する教師の称賛は、それらの習慣を条件付けるのに役立ちます。罰に対するこの代替手段の主な利点は、学生に適応的に行動する方法を示すことです。

罰の代替手段。
代替手段
弁別刺激を変える 不正行為をしている学生を、他の不正行為をしている学生から遠ざける。
望ましくない行動を継続させる 座るべきときに立っている学生は、立ち続ける。
望ましくない行動を消滅させる 教師の注意によって強化されないように、軽微な不正行為を無視する。
互換性のない行動を条件付ける 学生が不正行為をしていない場合にのみ発生する学習の進歩を強化する。

強化スケジュール

スケジュールとは、強化がいつ適用されるかを指します(Ferster & Skinner, 1957; Skinner, 1938; Zeiler, 1977)。継続的なスケジュールには、すべての正しい反応に対する強化が含まれます。これは、スキルが習得されている間は望ましいかもしれません。学生は、自分の作業の正確さに関するフィードバックを各反応の後に受け取ります。継続的な強化は、間違った反応が学習されないようにするのに役立ちます。

断続的なスケジュールには、すべての正しい反応を強化するわけではないことが含まれます。教室では断続的な強化が一般的です。なぜなら、教師がすべての学生のすべての正しい反応または望ましい反応を強化することは通常不可能だからです。学生は、手を挙げるたびに指名されるわけではなく、各問題を解決した後で褒められるわけでもなく、適切に行動していることを常に言われるわけでもありません。

断続的なスケジュールは、時間または反応の数で定義されます。インターバルスケジュールには、特定の時間間隔後の最初の正しい反応を強化することが含まれます。固定インターバル(FI)スケジュールでは、時間間隔は1つの強化から次の強化まで一定です。FI5スケジュールとは、5分後に最初の反応に対して強化が与えられることを意味します。毎週金曜日に30分の自由時間を受け取る(その週の良好な行動を条件とする)学生は、固定インターバルスケジュールで作業しています。変動インターバル(VI)スケジュールでは、時間間隔はいくつかの平均値を中心に、機会ごとに異なります。VI5スケジュールとは、平均して5分後の最初の正しい反応が強化されることを意味しますが、時間間隔は異なります(たとえば、2、3、7、または8分)。平均して週に1回(ただし、必ずしも毎週同じ日ではありません)30分の自由時間を受け取る(良好な行動を条件とする)学生は、変動インターバルスケジュールで作業しています。

レシオスケジュールは、正しい反応の数または反応率に依存します。固定レシオ(FR)スケジュールでは、n番目の正しい反応ごとに強化が与えられます。ここで、nは定数です。FR10スケジュールとは、10番目の正しい反応ごとに強化が与えられることを意味します。変動レシオ(VR)スケジュールでは、n番目の正しい反応ごとに強化が与えられますが、値は平均数nを中心に変化します。教師は、5番目のワークブックの割り当てが完了するたびに(FR5)、または平均して5つの完了した割り当てを中心に定期的に(VR5)、自由時間を与える場合があります。

強化スケジュールは、特徴的な反応パターンを生み出します。一般に、レシオスケジュールはインターバルスケジュールよりも高い反応率を生み出します。レシオスケジュールの制限要因は、急速な反応による疲労です。固定インターバルスケジュールは、スカラップパターンを生み出します。反応は強化直後に低下しますが、強化間のインターバルの終わりに向かって増加します。変動インターバルスケジュールは、安定した反応率を生み出します。予告なしのクイズは変動インターバルスケジュールで動作し、通常、学生が定期的に学習するように促します。断続的なスケジュールは、継続的なスケジュールよりも消滅に耐性があります。強化が中止された場合、強化が継続的ではなく断続的であった場合、反応はより長く続きます。断続的なスケジュールの耐久性は、人々がスロットマシンのプレイ、釣り、バーゲン品の買い物などのイベントに固執していることからもわかります。

般化

特定の刺激に対して特定の反応が定期的に発生すると、その反応は他の刺激に対しても発生する可能性があります。これは般化と呼ばれます(Skinner, 1953)。反応は強化されたことのない状況で行われるべきではないため、般化はオペラント理論にとって厄介なようです。スキナーは、人々が最終的な(強化された)反応につながる多くの行動を実行していることに注目して、般化を説明しました。これらのコンポーネントの行動は、多くの場合、さまざまなタスクの行動チェーンの一部であり、したがって、異なるコンテキストで強化されます。人々が新しい状況にいる場合、コンポーネントの行動を実行する可能性が高く、これにより、正確な反応が生成されたり、正しい反応の迅速な習得につながったりします。

たとえば、優れた学習習慣を持つ学生は通常、クラスに来て、活動に参加し、メモを取り、必要な読書をし、課題をこなします。これらのコンポーネントの行動は、高い成果と成績を生み出します。そのような学生が新しいクラスを開始する場合、コンテンツが以前に登録したクラスと類似している必要はありません。むしろ、コンポーネントの行動は繰り返し強化されており、したがって、新しい設定に般化される可能性が高くなります。

ただし、般化は自動的に行われるわけではありません。オレアリーとドラブマン(1971)は、般化は「他の行動変化と同様にプログラムする必要がある」(p. 393)と述べています。多くの行動修正プログラムの問題点の1つは、行動を変化させるものの、新しい行動がトレーニングのコンテキスト外に般化されないことです。オレアリーとドラブマン(1971)は、般化を促進する方法について提案しています。

弁別

弁別とは、般化の相補的なプロセスであり、刺激または状況の特徴に応じて、異なって(強度または割合で)反応することを含みます(Rilling, 1977)。教師は、学生が学習したことを他の状況に般化することを望んでいますが、同時に、学生が弁別的に反応することも望んでいます。数学の文章問題を解く際に、教師は学生に、与えられた情報と必要な情報を特定する、絵を描く、有用な公式を生成するなどのステップを含む、一般的な問題解決アプローチを採用することを望むかもしれません。教師はまた、学生に問題の種類(面積、時間-速度-距離、利率など)を弁別することを学ばせたいと考えています。問題の種類をすばやく特定できることは、学生の成功を高めます。

般化

般化は、教科領域全体のスキル開発を促進できます。主なアイデアを見つけることは、国語、社会科、数学(文章問題)、およびその他の内容領域に関連しています。国語の教師は、学生に主なアイデアを見つけるための戦略を提供する場合があります。学生がこの戦略を習得したら、教師は他の教科での使用法を修正する方法を説明し、学生に用途を考えるように求めます。1つの領域で戦略をうまく教え、他の領域での潜在的な応用を促進することで、教師は各内容領域で戦略を教える必要がないため、時間と労力を大幅に節約できます。

期待される行動(廊下を歩く、発言するために手を挙げるなど)を教えることも般化できます。たとえば、7年生のすべての教師が、用紙の見出しに同じ形式を使用することにした場合、それは1つのクラスで説明できます。次に、学生は他の各クラスで同じ形式(わずかな変更を加えて)を使用するように求められる場合があります。

般化を促進するための提案。
名前 目的
親の関与 行動変化プログラムに親を関与させる。
高い期待 学生に、自分はうまくできる能力があることを伝える。
自己評価 学生に自分の行動を監視および評価するように教える。
偶発性 人工的な偶発性(ポイントなど)を取り下げ、自然な偶発性(特権)に置き換える。
参加 学生に、強化される行動と強化の偶発性を特定することに参加させる。
学業 多くの行動問題のある学生は学業が不十分であるため、優れた学業プログラムを提供する。
メリット 行動の変化を興味のある活動に関連付けることで、行動の変化がどのように学生にメリットをもたらすかを示す。
強化 強化された状況と強化されていない状況の区別を減らすために、さまざまな設定で学生を強化する。
一貫性 通常のプログラムにメインストリーム化された後、特別なクラスの学生の行動を形成し続けるために、通常のクラスの教師を準備する。

スペンス(1936)は、弁別を教えるために、望ましい反応を強化し、望ましくない反応を非強化によって消滅させる必要があると提案しました。学校では、教師は類似したコンテンツ間の類似点と相違点を指摘し、学生が適切に弁別し、正しい問題解決方法を適用できるように定期的なレビューを提供します。

一般に、エラーは破壊的であり、誤った反応の学習を生み出すと考えられています。これは、学生のエラーを最小限に抑える必要があることを示唆しています。すべてのエラーを排除する必要があるかどうかは議論の余地があります。動機付けの研究では、適応的な方法でエラーに対処することを学んだ学生は、エラーのない学習を経験した学生よりも、その後、困難なタスクに長く取り組みます(Dweck, 1975)。

行動変容

強化は、人々が何をすべきかを知っている場合にのみ、正しい反応に対して与えることができます。しかし、オペラント反応は、最終的で洗練された形では存在しないことがよくあります。教師が学習者が適切な反応を示すまで強化を与えるのを待っていると、多くの学習者は反応を獲得することがないため、強化を受けることはありません。ここでは、オペラント条件付けで行動変容がどのように起こるかについて議論します。これは、学習にとって重要な意味を持ちます。

シェイピング

行動変容の基本的なオペラント条件付けの方法は、シェイピング、つまり、望ましい行動の形または頻度への連続的接近の差次的強化です(Morse & Kelleher, 1977)。行動をシェイプするには、次の手順に従います。

  • 生徒が現在できることを特定する(初期行動)
  • 望ましい行動を特定する
  • 生徒の環境における潜在的な強化子を特定する
  • 望ましい行動を、順番に習得する小さなサブステップに分割する
  • 初期行動から望ましい行動に、望ましい行動への各近似を連続的に強化することによって、生徒を移動させる

シェイピングは、修正的なフィードバックを受けながら行う学習です。シェイピングの自然な例は、生徒がコートのある地点からバスケットボールをシュートしようとする場合に見られます。最初のシュートはバスケットに届きません。生徒は2回目に強くシュートし、ボールはバックボードに当たります。生徒は3回目にそれほど強くシュートせず、ボールは右のリムに当たり、跳ね返ります。4回目の試みで、生徒は3回目と同じくらい強くシュートしますが、左を狙います。ボールは左のリムに当たり、跳ね返ります。最後に、生徒は同じくらい強くシュートしますが、わずかに右を狙い、ボールはバスケットに入ります。徐々に、シュートは正確な形に磨かれました。

シェイピングは、集中力が散漫になる前に数分しかタスクに取り組むことができない多動性の生徒に体系的に適用される可能性があります。目標は、生徒が30分間中断なしで作業できるように、生徒の行動をシェイプすることです。最初に、教師は生徒が2分間生産的に作業すると、強化子を与えます。数回の成功した2分間隔の後、強化の基準は3分に引き上げられます。生徒が数回3分間中断なしで作業すると仮定すると、基準は4分に引き上げられます。このプロセスは、生徒が基準レベルで確実に実行する限り、30分の目標まで続きます。生徒が途中で困難に遭遇した場合、強化の基準は、生徒が正常に実行できるレベルまで低下します。

シェイプされる可能性のある学術スキルは、生徒に6の九九を教えることです。現在、彼は しか知りません。強化を得るには、彼はこれら2つに加えて を正しく暗唱する必要があります。彼がこれを確実に実行できるようになった後、強化の基準は を含めるように引き上げられます。このプロセスは、彼が までのすべての事実を正確に暗唱するまで続きます。

チェイニング

ほとんどの人間の行動は複雑であり、いくつかの3項偶発性(A–B–C)が連続的にリンクされています。たとえば、バスケットボールをシュートするには、ドリブル、方向転換、位置決め、ジャンプ、ボールのリリースが必要です。各反応は環境を変化させ、この変化した状態が次の反応の刺激として機能します。チェイニングとは、将来の反応の刺激として機能する変数のいくつかを作成または変更するプロセスです(Skinner, 1953)。チェーンは一連のオペラントで構成され、それぞれがさらなる反応の機会を設定します。

チェーンはGuthrieの行動に似ていますが、個々の3項偶発性は動きに似ています。一部のチェーンは機能的な統一性を獲得します。チェーンは統合されたシーケンスであり、その正常な実装はスキルを定義します。スキルが十分に磨かれると、チェーンの実行は自動的に行われます。自転車に乗ることはいくつかの個別の行動で構成されていますが、熟練したライダーはほとんどまたはまったく意識せずにこれらを実行します。このような自動性は、認知スキル(例:読書、数学の問題を解く)によく見られます。チェイニングは、スキルの習得において重要な役割を果たします(Gollub, 1977; Skinner, 1978)。

行動変容法

行動修正(または行動療法)とは、適応行動を促進するために、行動学習の原理を体系的に応用することを指します(Ullmann & Krasner, 1965)。行動修正は、教室、カウンセリングの場、刑務所、精神病院など、多様な状況において、大人と子供に対して用いられてきました。恐怖症、機能不全の言語、破壊的行動、否定的な社会的相互作用、不適切な子育て、低い自己制御の治療に使用されています(Ayllon & Azrin, 1968; Becker, 1971; Keller & Ribes-Inesta, 1974; Ulrich, Stachnik, & Mabry, 1966)。Lovaas (1977)は、自閉症の子供たちに言語を教えるために、行動修正を успешно успешностьに用いпользовался。

行動変容法

破壊的な生徒に対する行動修正は、そのような生徒が肯定的に強化されるべき適切な反応をほとんど示さない可能性があるため、困難です。教師は、特定の迷惑な行動に対処するためにシェーピングを使用するかもしれません。キャシー・ストーンは、エリックという生徒に問題を抱えています。エリックは、クラスが建物内のどこかへ行くために並ぶ際に、他の生徒を постоянно押したり押しのけたりします。クラスが短い距離しか移動しない場合、ストーン先生はエリックに、押したり押しのけたりせずに列に並んでいれば、教室に戻る際に列の先頭に立てることを伝えられます。ただし、押したり押しのけたりした場合は、すぐに列から外されます。この手順は、エリックが短い距離をこなせるようになるまで繰り返すことができます。その後、ストーン先生は、彼がどのような距離でもきちんと列に並べるようになるまで、徐々にクラスと一緒に歩く距離を長くすることができます。

キャシー・ストーン先生のクラスの別の生徒、サラは、頻繁に汚い работыを提出します。ストーン先生は、サラを支援するために、特別なステッカー(様々な特典と交換可能)のような一般化された強化子を使用するかもしれません。サラの提出する работыは обычно汚れていたり、破れていたり、ほとんど読めなかったりします。サラは、清潔な работыを提出すればステッカーを1枚もらえ、破れていなければ別のステッカー、そして文字がきれいであれば3枚目のステッカーをもらえると伝えられます。サラが改善し始めると、ストーン先生は徐々に報酬を改善すべき他の領域(例えば、正しい работы、時間内に работыを終えること)に移すことができます。

技法

行動修正の基本的なテクニックには、望ましい行動の強化と、望ましくない行動の消去が含まれます。罰はめったに使用されませんが、使用される場合、 отрицательный強化子を提示するよりも、正の強化子を取り除くことがより一般的です。

変更のプログラムを決定する際に、行動修正者は通常、次の3つの問題に焦点を当てます(Ullmann & Krasner, 1965)。

  • 個人の行動のうち、どれが不適応であり、どれを増加(減少)させるべきか?
  • 現在、個人の行動をサポートしている環境的偶発性は何であるか(望ましくない行動を維持するため、またはより適応的な反応を実行する可能性を減らすため)?
  • 個人の行動を変えるために、どのような環境的特徴を変更できるか?

変更は、修正者とクライアントが変更が必要であることに同意し、望ましい目標を共同で決定した場合に最も可能性が高くなります。プログラムを確立する最初のステップは、問題を行動的な用語で定義することです。たとえば、「キースは часто席を立ちすぎる」というステートメントは、測定可能な明白な行動を指します。キースが席を立っている時間を記録することができます。観察できないものを指す一般的な表現(「キースは悪い態度を持っている」)は、客観的な問題定義を可能にしません。

次のステップは、望ましくない行動を維持している強化子を特定することです。おそらく、キースは席を立っているときだけに教師の注意を引き、席に座っているときはそうではありません。簡単な計画は、教師がキースが席に座って学業に熱心に取り組んでいるときは注意を払い、席を立っているときは無視することです。キースが席を立つ回数が減った場合、教師の注意は正の強化子となります。

行動修正プログラムでは、生徒が有形の報酬、自由時間、または特権などのバックアップ強化子と交換するポイントのような一般化された強化子を使用するかもしれません。複数のバックアップを用意することで、少なくとも1つが常に各生徒に効果的であることが保証されます。強化を得るためには、行動基準を確立する必要があります。(前に説明した)5段階のシェーピング手順を使用できます。基準は最初に初期行動のレベルで定義され、望ましい行動に向かって небольшими増加量で進行します。生徒が基準を満たすたびにポイントが与えられます。キースによる望ましくない行動を消去するために、教師は彼が席を立った場合にあまり注意を払うべきではなく、むしろ彼が基準を満たしていないため、ポイントを獲得できないことを個人的に通知する必要があります。

罰はめったに使用されませんが、行動が無視できないほど破壊的になった場合(例:喧嘩)に必要になる場合があります。一般的な罰はタイムアウト(強化からの休憩)です。タイムアウト中、生徒はクラスの社会的コンテキストから削除されます。そこで、生徒は仲間の社会的交流や強化を獲得する機会なしに、学業に取り組み続けます。別の罰は、不正行為に対する正の強化子(例:自由時間、休憩時間、特権)を取り除くことです。

批評家は、行動修正は静かで従順な行動を形成すると主張しています(Winett & Winkler, 1972)。学習が起こることを保証するためにはある程度の静けさが必要ですが、一部の教師は、社会的交流からの騒音が学習を促進するであろう場合でも、常に静かな教室を求めます。行動修正の使用は、本質的に良いことも悪いこともありません。それは静かな教室を作り出すことも、引きこもった子供たちによる社会的開始を促進することもできます(Strain, Kerr, & Ragland, 1981)。テクニック自体と同様に、行動修正の目標は、 процедураを実装する人々によって慎重に検討する必要があります。

Cognitive Behavior Modification

研究者はまた、認知要素を行動修正 процедураに組み込んできました。認知行動修正では、学習者の思考(言語化された場合)は弁別的および強化的な刺激として機能します。したがって、学習者は何をするかを口頭で自分自身に指示し、適切な行動を実行するかもしれません。認知行動修正テクニックは часто障害のある生徒に適用され(Hallahan, Kneedler, & Lloyd, 1983)、多動性や攻撃性を減らすために使用されます(Robinson, Smith, Miller, & Brownell, 1999)。Meichenbaumの(1977)自己教示トレーニングは、認知行動修正の一例です。

自己調整

オペラント条件づけは、自己調整にも対応しています(Mace, Belfiore, & Hutchinson, 2001; Mace, Belfiore, & Shea, 1989)。この視点は第9章で詳しく説明されています。オペラント理論では、自己調整された行動は、代替的な行動方針の中から選択すること(Brigham, 1982)を含み、通常は、異なる、そして通常はより大きな将来の強化因子のために、即時の強化因子を延期することを含みます。たとえば、トリシャは金曜日の夜に友達と出かける代わりに試験勉強のために家にいて、カイルは近くでからかう同僚がいるにもかかわらず、学業課題に取り組み続けます。彼らは、次の例のジョンと同様に、予想される将来の強化のために即時の強化を延期しています。

ジョンは勉強に苦労しています。良い意図にもかかわらず、彼は十分な時間を勉強に費やさず、気が散りやすいのです。彼の行動を変える鍵は、勉強のための弁別刺激(手がかり)を確立することです。ハイスクールのカウンセラーの助けを借りて、ジョンは勉強のための明確な時間と場所(午後7時から午後9時まで自分の部屋で10分間の休憩を挟む)を確立します。気を散らす手がかりを排除するために、ジョンはこの期間中、携帯電話、CDプレーヤー、コンピューター、またはテレビを使用しないことに同意します。強化のために、ジョンはルーチンをうまく達成した夜ごとに1ポイントを自分に与えます。彼が10ポイントを獲得すると、彼は夜に休みを取ることができます。

オペラント条件づけの観点から、人はどの行動を調整するかを決定し、それらの発生に対する弁別刺激を確立し、標準と一致するかどうかという観点からパフォーマンスを評価し、強化を与えます。説明したように、3つの主要なサブプロセスは、自己モニタリング(自分の行動の選択された側面への意図的な注意)、自己指示( s 自己調整の機会を設定します 、につながります 、および自己強化(正しい反応を実行したことに対する自分自身の強化)です。