Conditionnement Opérant: Principes, Applications et Modification du Comportement

Introduction

Une théorie comportementale bien connue est le conditionnement opérant, formulée par B. F. (Burrhus Frederic) Skinner (1904–1990). À partir des années 1930, Skinner a publié une série d'articles rapportant les résultats d'études de laboratoire menées sur des animaux, dans lesquels il a identifié les différentes composantes du conditionnement opérant. Il a résumé une grande partie de ce travail initial dans son livre influent, The Behavior of Organisms (Skinner, 1938).

Skinner a appliqué ses idées aux problèmes humains. Au début de sa carrière, il s'est intéressé à l'éducation et a développé des machines à enseigner et un enseignement programmé. The Technology of Teaching (Skinner, 1968) aborde l'instruction, la motivation, la discipline et la créativité. En 1948, après une période difficile de sa vie, il publie Walden Two, qui décrit comment les principes comportementaux peuvent être appliqués pour créer une société utopique. Skinner (1971) a abordé les problèmes de la vie moderne et a préconisé l'application d'une technologie comportementale à la conception des cultures dans Beyond Freedom and Dignity. Skinner et d'autres ont appliqué les principes du conditionnement opérant à des domaines tels que l'apprentissage et la discipline scolaires, le développement de l'enfant, l'acquisition du langage, les comportements sociaux, les maladies mentales, les problèmes médicaux, la toxicomanie et la formation professionnelle (DeGrandpre, 2000 ; Karoly & Harris, 1986 ; Morris, 2003).

Quand il était jeune homme, Skinner aspirait à devenir écrivain (Skinner, 1970) :
J'ai construit un petit bureau dans le grenier et je me suis mis au travail. Les résultats ont été désastreux. J'ai gaspillé mon temps. J'ai lu sans but, j'ai construit des maquettes de bateaux, j'ai joué du piano, j'ai écouté la radio nouvellement inventée, j'ai contribué à la chronique humoristique d'un journal local, mais je n'ai presque rien écrit d'autre et j'ai pensé à consulter un psychiatre. (p. 6)

Il s'est intéressé à la psychologie après avoir lu les Conditioned Reflexes de Pavlov (1927) et le Behaviorism de Watson (1924). Sa carrière ultérieure a eu un impact profond sur la psychologie de l'apprentissage.

Malgré son aveu que “j'avais échoué en tant qu'écrivain parce que je n'avais rien d'important à dire” (Skinner, 1970, p. 7), il était un écrivain prolifique qui a canalisé ses aspirations littéraires dans une écriture scientifique qui a duré six décennies (Lattal, 1992). Son dévouement à sa profession est évident dans le fait qu'il a prononcé un discours invité à la convention de l'American Psychological Association huit jours avant sa mort (Holland, 1992 ; Skinner, 1990). L'association l'a honoré avec un numéro spécial de son journal mensuel, American Psychologist (American Psychological Association, 1992). Bien que sa théorie ait été discréditée par les théoriciens de l'apprentissage actuels parce qu'elle ne peut pas expliquer adéquatement les formes d'apprentissage d'ordre supérieur et complexes (Bargh & Ferguson, 2000), son influence se poursuit car les principes du conditionnement opérant sont couramment appliqués pour améliorer l'apprentissage et le comportement des élèves (Morris, 2003). Dans le scénario d'ouverture, par exemple, Leo emploie les principes du conditionnement opérant pour contrôler l'inconduite des élèves. Emily et Shayna, en revanche, plaident pour l'importance des facteurs cognitifs.

Cadre conceptuel

Cette section examine les hypothèses sous-jacentes au conditionnement opérant, la manière dont il reflète une analyse fonctionnelle du comportement et les implications de la théorie pour la prédiction et le contrôle du comportement. La théorie et les principes du conditionnement opérant sont complexes (Dragoi & Staddon, 1999) ; les principes les plus pertinents pour l’apprentissage humain sont abordés dans ce chapitre.

Hypothèses scientifiques

Pavlov a situé le lieu de l’apprentissage dans le système nerveux et a considéré le comportement comme une manifestation du fonctionnement neurologique. Skinner (1938) n’a pas nié que le fonctionnement neurologique accompagne le comportement, mais il pensait qu’une psychologie du comportement peut être comprise en ses propres termes sans référence à des événements neurologiques ou autres événements internes.

Skinner a soulevé des objections similaires aux processus et entités non observables proposés par les conceptions cognitives modernes de l’apprentissage (Overskeid, 2007). Les événements privés, ou réponses internes, ne sont accessibles qu’à l’individu et peuvent être étudiés par le biais des rapports verbaux des personnes, qui sont des formes de comportement (Skinner, 1953). Skinner n’a pas nié l’existence d’attitudes, de croyances, d’opinions, de désirs et d’autres formes de connaissance de soi (il en avait, après tout), mais a plutôt qualifié leur rôle.

Les gens ne ressentent pas la conscience ou les émotions, mais plutôt leur propre corps, et les réactions internes sont des réponses à des stimuli internes (Skinner, 1987). Un autre problème avec les processus internes est qu’il est difficile de les traduire en langage, car le langage ne saisit pas complètement les dimensions d’une expérience interne (par exemple, la douleur). Une grande partie de ce qu’on appelle la connaissance implique l’utilisation du langage (comportement verbal). Les pensées sont des types de comportements qui sont provoqués par d’autres stimuli (environnementaux ou privés) et qui donnent lieu à des réponses (manifestes ou cachées). Lorsque les événements privés sont exprimés sous forme de comportements manifestes, leur rôle dans une analyse fonctionnelle peut être déterminé.

Analyse fonctionnelle du comportement

Skinner (1953) a qualifié sa manière d’examiner le comportement d’analyse fonctionnelle :
Les variables externes dont le comportement est une fonction fournissent ce que l’on peut appeler une analyse causale ou fonctionnelle. Nous nous engageons à prédire et à contrôler le comportement de l’organisme individuel. C’est notre « variable dépendante » — l’effet dont nous devons trouver la cause. Nos « variables indépendantes » — les causes du comportement — sont les conditions externes dont le comportement est une fonction. Les relations entre les deux — les « relations de cause à effet » dans le comportement — sont les lois d’une science. Une synthèse de ces lois exprimées en termes quantitatifs donne une image complète de l’organisme en tant que système de comportement. (p. 35)

L’apprentissage est « le réassortiment des réponses dans une situation complexe » ; le conditionnement fait référence à « la consolidation du comportement qui résulte du renforcement » (Skinner, 1953, p. 65). Il existe deux types de conditionnement : le type S et le type R. Le type S est le conditionnement pavlovien, caractérisé par le jumelage du stimulus de renforcement (inconditionnel) avec un autre stimulus (conditionnel). Le S attire l’attention sur l’importance du stimulus pour obtenir une réponse de l’organisme. La réponse faite au stimulus déclencheur est connue sous le nom de comportement répondant.

Bien que le conditionnement de type S puisse expliquer les réactions émotionnelles conditionnées, la plupart des comportements humains sont émis en présence de stimuli plutôt que d’être automatiquement provoqués par ceux-ci. Les réponses sont contrôlées par leurs conséquences, et non par des stimuli antérieurs. Ce type de comportement, que Skinner a appelé type R pour souligner l’aspect de la réponse, est un comportement opérant parce qu’il agit sur l’environnement pour produire un effet.

Skinner (1938, p. 21) :
Si l’occurrence d’un opérant est suivie de la présentation d’un stimulus de renforcement, la force est augmentée. . . . Si l’occurrence d’un opérant déjà renforcé par le conditionnement n’est pas suivie par le stimulus de renforcement, la force est diminuée.

Nous pourrions considérer le comportement opérant comme un « apprentissage par la pratique », et en fait, une grande partie de l’apprentissage se produit lorsque nous effectuons des comportements (Lesgold, 2001). Contrairement au comportement répondant, qui avant le conditionnement ne se produit pas, la probabilité d’occurrence d’un opérant n’est jamais nulle, car la réponse doit être faite pour que le renforcement soit fourni. Le renforcement modifie la probabilité ou le taux d’occurrence de la réponse. Les comportements opérants agissent sur leur environnement et deviennent plus ou moins susceptibles de se produire en raison du renforcement.

Processus de base

Cette section examine les processus de base du conditionnement opérant: renforcement, extinction, renforçateurs primaires et secondaires, le principe de Premack, punition, programmes de renforcement, généralisation et discrimination.

Renforcement

Le renforcement est responsable du renforcement des réponses, augmentant le taux de réponse ou rendant les réponses plus susceptibles de se produire. Un renforçateur (ou stimulus de renforcement) est tout stimulus ou événement suivant une réponse qui mène au renforcement de la réponse. Les renforçateurs (récompenses) sont définis en fonction de leurs effets, qui ne dépendent pas de processus mentaux tels que la conscience, les intentions ou les objectifs (Schultz, 2006). Puisque les renforçateurs sont définis par leurs effets, ils ne peuvent pas être déterminés à l'avance.

Skinner (1953, pp. 72–73):
La seule façon de savoir si un événement donné renforce ou non un organisme donné dans des conditions données est de faire un test direct. Nous observons la fréquence d'une réponse sélectionnée, puis nous rendons un événement contingent à celle-ci et observons tout changement de fréquence. S'il y a un changement, nous classons l'événement comme renforçant pour l'organisme dans les conditions existantes.

Les renforçateurs sont spécifiquement spécifiques à la situation : Ils s'appliquent aux individus à des moments donnés dans des conditions données. Ce qui renforce un étudiant particulier pendant la lecture maintenant peut ne pas l'être pendant les mathématiques maintenant ou pendant la lecture plus tard. Malgré cette spécificité, les stimuli ou les événements qui renforcent le comportement peuvent, dans une certaine mesure, être prédits (Skinner, 1953). Les étudiants trouvent généralement renforçants des événements tels que les éloges des enseignants, le temps libre, les privilèges, les autocollants et les bonnes notes. Néanmoins, on ne peut jamais savoir avec certitude si une conséquence est renforçante jusqu'à ce qu'elle soit présentée après une réponse et que nous voyions si le comportement change.

Le modèle opérant de base du conditionnement est la contingence à trois termes :

Un stimulus discriminatif prépare le terrain pour qu'une réponse (R) soit émise, qui est suivie d'un stimulus de renforcement ( , ou renforcement). Le stimulus de renforcement est tout stimulus (événement, conséquence) qui augmente la probabilité que la réponse soit émise à l'avenir lorsque le stimulus discriminatif est présent. En termes plus familiers, nous pourrions appeler cela le modèle A-B-C :

Le renforcement positif implique de présenter un stimulus, ou d'ajouter quelque chose à une situation, à la suite d'une réponse, ce qui augmente la probabilité future que cette réponse se produise dans cette situation. Un renforçateur positif est un stimulus qui, lorsqu'il est présenté à la suite d'une réponse, augmente la probabilité future que la réponse se produise dans cette situation. Dans le scénario d'ouverture, Leo utilise des points comme renforçateurs positifs pour un bon comportement.

'T' se réfère à l'enseignant, 'L', à l'apprenant :

Processus de renforcement et de punition.
Stimulus discriminatif	Réponse	Stimulus de renforcement (de punition)
Renforcement positif (Présenter un renforçateur positif)	-	-
'T': donne du temps d'étude indépendant	'L': étudie	'T': félicite 'L': pour son bon travail
Renforcement négatif (Supprimer un renforçateur négatif)	-	-
'T': donne du temps d'étude indépendant	'L': étudie	'T': dit 'L': n'a pas à faire ses devoirs
Punition (Présenter un renforçateur négatif)	-	-
'T': donne du temps d'étude indépendant	'L': perd du temps	'T': donne des devoirs
Punition (Supprimer un renforçateur positif)	-	-
'T': donne du temps d'étude indépendant	'L': perd du temps	'T': dit 'L': manquera du temps libre

Le renforcement négatif implique de supprimer un stimulus, ou de retirer quelque chose d'une situation à la suite d'une réponse, ce qui augmente la probabilité future que la réponse se produise dans cette situation. Un renforçateur négatif est un stimulus qui, lorsqu'il est supprimé par une réponse, augmente la probabilité future que la réponse se produise dans cette situation. Certains stimuli qui fonctionnent souvent comme des renforçateurs négatifs sont les lumières vives, les bruits forts, la critique, les personnes ennuyeuses et les mauvaises notes, car les comportements qui les suppriment ont tendance à être renforçants. Le renforcement positif et négatif ont le même effet : Ils augmentent la probabilité que la réponse soit faite à l'avenir en présence du stimulus.

Pour illustrer ces processus, supposons qu'un enseignant tient une session de questions-réponses avec la classe. L'enseignant pose une question ( ou A), appelle un étudiant volontaire qui donne la bonne réponse (R ou B) et félicite l'étudiant ( ou C). Si le volontariat de cet étudiant augmente ou reste à un niveau élevé, les éloges sont un renforçateur positif et c'est un exemple de renforcement positif car le fait de donner des éloges a augmenté le volontariat. Supposons maintenant qu'après qu'un étudiant ait donné la bonne réponse, l'enseignant dise à l'étudiant qu'il n'a pas besoin de faire ses devoirs. Si le volontariat de cet étudiant augmente ou reste à un niveau élevé, les devoirs sont un renforçateur négatif et c'est un exemple de renforcement négatif car le fait de supprimer les devoirs a augmenté le volontariat.

Renforcement positif et négatif

Les enseignants peuvent utiliser le renforcement positif et négatif pour motiver les élèves à maîtriser les compétences et à passer plus de temps sur la tâche. Par exemple, lors de l'enseignement de concepts dans une unité scientifique, un enseignant pourrait demander aux élèves de répondre à des questions à la fin du chapitre. L'enseignant pourrait également mettre en place des centres d'activités dans la salle qui impliquent des expériences pratiques liées à la leçon. Les élèves circuleraient et compléteraient les expériences en fonction de leur réponse réussie aux questions du chapitre (renforcement positif). Cette contingence reflète le principe de Premack de fournir la possibilité de s'engager dans une activité plus valorisée (expériences) comme renforçateur pour s'engager dans une activité moins valorisée (répondre aux questions du chapitre). Les élèves qui répondent correctement à 80 % des questions et qui participent à un minimum de deux expériences n'ont pas à faire leurs devoirs. Cela fonctionnerait comme un renforcement négatif dans la mesure où les élèves perçoivent les devoirs comme un renforçateur négatif.

Un conseiller d'école intermédiaire travaillant avec un élève pour améliorer le comportement en classe pourrait demander à chacun des enseignants de l'élève de cocher « oui » ou « non » en ce qui concerne le comportement en classe pour ce jour-là (acceptable, inacceptable). Pour chaque « oui », l'élève reçoit 1 minute dans le laboratoire informatique pour jouer à des jeux informatiques (renforcement positif pour cet élève). À la fin de la semaine, l'élève peut utiliser le temps d'ordinateur gagné après le déjeuner. De plus, si l'élève gagne un minimum de 15 minutes dans le laboratoire, il n'a pas à apporter une note de comportement à la maison pour être signée par les parents (cela suppose que l'élève perçoit une note de comportement comme un renforçateur négatif).

Extinction

L'extinction implique la diminution de la force de la réponse due au non-renforcement. Les élèves qui lèvent la main en classe mais ne sont jamais appelés peuvent cesser de lever la main. Les personnes qui envoient de nombreux courriels au même individu mais ne reçoivent jamais de réponse peuvent éventuellement cesser d'envoyer des messages à cette personne.

La rapidité avec laquelle l'extinction se produit dépend de l'historique de renforcement (Skinner, 1953). L'extinction se produit rapidement si peu de réponses précédentes ont été renforcées. La réponse est beaucoup plus durable avec un historique de renforcement plus long. L'extinction n'est pas la même chose que l'oubli. Les réponses qui s'éteignent peuvent être effectuées, mais ne le sont pas en raison du manque de renforcement. Dans les exemples précédents, les élèves savent toujours comment lever la main et les personnes savent toujours comment envoyer des courriels. L'oubli implique une perte réelle de conditionnement au fil du temps dans laquelle les opportunités de répondre n'ont pas été présentes.

Renforçateurs primaires et secondaires

Les stimuli tels que la nourriture, l'eau et l'abri sont appelés renforçateurs primaires car ils sont nécessaires à la survie. Les renforçateurs secondaires sont des stimuli qui deviennent conditionnés par leur association avec des renforçateurs primaires. Le verre de lait préféré d'un enfant devient un renforçateur secondaire par son association avec le lait (un renforçateur primaire). Un renforçateur secondaire qui est associé à plus d'un renforçateur primaire est un renforçateur généralisé. Les gens travaillent de longues heures pour gagner de l'argent (un renforçateur généralisé), qu'ils utilisent pour acheter de nombreux renforçateurs (par exemple, de la nourriture, un logement, des téléviseurs, des vacances).

Le conditionnement opérant explique le développement et le maintien de nombreux comportements sociaux avec des renforçateurs généralisés. Les enfants peuvent se comporter de manière à attirer l'attention des adultes. L'attention est renforçante car elle est associée à des renforçateurs primaires des adultes (par exemple, de la nourriture, de l'eau, une protection). Les importants renforçateurs généralisés éducatifs sont les éloges des enseignants, les bonnes notes, les privilèges, les honneurs et les diplômes. Ces renforçateurs sont souvent associés à d'autres renforçateurs généralisés, tels que l'approbation (des parents et des amis) et l'argent (un diplôme universitaire mène à un bon emploi).

Principe de Premack

Rappelez-vous que nous qualifions une conséquence comportementale de renforçante seulement après l'avoir appliquée et avoir vu comment elle affecte le comportement futur. Il est quelque peu troublant que nous devions utiliser le bon sens ou des essais et erreurs dans le choix des renforçateurs, car nous ne pouvons pas savoir avec certitude à l'avance si une conséquence fonctionnera comme un renforçateur.

Premack (1962, 1971) a décrit un moyen d'ordonner les renforçateurs qui permet de prédire les renforçateurs. Le principe de Premack stipule que la possibilité de s'engager dans une activité plus valorisée renforce l'engagement dans une activité moins valorisée, où la « valeur » est définie en termes de quantité de réponse ou de temps passé sur l'activité en l'absence de renforcement. Si une contingence est organisée de telle sorte que la valeur du deuxième événement (contingent) est supérieure à la valeur du premier événement (instrumental), une augmentation sera attendue dans la probabilité d'occurrence du premier événement (l'hypothèse de la récompense). Si la valeur du deuxième événement est inférieure à celle du premier événement, la probabilité d'occurrence du premier événement devrait diminuer (l'hypothèse de la punition).

Supposons qu'un enfant soit autorisé à choisir entre travailler sur un projet artistique, aller à la médiathèque, lire un livre dans la classe ou travailler à l'ordinateur. Au cours de 10 choix de ce type, l'enfant se rend à la médiathèque 6 fois, travaille à l'ordinateur 3 fois, travaille sur un projet artistique 1 fois et ne lit jamais un livre dans la classe. Pour cet enfant, la possibilité d'aller à la médiathèque est la plus valorisée. Pour appliquer le principe de Premack, un enseignant pourrait dire à l'enfant : « Après avoir terminé de lire ce livre, tu peux aller à la médiathèque. » De nombreuses preuves empiriques soutiennent les idées de Premack, en particulier en ce qui concerne l'hypothèse de la récompense (Dunham, 1977).

Le principe de Premack offre des conseils pour sélectionner des renforçateurs efficaces : observez ce que les gens font lorsqu'ils ont le choix et classez ces comportements en termes de probabilité. L'ordre n'est pas permanent, car la valeur des renforçateurs peut changer. Tout renforçateur, lorsqu'il est appliqué souvent, peut entraîner une satiété et une diminution de la réponse. Les enseignants qui utilisent le principe de Premack doivent vérifier périodiquement les préférences des élèves en les observant et en leur demandant ce qu'ils aiment faire. Déterminer à l'avance quels renforçateurs sont susceptibles d'être efficaces dans une situation est essentiel pour planifier un programme de changement comportemental (Timberlake & Farmer-Dougan, 1991).

Punition

La punition diminue la probabilité future de répondre à un stimulus. La punition peut impliquer de retirer un renforçateur positif ou de présenter un renforçateur négatif à la suite d'une réponse, comme le montre le tableau « Processus de renforcement et de punition ». Supposons que pendant une séance de questions-réponses, un élève dérange à plusieurs reprises un autre élève lorsque l'enseignant ne regarde pas (enseignant ne regardant pas ou A ; mauvais comportement = R ou B). L'enseignant repère le mauvais comportement et dit : « Arrête de le déranger » ( ou C). Si l'élève cesse de déranger l'autre élève, la critique de l'enseignant fonctionne comme un renforçateur négatif et c'est un exemple de punition car le fait de donner la critique a diminué le mauvais comportement. Mais notez que du point de vue de l'enseignant, c'est un exemple de renforcement négatif (mauvais comportement = ou A ; critique = R ou B ; fin du mauvais comportement = ou C). Puisque l'enseignant a été renforcé négativement, il est probable qu'il continuera à critiquer le mauvais comportement des élèves.

Au lieu de critiquer l'élève, supposons que l'enseignant dise : « Tu devras rester à l'intérieur pendant la récréation aujourd'hui. » Si le mauvais comportement de l'élève cesse, la récréation fonctionne comme un renforçateur positif et c'est un exemple de punition car la perte de la récréation arrête le mauvais comportement. Comme auparavant, la cessation du mauvais comportement de l'élève est un renforcement négatif pour l'enseignant.

La punition supprime une réponse, mais ne l'élimine pas ; lorsque la menace de punition est supprimée, la réponse punie peut revenir. Les effets de la punition sont complexes. La punition entraîne souvent des réponses incompatibles avec le comportement puni et qui sont suffisamment fortes pour le supprimer (Skinner, 1953). Fesser un enfant pour un mauvais comportement peut produire de la culpabilité et de la peur, ce qui peut supprimer le mauvais comportement. Si l'enfant se comporte mal à l'avenir, la culpabilité et la peur conditionnées peuvent réapparaître et amener l'enfant à cesser rapidement de se comporter mal. La punition conditionne également les réponses qui mènent à s'échapper ou à éviter la punition. Les élèves dont l'enseignant critique les réponses incorrectes apprennent bientôt à éviter de répondre volontairement. La punition peut conditionner des comportements inadaptés, car la punition n'enseigne pas comment se comporter de manière plus productive. La punition peut en outre entraver l'apprentissage en créant un conflit tel que l'individu hésite entre répondre d'une manière ou d'une autre. Si l'enseignant critique parfois les élèves pour leurs réponses incorrectes et parfois ne le fait pas, les élèves ne savent jamais quand la critique est imminente. Un tel comportement variable peut avoir des sous-produits émotionnels (peur, colère, pleurs) qui interfèrent avec l'apprentissage.

La punition est souvent utilisée dans les écoles pour traiter les perturbations. Les punitions courantes sont la perte de privilèges, les retraits de la salle de classe, les suspensions à l'intérieur et à l'extérieur de l'école et les expulsions (Maag, 2001). Pourtant, il existe plusieurs alternatives à la punition. L'une consiste à modifier les stimuli discriminatifs pour le comportement négatif. Par exemple, un élève assis au fond de la salle peut souvent mal se comporter. Les enseignants peuvent modifier les stimuli discriminatifs en déplaçant l'élève perturbateur à l'avant de la classe. Une autre alternative consiste à laisser le comportement indésirable se poursuivre jusqu'à ce que l'auteur devienne rassasié, ce qui est similaire à la méthode de fatigue de Guthrie. Un parent peut permettre à un enfant qui fait une crise de colère de continuer à la faire jusqu'à ce qu'il soit fatigué. Une troisième alternative consiste à éteindre un comportement indésirable en l'ignorant. Cela peut bien fonctionner avec les petits mauvais comportements (par exemple, les élèves qui chuchotent les uns aux autres), mais lorsque les salles de classe deviennent perturbatrices, les enseignants doivent agir d'autres manières. Une quatrième alternative consiste à conditionner un comportement incompatible avec le renforcement positif. Les éloges de l'enseignant pour les habitudes de travail productives aident à conditionner ces habitudes. Le principal avantage de cette alternative par rapport à la punition est qu'elle montre à l'élève comment se comporter de manière adaptative.

Alternatives à la punition.
Alternative	Exemple
Changer les stimuli discriminatifs	Éloigner l'élève qui se comporte mal des autres élèves qui se comportent mal.
Laisser le comportement indésirable se poursuivre	Demander à l'élève qui se lève alors qu'il devrait être assis de continuer à se tenir debout.
Éteindre le comportement indésirable	Ignorer les petits mauvais comportements afin qu'ils ne soient pas renforcés par l'attention de l'enseignant.
Conditionner un comportement incompatible	Renforcer les progrès d'apprentissage, qui ne se produisent que lorsque l'élève ne se comporte pas mal.

Programmes de renforcement

Les programmes se réfèrent au moment où le renforcement est appliqué (Ferster & Skinner, 1957 ; Skinner, 1938 ; Zeiler, 1977). Un programme continu implique un renforcement pour chaque réponse correcte. Cela peut être souhaitable pendant l'acquisition des compétences : Les élèves reçoivent une rétroaction après chaque réponse concernant l'exactitude de leur travail. Le renforcement continu aide à s'assurer que les réponses incorrectes ne sont pas apprises.

Un programme intermittent implique de renforcer certaines réponses correctes, mais pas toutes. Le renforcement intermittent est courant dans les salles de classe, car il n'est généralement pas possible pour les enseignants de renforcer chaque élève pour chaque réponse correcte ou souhaitable. Les élèves ne sont pas appelés chaque fois qu'ils lèvent la main, ne sont pas félicités après avoir travaillé sur chaque problème et ne sont pas constamment informés qu'ils se comportent de manière appropriée.

Les programmes intermittents sont définis en termes de temps ou de nombre de réponses. Un programme d'intervalle implique de renforcer la première réponse correcte après une période de temps spécifique. Dans un programme à intervalle fixe (IF), l'intervalle de temps est constant d'un renforcement à l'autre. Un programme IF5 signifie que le renforcement est fourni pour la première réponse faite après 5 minutes. Les élèves qui reçoivent 30 minutes de temps libre chaque vendredi (sous réserve d'un bon comportement pendant la semaine) fonctionnent selon un programme à intervalle fixe. Dans un programme à intervalle variable (IV), l'intervalle de temps varie d'une occasion à l'autre autour d'une valeur moyenne. Un programme IV5 signifie qu'en moyenne, la première réponse correcte après 5 minutes est renforcée, mais l'intervalle de temps varie (par exemple, 2, 3, 7 ou 8 minutes). Les élèves qui reçoivent 30 minutes de temps libre (sous réserve d'un bon comportement) en moyenne une fois par semaine, mais pas nécessairement le même jour chaque semaine, fonctionnent selon un programme à intervalle variable.

Un programme de ratio dépend du nombre de réponses correctes ou du taux de réponse. Dans un programme à ratio fixe (RF), chaque nième réponse correcte est renforcée, où n est constant. Un programme RF10 signifie que chaque 10e réponse correcte reçoit un renforcement. Dans un programme à ratio variable (RV), chaque nième réponse correcte est renforcée, mais la valeur varie autour d'un nombre moyen n. Un enseignant peut donner du temps libre après chaque cinquième devoir de cahier d'exercices terminé (RF5) ou périodiquement autour d'une moyenne de cinq devoirs terminés (RV5).

Les programmes de renforcement produisent des modèles de réponse caractéristiques. En général, les programmes de ratio produisent des taux de réponse plus élevés que les programmes d'intervalle. Un facteur limitant dans les programmes de ratio est la fatigue due à une réponse rapide. Les programmes à intervalle fixe produisent un modèle en escalier. La réponse diminue immédiatement après le renforcement, mais reprend vers la fin de l'intervalle entre les renforcements. Le programme à intervalle variable produit un taux de réponse constant. Les quiz non annoncés fonctionnent selon des programmes à intervalle variable et incitent généralement les élèves à étudier régulièrement. Les programmes intermittents sont plus résistants à l'extinction que les programmes continus : lorsque le renforcement est interrompu, la réponse se poursuit plus longtemps si le renforcement a été intermittent plutôt que continu. La durabilité des programmes intermittents peut être observée dans la persévérance des gens à des événements tels que les machines à sous, la pêche et la recherche de bonnes affaires.

Généralisation

Une fois qu'une certaine réponse se produit régulièrement à un stimulus donné, la réponse peut également se produire à d'autres stimuli. C'est ce qu'on appelle la généralisation (Skinner, 1953). La généralisation semble problématique pour la théorie opérante, car une réponse ne devrait pas être faite dans une situation dans laquelle elle n'a jamais été renforcée. Skinner a expliqué la généralisation en notant que les gens effectuent de nombreux comportements qui mènent à la réponse finale (renforcée). Ces comportements constitutifs font souvent partie des chaînes de comportement de différentes tâches et sont donc renforcés dans différents contextes. Lorsque les gens sont dans une nouvelle situation, ils sont susceptibles d'effectuer les comportements constitutifs, qui produisent une réponse précise ou une acquisition rapide de la réponse correcte.

Par exemple, les élèves ayant de bonnes habitudes scolaires viennent généralement en classe, assistent et participent aux activités, prennent des notes, font la lecture obligatoire et se tiennent au courant des devoirs. Ces comportements constitutifs produisent des résultats et des notes élevés. Lorsque de tels élèves commencent une nouvelle classe, il n'est pas nécessaire que le contenu soit similaire aux classes précédentes dans lesquelles ils ont été inscrits. Au contraire, les comportements constitutifs ont reçu un renforcement répété et sont donc susceptibles de se généraliser au nouveau cadre.

La généralisation, cependant, ne se produit pas automatiquement. O’Leary et Drabman (1971) ont noté que la généralisation « doit être programmée comme tout autre changement comportemental » (p. 393). Un problème avec de nombreux programmes de modification du comportement est qu'ils modifient les comportements, mais les nouveaux comportements ne se généralisent pas en dehors du contexte de formation. O’Leary et Drabman (1971) offrent des suggestions sur les façons de faciliter la généralisation.

Discrimination

La discrimination, le processus complémentaire à la généralisation, implique de répondre différemment (en intensité ou en taux) en fonction du stimulus ou des caractéristiques d'une situation (Rilling, 1977). Bien que les enseignants souhaitent que les élèves généralisent ce qu'ils apprennent à d'autres situations, ils souhaitent également qu'ils répondent de manière discriminée. Lors de la résolution de problèmes de mots mathématiques, les enseignants pourraient souhaiter que les élèves adoptent une approche générale de résolution de problèmes comprenant des étapes telles que la détermination des informations données et nécessaires, le dessin d'une image et la génération de formules utiles. Les enseignants souhaitent également que les élèves apprennent à distinguer les types de problèmes (par exemple, surface, taux de temps-distance, taux d'intérêt). Être capable d'identifier rapidement le type de problème améliore les succès des élèves.

Généralisation

La généralisation peut faire progresser le développement des compétences dans tous les domaines. Trouver les idées principales est pertinent pour les arts du langage, les études sociales, les mathématiques (problèmes de mots) et d'autres domaines de contenu. Un enseignant d'arts du langage pourrait fournir aux élèves une stratégie pour trouver les idées principales. Une fois que les élèves maîtrisent cette stratégie, l'enseignant explique comment modifier son utilisation pour d'autres matières académiques et demande aux élèves de penser à des utilisations. En enseignant bien la stratégie dans un domaine et en facilitant les applications potentielles dans d'autres domaines, les enseignants économisent beaucoup de temps et d'efforts car ils n'ont pas à enseigner la stratégie dans chaque domaine de contenu.

L'enseignement des comportements attendus (par exemple, marcher dans le couloir, lever la main pour parler) peut également être généralisé. Par exemple, si tous les enseignants de septième année décident de demander aux élèves d'utiliser le même format pour l'en-tête de leurs papiers, cela pourrait être expliqué dans une classe. Ensuite, on pourrait demander aux élèves d'utiliser le même format (avec des modifications mineures) dans chacune de leurs autres classes.

Suggestions pour faciliter la généralisation.
Nom	Objectif
Implication des parents	Impliquer les parents dans les programmes de changement de comportement.
Attentes élevées	Transmettre aux élèves qu'ils sont capables de bien performer.
Auto-évaluation	Enseigner aux élèves à surveiller et à évaluer leurs comportements.
Contingences	Retirer les contingences artificielles (par exemple, les points) et les remplacer par des contingences naturelles (privilèges).
Participation	Permettre aux élèves de participer à la spécification des comportements à renforcer et des contingences de renforcement.
Universitaires	Fournir un bon programme académique, car de nombreux élèves ayant des problèmes de comportement ont des lacunes académiques.
Avantages	Montrer aux élèves comment les changements de comportement leur seront bénéfiques en reliant les changements aux activités d'intérêt.
Renforcement	Renforcer les élèves dans différents contextes pour réduire la discrimination entre les situations renforcées et non renforcées.
Cohérence	Préparer les enseignants dans les classes régulières à continuer à façonner les comportements des élèves dans les classes spéciales après leur intégration dans le programme régulier.

Spence (1936) a proposé que pour enseigner la discrimination, les réponses souhaitées devraient être renforcées et les réponses indésirables éteintes par le non-renforcement. À l'école, les enseignants soulignent les similitudes et les différences entre des contenus similaires et prévoient des examens périodiques pour s'assurer que les élèves discriminent correctement et appliquent les méthodes correctes de résolution de problèmes.

On pense généralement que les erreurs sont perturbatrices et produisent l'apprentissage de réponses incorrectes. Cela suggère que les erreurs des élèves devraient être réduites au minimum. La question de savoir si toutes les erreurs doivent être éliminées est discutable. La recherche sur la motivation montre que les élèves qui apprennent à gérer les erreurs de manière adaptative persistent par la suite plus longtemps sur les tâches difficiles que les élèves qui ont connu un apprentissage sans erreur (Dweck, 1975).

Changement comportemental

Le renforcement peut être accordé pour des réponses correctes uniquement lorsque les individus savent quoi faire. Souvent, cependant, les réponses opérantes n'existent pas sous une forme ﬁnale et peaufinée. Si les enseignants attendent de fournir un renforcement jusqu'à ce que les apprenants émettent les réponses appropriées, de nombreux apprenants ne recevraient jamais de renforcement parce qu'ils n'acquerraient jamais les réponses. Nous allons maintenant aborder la question de savoir comment le changement comportemental se produit dans le conditionnement opérant, ce qui a d'importantes implications pour l'apprentissage.

Approximations successives (façonnement)

La méthode de base du conditionnement opérant pour le changement comportemental est le façonnement, ou le renforcement différentiel des approximations successives de la forme ou du taux de comportement souhaité (Morse & Kelleher, 1977). Pour façonner le comportement, il faut respecter la séquence suivante :

Identifier ce que l'étudiant peut faire maintenant (comportement initial)
Identifier le comportement souhaité
Identifier les renforçateurs potentiels dans l'environnement de l'étudiant
Décomposer le comportement souhaité en petites sous-étapes à maîtriser séquentiellement
Faire passer l'étudiant du comportement initial au comportement souhaité en renforçant successivement chaque approximation du comportement souhaité

Le façonnement est un apprentissage par la pratique avec un retour d'information correctif. Un exemple naturel de façonnement peut être observé chez un étudiant qui essaie de tirer un ballon de basket depuis un point du terrain. Le premier tir est trop court pour atteindre le panier. L'étudiant tire plus fort la deuxième fois, et le ballon frappe le panneau. L'étudiant ne tire pas tout à fait aussi fort la troisième fois, et le ballon frappe le bord droit et rebondit. Lors de la quatrième tentative, l'étudiant tire aussi fort que lors de la troisième tentative, mais vise à gauche. Le ballon frappe le bord gauche et rebondit. Finalement, l'étudiant tire juste aussi fort mais vise légèrement à droite, et le ballon entre dans le panier. Progressivement, le tir a été affiné pour prendre une forme précise.

Le façonnement pourrait être appliqué systématiquement à un étudiant hyperactif qui ne peut travailler sur une tâche que pendant quelques minutes avant d'être distrait. L'objectif est de façonner le comportement de l'étudiant afin qu'elle puisse travailler sans interruption pendant 30 minutes. Initialement, l'enseignant fournit un renforçateur lorsque l'étudiant travaille de manière productive pendant 2 minutes. Après plusieurs intervalles réussis de 2 minutes, le critère de renforcement est porté à 3 minutes. En supposant qu'elle travaille sans interruption pendant plusieurs périodes de 3 minutes, le critère est porté à 4 minutes. Ce processus se poursuit jusqu'à l'objectif de 30 minutes, tant que l'étudiant travaille de manière fiable au niveau du critère. Si l'étudiant rencontre des difﬁcultés à un moment donné, le critère de renforcement diminue à un niveau auquel elle peut réussir.

Une compétence académique qui pourrait être façonnée est l'enseignement à un étudiant des tables de multiplication par 6. Actuellement, il ne connaît que et Pour obtenir un renforcement, il doit réciter correctement ces deux-là plus Après qu'il puisse le faire de manière fiable, le critère de renforcement est augmenté pour inclure Ce processus se poursuit jusqu'à ce qu'il récite avec précision tous les faits jusqu'à

Enchaînement

La plupart des actions humaines sont complexes et comprennent plusieurs contingences à trois termes (A–B–C) liées successivement. Par exemple, tirer un ballon de basket nécessite de dribbler, de se tourner, de se mettre en position, de sauter et de relâcher le ballon. Chaque réponse modifie l'environnement, et cette condition modifiée sert de stimulus pour la réponse suivante. L'enchaînement est le processus de production ou de modification de certaines des variables qui servent de stimuli pour les réponses futures (Skinner, 1953). Une chaîne se compose d'une série d'opérants, chacun servant de contexte pour d'autres réponses.

Les chaînes sont similaires aux actes de Guthrie, tandis que les contingences individuelles à trois termes ressemblent à des mouvements. Certaines chaînes acquièrent une unité fonctionnelle ; la chaîne est une séquence intégrée telle que la mise en œuvre réussie deﬁnit une compétence. Lorsque les compétences sont bien affûtées, l'exécution de la chaîne se produit automatiquement. Faire du vélo consiste en plusieurs actes distincts, mais un cycliste accompli les exécute avec peu ou pas d'effort conscient. Une telle automaticité est souvent présente dans les compétences cognitives (par exemple, lire, résoudre des problèmes mathématiques). L'enchaînement joue un rôle essentiel dans l'acquisition de compétences (Gollub, 1977 ; Skinner, 1978).

Modiﬁcation du Comportement

La modiﬁcation du comportement (ou thérapie comportementale) fait référence à l'application systématique des principes d'apprentissage comportemental pour faciliter les comportements adaptatifs (Ullmann & Krasner, 1965). La modiﬁcation du comportement a été utilisée avec des adultes et des enfants dans des contextes aussi divers que les salles de classe, les cabinets de conseil, les prisons et les hôpitaux psychiatriques. Elle a été utilisée pour traiter les phobies, les troubles du langage, les comportements perturbateurs, les interactions sociales négatives, la mauvaise éducation des enfants et le faible contrôle de soi (Ayllon & Azrin, 1968 ; Becker, 1971 ; Keller & Ribes-Inesta, 1974 ; Ulrich, Stachnik, & Mabry, 1966). Lovaas (1977) a utilisé avec succès la modiﬁcation du comportement pour enseigner le langage aux enfants autistes.

Modiﬁcation du Comportement

La modiﬁcation du comportement des élèves perturbateurs est difﬁcile car ces élèves peuvent présenter peu de réponses appropriées à renforcer positivement. Un enseignant pourrait utiliser le façonnage pour traiter un comportement gênant spéciﬁque. Kathy Stone a des problèmes avec Erik, qui pousse et bouscule continuellement les autres élèves lorsque la classe se met en rang pour aller quelque part dans le bâtiment. Lorsque la classe ne se déplace que sur une courte distance, Mme Stone pourrait informer Erik que s'il reste en ligne sans pousser ni bousculer, il sera le chef de file au retour en classe ; cependant, s'il pousse ou bouscule, il sera immédiatement retiré de la ligne. Cette procédure peut être répétée jusqu'à ce qu'Erik puisse gérer de courtes distances. Mme Stone peut ensuite lui permettre de marcher avec la classe sur des distances de plus en plus longues jusqu'à ce qu'il puisse se comporter en ligne sur n'importe quelle distance.

Sarah, une autre enfant de la classe de Kathy Stone, rend fréquemment un travail désordonné. Mme Stone pourrait utiliser des renforçateurs généralisés tels que des autocollants spéciaux (pouvant être échangés contre divers privilèges) pour aider Sarah, dont le travail est généralement sale, déchiré et à peine lisible. On dit à Sarah que si elle rend un papier propre, elle peut gagner un autocollant ; s'il n'est pas déchiré, un autre autocollant ; et si l'écriture est soignée, un troisième autocollant. Une fois que Sarah commence à s'améliorer, Mme Stone peut progressivement déplacer les récompenses vers d'autres domaines d'amélioration (par exemple, travail correct, ﬁnir le travail à temps).

Techniques

Les techniques de base de la modiﬁcation du comportement comprennent le renforcement des comportements souhaités et l'extinction de ceux qui ne le sont pas. La punition est rarement utilisée mais, lorsqu'elle l'est, elle implique plus souvent le retrait d'un renforçateur positif que la présentation d'un renforçateur négatif.

Pour décider d'un programme de changement, les modiﬁcateurs de comportement se concentrent généralement sur les trois questions suivantes (Ullmann & Krasner, 1965) :

Quels sont les comportements inadaptés de l'individu, et lesquels devraient être augmentés (diminués) ?
Quelles contingences environnementales soutiennent actuellement les comportements de l'individu (soit pour maintenir des comportements indésirables, soit pour réduire la probabilité d'exécuter des réponses plus adaptatives) ?
Quelles caractéristiques environnementales peuvent être modifiées pour changer le comportement de l'individu ?

Le changement est plus probable lorsque les modiﬁcateurs et les clients conviennent qu'un changement est nécessaire et décident conjointement des objectifs souhaités. La première étape de l'établissement d'un programme consiste à déﬁnir le problème en termes comportementaux. Par exemple, l'aﬀrmation, « Keith est trop souvent hors de son siège », fait référence à un comportement manifeste qui peut être mesuré : on peut tenir un registre du temps pendant lequel Keith est hors de son siège. Les expressions générales faisant référence à des éléments non observables (« Keith a une mauvaise attitude ») ne permettent pas une déﬁnition objective du problème.

L'étape suivante consiste à déterminer les renforçateurs qui maintiennent un comportement indésirable. Peut-être que Keith n'obtient l'attention de l'enseignant que lorsqu'il sort de son siège et non lorsqu'il est assis. Un plan simple consiste à ce que l'enseignant s'occupe de Keith lorsqu'il est assis et engagé dans un travail scolaire et à l'ignorer lorsqu'il sort de son siège. Si le nombre de fois où Keith sort de son siège diminue, l'attention de l'enseignant est un renforçateur positif.

Un programme de modiﬁcation du comportement pourrait employer des renforçateurs généralisés tels que des points que les élèves échangent contre des renforçateurs de secours, tels que des récompenses tangibles, du temps libre ou des privilèges. Avoir plus d'une sauvegarde garantit qu'au moins une sera efficace pour chaque élève à tout moment. Un critère comportemental doit être établi pour gagner un renforcement. La procédure de façonnage en ﬁve étapes (décrite précédemment) peut être employée. Le critère est initialement déﬁni au niveau du comportement initial et progresse par petits incréments vers le comportement souhaité. Un point est attribué à l'élève chaque fois que le critère est satisfait. Pour éteindre tout comportement indésirable de Keith, l'enseignant ne devrait pas lui accorder trop d'attention s'il sort de son siège, mais plutôt l'informer en privé que, parce qu'il ne satisfait pas au critère, il ne gagne pas de point.

La punition est utilisée peu fréquemment, mais peut être nécessaire lorsque le comportement devient si perturbateur qu'il ne peut être ignoré (par exemple, ﬁghting). Une punition courante est le time-out (retrait du renforcement). Pendant le time-out, l'élève est retiré du contexte social de la classe. Là, l'élève continue à s'engager dans un travail scolaire sans interaction sociale avec ses camarades ni la possibilité de gagner un renforcement. Une autre punition consiste à retirer les renforçateurs positifs (par exemple, temps libre, récréation, privilèges) pour mauvaise conduite.

Les critiques ont fait valoir que la modiﬁcation du comportement façonne des comportements calmes et dociles (Winett & Winkler, 1972). Bien qu'une quantité raisonnable de calme soit nécessaire pour s'assurer que l'apprentissage se produit, certains enseignants recherchent une salle de classe calme en tout temps, même lorsque certains bruits provenant d'interactions sociales faciliteraient l'apprentissage. L'utilisation de la modiﬁcation du comportement n'est intrinsèquement ni bonne ni mauvaise. Elle peut produire une salle de classe calme ou promouvoir les initiatives sociales des enfants repliés sur eux-mêmes (Strain, Kerr, & Ragland, 1981). Comme les techniques elles-mêmes, les objectifs de la modiﬁcation du comportement doivent être réfléchis attentivement par ceux qui mettent en œuvre les procédures.

Modiﬁcation Cognitive du Comportement

Les chercheurs ont également incorporé des éléments cognitifs dans les procédures de modiﬁcation du comportement. Dans la modiﬁcation cognitive du comportement, les pensées des apprenants (lorsqu'elles sont verbalisées) fonctionnent comme des stimuli discriminatifs et renforçateurs. Ainsi, les apprenants peuvent s'instruire verbalement sur ce qu'il faut faire, puis exécuter le comportement approprié. Les techniques de modiﬁcation cognitive du comportement sont souvent appliquées aux élèves handicapés (Hallahan, Kneedler, & Lloyd, 1983) et utilisées pour réduire l'hyperactivité et l'agression (Robinson, Smith, Miller, & Brownell, 1999). La formation auto-instructionnelle de Meichenbaum (1977) est un exemple de modiﬁcation cognitive du comportement.

Autorégulation

Le conditionnement opérant aborde également l'autorégulation (Mace, Belﬁore, & Hutchinson, 2001 ; Mace, Belﬁore, & Shea, 1989). Cette perspective est traitée en profondeur au chapitre 9. La théorie opérante soutient que le comportement autorégulé implique de choisir entre des actions alternatives (Brigham, 1982), généralement en différant un renforçateur immédiat en faveur d'un renforçateur futur différent, et généralement plus important. Par exemple, Trisha reste à la maison le vendredi soir pour étudier pour un examen au lieu de sortir avec des amis, et Kyle continue de travailler sur une tâche académique malgré les moqueries des pairs à proximité. Ils diffèrent le renforcement immédiat pour un renforcement futur anticipé, comme John dans l'exemple suivant.

John a du mal à étudier. Malgré de bonnes intentions, il passe insuffisamment de temps à étudier et est facilement distrait. Une clé pour changer son comportement est d'établir des stimuli discriminatifs (indices) pour l'étude. Avec l'aide de son conseiller d'orientation, John établit une heure et un lieu définis pour étudier (de 19 h à 21 h dans sa chambre avec une pause de 10 minutes). Pour éliminer les indices distrayants, John accepte de ne pas utiliser son téléphone portable, son lecteur CD, son ordinateur ou sa télévision pendant cette période. Pour le renforcement, John s'accordera un point pour chaque nuit où il accomplit avec succès sa routine. Lorsqu'il reçoit 10 points, il peut prendre une nuit de congé.

Du point de vue du conditionnement opérant, on décide quels comportements réguler, établit des stimuli discriminatifs pour leur occurrence, évalue la performance en termes de correspondance ou non à la norme et administre le renforcement. Comme indiqué, les trois sous-processus clés sont l'auto-surveillance (attention délibérée aux aspects sélectionnés de son propre comportement), l'auto-instruction ( s qui préparent l'occasion pour l'autorégulation conduisant à , et l'auto-renforcement (se renforcer soi-même pour avoir effectué une réponse correcte).