Condicionamiento Operante: Teoría y Ejemplos Prácticos

Introducción

Una teoría conductual bien conocida es el condicionamiento operante, formulado por B. F. (Burrhus Frederic) Skinner (1904–1990). A partir de la década de 1930, Skinner publicó una serie de artículos que informaban los resultados de estudios de laboratorio con animales en los que identificó los diversos componentes del condicionamiento operante. Resumió gran parte de este trabajo temprano en su influyente libro, The Behavior of Organisms (Skinner, 1938).

Skinner aplicó sus ideas a los problemas humanos. Al principio de su carrera, se interesó por la educación y desarrolló máquinas de enseñanza e instrucción programada. The Technology of Teaching (Skinner, 1968) aborda la instrucción, la motivación, la disciplina y la creatividad. En 1948, después de un período difícil en su vida, publicó Walden Two, que describe cómo los principios conductuales se pueden aplicar para crear una sociedad utópica. Skinner (1971) abordó los problemas de la vida moderna y abogó por la aplicación de una tecnología conductual al diseño de culturas en Beyond Freedom and Dignity. Skinner y otros han aplicado los principios del condicionamiento operante a dominios como el aprendizaje y la disciplina escolar, el desarrollo infantil, la adquisición del lenguaje, los comportamientos sociales, las enfermedades mentales, los problemas médicos, el abuso de sustancias y la formación profesional (DeGrandpre, 2000; Karoly & Harris, 1986; Morris, 2003).

Cuando era joven, Skinner aspiraba a ser escritor (Skinner, 1970):
Construí un pequeño estudio en el ático y me puse a trabajar. Los resultados fueron desastrosos. Perdí el tiempo. Leí sin rumbo fijo, construí modelos de barcos, toqué el piano, escuché la radio recién inventada, contribuí a la columna humorística de un periódico local, pero no escribí casi nada más, y pensé en consultar a un psiquiatra. (pág. 6)

Se interesó por la psicología después de leer Conditioned Reflexes de Pavlov (1927) y Behaviorism de Watson (1924). Su carrera posterior tuvo un profundo impacto en la psicología del aprendizaje.

A pesar de su admisión de que “fracasé como escritor porque no tenía nada importante que decir” (Skinner, 1970, p. 7), fue un escritor prolífico que canalizó sus aspiraciones literarias en una escritura científica que abarcó seis décadas (Lattal, 1992). Su dedicación a su profesión es evidente en el hecho de que pronunció un discurso invitado en la convención de la Asociación Estadounidense de Psicología ocho días antes de su muerte (Holland, 1992; Skinner, 1990). La asociación lo honró con un número especial de su revista mensual, American Psychologist (American Psychological Association, 1992). Aunque su teoría ha sido desacreditada por los teóricos del aprendizaje actuales porque no puede explicar adecuadamente las formas de aprendizaje complejas y de orden superior (Bargh & Ferguson, 2000), su influencia continúa ya que los principios del condicionamiento operante se aplican comúnmente para mejorar el aprendizaje y el comportamiento de los estudiantes (Morris, 2003). En el escenario inicial, por ejemplo, Leo emplea los principios del condicionamiento operante para controlar el mal comportamiento de los estudiantes. Emily y Shayna, por otro lado, abogan por la importancia de los factores cognitivos.

Marco Conceptual

Esta sección analiza los supuestos subyacentes al condicionamiento operante, cómo refleja un análisis funcional de la conducta y las implicaciones de la teoría para la predicción y el control de la conducta. La teoría y los principios del condicionamiento operante son complejos (Dragoi & Staddon, 1999); en este capítulo se cubren los principios más relevantes para el aprendizaje humano.

Supuestos Científicos

Pavlov trazó el locus del aprendizaje al sistema nervioso y vio la conducta como una manifestación del funcionamiento neurológico. Skinner (1938) no negó que el funcionamiento neurológico acompañe a la conducta, pero creía que una psicología de la conducta puede entenderse en sus propios términos sin referencia a eventos neurológicos u otros eventos internos.

Skinner planteó objeciones similares a los procesos y entidades no observables propuestos por las visiones cognitivas modernas del aprendizaje (Overskeid, 2007). Los eventos privados, o respuestas internas, son accesibles solo para el individuo y pueden estudiarse a través de los informes verbales de las personas, que son formas de conducta (Skinner, 1953). Skinner no negó la existencia de actitudes, creencias, opiniones, deseos y otras formas de autoconocimiento (él, después de todo, las tenía), sino que cualificó su papel.

Las personas no experimentan conciencia o emociones, sino sus propios cuerpos, y las reacciones internas son respuestas a estímulos internos (Skinner, 1987). Un problema adicional con los procesos internos es que traducirlos al lenguaje es difícil, porque el lenguaje no captura completamente las dimensiones de una experiencia interna (por ejemplo, el dolor). Gran parte de lo que se llama saber implica el uso del lenguaje (conducta verbal). Los pensamientos son tipos de conducta que son provocados por otros estímulos (ambientales o privados) y que dan lugar a respuestas (manifiestas o encubiertas). Cuando los eventos privados se expresan como conductas manifiestas, su papel en un análisis funcional puede ser determinado.

Análisis Funcional de la Conducta

Skinner (1953) se refirió a su medio de examinar la conducta como un análisis funcional:
Las variables externas de las que la conducta es una función proporcionan lo que puede llamarse un análisis causal o funcional. Nos comprometemos a predecir y controlar la conducta del organismo individual. Esta es nuestra “variable dependiente”—el efecto para el cual debemos encontrar la causa. Nuestras “variables independientes”—las causas de la conducta—son las condiciones externas de las que la conducta es una función. Las relaciones entre las dos—las “relaciones de causa y efecto” en la conducta—son las leyes de una ciencia. Una síntesis de estas leyes expresadas en términos cuantitativos produce una imagen completa del organismo como un sistema de comportamiento. (p. 35)

El aprendizaje es “la reordenación de respuestas en una situación compleja”; el condicionamiento se refiere al “reforzamiento de la conducta que resulta del refuerzo” (Skinner, 1953, p. 65). Hay dos tipos de condicionamiento: Tipo S y Tipo R. El Tipo S es el condicionamiento pavloviano, caracterizado por el emparejamiento del estímulo reforzador (incondicionado) con otro estímulo (condicionado). La S llama la atención sobre la importancia del estímulo para provocar una respuesta del organismo. La respuesta dada al estímulo elicitador se conoce como conducta respondiente.

Aunque el condicionamiento Tipo S puede explicar las reacciones emocionales condicionadas, la mayoría de las conductas humanas se emiten en presencia de estímulos en lugar de ser provocadas automáticamente por ellos. Las respuestas son controladas por sus consecuencias, no por estímulos antecedentes. Este tipo de conducta, que Skinner denominó Tipo R para enfatizar el aspecto de la respuesta, es conducta operante porque opera en el entorno para producir un efecto.

Skinner (1938, p. 21):
Si la ocurrencia de una operante es seguida por la presentación de un estímulo reforzador, la fuerza aumenta. . . . Si la ocurrencia de una operante ya fortalecida a través del condicionamiento no es seguida por el estímulo reforzador, la fuerza disminuye.

Podríamos pensar en la conducta operante como “aprender haciendo”, y de hecho, gran parte del aprendizaje ocurre cuando realizamos conductas (Lesgold, 2001). A diferencia de la conducta respondiente, que antes del condicionamiento no ocurre, la probabilidad de ocurrencia de una operante nunca es cero porque la respuesta debe hacerse para que se proporcione el refuerzo. El refuerzo cambia la probabilidad o la tasa de ocurrencia de la respuesta. Las conductas operantes actúan sobre sus entornos y se vuelven más o menos propensas a ocurrir debido al refuerzo.

Procesos Básicos

Esta sección examina los procesos básicos en el condicionamiento operante: reforzamiento, extinción, reforzadores primarios y secundarios, el Principio de Premack, castigo, programas de reforzamiento, generalización y discriminación.

Reforzamiento

El reforzamiento es responsable del fortalecimiento de la respuesta, aumentando la tasa de respuesta o haciendo que las respuestas sean más propensas a ocurrir. Un reforzador (o estímulo reforzante) es cualquier estímulo o evento que sigue a una respuesta que conduce al fortalecimiento de la respuesta. Los reforzadores (recompensas) se definen en base a sus efectos, que no dependen de procesos mentales como la conciencia, las intenciones o los objetivos (Schultz, 2006). Debido a que los reforzadores se definen por sus efectos, no se pueden determinar de antemano.

Skinner (1953, pp. 72–73):
La única manera de saber si un evento dado es o no reforzante para un organismo dado bajo condiciones dadas es hacer una prueba directa. Observamos la frecuencia de una respuesta seleccionada, luego hacemos que un evento dependa de ella y observamos cualquier cambio en la frecuencia. Si hay un cambio, clasificamos el evento como reforzante para el organismo bajo las condiciones existentes.

Los reforzadores son situacionalmente específicos: se aplican a individuos en momentos dados bajo condiciones dadas. Lo que es reforzante para un estudiante en particular durante la lectura ahora puede no serlo durante las matemáticas ahora o durante la lectura más tarde. A pesar de esta especificidad, los estímulos o eventos que refuerzan el comportamiento pueden, hasta cierto punto, predecirse (Skinner, 1953). Los estudiantes típicamente encuentran reforzantes eventos como los elogios del maestro, tiempo libre, privilegios, pegatinas y altas calificaciones. No obstante, uno nunca puede saber con certeza si una consecuencia es reforzante hasta que se presenta después de una respuesta y vemos si el comportamiento cambia.

El modelo operante básico de condicionamiento es la contingencia de tres términos:

Un estímulo discriminativo establece la ocasión para que se emita una respuesta (R), que es seguida por un estímulo reforzante ( , o reforzamiento). El estímulo reforzante es cualquier estímulo (evento, consecuencia) que aumenta la probabilidad de que la respuesta se emita en el futuro cuando el estímulo discriminativo está presente. En términos más familiares, podríamos etiquetar esto como el modelo A-B-C:

El reforzamiento positivo implica presentar un estímulo, o agregar algo a una situación, después de una respuesta, lo que aumenta la probabilidad futura de que esa respuesta ocurra en esa situación. Un reforzador positivo es un estímulo que, cuando se presenta después de una respuesta, aumenta la probabilidad futura de que la respuesta ocurra en esa situación. En el escenario inicial, Leo usa puntos como reforzadores positivos para el buen comportamiento.

'T' se refiere al profesor, 'L', al alumno:

Procesos de reforzamiento y castigo.
Estímulo Discriminativo Respuesta Estímulo Reforzante (Castigador)
Reforzamiento Positivo (Presentar reforzador positivo) - -
'T': da tiempo de estudio independiente 'L': estudia 'T': elogia a 'L': por buen trabajo
Reforzamiento Negativo (Eliminar reforzador negativo) - -
'T': da tiempo de estudio independiente 'L': estudia 'T': dice que 'L': no tiene que hacer la tarea
Castigo (Presentar reforzador negativo) - -
'T': da tiempo de estudio independiente 'L': pierde el tiempo 'T': da tarea
Castigo (Eliminar reforzador positivo) - -
'T': da tiempo de estudio independiente 'L': pierde el tiempo 'T': dice que 'L': se perderá el tiempo libre

El reforzamiento negativo implica eliminar un estímulo, o quitar algo de una situación después de una respuesta, lo que aumenta la probabilidad futura de que la respuesta ocurra en esa situación. Un reforzador negativo es un estímulo que, cuando se elimina por una respuesta, aumenta la probabilidad futura de que la respuesta ocurra en esa situación. Algunos estímulos que a menudo funcionan como reforzadores negativos son luces brillantes, ruidos fuertes, críticas, personas molestas y bajas calificaciones, porque los comportamientos que los eliminan tienden a ser reforzantes. El reforzamiento positivo y negativo tienen el mismo efecto: aumentan la probabilidad de que la respuesta se haga en el futuro en presencia del estímulo.

Para ilustrar estos procesos, supongamos que un maestro está llevando a cabo una sesión de preguntas y respuestas con la clase. El maestro hace una pregunta ( o A), llama a un estudiante voluntario que da la respuesta correcta (R o B), y elogia al estudiante ( o C). Si el voluntariado de este estudiante aumenta o permanece en un nivel alto, el elogio es un reforzador positivo y este es un ejemplo de reforzamiento positivo porque dar el elogio aumentó el voluntariado. Ahora supongamos que después de que un estudiante da la respuesta correcta, el maestro le dice al estudiante que no necesita hacer la tarea. Si el voluntariado de este estudiante aumenta o permanece en un nivel alto, la tarea es un reforzador negativo y este es un ejemplo de reforzamiento negativo porque eliminar la tarea aumentó el voluntariado.

Reforzamiento Positivo y Negativo

Los maestros pueden usar el reforzamiento positivo y negativo para motivar a los estudiantes a dominar habilidades y pasar más tiempo en la tarea. Por ejemplo, mientras enseña conceptos en una unidad de ciencias, un maestro podría pedir a los estudiantes que completen preguntas al final del capítulo. El maestro también podría establecer centros de actividad alrededor del aula que involucren experimentos prácticos relacionados con la lección. Los estudiantes circularían y completarían los experimentos dependiendo de su respuesta exitosa a las preguntas del capítulo (reforzamiento positivo). Esta contingencia refleja el Principio de Premack de proporcionar la oportunidad de participar en una actividad más valorada (experimentos) como un reforzador para participar en una menos valorada (completar las preguntas del capítulo). Los estudiantes que completan el 80% de las preguntas correctamente y que participan en un mínimo de dos experimentos no tienen que completar la tarea. Esto funcionaría como reforzamiento negativo en la medida en que los estudiantes perciban la tarea como un reforzador negativo.

Un consejero de escuela intermedia que trabaja con un estudiante para mejorar el comportamiento en el aula podría hacer que cada uno de los maestros del estudiante marque “sí” o “no” en relación con el comportamiento en clase de ese día (aceptable, inaceptable). Por cada “sí”, el estudiante recibe 1 minuto en el laboratorio de computación para jugar juegos de computadora (reforzamiento positivo para este estudiante). Al final de la semana, el estudiante puede usar el tiempo de computadora ganado después del almuerzo. Además, si el estudiante gana un mínimo de 15 minutos en el laboratorio, no tiene que llevar una nota de comportamiento a casa para ser firmada por los padres (esto asume que el estudiante percibe una nota de comportamiento como un reforzador negativo).

Extinción

La extinción implica la disminución de la fuerza de la respuesta debido a la falta de reforzamiento. Los estudiantes que levantan la mano en clase pero nunca son llamados pueden dejar de levantar la mano. Las personas que envían muchos mensajes de correo electrónico a la misma persona pero nunca reciben una respuesta eventualmente pueden dejar de enviar mensajes a esa persona.

La rapidez con la que ocurre la extinción depende del historial de reforzamiento (Skinner, 1953). La extinción ocurre rápidamente si pocas respuestas precedentes han sido reforzadas. La respuesta es mucho más duradera con un historial de reforzamiento más extenso. La extinción no es lo mismo que el olvido. Las respuestas que se extinguen se pueden realizar, pero no lo son debido a la falta de reforzamiento. En los ejemplos anteriores, los estudiantes todavía saben cómo levantar la mano y las personas todavía saben cómo enviar mensajes de correo electrónico. El olvido implica una verdadera pérdida de condicionamiento a lo largo del tiempo en el que las oportunidades para responder no han estado presentes.

Reforzadores Primarios y Secundarios

Estímulos como la comida, el agua y el refugio se denominan reforzadores primarios porque son necesarios para la supervivencia. Los reforzadores secundarios son estímulos que se condicionan a través de su asociación con reforzadores primarios. El vaso de leche favorito de un niño se vuelve secundariamente reforzante a través de su asociación con la leche (un reforzador primario). Un reforzador secundario que se empareja con más de un reforzador primario es un reforzador generalizado. Las personas trabajan largas horas para ganar dinero (un reforzador generalizado), que utilizan para comprar muchos reforzadores (por ejemplo, comida, vivienda, televisores, vacaciones).

El condicionamiento operante explica el desarrollo y el mantenimiento de gran parte del comportamiento social con reforzadores generalizados. Los niños pueden comportarse de maneras para llamar la atención de los adultos. La atención es reforzante porque se empareja con reforzadores primarios de los adultos (por ejemplo, comida, agua, protección). Importantes reforzadores generalizados educativos son los elogios de los maestros, las altas calificaciones, los privilegios, los honores y los títulos. Estos reforzadores a menudo se emparejan con otros reforzadores generalizados, como la aprobación (de padres y amigos) y el dinero (un título universitario conduce a un buen trabajo).

Principio de Premack

Recordemos que etiquetamos una consecuencia conductual como reforzante solo después de que la aplicamos y vemos cómo afecta el comportamiento futuro. Es algo preocupante que debamos usar el sentido común o el ensayo y error al elegir reforzadores porque no podemos saber con certeza de antemano si una consecuencia funcionará como un reforzador.

Premack (1962, 1971) describió un medio para ordenar los reforzadores que permite predecir los reforzadores. El Principio de Premack dice que la oportunidad de participar en una actividad más valorada refuerza la participación en una actividad menos valorada, donde “valor” se define en términos de la cantidad de respuesta o el tiempo dedicado a la actividad en ausencia de reforzamiento. Si se organiza una contingencia de tal manera que el valor del segundo evento (contingente) es mayor que el valor del primer evento (instrumental), se esperará un aumento en la probabilidad de ocurrencia del primer evento (la suposición de recompensa). Si el valor del segundo evento es menor que el del primer evento, la probabilidad de ocurrencia del primer evento debería disminuir (la suposición de castigo).

Supongamos que a un niño se le permite elegir entre trabajar en un proyecto de arte, ir al centro de medios, leer un libro en el aula o trabajar en la computadora. En el transcurso de 10 elecciones de este tipo, el niño va al centro de medios 6 veces, trabaja en la computadora 3 veces, trabaja en un proyecto de arte 1 vez y nunca lee un libro en el aula. Para este niño, la oportunidad de ir al centro de medios es la más valorada. Para aplicar el Principio de Premack, un maestro podría decirle al niño: “Después de que termines de leer este libro, puedes ir al centro de medios.” Considerable evidencia empírica respalda las ideas de Premack, especialmente con respecto a la suposición de recompensa (Dunham, 1977).

El Principio de Premack ofrece orientación para seleccionar reforzadores efectivos: observe lo que hacen las personas cuando tienen una opción y ordene esos comportamientos en términos de probabilidad. El orden no es permanente, ya que el valor de los reforzadores puede cambiar. Cualquier reforzador, cuando se aplica a menudo, puede resultar en saciedad y conducir a una disminución de la respuesta. Los maestros que emplean el Principio de Premack necesitan verificar las preferencias de los estudiantes periódicamente observándolos y preguntándoles qué les gusta hacer. Determinar de antemano qué reforzadores es probable que sean efectivos en una situación es fundamental para planificar un programa de cambio conductual (Timberlake & Farmer-Dougan, 1991).

Castigo

El castigo disminuye la probabilidad futura de responder a un estímulo. El castigo puede implicar retirar un reforzador positivo o presentar un reforzador negativo después de una respuesta, como se muestra en la Tabla 'Procesos de reforzamiento y castigo'. Supongamos que durante una sesión de preguntas y respuestas un estudiante molesta repetidamente a otro estudiante cuando el maestro no está mirando (maestro no mirando o A; mal comportamiento = R o B). El maestro detecta el mal comportamiento y dice: “Deja de molestarlo” ( o C). Si el estudiante deja de molestar al otro estudiante, la crítica del maestro opera como un reforzador negativo y este es un ejemplo de castigo porque dar la crítica disminuyó el mal comportamiento. Pero tenga en cuenta que desde la perspectiva del maestro, este es un ejemplo de reforzamiento negativo (mal comportamiento = o A; crítica = R o B; fin del mal comportamiento = o C). Dado que el maestro fue reforzado negativamente, es probable que el maestro continúe criticando el mal comportamiento del estudiante.

En lugar de criticar al estudiante, supongamos que el maestro dice: “Tendrás que quedarte adentro durante el recreo hoy.” Si el mal comportamiento del estudiante se detiene, el recreo opera como un reforzador positivo y este es un ejemplo de castigo porque la pérdida del recreo detiene el mal comportamiento. Como antes, el cese del mal comportamiento del estudiante es reforzante negativamente para el maestro.

El castigo suprime una respuesta pero no la elimina; cuando se elimina la amenaza de castigo, la respuesta castigada puede regresar. Los efectos del castigo son complejos. El castigo a menudo provoca respuestas que son incompatibles con el comportamiento castigado y que son lo suficientemente fuertes como para suprimirlo (Skinner, 1953). Dar una bofetada a un niño por portarse mal puede producir culpa y miedo, lo que puede suprimir el mal comportamiento. Si el niño se porta mal en el futuro, la culpa y el miedo condicionados pueden reaparecer y llevar al niño a dejar de portarse mal rápidamente. El castigo también condiciona las respuestas que llevan a uno a escapar o evitar el castigo. Los estudiantes cuyo maestro critica las respuestas incorrectas pronto aprenden a evitar dar respuestas voluntarias. El castigo puede condicionar comportamientos desadaptativos, porque el castigo no enseña cómo comportarse de manera más productiva. El castigo puede obstaculizar aún más el aprendizaje al crear un conflicto tal que el individuo vacila entre responder de una manera u otra. Si el maestro a veces critica a los estudiantes por las respuestas incorrectas y a veces no, los estudiantes nunca saben cuándo vendrá la crítica. Tal comportamiento variable puede tener subproductos emocionales (miedo, ira, llanto) que interfieren con el aprendizaje.

El castigo se usa a menudo en las escuelas para lidiar con las interrupciones. Los castigos comunes son la pérdida de privilegios, las expulsiones del aula, las suspensiones dentro y fuera de la escuela y las expulsiones (Maag, 2001). Sin embargo, existen varias alternativas al castigo. Una es cambiar los estímulos discriminativos para el comportamiento negativo. Por ejemplo, un estudiante sentado en la parte posterior del aula puede portarse mal a menudo. Los maestros pueden cambiar los estímulos discriminativos moviendo al estudiante disruptivo al frente de la clase. Otra alternativa es permitir que el comportamiento no deseado continúe hasta que el perpetrador se sature, lo cual es similar al método de fatiga de Guthrie. Un padre puede permitir que un niño que hace una rabieta continúe haciéndola hasta que se fatigue. Una tercera alternativa es extinguir un comportamiento no deseado ignorándolo. Esto puede funcionar bien con comportamientos inapropiados menores (por ejemplo, estudiantes que susurran entre sí), pero cuando las aulas se vuelven disruptivas, los maestros deben actuar de otras maneras. Una cuarta alternativa es condicionar un comportamiento incompatible con el reforzamiento positivo. El elogio del maestro por los hábitos de trabajo productivos ayuda a condicionar esos hábitos. La principal ventaja de esta alternativa sobre el castigo es que le muestra al estudiante cómo comportarse de manera adaptativa.

Alternativas al castigo.
Alternativa Ejemplo
Cambiar los estímulos discriminativos Alejar al estudiante que se porta mal de otros estudiantes que se portan mal.
Permitir que el comportamiento no deseado continúe Hacer que el estudiante que se pone de pie cuando debería estar sentado continúe de pie.
Extinguir el comportamiento no deseado Ignorar el comportamiento inapropiado menor para que no sea reforzado por la atención del maestro.
Condicionar un comportamiento incompatible Reforzar el progreso del aprendizaje, que ocurre solo cuando el estudiante no se está portando mal.

Programas de Reforzamiento

Los programas se refieren a cuándo se aplica el reforzamiento (Ferster & Skinner, 1957; Skinner, 1938; Zeiler, 1977). Un programa continuo implica el reforzamiento para cada respuesta correcta. Esto puede ser deseable mientras se adquieren habilidades: los estudiantes reciben retroalimentación después de cada respuesta sobre la precisión de su trabajo. El reforzamiento continuo ayuda a asegurar que no se aprendan respuestas incorrectas.

Un programa intermitente implica reforzar algunas, pero no todas, las respuestas correctas. El reforzamiento intermitente es común en las aulas, porque generalmente no es posible para los maestros reforzar a cada estudiante por cada respuesta correcta o deseable. Los estudiantes no son llamados cada vez que levantan la mano, no son elogiados después de trabajar en cada problema y no se les dice constantemente que se están comportando apropiadamente.

Los programas intermitentes se definen en términos de tiempo o número de respuestas. Un programa de intervalo implica reforzar la primera respuesta correcta después de un período de tiempo específico. En un programa de intervalo fijo (FI), el intervalo de tiempo es constante de un reforzamiento al siguiente. Un programa FI5 significa que el reforzamiento se entrega para la primera respuesta realizada después de 5 minutos. Los estudiantes que reciben 30 minutos de tiempo libre cada viernes (dependiendo del buen comportamiento durante la semana) están operando bajo un programa de intervalo fijo. En un programa de intervalo variable (VI), el intervalo de tiempo varía de una ocasión a otra alrededor de algún valor promedio. Un programa VI5 significa que, en promedio, la primera respuesta correcta después de 5 minutos se refuerza, pero el intervalo de tiempo varía (por ejemplo, 2, 3, 7 u 8 minutos). Los estudiantes que reciben 30 minutos de tiempo libre (dependiendo del buen comportamiento) en un promedio de una vez por semana, pero no necesariamente el mismo día cada semana, están operando bajo un programa de intervalo variable.

Un programa de razón depende del número de respuestas correctas o de la tasa de respuesta. En un programa de razón fija (FR), cada enésima respuesta correcta se refuerza, donde n es constante. Un programa FR10 significa que cada décima respuesta correcta recibe reforzamiento. En un programa de razón variable (VR), cada enésima respuesta correcta se refuerza, pero el valor varía alrededor de un número promedio n. Un maestro puede dar tiempo libre después de que se complete cada quinta tarea del libro de trabajo (FR5) o periódicamente alrededor de un promedio de cinco tareas completadas (VR5).

Los programas de reforzamiento producen patrones característicos de respuesta. En general, los programas de razón producen tasas de respuesta más altas que los programas de intervalo. Un factor limitante en los programas de razón es la fatiga debido a la respuesta rápida. Los programas de intervalo fijo producen un patrón festoneado. La respuesta disminuye inmediatamente después del reforzamiento, pero aumenta hacia el final del intervalo entre los reforzamientos. El programa de intervalo variable produce una tasa constante de respuesta. Los cuestionarios no anunciados operan en programas de intervalo variable y típicamente mantienen a los estudiantes estudiando regularmente. Los programas intermitentes son más resistentes a la extinción que los programas continuos: cuando se interrumpe el reforzamiento, la respuesta continúa durante más tiempo si el reforzamiento ha sido intermitente en lugar de continuo. La durabilidad de los programas intermitentes se puede ver en la persistencia de las personas en eventos como jugar a las máquinas tragamonedas, pescar y comprar gangas.

Generalización

Una vez que una cierta respuesta ocurre regularmente a un estímulo dado, la respuesta también puede ocurrir a otros estímulos. Esto se llama generalización (Skinner, 1953). La generalización parece problemática para la teoría operante, porque una respuesta no debe hacerse en una situación en la que nunca ha sido reforzada. Skinner explicó la generalización al señalar que las personas realizan muchos comportamientos que conducen a la respuesta final (reforzada). Estos comportamientos componentes a menudo son parte de las cadenas de comportamiento de diferentes tareas y, por lo tanto, se refuerzan en diferentes contextos. Cuando las personas están en una nueva situación, es probable que realicen los comportamientos componentes, lo que produce una respuesta precisa o una rápida adquisición de la respuesta correcta.

Por ejemplo, los estudiantes con buenos hábitos académicos típicamente vienen a clase, atienden y participan en las actividades, toman notas, hacen la lectura requerida y se mantienen al día con las tareas. Estos comportamientos componentes producen un alto rendimiento y calificaciones. Cuando tales estudiantes comienzan una nueva clase, no es necesario que el contenido sea similar a las clases anteriores en las que se han inscrito. Más bien, los comportamientos componentes han recibido un reforzamiento repetido y, por lo tanto, es probable que se generalicen al nuevo entorno.

La generalización, sin embargo, no ocurre automáticamente. O’Leary y Drabman (1971) señalaron que la generalización “debe programarse como cualquier otro cambio conductual” (p. 393). Un problema con muchos programas de modificación del comportamiento es que cambian los comportamientos, pero los nuevos comportamientos no se generalizan fuera del contexto de entrenamiento. O’Leary y Drabman (1971) ofrecen sugerencias sobre cómo facilitar la generalización.

Discriminación

La discriminación, el proceso complementario a la generalización, implica responder de manera diferente (en intensidad o tasa) dependiendo del estímulo o las características de una situación (Rilling, 1977). Aunque los maestros quieren que los estudiantes generalicen lo que aprenden a otras situaciones, también quieren que respondan discriminadamente. Al resolver problemas verbales matemáticos, los maestros podrían querer que los estudiantes adopten un enfoque general de resolución de problemas que comprenda pasos como determinar la información dada y la necesaria, dibujar una imagen y generar fórmulas útiles. Los maestros también quieren que los estudiantes aprendan a discriminar los tipos de problemas (por ejemplo, área, tasa de tiempo-distancia, tasa de interés). Ser capaz de identificar rápidamente el tipo de problema mejora los éxitos de los estudiantes.

Generalización

La generalización puede avanzar en el desarrollo de habilidades en todas las áreas temáticas. Encontrar las ideas principales es relevante para las artes del lenguaje, los estudios sociales, las matemáticas (problemas verbales) y otras áreas de contenido. Un maestro de artes del lenguaje podría proporcionar a los estudiantes una estrategia para encontrar las ideas principales. Una vez que los estudiantes dominan esta estrategia, el maestro explica cómo modificar su uso para otras materias académicas y pide a los estudiantes que piensen en usos. Al enseñar bien la estrategia en un dominio y facilitar las aplicaciones potenciales en otros dominios, los maestros ahorran mucho tiempo y esfuerzo porque no tienen que enseñar la estrategia en cada área de contenido.

La enseñanza de los comportamientos esperados (por ejemplo, caminar en el pasillo, levantar la mano para hablar) también se puede generalizar. Por ejemplo, si todos los maestros de séptimo grado deciden que los estudiantes usen el mismo formato para el encabezado en sus trabajos, podría explicarse en una clase. Luego, se podría pedir a los estudiantes que usen el mismo formato (con alteraciones menores) en cada una de sus otras clases.

Sugerencias para facilitar la generalización.
Nombre Propósito
Participación de los Padres Involucrar a los padres en programas de cambio conductual.
Altas Expectativas Transmitir a los estudiantes que son capaces de desempeñarse bien.
Autoevaluación Enseñar a los estudiantes a monitorear y evaluar sus comportamientos.
Contingencias Retirar las contingencias artificiales (por ejemplo, puntos) y reemplazarlas con las naturales (privilegios).
Participación Permitir que los estudiantes participen en la especificación de los comportamientos que se reforzarán y las contingencias de reforzamiento.
Académicos Proporcionar un buen programa académico porque muchos estudiantes con problemas de comportamiento tienen deficiencias académicas.
Beneficios Mostrar a los estudiantes cómo los cambios conductuales los beneficiarán al vincular los cambios a actividades de interés.
Reforzamiento Reforzar a los estudiantes en diferentes entornos para reducir la discriminación entre situaciones reforzadas y no reforzadas.
Consistencia Preparar a los maestros en las clases regulares para que continúen moldeando los comportamientos de los estudiantes en las clases especiales después de que se incorporen al programa regular.

Spence (1936) propuso que para enseñar la discriminación, las respuestas deseadas deben reforzarse y las respuestas no deseadas deben extinguirse mediante la falta de reforzamiento. En la escuela, los maestros señalan las similitudes y diferencias entre contenidos similares y proporcionan revisiones periódicas para asegurar que los estudiantes discriminen adecuadamente y apliquen métodos correctos de solución de problemas.

En general, se piensa que los errores son disruptivos y producen el aprendizaje de respuestas incorrectas. Esto sugiere que los errores de los estudiantes deben mantenerse al mínimo. Si todos los errores necesitan ser eliminados es debatible. La investigación sobre la motivación muestra que los estudiantes que aprenden a lidiar con los errores de una manera adaptativa posteriormente persisten más tiempo en tareas difíciles que los estudiantes que han experimentado un aprendizaje sin errores (Dweck, 1975)

Cambio Conductual

El refuerzo puede darse por hacer respuestas correctas solo cuando las personas saben qué hacer. A menudo, sin embargo, las respuestas operantes no existen en forma final y pulida. Si los profesores esperan para entregar el refuerzo hasta que los aprendices emitan las respuestas apropiadas, muchos aprendices nunca recibirían refuerzo porque nunca adquirirían las respuestas. Ahora pasamos a una discusión de cómo ocurre el cambio conductual en el condicionamiento operante, lo cual tiene implicaciones importantes para el aprendizaje.

Aproximaciones Sucesivas (Moldeamiento)

El método básico de condicionamiento operante del cambio conductual es el moldeamiento, o el refuerzo diferencial de aproximaciones sucesivas a la forma o tasa de comportamiento deseada (Morse & Kelleher, 1977). Para moldear el comportamiento, uno se adhiere a la siguiente secuencia:

  • Identificar lo que el estudiante puede hacer ahora (comportamiento inicial)
  • Identificar el comportamiento deseado
  • Identificar reforzadores potenciales en el ambiente del estudiante
  • Dividir el comportamiento deseado en pequeños subpasos para ser dominados secuencialmente
  • Mover al estudiante desde el comportamiento inicial al comportamiento deseado reforzando sucesivamente cada aproximación al comportamiento deseado

El moldeamiento es aprender haciendo con retroalimentación correctiva. Un caso natural de moldeamiento puede verse en un estudiante intentando tirar una pelota de baloncesto desde un punto en la cancha. El primer tiro se queda corto de la canasta. El estudiante tira más fuerte la segunda vez, y la pelota golpea el tablero. El estudiante no tira tan fuerte la tercera vez, y la pelota golpea el aro derecho y rebota. En el cuarto intento, el estudiante tira tan fuerte como en el tercer intento pero apunta a la izquierda. La pelota golpea el aro izquierdo y rebota. Finalmente, el estudiante tira igual de fuerte pero apunta ligeramente a la derecha, y la pelota entra en la canasta. Gradualmente, el tiro fue perfeccionado a una forma precisa.

El moldeamiento podría aplicarse sistemáticamente con un estudiante hiperactivo que puede trabajar en una tarea solo por un par de minutos antes de distraerse. La meta es moldear el comportamiento del estudiante para que pueda trabajar sin interrupciones por 30 minutos. Inicialmente, el profesor entrega un reforzador cuando el estudiante trabaja productivamente por 2 minutos. Después de varios intervalos exitosos de 2 minutos, el criterio para el refuerzo se eleva a 3 minutos. Asumiendo que ella trabaja sin interrupciones por varios periodos de 3 minutos, el criterio se eleva a 4 minutos. Este proceso continúa hasta la meta de 30 minutos siempre y cuando el estudiante se desempeñe confiablemente al nivel del criterio. Si el estudiante encuentra difficultad en cualquier punto, el criterio para el refuerzo disminuye a un nivel en el que ella pueda desempeñarse exitosamente.

Una habilidad académica que podría moldearse es enseñar a un estudiante las tablas de multiplicar del 6. Actualmente solo sabe y Para ganar refuerzo, debe recitar correctamente estos dos más Después de que pueda hacer esto confiablemente, el criterio para el refuerzo se eleva para incluir Este proceso continúa hasta que recita con precisión todos los hechos hasta

Encadenamiento

La mayoría de las acciones humanas son complejas e incluyen varias contingencias de tres términos (A–B–C) enlazadas sucesivamente. Por ejemplo, tirar una pelota de baloncesto requiere driblar, girar, colocarse en posición, saltar y soltar la pelota. Cada respuesta altera el ambiente, y esta condición alterada sirve como el estímulo para la siguiente respuesta. El encadenamiento es el proceso de producir o alterar algunas de las variables que sirven como estímulos para futuras respuestas (Skinner, 1953). Una cadena consiste en una serie de operantes, cada uno de los cuales establece la ocasión para más respuestas.

Las cadenas son similares a los actos de Guthrie, mientras que las contingencias individuales de tres términos se asemejan a movimientos. Algunas cadenas adquieren una unidad funcional; la cadena es una secuencia integrada tal que la implementación exitosa define una habilidad. Cuando las habilidades están bien perfeccionadas, la ejecución de la cadena ocurre automáticamente. Montar una bicicleta consiste en varios actos discretos, pero un ciclista experto los ejecuta con poco o ningún esfuerzo consciente. Tal automaticidad está a menudo presente en habilidades cognitivas (p. ej., leer, resolver problemas matemáticos). El encadenamiento juega un papel crítico en la adquisición de habilidades (Gollub, 1977; Skinner, 1978).

Modificación de la Conducta

La modificación de la conducta (o terapia conductual) se refiere a la aplicación sistemática de los principios del aprendizaje conductual para facilitar conductas adaptativas (Ullmann & Krasner, 1965). La modificación de la conducta se ha empleado con adultos y niños en contextos tan diversos como aulas, entornos de consejería, prisiones y hospitales mentales. Se ha utilizado para tratar fobias, lenguaje disfuncional, conductas disruptivas, interacciones sociales negativas, crianza deficiente y bajo autocontrol (Ayllon & Azrin, 1968; Becker, 1971; Keller & Ribes-Inesta, 1974; Ulrich, Stachnik, & Mabry, 1966). Lovaas (1977) empleó con éxito la modificación de la conducta para enseñar lenguaje a niños autistas.

Modificación de la Conducta

La modificación de la conducta para estudiantes disruptivos es difícil porque tales estudiantes pueden mostrar pocas respuestas apropiadas para ser reforzadas positivamente. Un maestro podría usar el moldeamiento para abordar una conducta molesta específica. Kathy Stone ha estado teniendo problemas con Erik, quien continuamente empuja y golpea a otros estudiantes cuando la clase se pone en fila para ir a algún lugar del edificio. Cuando la clase va a ir solo una corta distancia, la Sra. Stone podría informar a Erik que si se queda en la fila sin empujar ni golpear, será el líder de la fila en el camino de regreso a la clase; sin embargo, si empuja o golpea, será retirado inmediatamente de la fila. Este procedimiento se puede repetir hasta que Erik pueda manejar distancias cortas. Entonces, la Sra. Stone puede permitirle caminar con la clase por distancias progresivamente más largas hasta que pueda comportarse en la fila para cualquier distancia.

Sarah, otra niña en la clase de Kathy Stone, frecuentemente entrega trabajos desordenados. La Sra. Stone podría usar reforzadores generalizados como pegatinas especiales (intercambiables por varios privilegios) para ayudar a Sarah, cuyo trabajo suele estar sucio, roto y apenas legible. Se le dice a Sarah que si entrega un papel limpio, puede ganar una pegatina; si no está roto, otra pegatina; y si la escritura es pulcra, una tercera pegatina. Una vez que Sarah comienza a mejorar, la Sra. Stone puede mover gradualmente las recompensas a otras áreas para mejorar (por ejemplo, trabajo correcto, terminar el trabajo a tiempo).

Técnicas

Las técnicas básicas de la modificación de la conducta incluyen el reforzamiento de las conductas deseadas y la extinción de las no deseadas. El castigo rara vez se emplea pero, cuando se usa, más a menudo implica la eliminación de un reforzador positivo en lugar de la presentación de un reforzador negativo.

Al decidir sobre un programa de cambio, los modificadores de conducta típicamente se enfocan en los siguientes tres aspectos (Ullmann & Krasner, 1965):

  • ¿Cuáles de las conductas del individuo son maladaptativas y cuáles deberían aumentarse (disminuirse)?
  • ¿Qué contingencias ambientales apoyan actualmente las conductas del individuo (ya sea para mantener conductas indeseables o para reducir la probabilidad de realizar respuestas más adaptativas)?
  • ¿Qué características ambientales se pueden alterar para cambiar la conducta del individuo?

El cambio es más probable cuando los modificadores y los clientes están de acuerdo en que se necesita un cambio y deciden conjuntamente los objetivos deseados. El primer paso para establecer un programa es definir el problema en términos conductuales. Por ejemplo, la declaración, “Keith está fuera de su asiento con demasiada frecuencia”, se refiere a una conducta manifiesta que se puede medir: se puede mantener un registro de la cantidad de tiempo que Keith está fuera de su asiento. Las expresiones generales que se refieren a elementos no observables (“Keith tiene una mala actitud”) no permiten una definición objetiva del problema.

El siguiente paso es determinar los reforzadores que mantienen la conducta indeseable. Tal vez Keith está recibiendo la atención del maestro solo cuando se levanta de su asiento y no cuando está sentado. Un plan simple es que el maestro atienda a Keith mientras está sentado y dedicado al trabajo académico y que lo ignore cuando se levanta de su asiento. Si la cantidad de veces que Keith se levanta de su asiento disminuye, la atención del maestro es un reforzador positivo.

Un programa de modificación de la conducta podría emplear reforzadores generalizados como puntos que los estudiantes intercambian por reforzadores de respaldo, como recompensas tangibles, tiempo libre o privilegios. Tener más de un respaldo asegura que al menos uno será efectivo para cada estudiante en todo momento. Se debe establecer un criterio conductual para ganar refuerzo. Se puede emplear el procedimiento de moldeamiento de cinco pasos (discutido anteriormente). El criterio se define inicialmente al nivel de la conducta inicial y progresa en pequeños incrementos hacia la conducta deseada. Se le da un punto al estudiante cada vez que se cumple el criterio. Para extinguir cualquier conducta indeseable por parte de Keith, el maestro no debe prestarle demasiada atención si se levanta de su asiento, sino que debe informarle en privado que debido a que no cumple con el criterio, no gana un punto.

El castigo se usa con poca frecuencia, pero puede ser necesario cuando la conducta se vuelve tan disruptiva que no se puede ignorar (por ejemplo, peleas). Un castigo común es el tiempo fuera (del reforzamiento). Durante el tiempo fuera, el estudiante es removido del contexto social de la clase. Allí, el estudiante continúa realizando trabajo académico sin interacción social con sus compañeros o la oportunidad de ganar refuerzo. Otro castigo es eliminar los reforzadores positivos (por ejemplo, tiempo libre, recreo, privilegios) por mala conducta.

Los críticos han argumentado que la modificación de la conducta moldea conductas tranquilas y dóciles (Winett & Winkler, 1972). Aunque se necesita una cantidad razonable de silencio para asegurar que ocurra el aprendizaje, algunos maestros buscan un aula silenciosa en todo momento, incluso cuando algo de ruido de las interacciones sociales facilitaría el aprendizaje. El uso de la modificación de la conducta no es inherentemente ni bueno ni malo. Puede producir un aula silenciosa o promover iniciaciones sociales por parte de niños retraídos (Strain, Kerr, & Ragland, 1981). Al igual que las técnicas mismas, los objetivos de la modificación de la conducta deben ser pensados cuidadosamente por quienes implementan los procedimientos.

Modificación Cognitivo-Conductual

Los investigadores también han incorporado elementos cognitivos en los procedimientos de modificación de la conducta. En la modificación cognitivo-conductual, los pensamientos de los aprendices (cuando se verbalizan) funcionan como estímulos discriminativos y reforzadores. Por lo tanto, los aprendices pueden instruirse verbalmente sobre qué hacer y luego realizar la conducta apropiada. Las técnicas de modificación cognitivo-conductual a menudo se aplican con estudiantes con discapacidades (Hallahan, Kneedler, & Lloyd, 1983), y se utilizan para reducir la hiperactividad y la agresión (Robinson, Smith, Miller, & Brownell, 1999). El entrenamiento autoinstruccional de Meichenbaum (1977) es un ejemplo de modificación cognitivo-conductual.

Autorregulación

El condicionamiento operante también aborda la autorregulación (Mace, Belfiore, & Hutchinson, 2001; Mace, Belfiore, & Shea, 1989). Esta perspectiva se cubre en profundidad en el Capítulo 9. La teoría operante sostiene que el comportamiento autorregulado implica elegir entre cursos de acción alternativos (Brigham, 1982), típicamente difiriendo un reforzador inmediato en favor de un reforzador futuro diferente, y usualmente mayor. Por ejemplo, Trisha se queda en casa el viernes por la noche para estudiar para un examen en lugar de salir con amigos, y Kyle sigue trabajando en una tarea académica a pesar de las burlas de sus compañeros cercanos. Están difiriendo el refuerzo inmediato por el refuerzo futuro anticipado, como lo está John en el siguiente ejemplo.

John está teniendo dificultades para estudiar. A pesar de las buenas intenciones, dedica insuficiente tiempo a estudiar y se distrae fácilmente. Una clave para cambiar su comportamiento es establecer estímulos discriminativos (señales) para estudiar. Con la ayuda de su consejero de la escuela secundaria, John establece un tiempo y lugar definidos para estudiar (de 7 P.M. a 9 P.M. en su habitación con un descanso de 10 minutos). Para eliminar las señales de distracción, John acuerda no usar su teléfono celular, reproductor de CD, computadora o TV durante este período. Para el refuerzo, John se otorgará un punto por cada noche que logre con éxito su rutina. Cuando reciba 10 puntos, puede tomarse una noche libre.

Desde una perspectiva de condicionamiento operante, uno decide qué comportamientos regular, establece estímulos discriminativos para su ocurrencia, evalúa el rendimiento en términos de si coincide con el estándar y administra el refuerzo. Como se discutió, los tres subprocesos clave son el auto-monitoreo (atención deliberada a aspectos seleccionados del comportamiento de uno), la auto-instrucción ( s que establecen la ocasión para la autorregulación llevando a , y el auto-refuerzo (reforzarse a uno mismo por realizar una respuesta correcta).