VI.1. Hasta la primera mitad de nuestro siglo
VI.2. Años cincuenta y sesenta
VI.2.1. La memoria asociativa
VI.2.2. El reconocimiento de patrones
VI.2.3. Limitaciones de perceptrones y adalines
elementales
VI.3. Años setenta y ochenta
Las primeras aportaciones destacables
provienen de la neurofisiología: Luria, Lashley y Hebb
se enfrentaron a las doctrinas dominantes a finales del siglo XIX,
doctrinas que defendían el carácter localista del almacenamiento y de
las funciones del cerebro; frente a estas doctrinas defendieron una
concepción distribuida de los sistemas de procesamiento y memoria del
cerebro. Sus investigaciones demostraron que la especialización podía
darse en relación a grandes regiones del cerebro, pero en absoluto en
las neuronas singulares. Lashley llevó tan lejos la hipótesis
distribuida que postuló el carácter equipotente del cerebro (cualquier
región del cerebro puede realizar cualquier tarea determinada).
De los tres autores citados es sin
duda Donald Hebb el más importante en relación con desarrollo del
conexionismo, particularmente a partir de su libro publicado en 1949
La organización de la conducta. Hebb defendió la conexión entre
psicología y fisiología, propuso la tesis del carácter distribuido de la
información en unidades informativas y formuló uno de los primeros
procedimientos de aprendizaje (procedimiento que algunos autores creen
que ya había sugerido Santiago Ramón y Cajal): si un conjunto de
neuronas conectadas entre sí se activan repetidamente, sus sinapsis
aumentan su conductividad, o de otro modo: conjuntos de neuronas
sincrónicamente activadas tienden a organizarse en conjuntos conectados.
Estas ideas de Hebb han resultado
particularmente fecundas. Por ejemplo, ya en 1954 Albert M. Uttley
demostró en The Classification of Signals in the Nervous System
que redes entrenadas con el modelo de aprendizaje hebbiano eran capaces
de reconocer patrones simples binarios (111000, 110111, ...) en clases
(por ejemplo las que comienzan por 110).
El siguiente hito reseñable se refiere a la
aportación del neurofisiólogo Warren McCulloch y el matemático
Walter Pitts: en 1943 publicaron A logical calculus of the
ideas immanent in nervous activity. El artículo de McCulloch y Pitts
fue importante, entre otras razones, porque en él se trata al cerebro
como a un organismo computacional. Propusieron la construcción de
máquinas de computar con una estructura abstracta similar a la que
creyeron encontrar en las redes neuronales biológicas, aunque, a
diferencia de las redes conexionistas actuales, dirigidas por un enfoque
lógico y no uno probabilístico. Dieron más importancia al aprendizaje
que a disposiciones innatas en la formación de las conexiones entre las
unidades, y demostraron que redes neuronales sencillas conectadas entre
sí mediante sinapsis excitadoras e inhibidoras y asignando un valor
umbral para la activación de la unidad de salida, eran capaces de
representar adecuadamente las leyes lógicas fundamentales. A estas
neuronas sencillas las llamaron neuronas “formales”; actualmente
a las redes constituidas por dichas unidades se las suele llamar
redes de McCulloch-Pitts. Aunque intentaron modelar aspectos
elementales de las neuronas biológicas, las neuronas formales eran
simplemente conmutadores lógicos, semejantes a los circuitos lógicos que
se pueden crear mediante interruptores y por los que puede fluir la
corriente eléctrica.
En 1947 McCulloch y Pitts escribieron How We
Know Universals: The Perception of Auditory and Visual Formas, obra
en la que trataron el problema del reconocimiento de patrones o problema
del reconocimiento de variaciones de un mismo patrón y en la que
presentaron dos redes. La primera tenía como objetivo reconocer
propiedades comunes en distintos individuos (propiedades invariantes del
mismo patrón); la segunda era capaz de generar el patrón a partir de
ejemplos de dicho patrón. Hicieron una interpretación biológica de estas
redes suponiendo que las redes neuronales de los córtices auditivo y
visual eran redes del primer tipo y que el colículo superior
(involucrado en el control del movimiento de los ojo) era una red del
segundo tipo.
Volver al índice
VI.2. AÑOS CINCUENTA Y SESENTA
En la década de los cincuenta las redes neuronales se
utilizaron para dar cuenta de dos capacidades importantes de la mente
humana: la memoria asociativa y el reconocimiento de patrones.
VI.2.1. La
memoria asociativa
Empecemos con la memoria asociativa: la
asociación entre recuerdos es un hecho conocido desde hace mucho tiempo;
cuando dos recuerdos tiene algún aspecto común quedan ligados entre sí
de tal modo que uno puede evocar a otro.
El primer trabajo en este campo corresponde a
Wilfrid K. Taylor con su obra de 1956 Electrical Simulation of
Some Nervous System Functional Activities. Taylor propone una red en
tres capas: una con unidades sensoriales, otra con unidades asociativas
y la última con unidades motoras. Los pesos de las sinapsis son
modificables y las unidades ya no son neuronas biestables (todo-o-nada),
al modo de las neuronas formales de McCulloch-Pitts, sino dispositivos
analógicos. El procedimiento de entrenamiento es la regla de Hebb: se
aumentan los pesos activados si se activan las unidades motoras
deseadas. Inicialmente se le presentan pares de patrones; de ese par de
patrones uno provoca una respuesta precisa en las neuronas motoras y el
otro no; mediante el aprendizaje, la red consigue que estos últimos
patrones, los que originariamente no provocaban la respuesta en las
neuronas motoras, ahora sí lo hagan. En este sentido se puede decir que
la red consigue asociar patrones sensoriales diferentes, y muestra un
comportamiento parecido al condicionamiento pavloviano. Además en su
red, la memoria asociada se almacena en el patrón de pesos y por lo
tanto de forma distribuida.
En trabajos posteriores Taylor construyó una red
más elaborada, con sinapsis que volvían de las unidades motoras a las
unidades sensoriales y con sinapsis entre unidades de la misma capa.
Esta red era más eficaz en la asociación de estímulos apareados y se
mostró también capaz de discriminar patrones (recogiendo por tanto las
capacidades de los perceptrones y adalines). En 1964 (Cortico-Thalamic
Organization and Memory) aventuró incluso una interpretación
biológica de su red, sugiriendo que las áreas de asociación de la
corteza cerebral y el tálamo contenían esas redes.
Las redes anteriores asocian indirectamente el elemento
a y el elemento b al estar asociados ambos con c (como ocurre con el
condicionamiento clásico); estudios de los años sesenta y setenta
mostraron que estas redes pueden servir también para representar la
memoria asociativa accesible o direccionable por el contenido; llamamos
memoria accesible por el contenido a aquella que nos permite recordar
ítems a partir de descripciones parciales de sus contenidos o
características, incluso cuando alguna de estas descripciones es
errónea. Y precisamente por esta capacidad actualmente a las redes
asociativas se las llama también memorias asociativas direccionables
o accesibles por contenido (ACAMs).
Volver al índice
VI.2.2. El reconocimiento de patrones
En cuanto al reconocimiento de patrones, cabe destacar
lo siguiente: en esencia el problema consiste en explicar cómo se puede
reconocer que individuos distintos pertenecen, no obstante, al mismo
tipo. Un caso típico de reconocimiento de patrones es nuestra capacidad
de interpretar como “A” signos que sin embargo son distintos
(“A”,
“A”, “A”,
“A”, “A”, “A”), pero evidentemente esta
capacidad aparece también en otros contextos: somos capaces de reconocer
el rostro de una persona en distintas condiciones de luminosidad e
incluso aunque cambie su peinado, su maquillaje o se deje barba; un
animal debe reconocer los individuos de otra especie como siendo la
presa con la que se ha de alimentar, o su posible pareja para la
reproducción,...
Ya se ha citado la aportación de McCulloch y Pitts en
este campo, por lo que ahora podemos referirnos a otros autores,
comenzando por John von Neumann: en su escrito de 1956,
Probabilistic Logics and the Synthesis of Reliable Organisms from
Unreliable Components, mejoró las redes McCulloch-Pitts creando
redes confiables: en las redes originales de McCulluch-Pitts cada
unidad actuaba representando una unidad informativa y lo hacía con la
lógica todo-o-nada. Esta redes no son muy confiables pues el daño en una
unidad puede tener efectos catastróficos en la computación. Para
resolver esta dificultad Von Neumann introdujo la redundancia en
la red: una unidad informativa no se representa mediante una neurona
sino mediante la activación sincrónica de un cúmulo de neuronas (por
ejemplo se puede representar 1 cuando más de la mitad está activada y 0
en caso contrario). Von Neumann probó que estas redes redundantes pueden
realizar cálculos aritméticos de modo muy confiable.
En 1963 Shamuel Winograd y Jack D.
Cowan escribieron Reliable Computation in the Presence of Noise.
En esta obra recogieron y mejoraron las ideas de Von Neumann,
defendiendo una propuesta aún más distribuida del conocimiento:
en las redes de Winograd-Cowan un bit o unidad de información se
representaba mediante varias neuronas, como en las redes de Von Neumann,
pero, y esta era la novedad, cada neurona representaba parcialmente
varios bits.
La figura de Frank Rosenblatt es
imprescindible par entender el desarrollo del conexionismo. En sus obras
de 1958 The Perceptron, a Probabilistic Model for Information Storage
and Organization in the Brain y de 1962 Principles of
Neurodynamics, defiende la importancia de las redes neuronales para
la computación y de los métodos probabilísticos más que de los lógicos
en el uso de las redes, mejora la regla de aprendizaje de Hebb y
presenta una red a la que llamó “Perceptrón”. En su versión más
sencilla, el Perceptrón consta de dos capas: la de entrada o capa con
unidades sensoriales y, conectada con la anterior, la de salida o capa
con unidades motoras. Las unidades eran unidades McCulloch-Pitts
(podían tomar simplemente los valores activado-desactivado).
Inicialmente los pesos de las conexiones eran aleatorios, y el
aprendizaje consistía en la modificación de los pesos de tal forma que
dada una entrada se consiguiese la salida deseada. Rosenblatt encontró
un sencillo procedimiento de entrenamiento con el cual la red podía dar
con los pesos requeridos para tal tarea. El Perceptrón era capaz de
reconocer patrones sencillos y de generalizar similitudes entre patrones.
Pero a pesar de las esperanzas que muchos investigadores en este tipo de
red, pronto se vio que tenía serias limitaciones, que se ejemplificaron
en la imposibilidad de la red para resolver una tarea lógica
aparentemente sencilla: la del problema de la disyunción exclusiva. En
términos más técnicos, se vio que era incapaz de clasificar clases o
patrones no separables linealmente (ver más adelante la exposición
del
Perceptrón y del
problema citado).
En este breve recorrido de la historia del conexionismo es
preciso referirse a la trayectoria de Marvin Minsky, compañero de
Rosenblatt en el instituto. En sus primeros escritos mantuvo algunas
tesis que, claramente, son un antecedente del conexionismo:
-
carácter
relativamente indiferenciado del cerebro pues aunque se dañe una
parte otras pueden realizar su función, particularmente si el daño
es en una época temprana;
-
importancia del
aprendizaje en la organización de las redes neuronales;
-
importancia del
estudio del cerebro y del comportamiento de las neuronas para la
construcción de una máquina que reproduzca aspectos sustanciales de la mente
humana.
Fue él precisamente uno de los primeros en afirmar que el cerebro no es otra
cosa que una “máquina de carne”. Estas tesis pertenecen a sus
primeras investigaciones (con las que consiguió el grado de doctor). Sin
embargo, pronto abandonó este planteamiento conexionista defendiendo la
idea de que es posible comprender la mente humana prescindiendo del estudio
del cerebro y atendiendo exclusivamene a sus mecanismos o comportamiento.
Como se sabe, esta tesis es uno de los principios fundamentales de la
psicología cognitiva tradicional, por lo que, en resumen, se podría decir
que las primeras propuestas de Minsky favorecieron las tesis conexionistas y
las segundas (por las que es célebre) las tesis de la psicología cognitiva
clásica.
Otra importante y curiosa aportación fue la
de O. Selfridge con su obra de 1959 Pandemonium: A paradigm for
learning, en donde llamó “Pandemonium” a su modelo de procesamiento
distribuido y paralelo de la información. Su propuesta es importante porque
su modelo para el reconocimiento de patrones descansa en el procesamiento
interactivo realizado por un conjunto de unidades de procesamiento; y es
también curiosa porque en vez de hablar de neuronas para referirse a las
unidades de procesamiento les dió el nombre de “demonios” (incluso en los
libros que explican el modelo se los dibuja como pequeños diablillos). Es
habitual presentar este modelo como un intento de comprender el
reconocimiento de las letras del alfabeto. Más adelante se presenta el
Pandemonium con con
cierto detalle.
Bernard Widrow y Marcial Hoff (Adaptive
Switching Circuits,1960) inventaron una variante del Perceptrón y un
nuevo procedimiento de aprendizaje, la regla delta del aprendizaje.
Llamaron “adaline” a su red (por adaptive linear neuron, neurona
lineal adaptativa). En realidad, la única diferencia con el Perceptrón es el
procedimiento de aprendizaje o entrenamiento que utilizaron. Era también una
red de dos capas (capa de entrada y capa de salida) interconectas, y
compuestas por unidades biestables. Su finalidad era también el
reconocimiento de patrones. El adaline fue la primera red neuronal aplicada
a un problema real (como filtro para eliminar los ecos en las líneas
telefónicas) y se ha usado comercialmente durante varias décadas.
Volver al índice
VI.2.3. Limitaciones de perceptrones y adalines elementales
Marvin Minsky y Seymour
Papert, publicaron en 1969 Perceptrons: An introduction to
Computational Geometry: en este libro estudiaron los perceptrones y
demostraron que los perceptrones y adalines elementales (los que constan
sólo de dos capas) eran incapaces de distinguir entre patrones tan sencillos
como T y C, ni de llevar a cabo tareas lógicas simples, como la de decidir
la tabla de verdad de la disyunción exclusiva; probaron matemáticamente que
dichas redes, aunque pudiesen modificar sus pesos mediante reglas de
aprendizaje, no podían resolver más que problemas linealmente separables.
Además, ampliaron sus críticas conjeturando que esta dificultad no se podría
superar añadiendo unidades ocultas en redes multicapa. Esto último se
demostró falso a partir de 1986, cuando se descubrió la regla delta
generalizada y la validez de su uso en redes con capas ocultas. Este tipo de
redes y la regla citada permitió resolver el problema más famoso planteado a
los perceptrones y adalines, el problema de la disyunción exclusiva antes
citado. Se suele indicar que como consecuencia de las críticas de estos
autores las autoridades americanas dirigieron sus fondos a la inteligencia
artificial y la psicología cognitiva clásica, con el consiguiente freno de
la investigación en los modelos de computación conexionista.
VI.3. AÑOS SETENTA Y OCHENTA
J. A. Anderson escribió en 1973 el
artículo A theory for the recognition of items from short memorized
lists y en 1977 Neuronal models with cognitive implications. En
estos escritos presentó análisis matemáticos de algunas propiedades de las
redes neuronales y defendió la relevancia de las representaciones
distribuidas en distintos campos de la psicología, por ejemplo en el del
aprendizaje de conceptos; sus investigaciones fueron también importantes en
el campo de la memoria asociativa por contenido y de nuevos modelos de
redes.
Stephen Grossberg es uno de los más destacados
investigadores en el campo conexionista; sus propuestas aparecen ya en los
años sesenta y continúan en nuestros días. Ha escrito muchos libros y
desarrollado diversos modelos de redes (tal vez la más conocida es la red
que propuso en 1967, Avalancha, para el reconocimiento del habla y el
aprendizaje del movimiento de los brazos de un robot); además de realizar
las primeras investigaciones sobre el aprendizaje competitivo, subrayó la
importancia de los modelos conexionistas en los campos de la percepción y de
la memoria. Destaca su libro de 1982 Studies of mind and brain.
Hofstadter (Gödel, Escher,
Bach: An eternal golden braid, 1979 y Metamagical themas, 1985)
defiende la existencia de dos niveles de procesamiento, el que estudia la
psicología cognitiva clásica (nivel estructural) y un nivel de procesamiento
más bajo, y en el que se sitúan los trabajos del conexionismo (nivel
microestructural), de ahí que en ocasiones se hable del conexionismo
como un enfoque que analiza la “microestructura de la cognición” para
comprender los fenómenos cognitivos.
Es en los años ochenta cuando el conexionismo empieza a
tener un éxito considerable, y en esta trayectoria es fundamental la obra de
G. E. Hinton, y J. A. Anderson editada en 1981 Parallel
models of associative memory, y la obra de J. A. Anderson de 1983
Cognitive and psychological computation with neural models. En esta
última Anderson estudia el hardware del sistema nervioso real y propone
modelos neuronales sencillos basados en los biológicos y destinados a
explicar los procesos cognitivos.
J. A. Feldman y D. H. Ballard (1982:
Connectionist models and their properties. Cognitive Sciencie, 6)
desarrollaron muchos de los principios computacionales del enfoque
Procesamiento Distribuido Paralelo (PDP), utilizaron por primera vez el
nombre de conexionismo para este enfoque, y criticaron el enfoque
tradicional de la Inteligencia Artificial destacando su poca plausibilidad
biológica. Pero sin duda el impulso definitivo a la investigación
conexionista tiene como protagonistas a David. E. Rumelhart, James.
L. McClelland y varios investigadores más que forman lo que se ha
llamado “grupo PDP”, y culmina con la aparición de lo que se ha considerado
como la “Biblia conexionista”, “Parallel Distributed Processing:
Explorations in the microestructure of cognition” (dos volúmenes)
editada por Rumelhart y McClelland en 1986. En esta obra se tratan
importantes cuestiones pero sin duda destaca la demostración de cómo las
redes con más de dos capas pueden solucionar las objeciones matemáticas
propuestas por Minsky y Papert y que tanto limitaron el desarrollo en la
investigación de redes neuronales.
A partir de Parallel Distributed Processing se
suceden multitud de investigaciones, artículos y congresos, tanto en los
campos de la Inteligencia Artificial como en los de la psicología,
convirtiéndose el conexionismo en un movimiento revolucionario en el
panorama de la ciencia cognitiva. En este contexto se crean la Sociedad
Europea de Redes Neuronales (ENNS) y la Sociedad Internacional de
Redes Neuronales (INNS), sociedades que organizan congresos y reuniones
anuales y editan revistas para la divulgación de las investigaciones en este
campo de investigación, revistas entre las que destacan Neural Networks
(revista oficial de la Sociedad Internacional de Redes Neuronales);
Network, Computation in Neural System; Transactions on Neural
Networks; Nerual Networks Council; Neural Computation y
International Journal of Neural Systems.
De octubre de 1987 a febrero de 1988, el
Instituto Tecnológico de Massachussets (MIT), patrocinado por la Oficina
de Tecnología Táctica de la Agencia de Proyectos de Investigación Avanzada
del Departamento de Defensa de Estados Unidos (DARPA/TTO) llevó a cabo la
revisión de la investigación y tecnología basada en redes neuronales,
revisión que se plasmó en el libro Neural Network Study (Darpa 88).
En España también se ha creado una sociedad para la
investigación en redes neurales que ya ha organizado varios congresos, se
organizan seminarios (precisamente el que se realizó en la UNED en el curso
87-88 dio lugar a la edición de Introducción al Procesamiento Distribuido
en Paralelo, Alianza Editorial, en donde se reúnen los capitulos más
importantes de Parallel Distributed Processing). El programa europeo de
investigación ESPRIT ha financiado diversos proyectos en este campo,
proyectos en los que, en España, han participado las universidades
Politécnica y Autónoma de Madrid, la Politécnica del País Vasco, el Centro
de Estudios Avanzados de Blanes, el Instituto de Cibernética del CSIC y el
Instituto de Ingeniería del Conocimiento (IIC), entre otros.
Volver al índice
|