|
V.1. Inspiración neuro-fisiológica: aproximación a
las ciencias neurológicas
V.2. El procesamiento es paralelo, no serial
V.3. Procesamiento y representación de la
información distribuido, no localista
V.4. Computación sin reglas
V.5. Degradación elegante. Tolerancia a fallos
Como consecuencia
de las característica citadas en la sección 2, el conexionismo presenta importantes diferencias respecto de los modelos
que encontramos en la psicología cognitiva clásica. Veamos alguna de ellas.
V.1. INSPIRACIÓN NEURO-FISIOLÓGICA: APROXIMACIÓN A LAS
CIENCIAS NEUROLÓGICAS
La psicología cognitiva clásica no daba importancia a la base orgánica
de la vida mental. Cabe recordar que incluso sus propios postulados básicos
le llevaron a considerar que la lógica existente en los procesos mentales
se puede comprender y explicar con independencia de su realización en
un sistema físico (esto es lo que afirma la tesis del funcionalismo,
la teoría filosófica de la mente compartida por los psicólogos cognitivos).
El conexionismo, sin embargo, toma al cerebro como modelo de procesamiento
y su inspiración neurofisiológica aproxima la psicología a la biología.
Si en la psicología cognitiva clásica la metáfora dominante era la metáfora
del ordenador, ahora, en el conexionismo, la
metáfora es el cerebro: la primera psicología clásica consideraba
que podíamos entender el comportamiento de la mente comprendiendo el “comportamiento”
del ordenador tipo Von Neumann, sin embargo el conexionismo afirma que
podemos entender el comportamiento de la mente si comprendemos el comportamiento
del cerebro humano. Con el conexionismo la Inteligencia Artificial, la
Psicología y la Biología se convierten en disciplinas más próximas que
lo que permitía el enfoque de la psicología cognitiva clásica. Claro está
que esta aproximación es interesante desde el punto de vista de la unidad
de las ciencias y la posición materialista dominante, pero también puede
ser una dificultad para los que quieren defender la posibilidad de la
psicología como ciencia independiente; de hecho las posiciones filosóficas
de los conexionistas en el tema del estatuto de la mente tienden a ser
reduccionistas o a defender el materialismo
eliminativo (en lo esencial, tesis según las cuales los estados mentales
no tienen auténtica realidad, son epifenómenos y, por lo mismo, no pueden ser causas de las conductas).
Aunque también existen
redes neuronales que intentan ser modelos de los procesos reales de partes
del cerebro, las que interesan a la psicología no intentan imitar el comportamiento
del sistema nervioso sino de la mente. El conexionismo quiere ser una teoría psicológica no una teoría fisiológica.
Sin embargo, sí se puede hablar de inspiración biológica en los modelos mentales propuestos. Las redes
neuronales intentan reproducir las características principales del comportamiento
del cerebro, particularmente de su estructura fisiológica básica, la neurona,
y de su agrupación en estructuras complejas o redes de neuronas. A continuación
vamos a fijarnos en los aspectos más elementales de las redes neuronales
biológicas, aspectos que las redes conexionistas intentan emular.
Las unidades básicas
del sistema nervioso son las neuronas.
Estas unidades se conectan unas con otras formando redes extraordinariamente complejas. La principal función de las neuronas
es recoger señales de diversas fuentes, transformarlas y producir señales
de salida que transmiten a otras neuronas u otras partes del organismo.
De este modo, en el cerebro el procesamiento de la información es paralelo
y distribuido, paralelo en tanto que las señales recibidas las procesan
simultáneamente millones de conexiones diferentes y distribuido porque
la responsabilidad del almacenamiento de la información no recae sobre
una unidad (una neurona) sino sobre amplios conjuntos de unidades.
Los órganos sensoriales
reciben señales del exterior y mediante elementos transductores convierten
las distintas energías que reciben en señales nerviosas. La información
fluye desde los nervios sensoriales y, recorriendo estaciones intermedias
como la médula espinal, el tronco cerebral, cerebelo, etc., llega hasta
la corteza cerebral. A su vez, del cerebro parte la información por los
nervios motores hasta los músculos u otros órganos y constituye la respuesta
del organismo al medio.
En las neuronas cabe
destacar las siguientes partes fundamentales:
·
el cuerpo celular o soma, cuya función principal es procesar las señales
que recibe la unidad y enviar la información de salida hacia otras unidades;
·
el axón: es la fibra más gruesa y larga de todas las que se originan
en el cuerpo celular; mediante los axones las neuronas se conectan unas
con otras; su función es transmitir la información generada en el cuerpo
celular a las otras células;
·
las dendritas: son pequeñas extensiones del soma y su función es recibir
la información.
De este modo, las dendritas son los canales receptores de
la información, el soma la unidad de procesamiento y el axón el canal
transmisor de la información.
La información se
traslada a través del axón y las dendritas en la forma de señales eléctricas.
Sin embargo, el paso de la información de una unidad a otra no tiene la
forma de cambios eléctricos sino químicos. La conexión entre el axón de
una neurona y las dendritas de otra recibe el nombre de sinapsis.
Las neuronas no están en contacto físico completo pues existe un pequeño
espacio en la sinapsis (el espacio intersináptico). Cuando el impulso
eléctrico llega al final del axón, se produce la liberación de unas sustancias
químicas denominadas neurotransmisores.
Los neurotransmisores se difunden en el espacio intersináptico y se unen
a los extremos de las dendritas en ciertos lugares denominados receptores.
En estos receptores se producen cambios químicos que provocan modificaciones
eléctricas en la neurona y el flujo eléctrico o impulso nervioso.
Por su importancia
en las redes neuronales conexionistas, es importante recordar también
dos hechos más que se dan en las redes neuronales biológicas:
·
los efectos de los neurotransmisores sobre las dendritas
pueden ser excitadores o inhibidores
de forma que para calcular la influencia final del conjunto de entradas
sobre una neurona es preciso sumar y restar sus estímulos.
·
para que la neurona responda enviando una señal eléctrica
a lo largo del axón (el impulso nervioso) es necesario que los estímulos
que recibe de otras unidades alcancen un cierto nivel eléctrico
(el umbral del impulso eléctrico o intensidad
mínima del estimulo que es suficiente para provocar el impulso nervioso);
de este modo, la respuesta de la célula ante los estímulos tiene la forma
de todo o nada.
Cuando se habla
de la inspiración biológica de los modelos conexionistas se quiere señalar
que estos modelos intentan reproducir gran parte de los aspectos existentes
en las redes neurológica biológicas y descritos más arriba. Sin embargo
hay otros aspectos del sistema nervioso que no se intentan reproducir.
Citemos algunos:
·
Por ejemplo, el relativo al número de unidades de procesamiento: en
todo el sistema nervioso central hay del orden de 1011 neuronas
y de 1015 interconexiones, mientras que las redes conexionistas
generalmente constan como mucho de varias centenas de unidades y de varios
miles de conexiones.
·
En las redes conexionistas los pesos entre las conexiones
se establecen inicialmente de forma aleatoria y se van corrigiendo
mediante el aprendizaje; esto supone, traducido a los términos tradicionales,
primar el ambientalismo y el aprendizaje frente a los componentes innatos.
En el cerebro la importancia del aprendizaje para el desarrollo de las
sinapsis no se puede obviar, pero tampoco se puede negar la importancia
de factores innatos, factores que determinan los recursos fisiológicos
necesarios para el procesamiento e incluso las rutas en el establecimiento
de las conexiones.
·
En el caso de las redes biológicas, el aprendizaje
da lugar a modificaciones en las fuerzas de conexión, pero también a modificaciones
de las estructuras mismas de interconexión (por ejemplo, de las unidades
conectadas y de los tipos de conexiones); en las redes conexionistas el
aprendizaje actúa sobre los pesos de las conexiones pero no sobre las
estructuras mismas.
Volvera al índice
V.2. EL PROCESAMIENTO ES PARALELO, NO
SERIAL
A pesar de que los desarrollos técnicos permitieron incrementar
la velocidad de los ordenadores, los resultados de éstos en tareas aparentemente
sencillas como el reconocimiento
de formas necesitaban un tiempo de ordenador muy alto y sus resultados
no eran muy buenos. El contraste con la eficacia del cerebro se hizo cada
vez más manifiesto pues aunque la velocidad de procesamiento de cada neurona
es muy inferior a la del ordenador (la velocidad de procesamiento en los
ordenadores se mide en nanosegundos y la de las neuronas en milisegundos
o incluso centésimas de segundo) el
cerebro humano es capaz de realizar ciertas tareas en un tiempo inferior
que el ordenador. Los programas construidos por la Inteligencia Artificial
tradicional resultan muy buenos para tareas que exigen la repetición del
mismo proceso sobre los datos de entrada (millones de cómputos recursivos),
lo que les permite a las máquinas aventajarnos en tareas como la de cálculos
matemáticos; sin embargo el cerebro parece más eficaz que los ordenadores
tradicionales en tareas típicas de los seres vivos: reconocer un enemigo
en una ambiente que no presenta su figura con precisión, recordar instantáneamente
formas de huida o aproximación, comprender una frase, reconocer un rostro,
seguir en tiempo real el movimiento de un objeto en el espacio, ...; hay
tareas para las cuales un niño de tres años resulta más eficiente que
los ordenadores más potentes y los programas más sofisticados.
La explicación de
la eficacia del cerebro para este tipo de tareas se encuentra en el hecho
de que para el procesamiento de la información el cerebro utiliza simultáneamente
millones de neuronas y el ordenador convencional utiliza uno (o unos pocos)
procesadores. En un procesamiento
serial en cada momento sólo se realiza una operación, en un procesamiento
en paralelo en cada momento se realizan tantas operaciones como unidades
participan en el procesamiento completo. Ésta es precisamente una
de las características principales del cerebro: en el cerebro cada unidad,
o pequeñas poblaciones de unidades, participan en el procesamiento conjunto
de la información, y aunque cada una de ellas, tomadas por separado, tarden
en realizar sus procesamientos correspondientes, en conjunto la actividad
es más eficaz. Las redes neuronales nos permiten reproducir más adecuadamente
aquél tipo de tareas porque reproducen el procesamiento
en paralelo característico del cerebro, lo que otorga a las redes
una considerable ventaja en velocidad
sobre un ordenador convencional pues la multitud de sinapsis de cada nivel
ejecutan simultáneamente muchos pequeños cómputos, en lugar de hacerlo
en laboriosa sucesión como en los ordenadores tradicionales.
Volvera al índice
V. 3. PROCESAMIENTO Y
REPRESENTACIÓN DE LA INFORMACIÓN DISTRIBUIDO, NO LOCALISTA
El carácter distribuido
de la información típico de las redes conexionistas se extiende a dos
aspectos muy importantes relativos a la información: el procesamiento mismo y el almacenamiento de las representaciones.
El modelo conexionista
no es localista en primer lugar porque, a diferencia de lo que ocurre
en los ordenadores tradicionales, en las redes neuronales no existe la “unidad central de control”,
unidad que controle y coordine el conjunto de unidades del sistema; en
este modelo el procesamiento es responsabilidad de cada una de las unidades
o neuronas, cada una de ellas se encarga de cómputos parciales cuya activación
conjunta produce la señal de salida final. Desde un punto de vista fisiológico
estos modelos suponen que en el cerebro no existe una parte encargada
de un tipo específico de procesamiento, sino que la actividad cerebral
tiene carácter global.
La información se
puede almacenar de dos formas: los sistemas localistas retienen la información
en unidades discretas: en cada unidad (por ejemplo, en cada porción física
del disco duro del ordenador) se almacena una unidad informativa; en los sistemas distribuidos cada unidad
informativa se retiene en poblaciones de individuos y cada una de ellas
colabora de forma parcial en el almacenamiento de la información.
La ventaja de esta forma de almacenamiento es que la destrucción de unidades
en los sistemas localistas tiene un efecto más devastador que la destrucción
de unidades en los sistemas distribuidos. En los modelos distribuidos
de memoria cada unidad informativa se representa a partir de amplias poblaciones
de unidades, pero, a la vez, cada unidad de memoria colabora en el almacenamiento
de varias unidades informativas. No se puede dar interpretación cognitiva
a cada una de las unidades o neuronas; la
interpretación cognitiva (el decir, por ejemplo, que recuerda y relaciona
conceptos) es algo válido sólo para
la red en su conjunto, y en todo caso para los patrones de los pesos
de las unidades.
Podemos apreciar qué
se quiere indicar con la idea del carácter distribuido del almacenamiento
y procesamiento de la información con dos ejemplos muy sencillos:
·
los relojes digitales suelen expresar la información
horaria mediante segmentos; en este ejemplo, con los siete segmentos siguientes podemos representar diez números, dependiendo de los que estén activados
y de los que están desactivados (es obvio en realidad que se puede representar
más información, por ejemplo, además de números, letras); se puede observar
que el daño en una de las unidades afectaría a la capacidad del sistema
para representar la hora, pero no de un modo completo, a la vez que está claro también que cuanto
más distribuida sea la forma de almacenar la información (cuantos más
segmentos empleásemos) menos se resentiría el sistema:


por ejemplo, la matriz
nos permite emparejar los vectores de entrada (1,1) y
(1,-1) con los vectores de salida (-1,1) y (-1,-1):
la entrada +1 +1 produce: 1x -1 + 1x 0 1x 0 +
1x 1 = -1 1
la entrada +1 -1 produce: 1x -1 + -1x 0 1x 0 +
-1x 1 = -1 -1
Por cierto que ésta es precisamente una de
las curiosas eficacias de las redes conexionistas: un mismo patrón de
pesos (que se puede representar mediante matrices) permite emparejar
distintos vectores de entrada a sus vectores de salida correspondientes.
V. 4. COMPUTACIÓN SIN REGLAS
En las redes conexionistas la
computación no se rige por reglas. En los modelos cognitivos
tradicionales el procesamiento consiste en la manipulación de símbolos
mediante el empleo de reglas. Los símbolos tienen una interpretación
semántica (son conceptos, propiedades, clases, frases, líneas, ángulos,
recuerdos, ...) y las reglas describen el modo de transformar dichos
símbolos en conjuntos significativos más amplios. Para el conexionismo,
sin embargo, la computación no es otra cosa que el cálculo de las salidas
a partir de información de entrada, y los tres elementos, (entradas,
salidas y cálculos) expresados en términos cuantitativos. El
comportamiento general de la red puede parecer comportamiento guiado por
reglas, pero en realidad en sus componentes no hay otra cosa que elementos
de cómputo puramente cuantitativos. El sistema se sitúa en un estado o en
otro a partir de la modificación de los pesos y la activación o inhibición
de cada unidad. Dado que las redes conexionistas son básicamente modelos
de aprendizaje, la no utilización de reglas se traslada también al campo
del aprendizaje. En la psicología cognitiva clásica aprender una destreza
psicológica (la competencia lingüística, la capacidad para narrar un
cuento, la capacidad matemática, ...) se describía como la adquisición o
desarrollo de reglas capaces de organizar las salidas correspondientes
(frases significativas, narración de cuentos, cálculos matemáticos, ...) a
partir de los datos almacenados en la memoria; en el conexionismo el
aprendizaje no es otra cosa que la modificación de los pesos de las
conexiones para la transformación de los vectores de entrada en los
vectores de salida pertinentes. Mediante funciones de aprendizaje
adecuadas, las redes pueden modificar los pesos de modo que tras sucesivas
presentaciones de los vectores de entrada representativos de una clase de
datos (fonemas, caracteres escritos, figuras bidimensionales, ondas
eléctricas, ...) la red va afinando sus respuestas hasta que se logran
aciertos estadísticamente aceptables en el emparejamiento de los vectores
de entrada con los vectores de salida pertinentes.
Podemos apreciar la diferencia de enfoques
si nos fijamos en una de las tareas para la que las redes neuronales
parecen más pertinentes, el reconocimiento de patrones; el reconocimiento
de patrones no es otra cosa que la capacidad para identificar ejemplos de
un mismo modelo, para clasificar distintos estímulos como siendo del mismo
tipo. Los sistemas de reconocimiento tradicionales, los que aparecen en la
psicología cognitiva clásica y en la Inteligencia Artificial tradicional,
exigían elaborar reglas explícitas que recogiesen los aspectos esenciales
que el sistema debía captar. Con las redes neuronales podemos conseguir
que el sistema reconozca patrones sin presentarle dichas reglas explícitas
de reconocimiento, basta con presentarle los ejemplos adecuados y entrenar
a la red. Esta peculiaridad lleva también a caracterizar a las redes
neuronales como sistemas dinámicos autoadaptativos:
·
autoadaptativos porque ellas mismas,
sin que exista una unidad central rectora, son capaces de ajustar sus
unidades de procesamiento o neuronas de modo conveniente para producir el
vector de salida requerido;
·
dinámicos porque pueden cambiar
constantemente para adaptarse a las nuevas condiciones que imponen los
nuevos conjuntos de datos o vectores de entrada que se le presentan.
El aprendizaje no es otra cosa que la
modificación de los pesos o fuerzas de conexión existentes entre las
distintas unidades, no la adquisición de reglas o algoritmos explícitos.
Se supone que la red ha aprendido cuando consigue un patrón de pesos que
provoca, para las entradas del mismo tipo, las salidas deseadas. Los
problemas más importantes de la persona que diseña la red se refieren a la
obtención de la arquitectura apropiada (las capas y unidades necesarias,
las conexiones entre ellas, las funciones de activación y transferencia
que ha de utilizar) y de un buen algoritmo de aprendizaje que le permita a
la red discriminar los diferentes tipos de estímulos.
Una consecuencia de la ausencia de reglas
explícitas y que merecería la pena estudiar con detalle es que con este
sistema de procesamiento conseguiremos que el sistema o red reconozca las
semejanzas entre entidades, pero no seremos capaces de describir en qué
consisten dichas semejanzas.
Volvera al índice
V.5. DEGRADACIÓN ELEGANTE. TOLERANCIA A
FALLOS
En estas redes, cuando algunas unidades
dejan de funcionar adecuadamente su efecto no es catastrófico, afecta sólo
a la eficacia y precisión de la red en una medida mayor o menor
dependiendo de la cantidad de unidades deterioradas. Esto no ocurre con
los modelos tradicionales en donde la pérdida de alguna de las unidades de
memoria provocaba efectos importantes en el sistema. Otra dimensión de la
degradación elegante es que la recuperación de la memoria en redes
distribuidas es capaz de darse aún en los casos en que la información que
se introduce para la búsqueda sea confusa, incompleta e incluso errónea (lo
que se suele llamar tolerancia a fallos respecto de los datos).
Esta es una característica de las redes y también del funcionamiento real
de nuestra memoria: por ejemplo, cuando intentamos recordar el nombre de
una persona utilizando descripciones de sus características, somos capaces
de dar con el nombre aunque no recordemos todas sus propiedades y también
aunque algunas de estas descripciones no correspondan en realidad a dicho
sujeto. La razón por la que las redes son tolerantes a fallos es la
existencia de un cierto grado de redundancia en el procesamiento y
almacenamiento de la información, es decir su carácter distribuido y
paralelo. En los ordenadores tradicionales –y en los modelos cognitivos
basados en la arquitectura de dichos ordenadores– cada unidad de
información tiene una localización y dirección precisa, por lo que los
fallos de los distintos elementos que intervienen en el procesamiento
tienen consecuencias más graves que en los modelos conexionistas.
|