2.1.1
Gestión de fallos de la memoria
Hay varias funciones que actúan en la configuración del subsistema de memoria y la
forma en que se gestionan los fallos de la memoria. Es necesario comprender estas
funciones para identificar y reparar los problemas. En esta sección se describe
cómo actúa el servidor con los problemas de la memoria.
Nota – Para obtener información sobre la configuración de la memoria, consulte la
Sección 5.2, "Pautas de configuración de módulos FB-DIMM" en la página
El servidor utiliza la tecnología avanzada ECC que corrige hasta 4-bits erróneos
de medio byte, siempre que se encuentren en la misma DRAM. En los módulos
DRAM de 512 MB, si falla una DRAM, el DIMM continúa funcionando. Esta
funcionalidad depende de los tipos de DRAM utilizados en el FB-DIMM.
Las siguientes funciones del servidor gestionan de manera independiente los fallos
de la memoria:
POST: de acuerdo con las variables de configuración de ALOM, las pruebas POST
■
se ejecutan cuando se enciende el servidor.
En el caso de errores corregibles de la memoria (CE), POST envía el error al
daemon de reparación automática predictiva de Solaris (PSH) para su gestión.
Si se detecta un error de memoria no corregible, POST muestra el error con el
nombre del dispositivo cuyo módulo FB-DIMM tiene errores y registra el fallo.
POST desactiva el FB-DIMM defectuoso. Según la configuración de la memoria
y la posición del FB-DIMM defectuoso, POST desactiva la mitad de la memoria
física del sistema, o la mitad de la memoria física y la mitad de hilos del
procesador. Cuando ocurra este proceso de desactivación durante el
funcionamiento normal, deberá reemplazar los FB-DIMM defectuosos de
acuerdo con el mensaje de error y activar los FB-DIMM que se hayan
desactivado con el comando de ALOM CMT enablecomponent.
Tecnología de reparación automática predictiva de Solaris (PSH): esta función
■
del sistema operativo Solaris hace uso del daemon Fault Manager (fmd) para
detectar varios tipos de fallos. Cuando ocurre un fallo, se le asigna un ID
exclusivo (UUID) y queda registrado. PSH lo comunica y sugiere una
sustitución de los FB-DIMM asociados con el fallo.
Si sospecha que el servidor tiene un problema de la memoria, siga las indicaciones del
diagrama (consulte la
El comando showfaults enumera los fallos e indica los FB-DIMM específicos
asociados.
2-6
Manual de servicio de los servidores SPARC Enterprise T5120 y T5220 • Octubre de 2008
). Ejecute el comando de ALOM CMT showfaults.
FIGURA 2-1
5-12.