Introducción A La Gestión De Fallos De La Memoria - Fujitsu SPARC Enterprise T5440 Manual De Servicio

Ocultar thumbs Ver también para SPARC Enterprise T5440:
Tabla de contenido
Introducción a la gestión de fallos de la memoria
Hay varias funciones que actúan en la configuración del subsistema de memoria y la
forma en que se gestionan los fallos de la memoria. Es necesario comprender estas
funciones para identificar y reparar los problemas. En esta sección se describe cómo
actúa el servidor con los problemas de la memoria.
Nota – Para obtener información sobre la configuración de la memoria, consulte
"Configuraciones de módulos FB-DIMM compatibles" en la página
El servidor utiliza la tecnología avanzada ECC que corrige hasta 4-bits erróneos de
medio byte, siempre que se encuentren en la misma DRAM. En los módulos
FB-DIMM de 4 GB, si falla una DRAM, el DIMM continúa funcionando.
Las siguientes funciones del servidor gestionan de manera independiente los fallos
de la memoria:
POST: de acuerdo con las variables de configuración de ILOM, las pruebas POST
se ejecutan cuando se enciende el servidor.
En el caso de errores corregibles de la memoria (CE), POST envía el error al
daemon de reparación automática predictiva de Solaris (PSH) para su gestión.
Si se detecta un error de memoria no corregible, POST muestra el error con el
nombre del dispositivo cuyo módulo FB-DIMM tiene errores y registra el fallo.
POST desactiva el FB-DIMM defectuoso. Según la configuración de la memoria y
la posición del FB-DIMM defectuoso, POST desactiva la mitad de la memoria
física del sistema, o la mitad de la memoria física y la mitad de hilos del
procesador. Cuando ocurra este proceso de desactivación durante el
funcionamiento normal, deberá reemplazar los FB-DIMM defectuosos de acuerdo
con el mensaje de error y activar los FB-DIMM que se hayan desactivado con el
comando de ILOM set dispositivo component_state=enabled donde
dispositivo es el nombre del FB-DIMM que se desea activar (por ejemplo, set
/SYS/MB/CPU0/CMP0/BR0/CH0/D0 component_state=enabled).
Tecnología de reparación automática predictiva de Solaris (PSH): esta función del
sistema operativo Solaris hace uso del daemon de gestión de fallos (fmd) para
detectar varios tipos de fallos. Cuando ocurre un fallo, se le asigna un ID
exclusivo (UUID) y queda registrado. PSH lo comunica e identifica la ubicación
de los FB-DIMM defectuosos.
Si sospecha que el servidor tiene un problema de la memoria, siga las indicaciones
del diagrama (consulte la
El comando show faulty enumera los fallos e indica los FB-DIMM específicos
asociados.
). Ejecute el comando show faulty de ILOM.
FIGURA 2-1
104.
Capítulo 2
Gestión de fallos
21
Tabla de contenido
loading

Tabla de contenido