Lenovo ThinkSystem SD650-N V3 Neptune DWC Guia Del Usuario página 393

Tabla de contenido
4. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte
GPU y placa de GPU" en la página
5. Uno de los siguientes elementos indica que el problema se ha resuelto:
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) en los mensajes de XCC
• Sensor GPU Board has transitioned to normal state en el registro web
No obstante, si el problema persiste, siga estos pasos:
a. Recopile los datos de servicio de XCC (consulte
408).
b. Póngase en contacto con el servicio de Lenovo.
El sistema no puede detectar una GPU específica
Cuando el suceso Sensor GPU CPUs has transitioned to critical from a less severe state aparece en el
registro de sucesos web de XCC, indica que el sistema no puede detectar una o más GPU específicas. Siga
estos pasos para resolver el problema.
1. Compruebe en el suceso de XCC si la temperatura del retemporizador es excesiva, si es así, omita el
siguiente paso.
2. Descargue el firmware más reciente desde el sitio de Soporte del Centro de Datos (
datacentersupport.lenovo.com/products/servers/thinksystem/sd650nv3/7d7n
3. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte
GPU y placa de GPU" en la página
4. Si el suceso Sensor GPU Board has transitioned to normal state aparece en el registro de sucesos web de
XCC, indica que el problema se ha resuelto.
No obstante, si el problema persiste, siga estos pasos.
a. Compruebe el registro de sucesos web de XCC para identificar la unidad defectuosa y el tipo de
problema (consulte
b. Recopile los datos de servicio de XCC (consulte
408).
c. Ejecute nvidia-smi para realizar el diagnóstico (consulte
management-interface
Nota: Asegúrese de actualizar el controlador de GPU, que incluye la utilidad nvidia-smi necesaria
para la determinación de problemas de GPU. Puede encontrar el controlador más reciente en
datacentersupport.lenovo.com/products/servers/thinksystem/sd650nv3/7d7n/downloads/driver-list/
d. Ejecute nvidia-bug-report.sh (herramienta integrada en el controlador NVIDIA).
e. Póngase en contacto con el servicio de Lenovo.
Especificaciones del sensor de la GPU de XCC
Cuando vea un suceso en el registro de sucesos web de XCC, consulte la siguiente tabla para identificar la
unidad defectuosa y el tipo de problema. Por ejemplo:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
384).
384).
"Especificaciones del sensor de la GPU de XCC" en la página
para obtener más detalles)
"Comprobación de estado de
"Recopilación de datos de servicio" en la página
) y actualice el firmware.
"Comprobación de estado de
"Recopilación de datos de servicio" en la página
https://developer.nvidia.com/nvidia-system-
.
Capítulo 9
Determinación de problemas
https://
385).
https://
.
385
Tabla de contenido
loading

Este manual también es adecuado para:

Thinksystem 7d7n

Tabla de contenido