子产品线

计算产品线

产品族

Kunpeng S920S00/S920S00K主板涉及的服务器整机

产品型号

长江计算服务器

发布时间

2020-10-26

重要程度

重要

紧急程度

紧急

操作类别

预警

类别ID

 

操作要求

学习预防

完成时间

不涉及

涉及版本

BIOS版本号1.36(包含)及其以下版本

涉及的设备

Kunpeng 服务器S920S00/S920S00K机型CPU型号为Kunpeng 920 5220/3210)

涉及应用范围 

1、本公告仅适用于长江计算服务器产品线销售的项目。

人力投入

不涉及

修改记录

2020-10-26

第一次发布

联系人

服务接口人

吴磊 leiwu@yctco.com.cn

 

关键字:动态调频,ACG调频,CPU负载,挂死,复位

摘要: Kunpeng 920 5220、Kunpeng 920 3210芯片动态调频基于ACG调频,BIOS 1.36(包含)及其以下版本ACG调频流程中存在芯片寄存器配置问题,概率性导致调频挂死,CPU负载动态变化大的时候可能影响功能。

备注:ACG(adaptive clock generator)自适应时钟调节器,当瞬时电压跌落比较低时,动态降低CPU的频率,这样可以使得CPU在更低的电压下安全工作。

 

【问题描述】

触发条件:

条件一、涉及机型:Kunpeng S920S00/S920S00K机型;

条件二、涉及CPU型号:Kunpeng 920 5220、Kunpeng 920 3210;

条件三、涉及版本: BIOS版本号1.36(包含)及其以下版本;

条件四:

1、开启功率封顶,默认值为关闭;

2、开启DEMT,默认值为关闭;

3、CPU温度超过105摄氏度,环境温度超过40摄氏度;

4、OS下调频模式未设置为performance模式(OS兼容性列表中centos 7.6、ubuntu、suse 系统默认为非performance模式)。

注:如果设置performance模式,则不会自动调频,CPU按照标称频率跑,即使CPU负载达到90%以上也不会触发调频,功率会上升。

同时满足以上条件一、二、三和条件四中任一场景时,则会触发动态调频可能导致OS概率性挂死或重启。

 

故障现象:

当条件满足时,CPU负载动态变化大频繁触发动态调频时可能导致OS概率性挂死或重启。

判断方法:

1、确认版本号:

查看BIOS版本方法如下图所示,在iBMC的Web界面中选择“iBMC管理> 固件升级”可以查看BIOS版本是否是1.36(含)以下版本。

 

2、满足以上版本,再确认功率封顶是否开启:

如上图即为功率封顶开启,可能概率性触发动态调频。

 

3、若未开启功率封顶,再判断DEMT是否开启:

方法1:进入BIOS界面,Advanced→Performance Config

如上图,设置为“Fast Mode”或“Smooth Mode”即为DEMT开启状态。

 

方法2:

从BMC带外配置导出配置文件config.xml 进行确认:

配置文件中DemtMode配置为Fast Mode或者Smooth Mode可触发调频:

4、如果CPU温度超过105摄氏度也可能触发调频,方法如下:

BMC一键收集日志中dump_info\LogDump\ remote_log文件中有如下告警:

5、如果OS下动态调频配置为非performance模式也可能触发调频,确认方法如下:

输入如下命令查看:

步骤1:cd /sys/devices/system/cpu/cpu0/cpufreq/

步骤2:cat scaling_governor

查看scaling_governor的值即可。

【问题原因】

动态调频接口中在执行从CPU关ACG函数时,未加跨片偏移,未成功读取从CPU的ACG状态,导致从片未关ACG时就进行了动态调频操作,这样会导致动态调频概率性挂死。

 

【影响和风险】

主要影响CPU的可靠性,如果业务负载动态变化很大,可能触发CPU动态调频失败导致OS挂死或重启。

 

【措施和方案】

规避方案:

1、在OS下关闭动态调频

进入OS命令行,在如下路径下,将scaling_goernor改下成performance模式:

路径:

/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor

/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

 

修改方法:

输入如下命令,先进入到每个cpu的cpufreq路径,使用echo修改scaling_governor值,再使用cat命令确认是否修改正确:

步骤1:cd /sys/devices/system/cpu/cpu0/cpufreq/

步骤2:echo performance > scaling_governor

步骤3:cat scaling_governor

2、若功率封顶开启,则关闭该功能即可

3、若DEMT开启,则关闭该功能即可。

解决方案:

主板BIOS升级到目标及以上版本,BMC、BIOS、CPLD需要配套升级。

 服务器

BIOS 当前版本

iBMC推荐版本

BIOS推荐版本

CPLD推荐版本

S920S00

低于1.35(包含)

5.73及以上

1.38及以上

5.01及以上

S920S00K

低于1.35K(包含)

5.73及以上

1.38K及以上

5.01及以上

 

关于 Kunpeng S920S00/S920S00K 产品 ACG 调频概率导致挂死问题的预警通知