Suse Enterprise Linux 11 SP2 sürümü yüklü sunucuda zamansız yeniden başlatma sorunu vardı. var/log/message logunda aşağıdaki hatayı aldım.Yaptığım araştımalarda genellikle ortam sıcaklığından kaynaklandığını buldum. Fakat yapıtığım kontrolde ortam sıcaklığı 17-18 derece olmasına rağmen sunucunun zamansız kendini yeniden başlatığını gördüm.
20:31:00 server kernel: [18284.886349] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4 Sep 30 20:31:00 server kernel: [18284.886384] EDAC i5000 MC0: >Tmid Thermal event with intelligent throttling disabled Sep 30 20:31:00 server kernel: [18284.886441] EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=1 RDWR=Write RAS=5591 CAS=0 FATAL Err=0x4) Sep 30 20:31:01 server kernel: [18285.884157] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4
Sonunda hatanın çözümünü uzun süren araştırma sonucunda IPMI(Intelligent Platform Management Interface) ve i5000_edac çekirdek modülünün EDAC (Error Detection and Correction) yani Hata Algılama ve Düzeltme platformuna erişiminde ortaya çıkabildiğini buldum.
Çözüm yolu /etc/modprobe.d/blacklist dosyasına son satırlarda uygun yere blacklist i5000_edac yazıp kaydediyoruz. Sunucuyu tekrar başlatıyoruz.