Suse Enterprise Linux 11 SP2 sürümü yüklü sunucuda zamansız yeniden başlatma sorunu vardı.  var/log/message logunda aşağıdaki hatayı aldım.Yaptığım araştımalarda genellikle ortam sıcaklığından kaynaklandığını buldum. Fakat yapıtığım kontrolde ortam sıcaklığı 17-18 derece olmasına rağmen sunucunun zamansız kendini yeniden başlatığını gördüm.

 

20:31:00 server kernel: [18284.886349] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4 Sep 30 20:31:00 server kernel: [18284.886384] EDAC i5000 MC0: >Tmid Thermal event with intelligent throttling disabled Sep 30 20:31:00 server kernel: [18284.886441] EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=1 RDWR=Write RAS=5591 CAS=0 FATAL Err=0x4) Sep 30 20:31:01 server kernel: [18285.884157] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4

 

          Sonunda hatanın çözümünü uzun süren araştırma sonucunda IPMI(Intelligent Platform Management Interface) ve i5000_edac çekirdek modülünün EDAC (Error Detection and Correction) yani Hata Algılama ve Düzeltme platformuna erişiminde ortaya çıkabildiğini buldum.

 

          Çözüm yolu /etc/modprobe.d/blacklist dosyasına son satırlarda uygun yere blacklist i5000_edac yazıp kaydediyoruz. Sunucuyu tekrar başlatıyoruz.