1、前言
現(xiàn)在醫(yī)療行業(yè)使用的PC服務(wù)器CPU一般采用Intel或者AMD的服務(wù)器處理器,而小型機(jī)的CPU如IBM則使用Power4或者Power5這樣的處理器,因此在CPU、內(nèi)存、主頻、擴(kuò)展性等方面,小型機(jī)和PC服務(wù)器架構(gòu)完全不同。還有服務(wù)器上運(yùn)行的操作系統(tǒng)也不同:PC服務(wù)器上一般運(yùn)行Windows或者Linux,而小型機(jī)上運(yùn)行Unix如AIX、Solaris、HP—uN、IRIX等。因此在小型機(jī)的日常運(yùn)行維護(hù)方面是不同于PC服務(wù)器的。
2、IBM小型機(jī)日常運(yùn)行維護(hù)
IBM小型機(jī)常運(yùn)行的AIX操作系統(tǒng),AIX(Advanced Interactive eX—ecutive)是IBM開(kāi)發(fā)的一套UNIX操作系統(tǒng)。一般用來(lái)運(yùn)行Oracle、Sybase、DB2等大型數(shù)據(jù)庫(kù)系統(tǒng)。
一般小型機(jī)系統(tǒng)管理員需定期對(duì)系統(tǒng)做檢查,以期及時(shí)發(fā)現(xiàn)故障或排除潛在故障。一般都是使用AIX有關(guān)命令來(lái)實(shí)現(xiàn):
使用df命令檢查文件系統(tǒng)是否已滿,如果文件系統(tǒng)滿。尤其是/usr、/trap等,會(huì)造成登錄、啟動(dòng)應(yīng)用等種種問(wèn)題,所以當(dāng)文件系統(tǒng)運(yùn)行到一定程度時(shí),需及時(shí)調(diào)整。errpt命令檢查系統(tǒng)錯(cuò)誤日志,檢查是否有硬件類型錯(cuò)誤,及時(shí)修復(fù);是否有軟件類型錯(cuò)誤,及時(shí)分析,如需清除,可用errclear0命令將其全部清除ovmstat、iodtat、topas、gar、netstat等命令用于小型機(jī)性能監(jiān)測(cè),檢查系統(tǒng)運(yùn)行是否碰到瓶頸,包括CPU是否太過(guò)繁忙,內(nèi)存是否充足,數(shù)據(jù)交換指令是否頻繁,I/0讀寫是否過(guò)忙,網(wǎng)絡(luò)是否通暢等。
使用命令find/-name core-ls檢查oore文件是否生成。oore文件一般是應(yīng)用產(chǎn)生的,用于分析應(yīng)用錯(cuò)誤,產(chǎn)生core文件后,會(huì)在errpt中產(chǎn)生core_dump錯(cuò)誤報(bào)告。如問(wèn)題未能解決,可將core文件備份后交由相關(guān)技術(shù)部門進(jìn)行詳細(xì)分析。mail命令系統(tǒng)錯(cuò)誤往往也會(huì)通過(guò)mail提示,系統(tǒng)管理員需定時(shí)檢查。diag命令可以定時(shí)對(duì)系統(tǒng)做監(jiān)測(cè),last命令檢查系統(tǒng)登錄信息,看看是否有非法用戶登錄,ping命令檢查網(wǎng)絡(luò)是否正常。內(nèi)網(wǎng)和外網(wǎng)訪問(wèn)是否正常等等。其他應(yīng)用系統(tǒng)運(yùn)行是否正常也可以使用有關(guān)命令來(lái)檢查。
3、定期對(duì)小型機(jī)巡檢
在日常運(yùn)維的基礎(chǔ)上,然后是季度、半年或者一年對(duì)小型機(jī)進(jìn)行一次全面的巡檢,主要目的是通過(guò)巡檢,及時(shí)發(fā)現(xiàn)小型機(jī)和外設(shè)的軟硬件存在的問(wèn)題.并給予修復(fù)及解決。小型機(jī)的巡檢內(nèi)容包括:檢查系統(tǒng)硬件情況(設(shè)備故障燈是否有亮,包括硬盤,陣列,光纖交換機(jī),系統(tǒng)故障燈。磁帶機(jī)等是否有其它異常情況)、系統(tǒng)錯(cuò)誤報(bào)告(errlog、有否發(fā)給root用戶的錯(cuò)誤報(bào)告(mail)、關(guān)鍵系統(tǒng)的文件使用率是否大于80%、內(nèi)存交換區(qū)使用率是否超過(guò)70%、內(nèi)存交換區(qū)的大小是否為物理內(nèi)存的1.5倍、檢查備份情況(是否系統(tǒng)備份、用戶數(shù)據(jù)備份、磁帶機(jī)是否需要清洗)、通信(網(wǎng)卡、IP、路由表、pillg、/etdhmls、DNS設(shè)置等)、是否有數(shù)據(jù)保護(hù)方式如RAIDIO/RAID5。是否有Hot spare;系統(tǒng)DUMP設(shè)置是否正確、檢查系統(tǒng)參數(shù)是否正確、檢查系統(tǒng)參數(shù)是否正確、檢查rootvg是否有鏡象、機(jī)房環(huán)境(電壓、濕度)、系統(tǒng)性能有無(wú)性能瓶頸(topas.vmstat)、補(bǔ)丁程序PTF、微碼(是否需要升級(jí))、HACMP測(cè)試以及系統(tǒng)硬件診斷等。
4.IBM小型機(jī)故障定位處理
IBM小型機(jī)故障定位方法包括小型機(jī)I/O柜上的顯示面板上的Cheekr,ointa信息。ErorCdlde,和SRNs三步。
首先是Checkpoints檢查點(diǎn)是系統(tǒng)加電CMOS初始化程序(initialprogram lOAd(IPL)運(yùn)行后顯示在I/O柜的顯示面板上一系列信息。當(dāng)交流電源接到系統(tǒng)后,IPL流程就開(kāi)始了,IPL流程包括四個(gè)步驟:
第一步:Service Proessor的初始化主機(jī)開(kāi)始于交流電源接到系統(tǒng)后,直到OK顯示在I/O柜上的顯示面板上為止。在這個(gè)步驟會(huì)顯示8xxx或9xxx cheekpoints代碼。
第二步:由serviceProcessor引導(dǎo)的硬件初始化,按下I/O柜上的白色電源開(kāi)關(guān)。這個(gè)步驟會(huì)顯示9xxxeheckpoints。91 FF是最后的代碼標(biāo)志著第三步驟的開(kāi)始。
第三步:系統(tǒng)同件的初始化,一個(gè)系統(tǒng)處理器接管控制并繼續(xù)初始化系統(tǒng)資源,這個(gè)步驟會(huì)顯示Exxx。E105是最后的代碼標(biāo)志著第四步驟AIX啟動(dòng)的開(kāi)始,在這個(gè)過(guò)程中還會(huì)顯示各種位置碼(位置碼代表著系統(tǒng)的每一個(gè)部分)。
第四步:AIX啟動(dòng)。當(dāng)AIX開(kāi)始啟動(dòng)時(shí)。顯示面板上的代碼為Oxxx,同時(shí)位置碼會(huì)出現(xiàn)在第二行。當(dāng)AIX的登錄窗口出現(xiàn)在控制臺(tái)上時(shí)第四步驟結(jié)束同時(shí)顯示面板上再無(wú)任何信息出現(xiàn)。
當(dāng)ErrorCode系統(tǒng)運(yùn)行有錯(cuò)誤發(fā)現(xiàn)時(shí),一個(gè)8位碼會(huì)顯示在顯示面板上,同時(shí)在第二行顯示相對(duì)應(yīng)問(wèn)題硬件的位置碼。SRNs(Service request numbers,服務(wù)請(qǐng)求碼)當(dāng)系統(tǒng)運(yùn)行有錯(cuò)誤被發(fā)現(xiàn)時(shí),SRNs碼會(huì)以XXX—XXX的形式顯示在顯示面板上,同時(shí)在AIX的error log中也會(huì)有記載。以上所有代碼都會(huì)有相應(yīng)的步驟解決。由于代碼繁多,要在出現(xiàn)問(wèn)題后記錄下代碼,查看代碼資料確定小型機(jī)的出現(xiàn)問(wèn)題所在。
IBM小型機(jī)軟件故障包括系統(tǒng)和應(yīng)用軟件故障、對(duì)于AIX操作系統(tǒng)來(lái)說(shuō),可以通過(guò)日常的運(yùn)行維護(hù)來(lái)解決部分軟件故障,如當(dāng)文件系統(tǒng)空間不夠時(shí).可通過(guò)刪除垃圾文件和增加文件系統(tǒng)大小等來(lái)解決;平時(shí)需多檢查文件系統(tǒng)的完整性,文件系統(tǒng)必須先umount,再做檢查和修復(fù),否則可導(dǎo)致未知的后果。檢查出小型機(jī)出現(xiàn)內(nèi)存泄漏,即系統(tǒng)或應(yīng)用進(jìn)程無(wú)法將使用過(guò)的內(nèi)存釋放,使可用內(nèi)存的容量逐漸減少。如果可用內(nèi)存降到某最小值將造成系統(tǒng)或應(yīng)用程序無(wú)法FORK子進(jìn)程,就會(huì)造成系統(tǒng)癱瘓。通常可以用Ps和sar命令來(lái)查看小型機(jī)內(nèi)存和CPU占用率的大概情況以及各進(jìn)程的內(nèi)存和CPU占用率的發(fā)展趨勢(shì)。如果發(fā)現(xiàn)內(nèi)存泄漏導(dǎo)致系統(tǒng)緩慢,最好及最簡(jiǎn)單的解決辦法為重新啟動(dòng)系統(tǒng),釋放占用的內(nèi)存空間。查看HACMP服務(wù)運(yùn)行是否正常.對(duì)這些一般不會(huì)出問(wèn)題的應(yīng)用一旦檢查發(fā)現(xiàn)有問(wèn)題,處理的辦法應(yīng)按照步驟先關(guān)閉服務(wù)后再重起有關(guān)的服務(wù)進(jìn)程,此類應(yīng)用故障大部分能夠得到解決。HACMP將診測(cè)并響應(yīng)于三種類型的故障:網(wǎng)卡故障、網(wǎng)絡(luò)工作和節(jié)點(diǎn)故障。Oracle數(shù)據(jù)庫(kù)的故障一般是表空間不夠,需重新增加;如果是網(wǎng)絡(luò)不通的話,通過(guò)有關(guān)命令進(jìn)行診斷,找出解決辦法。
5、總結(jié)
以上的敘述只是IBM小型機(jī)的基本運(yùn)維方法,需不斷從實(shí)踐操作中吸取經(jīng)驗(yàn),細(xì)心檢查,耐心找出發(fā)生故障的原因并給予解決.保證小型機(jī)及其應(yīng)用軟件正常運(yùn)作,確保醫(yī)療信息等業(yè)務(wù)系統(tǒng)能夠準(zhǔn)確、安全、穩(wěn)定地為大眾提供服務(wù)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標(biāo)題:論IBM小型機(jī)維護(hù)管理
本文網(wǎng)址:http://m.hanmeixuan.com/html/consultation/1083967145.html