站長新書 站長開講 首頁 最新文章 站長著作及審校 FreeBSD 筆記 Linux 筆記 Windows 筆記 虛擬化筆記 網管人雜誌 遊山玩水 關於本站
站長新書 VMware vSphere ICM 團購開跑了!!

IBM xServer 筆記

內容

  1. IBM eX5 Server
    1. IBM eX5 Server 簡介
  2. IBM xServer
    1. Q.IBM xServer RAID Manager 相關資訊?
    2. Q.如何查詢舊產品零件料號 (PRU)?
    3. Q.IBM xServer 更新 Firmware 正確流程 (使用 Bootable Media Creator)?
    4. Q.IBM xServer 送電後 1 分鐘再開機?
    5. Q.IBM xServer 檢查硬碟是否正常?
    6. Q.IBM xServer 檢查記憶體是否正常?
    7. Q.IBM x3650 新增記憶體時錯誤 289 DIMM Pair 3 AMB Failure?
    8. Q.IBM xServer 更換 RAID Card 注意事項
    9. Q.IBM xServer 更換 RAID Card 電池注意事項
    10. Q.IBM x3650 新增 CPU 注意事項
    11. Q.如何設定 IBM x3650 M2 及 x3850 M2 的 Remote Management?
    12. Q.執行 IBM DSA (Dynamic System Analysis) 硬體檢查工具
    13. Q.IBM x3650 M3 無法設定 RAID?
    14. Q.IBM x3650 M3 無法使用外接光碟機安裝 RHEL?
    15. Q.IBM x3650M3 伺服器無法安裝 ESXi 4.1?
    16. Q.IBM x3850/x3950 伺服器的 CPU 數量 (Socket) 及核心數 (Cores) 無法被正確識別?
    17. Q.IBM xServer 故障嗶聲代表的意義?
    18. Q.IBM x3650 M2/M3 抓不到 Intel 1000 PT Dual Port 網卡?
  3. IBM Storage
    1. Q.Buffer I/O error on device sdd, logical block 0?
    2. Q.IBM x3650 M2 裝上 HBA Card 與 DS4700 連接後無法開機 Hard Disk 0 boot failed?
    3. Q.IBM x3650 M3 裝上 HBA Card 與 DS3400 連接後無法安裝 RHEL?
    4. Q.IBM DS3400 Storage 設定 LUN 完成後 RHEL 抓不到 LUN?
    5. Q.IBM DS3400 Storage 出現 Battery Expired 訊息?
    6. Q.IBM DS5020 Storage 接上 SAN Switch 後不通?
    7. Q.如何正確產生 Report 回報給 IBM 原廠?
    8. Q.當 HBA 卡損壞進行更換後如何替換 HBA 卡的 WWN?
    9. Q.新增硬碟櫃後無法進行 RAID 初始化 Drive Slot Limit Exceeded?
    10. Q.控制器電池 (Controller Battery) 損壞造成 I/O 讀寫效率大幅下降?
  4. IBM 資源

IBM eX5 Server

IBM eX5 Server 簡介

eX5 為 IBM 第五代企業級 X 架構為基礎 (Enterprise X-Architecture),並採用 Intel Xeon 處理器 7500 可靠性與擴充性超越以往 Xeon 7400 系列約 2 ~ 3.5 倍之多。

並且可利用智慧堆疊技術將伺服器進行堆疊,例如 x3690 X5 2 台堆疊則變為 (4 Socket、64 DIMM),因為這樣的特性使 eX5 Server 更適合用於虛擬化,因為虛擬化關鍵點在於

而不在 CPU 數量上,因此 eX5 設計不但可使授權費用更便宜 (例如 VMware vSphere 以實體 CPU 數量計價) 且效能及擴充性更好。

IBM xServer

Q.IBM xServer RAID Manager 相關資訊?

Ans:

  1. 一般來說 xServer 用於 RAID 0/1 的 RAID Card 稱為 MegaRAID 而具有 RAID 5/6/10 功能的稱為 ServerRAID。
  2. [IBM ServeRAID software matrix]
    1. [ServeRAID Manager Installation and User's Guide]
  3. [MegaRAID Storage Manager (MSM) ]
    1. [MegaRAID Storage Management (MSM) Application v8.17-20 for Microsoft Windows Server 2003/2008 - IBM BladeCenter and System x]
    2. [MegaRAID Storage Management (MSM) Application v8.17-20 for Linux - IBM BladeCenter and System x]

安裝 MegaRAID Storage Manager 於 RHEL 作業系統請參考本站文章 MSM-查看 IBM ServerRAID M1015 Controller 狀態

Q.如何查詢舊產品零件料號 (PRU)?

Ans:

  1. 連結至 [IBM System Configuration and Options Guide] 網站
  2. 選擇 Withdrawn information 連結
  3. 尋找您要的機型,例如 [System x3650 (7979)]
  4. 切換到 Options 頁籤後依您要尋找的零組件,例如 [HDD]
  5. 看到的 Option number 就是該零件的料號了!!

Q.IBM xServer 更新 Firmware 正確流程 (使用 Bootable Media Creator)?

Ans:

該如何正確更新 IBM xSystem 伺服器的 Firmware,以下為簡述其流程,詳細內容可參考 [IBM ToolsCenter Bootable Media Creator Installation and User's Guide]

  1. 下載 [IBM Bootable Media Creator (BOMC)] 工具
  2. 執行該工具準備建立更新 Firmware 工具依該工具要求將相關型號伺服器的 Firmware 進行下載後做成 ISO (CD / DVD) 或 USB
    1. Welcome 頁面試需求勾選 (個人覺得不必要勾選)
    2. Media Purpose 頁面中勾選了 Updates、Diagnostics、Enable Task AutoRun (Updates)、Create media to use a text-based user interface 等項目,其中勾選 text-based 項目是為了有時使用 GUI 畫面更新到一半時可能會卡住不動的問題
    3. Acquire Location 頁面時請選擇 Check the IBM web site、Latest available individual updates 二個項目,也就是檢查最新的 Firmware 項目
    4. HTTP Proxy 頁面視您的網路環境選擇作為等一下下載的時設定,本例為選擇 Do not use proxy
    5. Targeted Systems 頁面就看您需要更新 Firmware 機型進行勾選,本例為勾選 System x3550 M3
    6. Target Directory 頁面為選擇等一下下載的 Firmware 要存放的資料夾
    7. Media Format 頁面為將 Firmware 更新的資料整合後要匯出的媒介是什麼,此工具支援三個媒介分別是 CD / DVD、USB、PXE
      1. CD/DVD: 此項目將會匯出 ISO 檔以便後續進行燒錄
      2. USB: 此項目是將相關開機檔案及 Firmware 寫入至 USB 裝置,請在執行此工具以前就將 USB 裝置插入至電腦以便屆時此工具偵測不到
      3. PXE: 此項目是適用於要大量更新眾多伺服器 Firmware 時使用,並且要配合 PXE Server 才可進行
    8. Confirm Choices 頁面為將剛才設定的資訊列表讓您在確定一次,您也可以按下 Save 把這個設定存檔以便後續有同樣需求時直接使用
    9. Creation Progress 頁面您可看到開始下載相關檔案包含開機工具、Firmware...等
    10. 工具會提醒您 USB 將會被格式化,格式化完成後就會將相關資料寫入 USB 內,最後完成後會提醒您可以退出 USB 裝置
  3. 將欲更新 Firmware 的伺服器相關資料進行備份完成後將機器關機 (並拔掉電源線)
  4. 插入剛才製作好的 Firmware USB,開機後按下 F12 選擇由 USB 裝置開機 (USB Storage),並且依指示進行更新 Firmware 的動作後會要求重新啟動 (可能 2 ~ 3 次,視 Firmware 內容),之後再度關機並且拔掉電源線
    1. 按下 S(Select All) 選擇更新所有相關的 Firmware 項目,或自行選擇要更新的 Firmware 項目
    2. 按下 A(Apply All Selected) 確定更新所選擇的 Firmware 項目,系統開始進行 Firmware 版本更新
    3. 更新完畢後按下 Q(Quit) 回到畫面再按一次 Q 離開,此時系統會重新啟動 (可能 2 ~ 3 次,視 Firmware 內容) 之後再度關機並且拔掉電源線
  5. 重新插入電源線後約 1 分鐘後再開機,重新啟動後檢查相關 Firmware 是否更新且機器運作無誤

Q.IBM xServer 送電後 1 分鐘再開機?

Error Message:

插上電源線後為何無法馬上開機必須等待約 1 ~ 2 分鐘後才能開機?

Ans:

因為剛插上電源線後機器會檢查相關組件及初始化以便 BIOS 時間校正,若強迫開啟有可能造成 BIOS 時間不對 (之後造成除錯困難) 以便其它不可預期的問題。

Q.IBM xServer 檢查硬碟是否正常?

Error Message:

機器為 IBM x346 採用 RAID Card 為 ServerRaid-7k 但此最近一直出現如下錯誤訊息且磁碟陣列卡無法測試硬碟健康狀況。

 One or more logical drives contain a bad stripe: controller

Ans:

從 Google 上查到 IBM 相關資源來看解法只有一個就是要砍掉重練了?

在更換 RAID Card 以前查到說因為這個錯誤訊息發生在 RAID5 中,為確保硬碟是否正常因此在更換 RAID Card 以前建議先進入 BIOS 對硬碟進行檢查步驟如下:

  1. IBM x346 開機時按下 【F2】 進入【Diagnostics Mode (檢測模式)】
  2. 選擇【Extended】 >> 【SCSI Fixed Disk】 進入硬碟檢測內容
  3. 按下【F10】取消勾所有項目勾選後選擇您要檢查的 HDD 及檢查項目勾選完檢查項目後按下【Ctrl + Enter】開始檢查
    1. 此次針對硬碟進行檢測的項目為 Hi-Low Seek、Funnel Seek、Track of Track Seek、Random Seek、Random Verify 此次檢查硬碟為 SAS 73GB *2 檢查時間約為 10 分鐘。(Linear Verify 項目檢查時間為幾小時故不進行檢查)
  4. 開始進行硬碟檢測
  5. 檢查完畢後可看到每顆硬碟的檢查情況,若要查看詳細內容請按下【F3】查看 Log.

進入硬碟檢測內容 開始檢查硬碟 開始進行硬碟檢測 查看詳細內容

Q.IBM xServer 檢查記憶體是否正常?

Error Message:

IBM x346 機器開機時顯示如下記憶體錯誤訊息

 289 DIMM Pair 1 Failed Memory Test
 289 DIMM D03 is Affected.
 289 DIMM D04 is Affected.

記憶體錯誤訊息

Ans:

如下步驟檢查記憶體是否正常步驟如下:

  1. IBM x346 開機時選擇 【F2】 進入【Diagnostics Mode (檢測模式)】
  2. 選擇【Extended】 >> 【Memory Test Quick】 進入記憶體快速檢測
  3. 勾選所要檢查的記憶體後按下【Ctrl + Enter】開始檢查檢查完畢後可看到檢查情況,若要查看詳細內容請按下【F3】查看 Log

進入記憶體快速檢測 開始檢測記憶體

Q.IBM x3650 新增記憶體時錯誤 289 DIMM Pair 3 AMB Failure?

Error Message:

為 IBM x3650 新增記憶體之後開機時顯示如下記憶體錯誤訊息

 289 DIMM Pair 3 AMB Failure.
 289 DIMM D02 is Affected.
 289 DIMM D05 is Affected.
 289 DIMM Pair 5 AMB Failure.
 289 DIMM D03 is Affected.
 289 DIMM D06 is Affected.
 289 DIMM Pair 6 Non Matching or Missing DIMM.
 289 DIMM D09 is Affected.
 289 DIMM D12 is Affected.

Ans:

PairDIMM connectors
11 and 4
27 and 10
32 and 5
48 and 11
53 and 6
69 and 12

Q.IBM xServer 更換 RAID Card 注意事項

Error Message:

有一台 IBM x346 xServer 它的 RAID Card 為 ServerRaid-7k 會一直出現如下錯誤訊息,查了相關文件是說要把 Array 打掉重建 (等於砍掉重練),因此試試更換 RAID Card 來嘗試解決這個問題。

 One or more logical drives contain a bad stripe: controller

Ans:

由於此款 RAID Card (ServerRaid-7k) 在建立 RAID 時有將 RAID Config 分別寫入 RAID Card 及 HDD 中因此當我們將 RAID Card 更換時會問我們要不要把在硬碟上的設定載入至新的 RAID Card 中,在更換以前請確認新的 RAID Card 其 Firmware 版本至少要跟舊 RAID Card 版本相同或更新,否則可能會失敗,以下記錄一下更換的步驟:

  1. 將 IBM x346 Server 關機,拔除舊的 RAID Card (ServerRaid-7k) 後將 RAID Slot 部份清掃一下後裝上新的 RAID Card (ServerRaid-7k)
  2. 將 IBM x346 Server 開機後當硬體偵測流程跑到 RAID Card 時按下 【Ctrl+I】進入 RAID Configuration
  3. 進入 RAID Configuration 後選擇【Advanced Functions】後再選擇【Copy the configuration from drives to the controller】進入畫面後按下【Y】即開始將硬碟上的 RAID Config 載入至新的 RAID Card 中 (過程約 2 ~ 3 分鐘)
  4. 完成後即可按下 Ctrl + Alt + Del 將系統重新開機,此次測試主機作業系統為 Windows Server 2003 順利開機後您會看到硬碟燈不斷閃爍表示此時正在進行 RAID 同步最佳化,您可開啟 IBM Server Manager 即可觀看其進度,建議此步驟完成後再讓主機上線服務否則因尚未 RAID 最佳化此時的效能會不好,此次同步的硬碟為 72 GB (15,000 轉) *2 完成 RAID 最佳化時間為 3 小時。

Q.IBM xServer 更換 RAID Card 電池注意事項

Error Message:

有一台 IBM x3850 M2 它的 RAID Card 為 ServerRaid-MR10k 開機時出現如下錯誤訊息,查了相關文件為 RAID Card 上蓄電池損壞,必須更換蓄電池

 Your battery is either charging, bad or missing, and you have VDs configured
 for write-back mode. Because the battery is not currently usable, these VDs
 will actually run in write-through mode until the battery is fully charged
 or replaced if it is bad or missing.

[RAID hard drive Write-Cache defaults to Write-Through mode - Servers]

Ans:

  1. 更換原廠電池料件
  2. 更新 RAID Card Firmware 版本 (8.0.1-0036 --> 11.0.1-0024)

更新完成後開機出現如下訊息表示因為更換新的蓄電池必須持續充電 24 小時,待蓄電池充電完成後之後重新開機便不會出現此訊息

 Your VDs that are configured for write-back are temporarily running in write-through mode.
 This is caused by the battery being charged, missing, or bad. 
 battery to charge for 24 hours before evaluating battery for replacement.

Q.IBM x3650 新增 CPU 注意事項

Error Message:

今天幫一台 IBM x3650 Server 新增第二顆 CPU 完成後上電其 Panel 顯示錯誤訊息如下 [VRM Error]

 VRM - A voltage regulator module failed

Ans:

原因在於若是 IBM x3650 Server 當要新增 第二顆 CPU 時要加上 [VRM Module] 才可順利通過硬體偵測並開機,但新款的 IBM x3650 M2 則無此一問題。

Q.如何設定 IBM x3650 M2 及 x3850 M2 的 Remote Management?

Ans:

Remote Management 在 IBM x3650 M2 為使用 IMM (Integrated Management Modules) 而 IBM x3850 M2 則稱為 RSA (Remote Supervisor Adapter),功能性大同小異最大的差別我想就是連接及傳送時 IMM 走 HTTP 而 RSA 走 HTTPs,其預設連結 IP Address 為 192.168.70.125

  1. IBM x3650 M2: IMM (Integrated Management Modules) 必須搭配 Virtual Media Key 才能把 IMM Standard 升級成 IMM Premium
    1. BIOS Setting IMM IP 步驟如下
      1. 開機時按下【F1】進入 BIOS 設定畫面
      2. 選擇【System Settings】 >> 【Integrated Management Module】 >> 【Network Configuration】 進入後即可設定 IMM 的網卡資訊 (IP Address、Netmask、Gateway),設定完成後即可透過瀏覽器連結所設定的 IMM IP,預設登入的帳號為 USERID 密碼為 PASSW0RD (是數字 0 不是字母 O)
  2. IBM x3850 M2: RSA (Remote Supervisor Adapter)
    1. BIOS Setting IMM IP 步驟如下
      1. 開機時按下【F1】進入 BIOS 設定畫面
      2. 選擇【Advanced Setup】 >> 【RSA II Settings】進入後即可設定 IMM 的網卡資訊 (IP Address、Netmask、Gateway),設定完成後即可透過瀏覽器連結所設定的 RSA IP,預設登入的帳號為 USERID 密碼為 PASSW0RD (是數字 0 不是字母 O)

Q.執行 IBM DSA (Dynamic System Analysis) 硬體檢查工具

當 IBM xServer 出現疑似硬體問題但您又不知該如何確定時可以執行 IBM DSA (Dynamic System Analysis) 工具來掃描後產生報告後回報給 IBM 原廠進行硬體故障判斷,DSA 工具可分為安裝版 (Installable) 及綠色版本 (Portable) 請自行選擇即可,如何安裝及使用於 RHEL 作業系統請參考本站文章 DSA-檢查 IBM xServer 硬體是否有問題

Q.IBM x3650 M3 無法設定 RAID?

Error Message:

IBM x3650 M3 使用 Mega RAID,但在開機過程中沒有看到任何有關進入 RAID 設定的組合鍵說明?

Ans:

方式一、使用組合鍵 Ctrl + H 進入 Mega RAID 設定畫面 (Web BIOS)

  1. 再 IBM x3650 Server BIOS 中將 【Legacy Only】 加入開機選項後重新開機
  2. 在開機過程中即可看到系統提示按下 【Ctrl + H】 即可進入 Mega RAID 設定畫面 (Web BIOS)

方式二、在 IBM BIOS 中直接進入 Mega RAID 設定畫面 (Web BIOS)

  1. 系統開機時按下 【F1】 進入 BIOS
  2. 選擇 【System Settings】 >> 【Adapters and UEFI Drivers】 >> 【LSI EFI SAS Driver】
    1. 【Pci Root (0x0)/Pci (0x1C,0x0)/Pci(0x0,0x0)】 選擇類似此訊息 (第一筆),按下 Enter 後即進入 Mega RAID 設定畫面 (Web BIOS)

[Red Hat Enterprise Linux 5.4 導入ガイド - System x3400M3/x3500M3/x3550M3/x3650M3(7379/7380/7944/7945)(ServeRAID-M1015/M5014/M5015搭載モデル)]

Q.IBM x3650 M3 無法使用外接光碟機安裝 RHEL?

Error Message:

由於 IBM x3650 M3 內建光碟機還沒到貨,因此嘗試使用 USB 外接光碟機安裝 RHEL,但始終無法順利安裝 RHEL 同時再安裝時也發生下列狀況

  1. RHEL 安裝程序至 Running anaconda 時便卡住不再往下
  2. RHEL 安裝程序至一半後突然 kernel panic
  3. RHEL 安裝成功後只能進入文字模式 (init 3) 無法進入圖形模式 (init 5) 且系統及相關服務無法正常運作

Ans:

  1. 請安裝內建光碟機
  2. 將 IBM x3650 Server BIOS 中開機選項 Legacy Only 加入並移至最先啟動位置

[Red Hat Enterprise Linux 5.4 導入ガイド - System x3400M3/x3500M3/x3550M3/x3650M3(7379/7380/7944/7945)(ServeRAID-M1015/M5014/M5015搭載モデル)]

Q.IBM x3650M3 伺服器無法安裝 ESXi 4.1?

Error Message:

放入 VMware ESXi 4.1 光碟開機後準備進行安裝,此時出現下面錯誤且無法繼續 ESXi 的安裝程序

 The BIOS reports that NUMA node 1 has no memory. This problem is either caused by a bad BIOS or a very unbalanced distribution of memory modules. 

Ans:

[VMware KB Article ID 1021508] 可知會發生這種錯誤的可能,查看 IBM x3650M3 的 CPU 及 Memory 配置後,發現此台伺服器在 Memory 部份有二個區塊而現在的記憶體都插在其中一個區塊而以,因此將記憶體平均插於二個區塊 (請按背板指示依序插至相對應的 Memory DIMM Slots) 後便可順利安裝 VMware ESXi 4.1。

Q.IBM x3850/x3950 伺服器的 CPU 數量 (Socket) 及核心數 (Cores) 無法被正確識別?

Error Message:

IBM x3850/x3950 安裝 VMware vSphere ESX 4.1 及 Windows Server 2008 R2 時,作業系統無法正確識別到正確的 CPU 數量 (Socket) 及核心數 (Cores),例如 IBM x3950 伺服器實體有 4 顆 CPU 而每顆 CPU 有 6 核心,但 VMware vSphere ESX 4.1 卻識別成 3 顆 CPU 每顆 CPU 為 8 核心,並且導致 VMware ESX License 無法上上去?

Ans:

[Microsoft Windows Server 2008 x64 does not show all processors under task manager - IBM System x3950 M2 (7233, 7234) ] 文章可知會導致此問題為 BIOS 中 CPU Clustering Technology 設定項目所造成,請將設定值由 Logical Destination Mode (default) 調整為 Physical Destination Mode 即可,設定步驟如下

  1. 開機時按下 【F1】 進入 BIOS 模式
  2. 選擇 【Advanced Setup】
  3. 選擇 【CPU Option】
  4. 選擇 【Clustering Technology】
  5. 預設值為 Logical Mode 請修改為 【Physical Mode】後存檔重新開機即可
  6. 重新開機後 VMware vSphere ESX 4.1 及 Windows Server 2008 R2 便能正確識別 CPU 數量及核心數

Q.IBM xServer 故障嗶聲代表的意義?

Error Message:

今天有台 IBM x3250 開機時會有三短嗶聲,並且無畫面且鍵盤沒反應?

Ans:

可以參考 IBM 官網的 [Troubleshooting POST/startup does not complete issues - Servers],此次的 IBM x3250 三短嗶聲表示可能的問題為 Memory DIMM 或 Processor Board 或 System Board 有問題所導致。

Q.IBM x3650 M2/M3 抓不到 Intel 1000 PT Dual Port 網卡?

Error Message:

幫二台 IBM 伺服器 (IBM x3650 M2/M3) 安裝了 Intel 1000 PT Dual Port 網卡,但在 BIOS 中及開機過程都無法看到這片網路卡?

Ans:

詳細內容可參考 IBM 官網的 [Intel PRO/1000 PT Quad-Port Server Adapter (39Y6136) support for IBM System X PCIE GEN2 servers - IBM System x],以下為簡述解決步驟,發生此問題的主要原因是 Intel 網卡插上 IBM 伺服器上 PCIe Slot 的設定,必須由預設值的 Gen2 改為 Gen1 即可,下列為說明如何設定 BIOS 的 Slot 設定值:

  1. 開機時按下【F1】進入 BIOS 設定
  2. 選擇【System Settings】>>【Devices and I/O Ports】>>【PCIe Gen1/Gen2 Speed Selection】
  3. 將 Intel 1000 PT Dual Port 網卡所插的 Slot 設定值由預設的 Gen2 改為【Gen1】
  4. 存檔離開,IBM x3650 伺服器開機後便可抓到 Intel 1000 PT Dual Port 網卡

IBM Storage

Q.Buffer I/O error on device sdd, logical block 0?

Error Message:

系統每隔一段時間便會出現如下錯誤訊息 (不知是什麼樣的動作才會觸發,原則上 10 ~ 20 分鐘內便會發生)

 end_request: I/O error, dev sdd, sector 0 
 Buffer I/O error on device sdd, logical block 0
 Buffer I/O error on device sdd, logical block 1
 Buffer I/O error on device sdd, logical block 2
 Buffer I/O error on device sdd, logical block 3
 Buffer I/O error on device sdd, logical block 4
 Buffer I/O error on device sdd, logical block 5
 Buffer I/O error on device sdd, logical block 6
 Buffer I/O error on device sdd, logical block 7
 Buffer I/O error on device sdd, logical block 8
 Buffer I/O error on device sdd, logical block 9
 Buffer I/O error on device sdd, logical block 10
 Buffer I/O error on device sdd, logical block 11
 Buffer I/O error on device sdd, logical block 12
 Buffer I/O error on device sdd, logical block 13
 Buffer I/O error on device sdd, logical block 14
 Buffer I/O error on device sdd, logical block 15

但奇怪的是系統並沒有使用到 sdd 這個裝置? 硬體及 Storage 資訊如下

下列為執行 fdisk -l 指令 (可發現並沒有 /dev/sdd 裝置)

 #fdisk -l
 Disk /dev/sda: 145.9 GB, 145999527936 bytes
 255 heads, 63 sectors/track, 17750 cylinders
 Units = cylinders of 16065 * 512 = 8225280 bytes
   Device Boot      Start         End      Blocks   Id  System
 /dev/sda1   *        9853       17750    63440685   83  Linux
 /dev/sda2               1        3900    31326718+  83  Linux
 /dev/sda3            3901        7801    31334782+  83  Linux
 /dev/sda4            7802        9852    16474657+   5  Extended
 /dev/sda5            7802        9852    16474626   82  Linux swap
 Partition table entries are not in disk order
 Disk /dev/sdb: 1497.3 GB, 1497314099200 bytes
 255 heads, 63 sectors/track, 182038 cylinders
 Units = cylinders of 16065 * 512 = 8225280 bytes
   Device Boot      Start         End      Blocks   Id  System
 /dev/sdb1               1      182038  1462220203+  83  Linux
 Disk /dev/sdc: 1197.8 GB, 1197851279360 bytes
 255 heads, 63 sectors/track, 145630 cylinders
 Units = cylinders of 16065 * 512 = 8225280 bytes
   Device Boot      Start         End      Blocks   Id  System
 /dev/sdc1               1      145630  1169772943+  83  Linux

Ans:

原本懷疑是 [RDAC][Device-Mapper Multipath] 套件沒安裝的問題,但發現此次的環境只有 1 HBA Card (1 Port) 接 1 Controller,所以排除了這個可能。

簡述一下 RDAC 與 Multipath 的不同處,詳細內容可參考 [Device Mapper MultipathによるSAN Boot環境構築(RHEL5.1)]

後來在網路上找到了這篇 [Deleting SCSI Device Paths For A Multipath SAN LUN - blog'o thnet] 將 /dev/sdd 給 delete 後目前錯誤訊息便不在出現,以下簡述治標及治本的解決步驟:

 #dmesg |grep lun                                                   //確定目前機器上所有裝置及 ID 等相關資訊
 megasas: max_sectors : 0x280, cmd_per_lun : 0x80
 Attached scsi disk sda at scsi0, channel 2, id 0, lun 0
 Attached scsi disk sdb at scsi1, channel 0, id 0, lun 0
 Attached scsi disk sdc at scsi1, channel 0, id 0, lun 1
 Attached scsi disk sdd at scsi1, channel 0, id 0, lun 31           //了解 sdd 為 1:0:0:31
 #echo 1 > /sys/bus/scsi/devices/1\:0\:0\:31/delete                 //確定 sdd 相關資訊後將數值 1 餵給 delete (也就是啟用 delete)

What is LUN 31?

今天請教了一位懂 DS4700 產品的人 LUN 31 是什麼? 再回答這個問題以前這要先從管理 DS4700 的方式說起,管理 DS4700 有二種方式 IN-Band、Out-Of-Band 簡單來說差別如下

了解上述二種管理方式後再來就是 LUN 31 到底是什麼? LUN 31 為 Storage 預設劃分出來要存放 IN-Band 設定資料區塊,因此若沒用到 IN-Band 方式來管理 Storage 的話即可放心刪除它。

Q.IBM x3650 M2 裝上 HBA Card 與 DS4700 連接後無法開機 Hard Disk 0 boot failed?

Error Message:

有二台 IBM x3650 Server 安裝作業系統為 RHEL 5.4 接上 HBA Card 與 IBM DS4700 Storage 時也都運作正常 (可看到 LUN Volume),但當 IBM x3650 Server 重新開機時狀況出現,IBM x3650 Server 無法進入作業系統並且畫面出現如下訊息

 Hard Disk 0 boot failed

原本以為可能 User 做了某些動作導致 MBR 不見了所以開不了機,但試了一些方式如下都還是開不起來

Ans:

原來問題跟作業系統一點關系也沒有,是 IBM Server BIOS 設定及 HBA Card BIOS 設定所導致的,當 IBM x3650 Server 透過 HBA Card 與 DS4700 Storage 連接時因為 HBA Card 的預設值會把本來的 BIOS 設定值覆蓋造成 IBM x3650 Server 會去找 Storage 開機 (當然開不起來),又因為設定值被覆蓋所以原來的 IBM BIOS 選項 Hard Disk 0 便無法開機必須要把 BIOS 設定中將 Legacy Only 項目加入到 BIOS 開機順序中才可正常開機,以下為 IBM Server BIOS 及 HBA Card BIOS 設定檢查步驟:

  1. 請先確定 HBA Card BIOS 中 Selectable Boot SettingsDisable (Boot From SAN)
  2. 調整 IBM x3650 Server BIOS
    1. IBM x3650 Server 未透過 HBA Card 與 DS4700 Storage 連接則 BIOS 設定開機選項中請選擇 Hard Disk 0 即可正常開機找到作業系統。
    2. IBM x3650 Server 透過 HBA Card 與 DS4700 Storage 連接則 BIOS 設定開機選項中請選擇 Legacy Only 才可正常開機找到作業系統。

Q.IBM x3650 M3 裝上 HBA Card 與 DS3400 連接後無法安裝 RHEL?

Error Message:

IBM DS3400 已切好 LUN0、LUN1,放入 RHEL 光碟片後當安裝程序進行到輸入註冊序號時,不管是輸入註冊序號後按下 OK 或是按下 Skip 不輸入序號,此時安裝程序便不在進行下一步 (等候超過半小時) 且系統並沒有發生當機現象?

Ans:

將以下二點進行調整後將 IBM x3650 Server 重新開機後即可順利安裝 RHEL

  1. 請先將 IBM x3650 Server BIOS 中開機選項 Legacy Only 加入並移至最先啟動位置
  2. 將 IBM x3650 上的 HBA Card 與 DS3400 Storage 接線先拔除

Q.IBM DS3400 Storage 設定 LUN 完成後 RHEL 抓不到 LUN?

Error Message:

IBM DS3400 Storage 設定好 LUN 並設定好 Host、Host Group、Devices Mapping 後 RHEL 打 fdisk -l 仍然看不到 LUN?

Ans:

  1. 確定 IBM DS3400 Storage 所設定的 LUN 即 IBM x3650 Server 的 HBA Card 有設定 Host、Host Group、Devices Mapping
  2. 將 RHEL 重開機後應可抓到,可使用下列指令進行查看
    1. fdisk -l
    2. cat /proc/partition

Q.IBM DS3400 Storage 出現 Battery Expired 訊息?

Error Message:

IBM DS3400 Storage 面板突然出現 橘燈,使用 IBM DS Storage Manager 連接查看到發現有 Battery Expired 錯誤訊息?

Ans:

此問題發生的原因為 Controller A、B 二個控制器的電池日期計數問題 「並非控制器電池損壞或沒電」,因此只要將計數重置 (Reset) 即可步驟如下:

  1. IBM DS Storage Manager
    1. Tools > Change Battery Setting > Reset Age

Q.IBM DS5020 Storage 接上 SAN Switch 後不通?

Error Message:

IBM x3850 安裝 HBA Card (4Gbps) 及 IBM DS5020 Storage Controller (8Gbps Host Channel Port) 同樣接至 IBM SAN Switch (SAN24B-4) 上,但 IBM x3850 就會通 (綠燈) 而 IBM DS5020 Storage Controller (Host Channel Port) 就不通 (SAN Switch 閃黃燈、Controller 沒亮燈),但將 IBM x3850 與 IBM DS5020 Controller 對接又是可以通的,所以可以確定應該是 SAN Switch 要設定什麼才對?

Ans:

參考 [H196488: DS5000 systems not working with Brocade on 8 Gbps host ports - IBM System Storage] 可知當 SAN Switch Firmware 6.2.0e 之後的版本的話,若是傳輸速度為 8Gbps 不通的話請將該 Port 的 fillword 模式改為 IDLE 即可,本次將 IBM DS5020 Controller 接到 SAN Switch 的 Port 其 fillword 模式從 ARB (1) 調整為 IDLE(0) 後就通了,此例 IBM DS5020 Controller 接至 SAN Switch 的第 5、6 Port 所以接上 SAN Switch Console 後下此指令即可 (Console 預設登入帳號及密碼為 root 及 passowrd)

 #portcfgfillword 5 0        //指定第 5 Port 的 fillword 為 IDLE
 #portcfgfillword 6 0        //指定第 6 Port 的 fillword 為 IDLE
 #portcfgshow                //查看所有 Port 的資訊

Q.如何正確產生 Report 回報給 IBM 原廠?

Error Message:

如果你的 IBM DS Storage 發生問題無法解決應該如何正確收集 Storage 資訊後回報給 IBM 原廠幫您判斷?

Ans:

  1. 開啟 IBM DS Storage Manager >> 進入 Storage
  2. Advanced >> Troubleshooting >> Support Data >> Collect
  3. 將檔案名稱命名為【型號_序號_日期】 ex. 1814_78KOBHD_20110613.zip 即可

Q.當 HBA 卡損壞進行更換後如何替換 HBA 卡的 WWN?

Error Message:

當安裝於伺服器上的 HBA 卡損壞進行更換後由於 Storage 上的 LUN 通常會設定限制哪些 HBA 卡的 WWN 能存取哪些 LUN,此時應該如何將新的 WWN 取代舊的 WWN 以便存取 LUN?

Ans:

  1. 進入 【IBM Storage Manager】 連接到 Storage
  2. 【Mappings】 >> 選擇該 Host 主機 >> 右鍵 >> 【Manage Host Port Identifiers】
  3. 選擇舊的 HBA 卡 WWN (損壞的那片) >> 按下 【Replace】
  4. 選擇新的 HBA 卡 WWN (更換後的那片) >> 按下 【Replace】 >> 【Close】

如此一來 WWN 便成功替換,記得檢查是否可以存取相對應的 LUN 即可。

Q.新增硬碟櫃後無法進行 RAID 初始化 Drive Slot Limit Exceeded?

Error Message:

原有 IBM DS5020 Storage 及一台硬碟櫃 EXP-520,之後因為空間不夠所以又新採購一台硬碟櫃 EXP-520 (DS5020 最多可擴充至 6 櫃!!),但是已經將 Exp-520 與 IBM DS5020 進行正確連接,且透過 IBM Storage Manager 軟體可以確定抓到 Exp-520 擴充櫃,但是無法對其進行相關的設定如 RAID 初始化...等動作,主要的錯誤訊息如下:

 Out of Compliance - Drive Slot Limit Exceeded
 Storage Subsystem: DS5020
 Status: Allowable Drive Slots Exceeded
 Current drive slots: 48
 Drive slots allowed: 32

Ans:

驚!! 查詢後才知硬碟擴充櫃無法擴充的原因為 「軟體授權」 所致,預設情況下最基本的授權其硬碟數量僅「32 顆授權」,如果您要擴增硬碟時必須要購買相關軟體授權否則會如本例 (抓到硬碟卻無法使用!!),請視需求進行購買因為 33 ~ 64 顆硬碟要購買 「DS5020 33-64 Disk Drive Att」授權,而 65 ~ 112 顆硬碟要購買「DS5020 65-112 Disk Drive Att」授權才行,詳細資訊可以參考 [IBM System Storage DS5020 Midrange Disk System]

當購買到硬碟數量擴充授權後,將會得到所購買的 授權碼 (Feature Activation Code),請搭配 IBM DS5020 的型號 (Type)、序號 (Number),以及使用 IBM Storage Manager 所查詢到 DS5020 的啟用識別碼 (Enable Identifier) 之後,至 [IBM DS3000, DS4000, DS5000 and BladeCenter Boot Disk System activation and registration] 網頁進行相關資訊填寫及註冊啟用的動作,完成後便可以下載授權金鑰 (License Key)。

請再度使用 IBM Storage Manager 連接至 DS5020 後,可以看到在 Premium Features 項目中 Drive Slot Limit 目前狀態為「Out of Compliance」,請按下「Enable」鍵後選擇剛才的下載授權金鑰 (License Key) 後,載入完成後您可以看到狀態變更為「Enabled (64)」,之後便可以順利進行 RAID 初始化、LUN Mapping...等後續動作。

Q.控制器電池 (Controller Battery) 損壞造成 I/O 讀寫效率大幅下降?

Error Message:

採用的 IBM DS5020 Storage,發生了控制器電池 (Controller Battery) 損壞的狀況,造成運作於 VMware 虛擬環境上的 Microsoft SQL 虛擬主機,其資料讀寫 I/O 速度突然下降並且影響甚大,舉例來說原本只需執行 15 分鐘的 SQL Job 在 I/O 速度突然下降後必須要執行 1 小時才能執行完畢,嚴重影響常維運進度。

採用 IBM Storage Manager 連接至 DS5020 Storage 之後,查看 Event Log 發現【Controller Battery Failed】的訊息,如下圖所示:

Controller Battery Failed

Ans:

Storage Controller 及 RAID Card 都是相同的運作概念,就是控制器的電池除了儲存「RAID Config」之外,還包含了「Cache Data」所以即使是在運作過程中,設備突然電力中斷但是在 Cache 中的資料會依靠電池的電力來維持 (一般來說約 24 ~ 72 小時之間),當設備電力恢復時會將 Cache Data 進行再次寫入硬碟的動作。

而此次造成 I/O 效能突然下降的主因為 「控制器電池損壞 (Controller Battery Failed)」,因此儲存設備為了預防此時若設備的電力中斷將造成無法將 Cache Data 寫入,因此 自動將快取機制暫停 (Write Cache Suspended),所以就造成了運作於 Storage 之上的 I/O 速度突然下降。

以下為更換控制器電池之前以及更換之後的相關動作及機制說明:

  1. 先備份 IBM DS5020 Storage 設定檔。
  2. 收集 IBM DS5020 Storage 設備狀態。
    1. 收集設定 【Advanced >> Troubleshooting >> Support Data >> Collect】,將檔案名稱命名為【型號_序號_日期】 ex. 1814_1234_20120508.zip 即可
  3. 確認 IBM DS5020 Storage 設備中,哪個控制器的電池損壞 (Controller A)。
  4. 確認後拔除 Controller A 電池 (Event Log 中的 Battery missing 訊息)。
  5. 查看 IBM DS5020 Storage 電池狀態的方式為 【Storage Subsystem >> View >> Enclosure Components >> Controller/Drive Enclosue】
  6. Controller A 電池充電完成 (Event Log 中的 Battery fully charged訊息)。
  7. Controller A Cache 機制初始 (Event Log 中的 Controller cache battery is fully charged),進入 Battery maintenance charging 狀態。
  8. 進入 Controller A、B 互相交換學習狀態 (Event Log 中的 Learn cycle for battery started)。
  9. 完成 Controller A、B 互相交換學習狀態 (Event Log 中的 Learn cycle for battery completed),Controller A、B 的電池都為 「Optimal」 狀態。
  10. 更換控制器電池 (Controller Battery) 完成後,相關電池充電及初始機制完成後,Write Caching 機制再度回復,目前運作的 VM 虛擬主機其 I/O 也恢復正常。

Event Log 中的 Battery missing 訊息 Battery maintenance charging 狀態 Battery learning 狀態 Controller A、B 的電池都為 Optimal 狀態 Event Log

IBM 資源

[IBM 產品保固查詢]

[IBM Redbooks]

[SAN File System Information Center]

[IBM Information Center for Linux]

[IBM中国技术支持与下载 - 网络课堂]

[IBM System x3650 M3 (4255, 7376, 7945) - Problem Determination and Service Guide]

[IBM 支援中心: 修正程式中心 (Driver、Firmware...etc)]

Go To Oddmuse OrgGo To FreeBSD OrgCreative Commons 2.5 Taiwansitestates.com