[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[connect24h:10876] Re: SATA+RAID1+HotSwapの1Uサーバ構成
- To: connect24h@xxxxxxxxxx
- Subject: [connect24h:10876] Re: SATA+RAID1+HotSwapの1Uサーバ構成
- From: sol <ml@xxxxxxxxx>
- Date: Fri, 19 May 2006 20:46:03 +0900
solでございます。
On Fri, 19 May 2006 19:00:32 +0900
Jun OKAJIMA <okajima@xxxxxxxxxxxxxxxxxx> wrote:
Subject: [connect24h:10874] Re: SATA+RAID1+HotSwapの1Uサーバ構成
> ・・・いや、マジっすか?
はい
20年弱で、両手の指では足りない程度の回数です
無事に交換出来た例が圧倒的に多いです。
> が、復旧中にもう一個・・・というのは一度もないですし、
> 直接それを経験した、という人に会ったこともないんですよ。
>
> そういった話はたしかに聞きますが、
> 「友達の友達が昔、あそこでバイトしてたんだけどさ」
> 「某ハンバーガーの肉はじつは・・・」
> というのと同じレベルの都市伝説かな、と思ってたんですが。
>
> このあたり、どーなんでしょうねぇ。
> SCSI HDDの MTBF からして、
この6年間では、大半がATAです。
ここでも話題に出ることがありますが、雰囲気温度が問題になる環境が多いです。
発熱量多すぎるんです。
ラックはそう簡単に更新されませんし。
CPUもそうですし、HDDも回転数は上がるし搭載台数も増えるばかりだし。
筐体はどんどん薄くなって1Uで十分高性能
HDDサイズは変わりませんし、CPUは巨大になるし
3-4Uが1Uになって、HDDも増えて高速になって
単位体積あたりの発熱量は、すごい勢いで増えています。
本番環境でテストのための熱加速試験をしているようです。
リビルドには数時間以上かかりますが、その間に逝きました。
運は良い方らしく、RAID 0+1 で A-A、B-Bという構成になります。
A 2台ともとか B 2台とも出なければ、2台逝っても使用できます。
完全にだめになった バックアップから復旧は片手の指で十分です。
いつどこでというのは公開できませんが。
筐体側が故障し玉移植(HDDを予備筐体に入れ替える)で動作するはずの機材
予備筐体に玉を移植しても、動作しないばかりか、自動リビルドが走りHDDを初
期化されたことも数回経験しました。
一ヶ月に同一型番のRAID装置が3台逝ったのが一番きつかったときです。
1回は、玉が2個逝き、バックアップからの復旧を試みることになりました。
(RAID 0+1 構成)
該当の装置はかなり安いものです。
1UのDAS
HDDはATA
サーバーからはSCSI HDDに見えるものです。
> 復旧作業中にもう一個いく率はとても低いはずなんですが。
MTBFから導かれる確率は、正常な状態での障害までの平均時間。
障害発生中(対応中)の障害発生率はまだ見たことがありません。
マーフィーの法則なるものが存在するなら、故障中には更に故障が発生しやすい
のでしょうか。
1システムの障害対応中に別systemの障害対応に追われることは何度もあって数
えられません。
同時に3システム以上の障害もありましたorz
RAIDを使用するシステムは重要度も高く、
経験する人は限られ、また、発言もはばかれることもあるのではないでしょうか。
CE以外が直接対処するのは普通なのか疑問です。
私はCEであったことはありません。
直接対処していないと、実際にいくつ壊れたかは報告を信じることになります。
受託者の立場だったら、2台逝っても復旧できたら(それがバックアップからで
も)報告するかどうか会社に委ねるだろうと思います。
今年現場を離れたのでふと書いてしまった
# 手が滑った:)
という感じです。
(定年とかではなく、移動になっただけです)
システムの相手をしているときは、この種の情報は公開しませんでした。
(書いてもあやふやに、機械を信用するなくらい)
ということで、昔話として書いています。
# Dog year! ならぬラット・イヤー でしょうか
誤解があるいけませんので
圧倒的多数は寿命まで無事に使えるのではなかと思います。
ホットスペアーも、予備に購入した交換用のHDDも使用することなく、無事に寿
命を全うしてもらったRAID装置も多数ありました。
かと思えば、転職したばかりの会社でRAID 1 構成のディスクが両方同時に死ん
で復旧不能になったこともありました。
(ATA HDD 2台構成)
そこでは、HDD故障を続けて3回経験させていただきました。
同じ型番のHDDです。
社長に掛け合い、全HDDを交換、以降発生しませんでした。
HPのマシンでHDD自体は壊れないのに、SCSI部分(HDDそのものについているコン
トローラーです)を2回交換したHDDもありました。
データは何事も無いように使用できました。
12-18ヶ月で10%以上のHDDが故障するということも3回経験しました。
そこそこのデータセンターに入れていました。
(RAID構成で使用した例と、HDD 1台のみのweb向けサーバー的な構成例がありま
す。)
質問というか疑問があります。
大昔メーカーの技術者に教わったとき
・HDDは同一ロットでそろえるべし。
微妙な差が、コントローラーに負荷をかける
HDDからみても無駄な回転が増えることにつながる
と言われました。
信頼していた技術者の言なので、そのころは同一ロット保障のあるHDDを将来の
故障交換分と増設分も含め一括で仕入れていました。
# 大半はロット無視でした
# 稟議の都合で初めにお金を使えても、追加は難しいとき
# 多少の差でも無視できない用途のとき
# 程度です。
適当にそろえたものより同時期、故障頻度は低かったです。
そのような買い方、もったいないので同時に玉が逝くことがあったと言うときの
台数ほど扱っていないので、母集団が少なすぎ、データの正当性がなんともいえ
ません。
RAIDで使用するとき、HDDのロットは変えたほうが良いのでしょうか。
--
sol <ml@xxxxxxxxx>
--[PR]------------------------------------------------------------------
___┏━━━━━━━━━━━━━━━━━━━━━━━━┓___
☆…☆┃ 豪華賞品あれこれまとめてセットで当たります! ┃☆…☆
 ̄ ̄ ̄┗━━━━━━━━━━━━━━━━━━━━━━━━┛ ̄ ̄ ̄
懸賞ならココ!ふくびき.comであなたも運試し♪
http://click.freeml.com/ad.php?id=108990
------------------------------------------------------------------[PR]--
■GMO INTERNET GROUP■ GMO INTERNET www.gmo.jp