東京サイト 沖縄サイト 事業継続を支える dr 3つの条件とは -...
TRANSCRIPT
お問い合わせ
日立製作所 情報・通信システム社 ITプラットフォーム事業本部URL:http://www.hitachi.co.jp/storage-inq/HCAセンタ TEL:0120-2580-12
(土・日・祝を除く9:00 〜 12:00,13:00 〜 17:00)
その対策で本当に業務は再開可能か
東日本大震災の後、多くの企業が事業継続計画(BCP)への取り組みを本格化している。IT領域でも、データバックアップやディザスタリカバリ(DR)などの対策を行い、この要求に応えるケースが増えている。 しかし、現在進めている対策は、いざという時に本当に効力を発揮できるものになっているだろうか。確信が持てないのであれば、いま一度、2年前に受けた被災の経験、そして、その後、多くの企業が対策に取り組む中で見えてきた知見をもとに、改めて対策の実効性を再確認すべきだろう。
2年間の取り組みから見えてきたBCPのキモとは
BCPを構築するうえで、DRに関して重視すべき具体的なポイントは、大きく3点あることがわかっている(図1)。(1)基幹系システムのデータだけをバックアップしても、業務継続は難しい 最近では電子メールやグループウェア、Webといったコミュニケーション基盤が、業務遂行に欠かせないものになっている。さらに基幹系システムの
さらに、もし「復旧できない」といった事態になれば、DRシステムそのものの存在意義が失われてしまう。(3)効果とコストのバランスの見極め いくら必要なものとはいえ、DRという“保険”に莫大なコストをかけるのは難しい。システム復旧に要する時間をどこまで認めるかを明確にしつつ、できる限り最小のコストでそれを実現することを目指すべきである。 それでは具体的に、どのようにアプローチすれば、このようなポイントを満たすことができるのだろうか。
周辺にも、関連する業務アプリケーションなどの多様なサブシステムが構築されている。事業継続を可能にするには、DRの対象としてこれらを含める必要がある。(2)復旧の確実性とスピードをいかに両立するか 日々のバックアップをいかに綿密に行っていても、復旧に時間がかかり、ビジネス機会を逸するようでは、DRシステムとしては完全とはいえない。より大きな視点で見ればBCPの設定そのものが誤っているということになる。
このパンフレットは、2013年7月5日から9月26日まで「ITpro Active」に掲載されている内容を抜粋したものです。 ©日経BP社 ●掲載記事の無断転載を禁じます
極小化した差分データで通信コストを大幅削減
最後に効果とコストのバランスの見極めについて見ていこう。 最初に指摘したように、DRシステムに莫大なコストをかけるのは難しい。一方、事業を継続するには多様なシステムを復旧しなければならない。 したがって、コストを抑えるために対象システムを絞り込むといった選択は、できれば避けたい。では、どこでコストを抑制するのか。実はDRシステムで負担が大きいのが、拠点間を接続するネットワークのコストである。 FalconStor CDPは、このネットワークコストの削減にも威力を発揮する。DRサイトに送られるデータは最小限の差分データなので、小さな帯域でも大容量ストレージのデータをレプリケートできるのだ。 日立ソリューションズが「実際にどれだけの帯域で対応できるのか」を検証するため実機検証行ったところ、図5のような結果が得られたという。 「東京・沖縄間のレプリケーション検証です。この検証では、合計データ量3TB、更新データ量210GBの環境(東京サイト)を用意。40MbpsのインターネットVPNでDRサイト(沖縄サイト)と接続しました。しかし、実際にインターネットVPNで転送されたデータ量はわずか120GB。以前は約36時間かかっていた1日分の更新データの転送が約12時間で完了しました」と岡村氏は説明する。
30時間以上かかっていた復旧が30分に短縮
これらのメリットを評価して、すでに両者の組み合わせを採用している企業も多い。 ある製造企業では、約100台のサー
ハイエンドなDRシステムなら、これ以上の短時間復旧も可能だろう。しかし、それよりも遥かに低コストで実現できるシステムでありながら、これだけの短時間復旧が可能な点がFalconStor
CDPとHUS100シリーズの最大の魅力と言える。 いざという時に本当に効力を発揮するDRシステムを、どのように確立すべきなのか。日立と日立ソリューションズ、そしてファルコンストアが示した解によって、それがはっきりと示されたと言える。
バーで構成された環境を、100Mbps
の専用線でレプリケートしている(図6)。しかし、それ以上に注目すべきなのが、復旧時間の短さである。「復旧プロセスは自動化されており、事業継続に必要な主要アプリケーションは、30
分後にはすべて代替サーバー上で立ち上がります」と岡村氏。以前はデータリストアの時間も必要だったため、復旧まで30時間以上かかっていたと言う。 もちろんリアルタイムでデータをコピーし、システムを完全に二重化した
基幹系システムだけバックアップしても事業継続はできない
事業継続に必要な全てのシステムをバックアップせよ!
1
必要な時間内でリカバリできなければ意味がない
確実かつ短時間で復旧できるDRシステムを!
2
バックアップだけのために莫大なコストはかけられない
必要な復旧時間を明確にし、最小コストで実現せよ!
3
図1:DRに関して重視すべき3つのポイント
DRへの投資効率を最大化するには、これら全てを満たすアプローチが必要だ。
2台で効率的なDR対策
東京サイト 沖縄サイト
サーバー×3台 計3.0TB
FalconStor CDPFalconStor CDP
更新(追加)データ量計210GB
実送信データ量計120GB
インターネットVPN
40Mbps 512Byte単位
40Mbps
12時間以内にレプリケーションが完了
特許技術で約4割の送信データ削減
日中更新データ量を7%として算出
図5:東京・沖縄間のレプリケーション検証イメージ
日立ソリューションズが検証作業。合計3TB/更新210GBのシステムのデータを、わずか40MbpsのインターネットVPNでレプリケートできた。
LAN
FC-SAN
HA8000管理サーバー
HA8000管理サーバー
HUS110データ保存用ストレージ40TB
復旧サーバー(仮想マシン)
復旧サーバー(仮想マシン)ディスク領域の割当・復旧FalconStor
CDPGA700×2
FalconStor CDPGA700×2
100Mbps専用線
WAN経由レプリケーション
遠隔地拠点(大阪)
LAN
FC-SAN
HUS110データ保存用ストレージ
40TB
バックアップ対象サーバー
本番拠点(東京)
図6:製造業における活用イメージ
実際にFalconStor CDPとHUS100シリーズで構築したDRシステムの例。約100台のサーバーで構成された環境を、東京・大阪間でレプリケートしている。DRサイトの復旧サーバーとしては、物理サーバーと仮想サーバーの両方を用意している。
確実な事業継続を支える
3つの条件とは2年の取り組みで見えてきたDRシステムのあるべき姿
確実な事業継続を支える3つの条件とは
きる。物理サーバーのデータを代替物理サーバーで復旧できるのはもちろんのこと(P2P)、物理サーバーから仮想サーバー(P2V)、仮想サーバーから物理サーバー(V2P)、仮想サーバーから仮想サーバー(V2V)のいずれのパターンにも対応できるのである。例えばP2Vで代替サーバーを立ち上げる場合には、所要時間はわずか10分程度だ。
手順の自動化で混乱時の人為ミスも防止
FalconStor CDPに標準で添付される「RecoverTrac」という復旧管理ツールを用いて、システム全体の復旧手順をジョブ化(自動化)することも可能だ。復旧プロセスのジョブ化はヒューマンエラー回避につながる。「アプリケーションが起動するところまでは、ほぼ完全に自動化できます。具体的にどのようなジョブ設計を行うべきかについては、私どもの経験やノウハウをご活用いただくことで、最適化できると考えています」と岡村氏は述べる。 震災以降、BCPにおける日々のトレーニングの重要性が改めて注目されているが、バックアップデータのスナップショットを直接利用すれば、本番環境に影響を与えることなく、復旧作業のリハーサルを短時間で簡単に行うこともできる。日常的にトレーニングを
ドなど、メンテナンスが必要な時もシステム停止の必要がない。前述のダイナミックロードバランスコントローラによって、ストレージ内部で自動的に最適化(メンテナンス中のコントローラの処理を、他のコントローラが自動的に代替)できるように設計されているからだ。 「復旧の確実性を高め、見落としやすいDR運用中の冗長性や安定性を担保する上でも、FalconStor CDPをHUS100
シリーズと組み合わせることは大きな意義があると考えています」と森本氏は言う。
繰り返すことで、普段は対象システムに習熟していないDRサイトの担当者であっても復旧の確実性とスピードをさらに高められる。
確実なDRを支えるストレージシステムの信頼性
もちろん、復旧の確実性を高めるには、バックアップストレージの信頼性も重要になる。それに対し、HUS100
シリーズは、国内で一貫した生産・開発・設計を行っており、国産ベンダーならではの高い信頼性、品質を実現。また、ファームウェアのアップグレー
多様なシステムと大容量データにいかに対応するか
まず第1のポイントについて考えてみよう。 事業継続に必要となる多様なシステムを復旧するDRシステムにおいては、
「汎用性」がキーワードとなる。システムごとに個別のDRシステムを構築するのでは、DRシステムの数が増えてしまい、現実的な運用が難しくなる。一つの仕組みで複数のシステムに対応できることが望ましい。 次に大容量データを短時間でバックアップできる機能や能力を装備することも重要となる。バックアップ対象のシステムが増えれば、当然データ量も増大する。これを限られた時間(バックアップウィンドウ)で、全て確実にバックアップすることが求められるからだ。
DRのあるべき姿を再定義する組み合わせ
そこで、注目されているのが、ファルコンストアの次世代高速バックアップ/リカバリシステム「FalconStor
Continuous Data Protector(CDP)」と、日立の高信頼ストレージ「Hitachi
Uni f ied Storage 100シリーズ」
(HUS100シリーズ)の組み合わせである(図2)。 「FalconStor CDPは、単なるデータバックアップではなく、DRを確実に実現するというコンセプトに基づいて設計されています」とファルコンストア・ジャパン 取締役 技術本部長の森本 雅之氏は言う。 バックアップはファイル単位ではなく物理ブロック単位で行われるため、多様なシステムのデータをバックアップすることが可能。 バックアップ対象のストレージは常時監視されており、変更ブロックが生じた時だけバックアップを取得する。そのためバッチという概念が存在せず、
バックアップ対象システムの負荷を最小化できる。一度フルバックアップを取得した後は、常に変更ブロックの差分だけがバックアップデータとして転送されるため、複数のシステムで利用する大容量ストレージも短時間でバックアップできる。 「これをHUS100
シリーズと組み合わせれば、ポテンシャルはさらに増大します 」 と 森 本 氏。
HUS100シリーズは、システム全体で2.8PBという大容量を確保できる上、アクセススピードも高速だ。負荷が増大した場合でも、2つのコントローラで負荷を分散し、自動的に最適化する「ダイナミックロードバランスコントローラ」という日立独自の機能も備えている(図4)。 「FalconStor CDPとHUS100シリーズの組み合わせなら、中小規模のシステムはもちろんのこと、数百台のサーバーで構成された大規模システムのDRも、問題なく実現できます」と日立ソリューションズで主任技師を務める岡村 光昭氏は強調する。
物理、仮想を問わず、リストア作業も不要な復旧技術
二つ目の、確実かつ迅速な復旧についても、FalconStor CDPとHUS100
シリーズの組み合わせは有効となる。 このシステムでは、データのリストア作業を行わずに、サーバーを復旧することが可能だ。FalconStor CDPはHUS100シリーズ上に作成したスナップショットを、代替サーバーに直接マウントできるからだ。 しかも、代替サーバーは、物理サーバーと仮想サーバーのいずれも使用で
ファイル単位ではなく物理ブロック単位でバックアップを取得
▲
多様なシステムに対応可能
スナップショットを仮想マシンに適用しシステムを復旧することが可能
バックアップデータは変更ブロックの差分データのみ
▲
大容量ストレージも短時間でバックアップ
最大2.8PBの大容量負荷分散による高速処理
▲
数百台規模の環境でもDRの実現が可能
必要最小限の差分データのみDRサイトへレプリケート
サーバー
FalconStor CDP
HitachiUnified Storage100シリーズ
VM
FalconStor CDP
HitachiUnified Storage100シリーズ
P2Vリカバリ
P2Pリカバリ
RecoverTrac
リカバリ実行
自動処理
代替サーバー
図3:FalconStor CDPのP2V機能
P2Vリカバリでは、バックアップされた物理・仮想サーバーのデータを直接利用し、短時間で仮想サーバーや別の物理サーバーで動作する構成に変換して、システムを起動できる。そのための所要時間はわずか10分程度だ。
図2:FalconStor CDPとHUS100シリーズを組み合わせたDRシステムのイメージ
多様なシステムをカバーした効率的なDRが実現でき、数百台規模の環境にも対応できる。
ファルコンストア・ジャパン株式会社取締役 技術本部長
森本 雅之 氏
株式会社 日立ソリューションズプロダクトソリューション事業部コンテンツソリューション本部 第3部主任技師
岡村 光昭 氏
一般的なコントローラ
システム管理者が手動でパス切替、I/O片寄せ作業
ダイナミックロードバランスコントローラ
サーバー側の操作なしでファームウェアをアップグレード
サーバー1 サーバー2
コントローラ 1 コントローラ 2
手 動 管理者による切替作業 自 動 コントローラ間クロス処理
パス切替
サーバー1 サーバー2
Cドライブ
Dドライブ
Xドライブ
Yドライブ
Cドライブ
Dドライブ
Xドライブ
Yドライブ
コントローラ 1 コントローラ 2
I/O片寄せ
ファームウェア更新
コントローラ間クロス処理
I/O片寄せファーム
ウェア更新
図4:HUS100シリーズのダイナミックロードバランスコントローラ
この技術により無停止ファームウェア更新も可能。HUS100シリーズは国産ベンダーならではの高信頼性を実現しているが、このような機能が可用性向上にも貢献している。
確実な事業継続を支える3つの条件とは