本ページには広告・プロモーションが含まれています。
この記事は 英語版 Wikipedia の Backup 記事 を材料に、コンピュータのバックアップについて、その方法や技術を大まかに説明するものです。 バックアップに使用するべきソフトウェアやアプリケーションについては書かれていません。
このテキストは クリエイティブ・コモンズの表示 - 継承ライセンス の下で利用可能です。
バックアップ、またはデータバックアップとは、IT業界では、データが損失した後に元のデータを復元して使用することができるように、コンピュータのデータのコピーを取得し、別の場所に保存したものです。 (英語ではバックアップのプロセスを指す動詞の形は “back up”であり、名詞や形容詞の形は “backup” と使い分けます。)
バックアップは、データの削除や破損によって失ったデータを回復したり、過去の状態のデータを回復するために使用することができます。
バックアップは災害からのデータ復旧を提供しますが、すべてのバックアップシステムがコンピュータシステムやコンピュータ クラスタ、アクティブ ディレクトリ サーバ、データベース サーバなどの複雑な構成を完全に再現できるわけではありません。
バックアップシステムには、保存する価値があると考えられるデータのコピーが少なくとも1つ含まれています。 バックアップデータを保管するためのストレージの要件は大容量になる可能性があります。 大規模なストレージに構造を提供するために、データの集約や組織化を行う”情報リポジトリ”モデルが使用されることがあります。
ハードディスクをはじめとした二次記憶装置に存在するデータのバックアップを、アーカイブファイル(複数のファイルをひとつのファイルに変換されたファイル)にコピーするために使用されるデータ記憶装置には、さまざまなタイプがあります。 データ記憶装置は、場所、セキュリティ、および扱いやすさの観点から、さまざまな方法で配置します。
バックアップするデータは選択され、抽出され、操作されます。 このプロセスには、圧縮、暗号化、重複排除だけでなく、開いているファイルを含むライブデータの処理方法も含まれます。 企業のクライアント・サーバ・バックアップでは多重化やリファクタリングといったその他の技術も適用されます。
バックアップ計画には、バックアップされるデータの信頼性を検証するためのテスト(dry run/ドライ ラン)が含まれる場合があります。どのようなバックアップ計画にも限界があり人的要因が関与します。
バックアップ戦略には、データ「ソース」のバックアップを集約するための「データの二次保存スペース」となる情報リポジトリが必要です。
情報リポジトリとは、データを維持するために相互に関連する情報をまとめた資料や場所のことです。
リポジトリは、DVDなどを含めすべてのバックアップメディアの一覧と作成日を記録するだけの簡単なものから、コンピュータ化されたインデックス、カタログ、リレーショナルデータベースを含むものまであります。
バックアップにはローテーション(世代管理)の計画が必要となります。
ローテーションには、不要になったバックアップを上書きして、データ記憶媒体の適切な再利用を実現するために、個別に保持された異なる日付のバックアップの数を制限する仕組みが必要です。
この仕組みでは、各リムーバブルストレージがいつどのようにバックアップ操作に使用されるか、またバックアップデータが保存された後にどのくらいの期間保持されるかを決定します。
バックアッププロセスには「3-2-1ルール」というものがあります。 3-2-1ルールとは、少なくとも3つのデータのコピーを保持して、それを2つの異なるタイプのストレージメディアに保存し、1つのコピーを遠隔地(クラウドストレージを含む)に保管するというものです。
2種類以上の異なるメディアを使用することで、同様の理由によるデータ損失を防ぐことができます。 例えば、光ディスクは水中でも耐えられますが、LTO テープは耐えられません。また、SSDはハードディスクとは異なり可動部がないため、ヘッドの衝突やスピンドルモーターの損傷による障害が発生しません。
The 3-2-1 Backup Rule – An Efficient Data Protection Strategy
ioSafe社製 のような災害対策用ハードディスクは、オフサイト(離れた場所)・コピーの代替品ですが、限られた期間しか火災に耐えられないなどの制限があるため、やはりオフサイト・コピーが理想的な選択となります。
非構造化リポジトリとは、テープ、DVD-R、外付けHDDなどを積み重ねたもので、何をいつバックアップしたかという最小限の情報しかありません。 この方法は、最も簡単に導入できますが、自動化されていないため、高いレベルの復元性を実現することができません。
すべてのファイルをコピーするのがフルバックアップです。この方法を使用したリポジトリには、1つまたは複数の特定の時点で取られた完全なソースデータのコピーが含まれています。
システムイメージングは、ファイル単位ではなく、HDDやSSDの構成を丸ごとコピーする方法です。ある時点のディスク上の状態を保持するので、ときにはパーティションをはじめファイルの破損状態まで含んでいることがあります。
災害からの復旧の場合、ファイル単位のフルバックアップではコピーから復元する必要があるのに対して、システムイメージングはイメージから直接システムを起動することができるので復旧が素早く行えます。
システムイメージングは、既存の良好な構成を記録するためによく使われます。 イメージングは、多様なシステムの継続的なバックアップを取るためのツールというよりも、標準的な構成を多くのシステムに展開するための方法としての利用が一般的です。
増分バックアップでは、基準時点から変更されたデータだけを保存します。 変更されていないデータの重複コピーは保存されません。
通常、すべてのファイルのフルバックアップは1回または不定期に行われ、増分リポジトリの基準点となります。 その後、連続した期間の後にいくつかの増分バックアップが行われます。 リストアは最後のフルバックアップから始まり、増分を適用していきます。
バックアップシステムの中には、一連の増分バックアップから合成フルバックアップを作成し、頻繁にフルバックアップを行うのと同等の効果を得られるものもあります。
CDP(Continuous Data Protection, 継続的データ保護)とは、データに変更が加えられるたびに、そのコピーを瞬時に保存するバックアップを指します。これにより、任意の時点でのデータの復元が可能となり、最も包括的で高度なデータ保護となります。
CDP に近いバックアップアプリケーション(多くの場合「CDP」として販売されている)は、15分ごと、1時間ごと、24時間ごとなど、特定の間隔で自動的に増分バックアップを行います。 そのため、特定の間隔でのリストアしかできません。
CDP に近いバックアップ アプリケーションは、ジャーナリング(変更を記録する領域)を使用し、定期的な特定の時点で凍結されたデータの読み取り専用コピーである「 スナップショット 」に基づいているのが一般的です。
Near-CDP (Apple 社の Time Machineを除く) は、ホストシステム上のすべての変更をインテントログ(=ファイルシステムの動作の記録)に記録します。多くの場合、ファイルレベルの違いではなく、バイトレベルまたはブロックレベルの違いを保存します。
このバックアップ方法は、ログのロールバック(巻き戻し)を可能にし、データの古いイメージを復元できるという点で、単純なディスク ミラーリングとは異なります。
インテントロギングは、ライブデータの整合性を確保し、矛盾が起こらないようにファイルを保護できますが、アプリケーションを「静止してバックアップの準備をする」必要があります。
Near-CDP は、一般的な個人向けのバックアップアプリケーションに適しています。 一方、真の CDP は、仮想マシンまたは同等のものと組み合わせて実行する必要があるため、一般的には企業のクライアントサーバーのバックアップに使用されます。
逆増分バックアップ方式では、増分バックアップを合成していき、最新のバックアップがフルバックと同じ状態になるバックアップ方法です。
最初のフルバックアップ以降の増分バックアップを積み重ねて、再構築に必要なデータをすべて保存します。
リカバリが必要になったときに合成されたフルバックアップから素早く復旧できるのが特長です。
技術としては、Apple の Time Machineのようにハードリンクを使用するか、バイナリの差分を使用する方法があります。
差分バックアップ方式は、前回のフルバックアップ以降に変更されたデータのみを保存します。 前回のフルバックアップからの時間が長くなると(つまりデータの累積変更量が多くなると)、差分バックアップを実行する時間も長くなります。 システム全体をリストアするには、最新のフルバックアップと、最後の差分バックアップを適用します。
Incremental vs Differential Backup, & Full - Explained
差分バックアップでは、他の差分バックアップの有無にかかわらず、最後のフルバックアップ以降に作成または変更されたファイルがコピーされます。
増分バックアップでは、フルバックアップまたは増分バックアップのいずれかの最新のバックアップ以降に作成または変更されたファイルがコピーされます。
ファイルの変更は、ファイル属性の最終更新日時、およびファイルサイズの変更によって検出されます。
使用するリポジトリモデルに関係なく、データはアーカイブファイルのデータ記憶媒体にコピーする必要があります。 使用されるメディアは、バックアップ先の種類とも呼ばれます。
磁気テープは長い間、大量データの保存、バックアップ、アーカイブに最も一般的に使用されていたメディアでした。 以前はより安価なオプションでしたが、データ量が少ない場合には当てはまりません。
テープはシーケンシャル アクセス メディアであるため、データの継続的な書き込みまたは読み取り速度が非常に高速です。
多くのテープフォーマットは、メインフレームや特定のブランドのパーソナルコンピュータなど、特定の市場に特化したプロプライエタリなものでした。2014年には、 LTO (Linear Tape-Open) が主要なテープ技術となりました。
LTO 以外の技術では IBM 3592 (TS11xxシリーズとも呼ばれる) があります。
ハードディスク ストレージの使用は、時代とともに安価になり使用される機会が増えてきました。ハードディスクは、使いやすく、すばやくアクセスでき 、広く普及しています。 しかし、ハードディスクは極めて精密な機械装置であり、テープに比べて損傷しやすく、特に輸送中に損傷することがあります。
2000年代半ばに、いくつかのドライブメーカーがランプロード(ramp load)と加速度センサー技術(「ショックセンサー」と呼ばれることもあります)を採用したポータブルドライブの製造が開始されました。2010年には、この技術を搭載したハードディスクの落下テストの業界平均は、工業用カーペットの上に非動作状態で36インチ(約91センチ)から落下させても、ドライブは無傷で動作することが示されました。
一部のメーカーは、ハードディスクの周りに衝撃吸収ケースを含む「高耐久性」のポータブルハードドライブも提供しており、より高い落下仕様の範囲をうたっているものもあります。 ハードディスク バックアップの安定性はテープバックアップよりも短いです。
外付けハードディスクの接続には、SCSI、USB、FireWire、eSATAなどのローカルインターフェイスと、イーサネット、iSCSI、ファイバーチャネルなどの長距離伝送技術をがあります。 ディスクベースのバックアップシステムの中には、仮想テープライブラリなどを介して、データの重複排除をサポートしているものがあり、毎日や毎週のバックアップデータで消費されるディスクストレージの容量を減らすことができます。
光学メディアはレーザーを利用してデータの保存や読み出しを行います。 記録型のCD、DVD、ブルーレイディスクは安価なので、パソコンで一般的に使用されています。
従来はハードディスクやテープに比べて容量や速度が劣っていましたが、光メディアの進歩によりその差は徐々に縮まっています。
メディアの劣化による将来のデータ損失の可能性は、修正可能な軽微なデータエラーの発生率を測定することで予測することができます。このエラーが連続して発生すると、修正不可能なセクタが発生するリスクが高まります。エラースキャンのサポートは、光ドライブのベンダーによって異なります。
多くの光ディスクは WORM(Write Once Read Many=書き込みは1度だけ。読み取り何度もできる) 型のためデータが変更されないため、アーカイブ目的で役立ちます。さらに、光ディスクは、ヘッドクラッシュ、磁気、水の浸入、電力サージでデータが損失することはありません。ただし、記録媒体が光にさらされると劣化が早まる可能性があります。
一部の光ストレージシステムでは、ディスクに人が触れることなくカタログ化されたデータのバックアップが可能であるため、データの整合性を長く保つことができます。 2008年にフランスで行われた調査では、一般的に販売されているCD-Rの寿命は2〜10年でしたが、あるメーカーは後に、金でスパッタリングされた層を備えたCD-Rの寿命を100年と推定しました。 ソニーの光ディスクアーカイブは、2016年に毎秒250MBの読み取り速度に達する可能性があります。
ソリッド ステート ドライブ(SSD)は、集積回路の集合体を用いてデータを保存します。フラッシュメモリー、USBメモリー、コンパクトフラッシュ、スマートメディア、メモリースティック、セキュアデジタルカードなどのデバイスは、容量が少ない割には比較的高価ですが、比較的少ないデータ量をバックアップするのに便利です。 SSD は可動部がないため物理的な損傷を受けにくく、約500Mビット/秒から最大6Gビット/秒の大きなスループットを実現しています。SSDの容量も増え価格も安くなっています。 フラッシュメモリーのバックアップは、ハードディスクのバックアップよりも数年間安定しています。
リモートバックアップサービスあるいはクラウドバックアップと呼ばれるものは、サービスプロバイダーがデータを遠隔地に保管します。火災や洪水、地震など、現在地に保存されているバックアップを破壊してしまう事態からデータを守るために利用されます。 クラウドベースのバックアップ( Google Drive や Microsoft OneDrive のようなサービス)は、データを保護するレイヤーを提供します。ただし、ユーザーは暗号化を使用して機密性を強化し、データのプライバシーと整合性を維持するためにプロバイダーを信頼する必要があります。 速度と可用性はユーザーのオンライン接続状況によって制限されるため、大量のデータを扱うユーザーはクラウドシーディングや大規模なリカバリーを利用する必要があります。
バックアップメディアの管理には、アクセシビリティ、セキュリティ、コストのバランスを考慮して、さまざまな方法が用いられます。 メディア管理方法は相互に排他的なものではなく、ユーザーのニーズに合わせて頻繁に組み合わせられます。例えば、ニアライン(中間)のテープライブラリに送る前にデータをステージングするためにオンラインディスクを使用することは一般的な例です。
オンラインバックアップストレージは通常、最もアクセスしやすいタイプのデータストレージであり、ミリ秒単位で復元を開始できます。 内蔵ハードディスクまたはディスクアレイ(SAN-Storage Area Networkに接続されている場合があります)は、オンラインバックアップの一例です。 このタイプのストレージは便利でスピーディーですが、偶然、悪意のある行為、またはデータを削除するウイルスによって、削除または上書きされる可能性があります。
ディスクアレイとは複数のハードディスクを束ねて一台の大容量のディスクのように利用する技術や機器のことです。
ニアライン ストレージとはオンラインとオフラインの中間地点にあたるストレージを意味します。 ニアライン ストレージは、オンライン ストレージに比べてアクセスしにくいですが、一般的に価格が安価なので、バックアップ データの保存に役立ちます。 一般的にオンラインストレージと同様の安全性を備えています。
オフラインストレージでは、テープをテープドライブに挿入したり、ケーブルを接続したりするなど、ストレージメディアへアクセスするために、機器の接続が必要です。 データは、書き込みまたは読み取りが行われる限られた期間を除いて、どのコンピューターからもアクセスできないため、オンラインバックアップの障害モードの影響をほとんど受けません。 アクセス時間は、メディアがオンサイトかオフサイトかによって異なります。
バックアップメディアを現場から離れた場所に送り、災害をはじめとした、現地固有の問題から保護します。 保管場所は、システム管理者のホームオフィスのように単純な場合もあれば、バックアップメディアストレージの機能を備えた、耐災害性があり、温度制御された、セキュリティの高い大型施設の場合もあります。
バックアップ サイトまたはディザスタ リカバリ センターは、災害時にコンピュータシステムとネットワークを復元し、適切に構成できるように、データを保存するために使用されます。 独自のデータ復旧センターを持っている組織もあれば、サードパーティに委託している組織もあります。 コストが高いため、バックアップデータを災害復旧用の場所に移動する手段が推奨されることはめったにありません。 より一般的な方法は、災害復旧用データを可能な限り最新の状態に保つリモート ディスク ミラーリングです。
バックアップ操作は、コヒーレントな(理路整然と分かりやすい)データ単位を選択して抽出することから始まります。 コンピュータシステムのほとんどのデータは、ファイルと呼ばれる個別の単位で保存されます。 これらのファイルはファイルシステムに編成されています。
どのデータをバックアップするかはトレードオフの関係にあります。 冗長なデータをバックアップしすぎると、情報リポジトリがすぐにいっぱいになりますし、バックアップするデータの量が不十分であれば、重要な情報が失われる可能性があります。
ファイルのコピーを作成することは、バックアップを実行するための最も簡単で最も一般的な方法です。この基本機能を実行する手段は、すべてのバックアップソフトウェアとすべてのオペレーティングシステムに含まれています。
特定の期間に変更されたファイル内のブロックまたはバイトのみをバックアップすることができます。 これにより、必要なストレージ容量を大幅に削減できますが、ファイルを再構築するための復元作業では高度な技術が必要になります。
意図的に削除したファイルが意図せずに復元されるのを防ぐために、削除した記録を残しておく必要があります。
フルバックアップやシステムイメージングのみを実行するアプリケーションを除くほとんどのバックアップアプリケーションは、最後のバックアップ以降に変更されたファイルもバックアップします。 こうすることで、特定のファイルのさまざまなバージョンを取得できます。ハードディスクからファイルを削除しても、情報リポジトリのアーカイブから探すことができます。
ブロックレベルでファイルシステム全体のコピーを作成できます。 これは「rawパーティションバックアップ」とも呼ばれ、ディスクイメージングに関連しています。 このプロセスには通常、ファイルシステムをアンマウントして dd (Unix) などのプログラムを実行します。
ディスクは順次読み取られ、大きなバッファがあるため、このタイプのバックアップは、ファイルシステムに多数の小さなファイルが含まれている場合や非常に断片化されている場合、あるいはほぼ満杯の場合に、すべてのファイルを普通に読み取るよりも高速です。 ただし、この方法は有用なデータを含まない空きディスクブロックも読み取るため、ファイルシステムがほぼ空の状態のときには、通常の読み取りよりも遅くなる可能性があります。
XFS などの一部のファイルシステムは、未使用のセクションをスキップしながらディスクを順番に読み取り高いパフォーマンスを実現する「dump」ユーティリティを提供します。 対応する復元ユーティリティは、オペレータの選択により、個々のファイルまたはボリューム全体を選択的に復元できます。
一部のファイルシステムには、ファイルごとに最近の変更を示すアーカイブビットを持つものがあります。 バックアップソフトウェアのなかには、ファイルの日付を確認し、それを最後のバックアップと比較して、ファイルが変更されたかどうかを判断するものがあります。
バージョニングファイルシステムは、ファイルのすべての変更を追跡します。 Linux 用の バージョニングファイルシステムである NILFS がその一例です。
頻繁に更新されているファイルは、バックアップするのが困難です。 ライブデータ(=活動中のデータ)をバックアップする1つの方法は、一時的にデータを静止し(たとえば、すべてのファイルを閉じる)、「スナップショット」を作成してから、ライブ操作を再開することです。 この時点で、スナップショットは通常の方法でバックアップできます。
スナップショットは、一部のファイルシステムの瞬間的な機能であり、ファイルシステムのコピーを特定の時点で凍結したかのように表示します。多くの場合、コピーオンライトのメカニズムによって行われます。 変更中にファイルをスナップショットすると、ファイルが破損し、使用できなくなります。 これは、従来のデータベースや Microsoft Exchange Server などのアプリケーションに見られるように、相互に関連するファイルにも同じことが言えます。
ファジー バックアップ(fuzzy backup)という用語は、ライブデータのバックアップで一見正しく実行されたように見えるけれども、ある時点でのデータの状態を表していないものを指す言葉です。
活動を止めることができない、または止まらないデータファイルのバックアップオプションには下記の方法があります。
多くのバックアップ ソフトウェアは、内部的に一貫した状態でオープンされているファイルをバックアップします。 開いているファイルが使用されているかどうかを確認し、後で再試行するだけのアプリケーションもあります。また、非常に頻繁に更新される開いているファイルを除外するアプリケーションもあります。 利用率の低いインタラクティブなアプリケーションの中には、自然にあるいは誘発した一時停止によってバックアップできます。
一部の相互に関連するデータベースファイルシステムは、データベースがオンラインで使用可能なときにデータベースの「ホットバックアップ」を生成する手段を提供します。 これには、データファイルのスナップショットに加えて、バックアップの実行中に行われた変更のスナップショットログが含まれます。復元時に、ログファイルの変更が適用され、最初のバックアップが終了した時点までデータベースのコピーが戻されます。 利用率の低いインタラクティブアプリケーションは、調整されたスナップショットを介してバックアップできます。ただし、真に高可用性のインタラクティブアプリケーションは、CDP(継続的データ保護)を介してのみバックアップできます。
コンピュータに保存されている情報は、すべてがファイルに保存されているわけではありません。システム全体を最初から正確にリカバリーするには、ファイル以外のデータも把握しておく必要があります。
バックアッププロセスを最適化するために、バックアップされるデータを操作することは、有用であり必要とされます。 操作により、バックアップ速度、復元速度、データセキュリティ、メディア使用量、ネットワークの帯域幅要件を改善できます。
エンタープライズ向けのクライアント サーバー バックアップ アプリケーションには、細かく「グルーミング(古いデータの削除)」を設定できるものがあります。
個人用バックアップアプリケーションの場合、システム全体として保持期間を設定して削除を遅延させるか、削除自体を無効にすることができます。
保存するソースデータのサイズを縮小すると、使用するストレージスペースを減らすことができます。テープドライブのハードウェアには圧縮機能が組み込まれていることが多いです。
似たような構成のワークステーションをバックアップすることによる冗長性を減らすために、同じデータは1つのコピーだけを保存する方法があります。 この技術は、ファイルまたは raw ブロックレベルで適用できます。
重複排除は、データがバックアップメディアに移動する前にサーバー上で行うことができ、 ソース(クライアント)側の重複排除と呼ばれることもあります。 バックアップストレージに保存する前段階となる中間地点のサーバーを経由させて、この中間地点のサーバーで重複するデータを減らすこともあります。 このアプローチでは、バックアップデータを目的のメディアに送るために必要な帯域幅も削減されます。
重複データを取り除くプロセスはターゲットとなるストレージデバイス上でも行うことができます。これはインラインまたはバックエンド重複排除と呼ばれることもあります。
バックアップ自体を2つ目のストレージメディアに複製することがあります。
これは、アーカイブファイルを再配置して復元速度を最適化するために行われます。 またはエンタープライズのクライアントサーバーバックアップの「Disk-to-disk-to-tape」機能のように、別の場所や別のストレージメディアに2番目のコピーを配置するために実行されます。
バックアップテープなどの大容量のリムーバブルストレージメディアは、紛失または盗難にあった場合にセキュリティ上のリスクをもたらします。 メディア上のデータを暗号化すると、この問題を軽減できますが、暗号化はCPUを集中的に使用するプロセスがあり、バックアップ速度が低下する可能性があります。
暗号化されたバックアップのセキュリティは、鍵管理ポリシーのセキュリティと同じくらい効果的です。
バックアップするコンピューターの数がバックアップ先のストレージデバイスの数よりも多い場合は、単一のストレージデバイスを使用して複数のバックアップを同時に実行できると便利です。 しかし、「多重化バックアップ」によるスケジュールされたバックアップウィンドウの詰め込みは、テープを送り先とする場合のみ使用されます。
アーカイブファイル内のバックアップのセットを再配置するプロセスは、リファクタリングと呼ばれます。 たとえば、バックアップシステムが保護されているすべてのコンピューターの増分バックアップを保存するために毎日1本のテープを使用する場合、コンピューターの1つを復元するには多くのテープが必要になる可能性があります。 リファクタリングを使用して、単一のコンピューターのすべてのバックアップを単一のテープに統合し、「合成フルバックアップ」を作成できます。 これは、絶えず増分バックアップを実行するバックアップシステムで特に役立ちます。
バックアップをテープにコピーする前に、ステージングディスクにコピーすることがあります。このプロセスは「Disk-to-disk-to-tape」の頭文字をとって「D2D2T」と呼ばれることもあります。 ネットワークベースのバックアップシステムで頻繁に直面するように、最終的な宛先となるデバイスと送信元となるデバイスの速度の一致に問題がある場合に有効です。
ステージングは他のデータ操作技術を適用するための集中的な場所としても利用できます。
最終更新日: 2021年05月04日(火) / カテゴリー: パソコン