サーバーダウンとは、業務システムやWebサイトなどのITインフラを支えるサーバーが正常に稼働せず、外部からのアクセスや処理要求に応答できない状態を指します。ビジネスにおいてITインフラは生命線であり、この停止は大きな損失を招くリスクがあります。まずは、サーバーダウンの基礎知識を解説します。
一般にサーバーが「落ちる」とは、要求されたデータ処理を実行できなくなり、サービスが停止した状態を指します。具体的には、電源の消失やソフトウエアのフリーズ、物理的な故障によって応答が途絶える事態です。ユーザー側からはサイトが閲覧できない、管理者側からは遠隔操作を受け付けないなどの症状が現れます。
Webブラウザに表示されるHTTPレスポンスコードは、障害切り分けの重要なヒントになります。代表例として「503 Service Unavailable」はアクセスの集中などによる過負荷やメンテナンスなどでサーバーが一時的にリクエストを処理できない状態、「504 Gateway Timeout」はゲートウェイ/プロキシが上流のサーバーから所定時間内に応答を得られない状態を示します。
一方、「404 Not Found」は要求したリソースが見つからない状態であり、サーバー自体が稼働していても発生し得ます。ステータスコードに加えて、ログや監視メトリクスと合わせて確認しましょう。
サーバーダウンは、必ずしもシステム全体が完全に止まるわけではありません。データベースのみが停止し情報の読み書きができない場合や、特定のWebページのみが表示されない「部分的な障害」も存在します。一見稼働しているように見えても、決済機能のみが使えないなどの深刻なトラブルも含まれるため、注意が必要です。
サーバーダウンを招く要因は多岐にわたりますが、大きく外的要因・内的要因・環境要因の3つに分類可能です。トラブルの迅速な解決には、まず「何が原因か」を正しく切り分ける視点が欠かせません。
外部からの急激な負荷増加は、サーバーダウンの代表的な原因です。テレビやSNSでの拡散によるアクセス集中に加え、悪意ある第三者によるDDoS攻撃などのサイバー攻撃も含まれます。これらはサーバーの処理能力を限界まで消費させ、正常なユーザーによるアクセスを遮断してしまいます。
社内側の管理不足やミスによって発生するのが内的要因です。ストレージやメモリなどのハードウエア故障、設定変更時の操作ミス、プログラムのバグなどが該当します。特に、OSやミドルウエアのアップデート失敗は、広範囲にわたるシステム停止を引き起こすリスクがあるため、慎重な作業が求められます。
落雷、地震、火災などの自然災害や、データセンターの停電といった物理的トラブルが環境要因にあたります。予期せぬ電源喪失はハードウエアを損傷させるリスクも高く、復旧に時間を要するケースが少なくありません。また、計画的なメンテナンスによる一時停止も、周知が不十分であれば利用者にはサーバーダウンとして認識されます。
一度サーバーがダウンすると、目に見える損失から将来的な不利益まで、多大なダメージを負う事となります。特にWebサービスを主軸とする企業にとって、その影響は計り知れません。
ECサイトやオンラインサービスの場合、ダウンタイムはそのまま売上の消失に直結します。アクセスできない期間の機会損失だけでなく、広告費の無駄や、復旧作業にかかる人件費・専門業者への外注費用も発生します。大規模な障害になると、数時間の停止で数千万から億単位の損害が生じる事例も珍しくありません。
頻繁に接続エラーが発生するサービスは、ユーザーからの信頼を著しく損ないます。「セキュリティー体制に問題があるのではないか」という疑念を抱かせ、ブランドイメージが悪化するおそれも否定できません。特にBtoBビジネスでは、取引先への業務支障により、契約解除や損害賠償請求に発展するリスクをはらんでいます。
社内システムやクラウドツールが停止すれば、従業員の業務は完全にストップしてしまいます。さらに、復旧後のデータ整合性確認や、遅延した業務のリカバリー作業も現場の大きな負担となるはずです。
トラブル発生時は、迅速かつ正確な初動対応が復旧までの時間を左右します。焦って闇雲に再起動を繰り返すのは、データの破損を招くおそれがあるため避けなければなりません。
まずは「何が起きているか」を正確に把握する作業から開始します。特定の端末だけか、あるいは全ユーザーがアクセス不能なのかを確認してください。監視アラートやユーザーの反応をチェックし、影響範囲を特定します。同時に、現状を社内や関係各所へ周知しましょう。
次に、問題がネットワークにあるのか、サーバー本体やアプリケーションにあるのかを切り分けます。pingコマンドによる応答確認やログファイルの解析を行い、エラー箇所の特定に努めてください。ステータスコードに加えて、ログや監視メトリクス、構成情報を確認して切り分けましょう。
原因が判明次第、すみやかに再起動や不要なプロセスの停止などの応急処置を実施しましょう。アクセス集中の場合はIP制限や待機画面の設置、ハード故障の場合は代替品への切り替えが必要です。万が一データが破損しているケースでは、バックアップから慎重に復元作業を進めてください。
サーバーは「いつか必ず落ちるもの」という前提で、事前の対策を講じることが重要です。
ロードバランサー (負荷分散装置) を導入すると、Webサイトへのアクセスを複数のサーバーに振り分けられます。特定のサーバーに負荷が集中しないように制御し、システム全体の可用性と安定した通信環境の維持に寄与します。万が一、特定のサーバーに障害が発生しても、他のサーバーが処理を引き継ぐため、サービスを停止させずに運用を継続できる点が大きなメリットです。
冗長化とは、主要な機器やシステムを二重、三重に構成し、万が一に備えて予備を用意しておく手法です。障害が発生した場合でも予備系へ切り替わる「フェイルオーバー」の仕組みを構築することで、停止時間を最小化できます。ネットワーク回線や電源経路などインフラ全体を冗長化すれば、より高い可用性を確保できます。
24時間365日、システムの稼働状況を継続的にチェックできる監視ツールの導入は不可欠です。CPUやメモリの使用率が一定の基準を超えた際にアラートを通知する設定にしておけば、サービスが停止する前に対応が可能になります。死活監視やパフォーマンス監視を自動化させ、異常の兆候を早期に把握しましょう。
万が一の事態に備え、データのバックアップは定期的かつ計画的に取得しておく必要があります。バックアップの保存先を物理的に異なる場所やクラウド上に分散させれば、災害などの広域トラブルが発生した場合でも、大切なデータを守り続けられるでしょう。
サーバーダウンは、企業の経済的損失や社会的信用の失墜を招く重大なリスクです。ロードバランサーの導入やシステムの冗長化、定期的なバックアップといった「守り」の体制を日頃から整えておく事が、安定稼働への近道といえます。
横河レンタ・リース株式会社は、日本ヒューレット・パッカード社の Platinum パートナーとして、サーバーの販売から構築・運用・管理まで一貫したサービスをご提供しています。サーバーダウンに強いシステム構築やリプレースをお考えの企業さまは、ぜひお気軽にお問い合わせください。