Cos’è RTO e RPO nel disaster recovery?
Nel disaster recovery, questi numeri determinano per quanto tempo la vostra organizzazione sperimenta il downtime e quanti dati potrebbero essere persi. In questo importante contesto, cos’è un “buon” obiettivo di punto di recupero o di tempo di recupero? La risposta non è semplice. Un buon RPO/RTO standard dipende dal tipo di disastro e dal periodo massimo tollerabile di interruzione.
Prima di tutto, è importante definire l’insieme potenziale di disastri contro cui vorreste proteggere la vostra organizzazione. Alcuni disastri che richiedono il recupero e il backup dei dati includono:
- Perdita di dati: Questo può essere semplice come qualcuno che cancella una cartella, o complesso come un caso di ransomware o un database infetto.
- Perdita di un’applicazione: Questo si riferisce a quando le modifiche alla sicurezza, un aggiornamento o le configurazioni di sistema hanno un impatto negativo sui servizi.
- Perdita di un sistema: Questo include quando l’hardware si guasta, o, se avete un server virtuale, quando il sistema operativo si blocca.
- Perdita della sede aziendale: In questo caso, un disastro potrebbe includere un’interruzione di corrente, un incendio, un’inondazione o anche una fuoriuscita di sostanze chimiche fuori dall’edificio. Le strutture aziendali richiedono il recupero in una sede alternativa.
- Perdita di operazioni: Questo è un arresto completo delle operazioni di business, cioè lo scenario peggiore.
Ognuno di questi potenziali scenari illustra quanto sia importante considerare i dati, i sistemi, le applicazioni e la posizione fisica nella vostra strategia di disaster-recovery. Questi fattori giocano un ruolo nei valori di RTO e RPO. Una volta definiti i particolari scenari di disastro da cui si spera di proteggersi, è possibile dare priorità agli scenari che il cliente è più interessato a prevenire, quindi implementare le funzionalità di protezione dei dati che corrispondono ai loro requisiti RTO e RPO.
Un terzo fattore nella vostra strategia RTO/RPO: il periodo massimo tollerabile di interruzione (MTPD). Questo rappresenta il tempo in cui il vostro cliente è in grado di gestire la crisi di un’interruzione del sistema, e varia per ogni applicazione e servizio che gestite. I fattori che giocano in questa cifra includono costi tangibili come i salari dei dipendenti, la perdita di vendite, l’indebolimento dei prezzi delle azioni e le spese di recupero, così come fattori intangibili come il rischio reputazionale. È importante discutere l’MTPD con il vostro cliente, e poi applicare quel numero alla vostra strategia di riduzione RTO/RPO.
Per esempio, per una data applicazione, il periodo massimo di tolleranza del vostro cliente potrebbe essere di due ore. Ciò significa che il vostro obiettivo di tempo di recupero deve essere inferiore a due ore, e i vostri dati devono essere sottoposti a backup meno di ogni due ore per soddisfare l’RPO ideale. Questo vi dà la linea guida di cui avete bisogno per creare un sistema fisico e virtuale che soddisfi le esigenze del vostro cliente in caso di disastro.
Se il vostro cliente non è sicuro di quale sia il suo periodo massimo di interruzione tollerabile, ci sono alcune domande chiave che possono aiutarlo a stabilire aspettative migliori. Porre queste domande per capire l’RTO e l’RPO di un cliente a un livello più granulare.
- Quanto spesso cambia questo tipo di dati?
- Quanto costa ogni minuto di inattività di questo servizio, sia in termini di mancate entrate che di mancata produttività?
- Si può trattare con carta e penna, se necessario, mentre questo servizio è inattivo?
- Se si verificano tempi di inattività, come si ripercuotono sui vostri clienti?
Fare queste domande con il vostro cliente può aiutarvi a lavorare a ritroso su ciò che è necessario eseguire il backup e su come questi dati devono essere sottoposti a backup per minimizzare il rischio in uno scenario di disastro.
Che cosa sono RTO e RPO in SQL Server?
SQL Server è un sistema di gestione di database relazionali specifico di Microsoft che memorizza e recupera i dati come richiesto da altre applicazioni. Il server permette agli utenti di impostare backup automatici dei log da ripristinare da un server standby. Con questa spedizione di log, gli utenti possono recuperare una copia di database abbastanza recente, a seconda del RTO e RPO di quel processo. Questi requisiti RTO e RPO sono impostati dagli utenti, a seconda delle loro esigenze, del budget e di eventuali limitazioni tecnologiche di rete.
Tuttavia, SQL Server RTO e RPO non sono necessariamente semplici. In molti casi, il processo non è così veloce come un cliente può immaginare. Può avere in mente un RPO ideale, ma la lentezza della rete o un backup configurato in modo errato possono accelerare questo processo. Inoltre, il ripristino di un backup di log in questo modo può comportare il trasferimento di grandi quantità di dati, e questo processo può facilmente superare l’RTO accettabile determinato.