RIDONDANZA, RESILIENZA, COLLI DI BOTTIGLIA

Quando si osserva una rete di telecomunicazione dal punto di vista di chi la usa, tutto sembra semplice. Si invia un messaggio, si effettua una chiamata, si ricevono dati. O funziona, o non funziona. Ma questa visione binaria è una semplificazione che nasconde la complessità reale di ciò che accade sotto la superficie. Una rete non è mai o completamente funzionante o completamente interrotta. Si trova in continuazione in uno stato intermedio, il cui equilibrio dipende da scelte architetturali precise, dalla disponibilità delle risorse, e dalla distribuzione del carico in un dato momento. Per capire come una rete si comporta quando viene messa sotto pressione, è necessario introdurre tre concetti che torneranno in ogni capitolo successivo: ridondanza, resilienza e collo di bottiglia.

La ridondanza è il principio secondo cui un sistema contiene più elementi di quanti ne siano strettamente necessari al funzionamento ordinario. Un secondo percorso di instradamento che normalmente non viene utilizzato. Un collegamento fisico alternativo che resta silenzioso finché il principale regge. Un apparato di backup che aspetta il proprio turno. La ridondanza, in questo senso, sembra uno spreco: risorse impegnate che non producono traffico, infrastrutture che non vengono sfruttate, capacità inutilizzata. In realtà è l’opposto. La ridondanza è il costo che si paga per rendere un sistema capace di sopravvivere ai propri guasti.

Un sistema senza ridondanza è un sistema in cui ogni elemento è indispensabile. Se tutto funziona in modo ottimale, questo non crea problemi apparenti. Ma nel momento in cui un singolo componente cede, l’intera catena si interrompe. Non perché il guasto sia grave, ma perché non esiste un percorso alternativo. La ridondanza non elimina il guasto: lo isola, lo aggira, ne limita le conseguenze. Un collegamento che si spezza in una rete ridondante viene scavalcato automaticamente da un percorso diverso. L’utente può non accorgersene. Senza ridondanza, quello stesso evento produce un’interruzione visibile e duratura.

È qui che entra in gioco il concetto di resilienza. La resilienza di un sistema non è la sua capacità di non guastarsi mai, ma la sua capacità di continuare a funzionare, anche parzialmente, anche in modo degradato, in presenza di eventi che in un sistema fragile produrrebbero un’interruzione totale. La resilienza si misura nei momenti critici: non quando la rete è scarica e i collegamenti sono integri, ma quando una stazione è fuori servizio, un collegamento è sovraccarico, un nodo è irraggiungibile. Un sistema resiliente non crolla, si adatta. Riorganizza il traffico, abbassa la qualità dove necessario, mantiene il servizio su ciò che è prioritario.

Ridondanza e resilienza non sono sinonimi, ma sono strettamente collegate. La ridondanza è una caratteristica architettonica: descrive la struttura del sistema, la presenza di risorse aggiuntive, la duplicazione dei percorsi. La resilienza è una caratteristica comportamentale: descrive come il sistema reagisce agli eventi avversi. Un sistema può avere ridondanza senza essere resiliente, se le risorse ridondanti non vengono attivate correttamente o non sono dimensionate in modo adeguato. E un sistema può essere parzialmente resiliente anche senza ridondanza fisica, se dispone di meccanismi di degradazione controllata che gli consentono di ridurre le prestazioni mantenendo il servizio minimo.

Il terzo concetto, il collo di bottiglia, è quello che più spesso passa inosservato nei momenti di normale funzionamento. Un collo di bottiglia è un punto della rete in cui la capacità disponibile è inferiore alla domanda che lo attraversa, o inferiore a quella dei segmenti adiacenti. Non è necessariamente un guasto: può essere semplicemente un tratto di rete con capacità limitata, che nelle condizioni ordinarie non crea problemi ma che in condizioni di carico elevato diventa il fattore limitante dell’intera catena. Una catena, per quanto robusta nei suoi anelli, è limitata dall’anello più debole. Nelle reti di telecomunicazione, questo principio non è una metafora: è una realtà tecnica misurabile.

Un collo di bottiglia può trovarsi ovunque. Può essere un collegamento fisico tra due nodi con banda limitata. Può essere un apparato di instradamento con capacità di elaborazione insufficiente. Può essere il canale radio tra un terminale e la stazione più vicina. Può essere, e questo è un caso frequente e sottovalutato, il collegamento tra la rete di accesso e la rete di trasporto a monte. In quest’ultimo caso, la stazione radio base sul territorio può funzionare perfettamente, le antenne possono avere la massima capacità radio, ma se il collegamento verso il nucleo della rete è limitato, il traffico si accumula e degrada comunque. L’utente vede il segnale pieno e la connessione lenta, e non riesce a spiegarselo. Il collo di bottiglia non è dove sembra.

Qui vale la pena fermarsi su un equivoco comune. Una rete ridondante non è una rete priva di colli di bottiglia. Si può avere un sistema con molteplici percorsi alternativi, perfettamente ridondante sotto il profilo architetturale, che in determinate condizioni convoglia tutto il suo traffico verso un unico punto perché tutti i percorsi alternativi convergono fisicamente nello stesso edificio, sullo stesso cavo, sullo stesso apparato. La ridondanza logica non garantisce la ridondanza fisica. E la ridondanza fisica, se non è accompagnata da una separazione reale dei percorsi, è una ridondanza illusoria. Questo tipo di vulnerabilità nascosta è uno degli errori più ricorrenti nella progettazione delle infrastrutture di comunicazione.

Comprendere questi tre concetti significa acquisire un modo preciso di leggere i comportamenti di una rete. Quando una rete rallenta sotto carico, significa che da qualche parte esiste un collo di bottiglia che non è stato previsto o è stato sottodimensionato. Quando un guasto localizzato produce un’interruzione estesa, significa che il sistema non aveva ridondanza sufficiente in quel punto. Quando una rete riesce a mantenere il servizio anche in condizioni di degrado grave, significa che la resilienza è stata progettata e non lasciata al caso. In tutti e tre i casi, la differenza non nasce dall’evento che si è verificato, ma dalle scelte fatte molto prima, nella fase in cui qualcuno ha deciso come costruire il sistema.

Siamo su TELEGRAM!

RETI CENTRALIZZATE E RETI DISTRIBUITE

Ogni rete di telecomunicazione, nel momento in cui viene progettata, deve rispondere a una domanda che sembra semplice ma che ha conseguenze profonde su tutto ciò che verrà dopo: dove risiede il controllo? Da chi o da cosa dipende la capacità della rete di funzionare? La risposta a questa domanda non è mai neutra. Definisce la struttura dell’intera architettura, determina come si comporta il sistema in condizioni normali, e soprattutto come si comporta quando qualcosa va storto.

Una rete centralizzata è quella in cui esiste un nodo centrale che concentra le funzioni di controllo, instradamento e gestione del traffico. Tutti gli altri nodi dipendono da quel centro: senza di esso, la comunicazione si interrompe. Il vantaggio di questa architettura è immediato. Un sistema centralizzato è semplice da progettare, da gestire e da aggiornare. Le decisioni vengono prese in un unico punto, le risorse vengono distribuite in modo controllato, il comportamento della rete è prevedibile. Per decenni, la rete telefonica fissa ha funzionato esattamente secondo questa logica: ogni chiamata passava attraverso centrali gerarchicamente organizzate, con un numero ridotto di nodi che concentravano la maggior parte del traffico.

Il problema di un’architettura centralizzata è ugualmente evidente. Il nodo centrale non è soltanto un punto di controllo: è un punto di vulnerabilità. Se quel nodo smette di funzionare, l’intera rete o una porzione rilevante di essa smette di funzionare con lui. Non per degrado progressivo, ma per interruzione brusca. Nella progettazione dei sistemi di comunicazione, questo punto prende il nome di singolo punto di rottura: un elemento la cui perdita produce un fallimento sistemico, non localizzato. Nelle reti centralizzate, il nodo centrale è strutturalmente questo punto.

Una rete distribuita risponde a questa vulnerabilità cambiando i presupposti dell’architettura. In una rete distribuita non esiste un centro unico. Le funzioni di controllo e instradamento sono ripartite tra molteplici nodi, ciascuno capace di operare in modo relativamente autonomo. Se un nodo viene a mancare, l’informazione trova percorsi alternativi, la rete si riconfigura e il servizio può continuare, almeno parzialmente. La resilienza non è una caratteristica aggiunta al sistema, ma una conseguenza diretta della sua struttura. Il sistema non dipende da nessun singolo elemento perché nessun singolo elemento è indispensabile.

Questa idea non è recente. All’inizio degli anni Sessanta del Novecento, un ingegnere americano di nome Paul Baran, lavorando per la RAND Corporation, elaborò uno studio che avrebbe cambiato per sempre il modo di pensare le reti di comunicazione. Baran stava cercando di rispondere a un problema militare preciso: come costruire una rete di comunicazione capace di sopravvivere a un attacco nucleare che distruggesse una parte dei suoi nodi. La conclusione era logicamente inattaccabile: una rete centralizzata non può sopravvivere alla perdita del suo centro. Solo una rete in cui il controllo è distribuito tra molti nodi può continuare a funzionare anche dopo danni gravi e localizzati. Quella riflessione concettuale ha posto le fondamenta teoriche di ciò che sarebbe diventato, anni dopo, Internet.

Tuttavia sarebbe sbagliato concludere che le reti distribuite siano semplicemente superiori a quelle centralizzate. Il vantaggio in termini di resilienza ha un costo reale. Una rete distribuita è enormemente più complessa da progettare, da gestire e da diagnosticare quando sorgono problemi. In una rete centralizzata, un malfunzionamento ha un’origine chiara e un punto di intervento identificabile. In una rete distribuita, gli effetti di un problema locale possono propagarsi in modo inatteso, interagire con altri nodi, produrre comportamenti difficili da prevedere e ancora più difficili da correggere in tempo reale. La complessità distribuisce la resilienza, ma distribuisce anche la responsabilità e l’incertezza.

Nella realtà, le reti di telecomunicazione commerciali non sono mai puramente centralizzate né puramente distribuite. Si collocano su uno spettro continuo tra questi due estremi, con architetture ibride che centralizzano alcune funzioni per ragioni di efficienza e distribuiscono altre per ragioni di robustezza. Le reti cellulari, per esempio, hanno componenti fortemente centralizzate, come i sistemi di autenticazione e di gestione della mobilità, e componenti geograficamente distribuite, come le stazioni radio base. Comprendere dove si collocano le funzioni critiche all’interno di questa architettura ibrida è fondamentale per capire dove si trovano i punti di vulnerabilità reali.

C’è un’ultima osservazione che vale la pena fare prima di procedere. Distribuire una rete non significa renderla indistruttibile. Una rete distribuita può essere ugualmente vulnerabile se i suoi nodi condividono le stesse dipendenze fisiche: la stessa alimentazione, lo stesso collegamento in fibra, lo stesso edificio. La ridondanza architetturale non ha alcun valore se si traduce in percorsi diversi che dipendono dallo stesso punto fisico. È una delle trappole più comuni nella progettazione delle infrastrutture di comunicazione, e vale la pena tenerla a mente ora, perché tornerà con forza quando affronteremo il tema della ridondanza e dei colli di bottiglia.

Siamo su TELEGRAM!