RIDONDANZA, RESILIENZA, COLLI DI BOTTIGLIA

Quando si osserva una rete di telecomunicazione dal punto di vista di chi la usa, tutto sembra semplice. Si invia un messaggio, si effettua una chiamata, si ricevono dati. O funziona, o non funziona. Ma questa visione binaria è una semplificazione che nasconde la complessità reale di ciò che accade sotto la superficie. Una rete non è mai o completamente funzionante o completamente interrotta. Si trova in continuazione in uno stato intermedio, il cui equilibrio dipende da scelte architetturali precise, dalla disponibilità delle risorse, e dalla distribuzione del carico in un dato momento. Per capire come una rete si comporta quando viene messa sotto pressione, è necessario introdurre tre concetti che torneranno in ogni capitolo successivo: ridondanza, resilienza e collo di bottiglia.

La ridondanza è il principio secondo cui un sistema contiene più elementi di quanti ne siano strettamente necessari al funzionamento ordinario. Un secondo percorso di instradamento che normalmente non viene utilizzato. Un collegamento fisico alternativo che resta silenzioso finché il principale regge. Un apparato di backup che aspetta il proprio turno. La ridondanza, in questo senso, sembra uno spreco: risorse impegnate che non producono traffico, infrastrutture che non vengono sfruttate, capacità inutilizzata. In realtà è l’opposto. La ridondanza è il costo che si paga per rendere un sistema capace di sopravvivere ai propri guasti.

Un sistema senza ridondanza è un sistema in cui ogni elemento è indispensabile. Se tutto funziona in modo ottimale, questo non crea problemi apparenti. Ma nel momento in cui un singolo componente cede, l’intera catena si interrompe. Non perché il guasto sia grave, ma perché non esiste un percorso alternativo. La ridondanza non elimina il guasto: lo isola, lo aggira, ne limita le conseguenze. Un collegamento che si spezza in una rete ridondante viene scavalcato automaticamente da un percorso diverso. L’utente può non accorgersene. Senza ridondanza, quello stesso evento produce un’interruzione visibile e duratura.

È qui che entra in gioco il concetto di resilienza. La resilienza di un sistema non è la sua capacità di non guastarsi mai, ma la sua capacità di continuare a funzionare, anche parzialmente, anche in modo degradato, in presenza di eventi che in un sistema fragile produrrebbero un’interruzione totale. La resilienza si misura nei momenti critici: non quando la rete è scarica e i collegamenti sono integri, ma quando una stazione è fuori servizio, un collegamento è sovraccarico, un nodo è irraggiungibile. Un sistema resiliente non crolla, si adatta. Riorganizza il traffico, abbassa la qualità dove necessario, mantiene il servizio su ciò che è prioritario.

Ridondanza e resilienza non sono sinonimi, ma sono strettamente collegate. La ridondanza è una caratteristica architettonica: descrive la struttura del sistema, la presenza di risorse aggiuntive, la duplicazione dei percorsi. La resilienza è una caratteristica comportamentale: descrive come il sistema reagisce agli eventi avversi. Un sistema può avere ridondanza senza essere resiliente, se le risorse ridondanti non vengono attivate correttamente o non sono dimensionate in modo adeguato. E un sistema può essere parzialmente resiliente anche senza ridondanza fisica, se dispone di meccanismi di degradazione controllata che gli consentono di ridurre le prestazioni mantenendo il servizio minimo.

Il terzo concetto, il collo di bottiglia, è quello che più spesso passa inosservato nei momenti di normale funzionamento. Un collo di bottiglia è un punto della rete in cui la capacità disponibile è inferiore alla domanda che lo attraversa, o inferiore a quella dei segmenti adiacenti. Non è necessariamente un guasto: può essere semplicemente un tratto di rete con capacità limitata, che nelle condizioni ordinarie non crea problemi ma che in condizioni di carico elevato diventa il fattore limitante dell’intera catena. Una catena, per quanto robusta nei suoi anelli, è limitata dall’anello più debole. Nelle reti di telecomunicazione, questo principio non è una metafora: è una realtà tecnica misurabile.

Un collo di bottiglia può trovarsi ovunque. Può essere un collegamento fisico tra due nodi con banda limitata. Può essere un apparato di instradamento con capacità di elaborazione insufficiente. Può essere il canale radio tra un terminale e la stazione più vicina. Può essere, e questo è un caso frequente e sottovalutato, il collegamento tra la rete di accesso e la rete di trasporto a monte. In quest’ultimo caso, la stazione radio base sul territorio può funzionare perfettamente, le antenne possono avere la massima capacità radio, ma se il collegamento verso il nucleo della rete è limitato, il traffico si accumula e degrada comunque. L’utente vede il segnale pieno e la connessione lenta, e non riesce a spiegarselo. Il collo di bottiglia non è dove sembra.

Qui vale la pena fermarsi su un equivoco comune. Una rete ridondante non è una rete priva di colli di bottiglia. Si può avere un sistema con molteplici percorsi alternativi, perfettamente ridondante sotto il profilo architetturale, che in determinate condizioni convoglia tutto il suo traffico verso un unico punto perché tutti i percorsi alternativi convergono fisicamente nello stesso edificio, sullo stesso cavo, sullo stesso apparato. La ridondanza logica non garantisce la ridondanza fisica. E la ridondanza fisica, se non è accompagnata da una separazione reale dei percorsi, è una ridondanza illusoria. Questo tipo di vulnerabilità nascosta è uno degli errori più ricorrenti nella progettazione delle infrastrutture di comunicazione.

Comprendere questi tre concetti significa acquisire un modo preciso di leggere i comportamenti di una rete. Quando una rete rallenta sotto carico, significa che da qualche parte esiste un collo di bottiglia che non è stato previsto o è stato sottodimensionato. Quando un guasto localizzato produce un’interruzione estesa, significa che il sistema non aveva ridondanza sufficiente in quel punto. Quando una rete riesce a mantenere il servizio anche in condizioni di degrado grave, significa che la resilienza è stata progettata e non lasciata al caso. In tutti e tre i casi, la differenza non nasce dall’evento che si è verificato, ma dalle scelte fatte molto prima, nella fase in cui qualcuno ha deciso come costruire il sistema.

Siamo su TELEGRAM!