PERCHÉ TUTTE LE RETI HANNO UN PUNTO DI ROTTURA

C’è una convinzione diffusa, raramente espressa in modo esplicito ma profondamente radicata nel modo in cui le persone usano le reti di comunicazione, secondo cui una rete ben costruita dovrebbe funzionare sempre. Che esistano soluzioni tecniche sufficientemente avanzate da eliminare, almeno in linea di principio, la possibilità di un’interruzione. Questa convinzione non è solo sbagliata. È sbagliata nel modo più pericoloso possibile: sembra ragionevole. Il punto non è che le reti siano progettate male, né che chi le gestisce non faccia il proprio lavoro. Il punto è che ogni rete, indipendentemente dalla sua complessità, dal suo costo e dalla cura con cui è stata realizzata, ha un punto oltre il quale smette di funzionare. Non per negligenza, ma per legge fisica, economica e logica.

Il primo motivo è fisico. Ogni componente di una rete, nodo o collegamento, ha una capacità massima. Un cavo in fibra può trasportare una certa quantità di informazioni al secondo, non una quantità illimitata. Un apparato di instradamento può processare un certo numero di operazioni in un dato intervallo di tempo. Un’antenna può gestire un certo numero di comunicazioni simultanee prima che il segnale cominci a degradare. Questi limiti non sono difetti di progettazione: sono conseguenze dirette delle proprietà fisiche dei materiali e delle leggi dell’elettronica. È possibile aumentare le capacità, sostituire gli apparati, potenziare le infrastrutture. Non è possibile eliminarle. Il limite fisico esiste sempre, anche quando è collocato molto più in alto della domanda ordinaria.

Il secondo motivo è economico. Una rete può essere progettata per reggere carichi molto superiori a quelli attesi in condizioni normali. Ma ogni incremento di capacità ha un costo. A un certo punto, il costo di aggiungere ridondanza o capacità supera il beneficio atteso, soprattutto se i casi d’uso per cui servirebbe quella capacità aggiuntiva sono rari o estremi. Le reti commerciali vengono dimensionate per gestire il carico tipico, con un margine di sicurezza ragionevole. Non vengono dimensionate per il caso peggiore immaginabile. La differenza tra il carico normale e il carico straordinario, come quello che si produce durante un evento di massa o un’emergenza, è spesso sufficiente a mandare in saturazione una rete costruita con criteri ordinari.

Il terzo motivo è logico. In qualsiasi sistema complesso, la ridondanza richiede risorse. Quelle risorse hanno un costo e un peso. Più si vuole proteggere un sistema da eventi rari, più diventa costoso proteggerlo dall’evento successivo, ancora più raro. Esiste sempre un livello di sollecitazione che nessun sistema è stato progettato per sostenere. Un terremoto di intensità sufficiente distrugge le infrastrutture fisiche. Un attacco coordinato può saturare i sistemi di instradamento. Una tempesta geomagnetica intensa può compromettere i collegamenti satellitari e i sistemi di navigazione. Questi eventi non rientrano nei parametri di progetto. Non perché siano trascurati, ma perché renderli gestibili richiederebbe un investimento sproporzionato rispetto alla loro probabilità.

Esiste poi una quarta considerazione, meno intuitiva ma tecnicamente rilevante. Le reti moderne sono sistemi interconnessi: dipendono l’una dall’altra in modi che non sempre sono visibili. Una rete cellulare dipende dalla rete elettrica per alimentare le sue stazioni. Dipende dalla rete di trasporto in fibra per portare il traffico verso il nucleo. Dipende da sistemi di sincronizzazione temporale che spesso si appoggiano a segnali satellitari. Ogni dipendenza esterna è un potenziale punto di rottura indiretto. Un guasto alla rete elettrica non è un guasto della rete cellulare, ma ne può causare l’interruzione con la stessa efficacia. La complessità delle interdipendenze moltiplica i modi in cui un sistema può smettere di funzionare, anche quando la sua struttura interna è integra.

Il punto di rottura, quindi, non è un’anomalia. È una caratteristica strutturale di qualsiasi sistema reale. La domanda corretta non è se una rete abbia un punto di rottura, ma dove si trova quel punto, in quali condizioni viene raggiunto, e cosa succede quando viene superato. Questo cambiamento di prospettiva è fondamentale. Significa passare da un approccio basato sull’illusione dell’affidabilità assoluta a un approccio basato sulla comprensione dei limiti reali. Una rete non è affidabile perché non si rompe mai. Una rete è affidabile perché il suo punto di rottura è collocato abbastanza lontano dalle condizioni operative ordinarie, e perché il suo degrado, quando inizia, è controllato e prevedibile.

Questa distinzione ha conseguenze pratiche dirette. Chi dipende da una rete di comunicazione per attività critiche deve sapere dove si trovano i punti di rottura di quella rete, non per alimentare una preoccupazione fine a se stessa, ma per costruire le proprie procedure e i propri sistemi di backup tenendo conto di quei limiti reali. Una comunicazione che funziona in condizioni normali può non funzionare nel momento in cui è davvero necessaria, esattamente perché quel momento coincide spesso con le condizioni di maggiore stress per la rete. Emergenze, eventi di massa, situazioni straordinarie sono per definizione le condizioni in cui la rete è più probabile che si trovi al proprio limite.

Concludere il Capitolo 2 con questo articolo non è casuale. Tutto ciò che è stato introdotto fin qui, il concetto di rete, i nodi e i collegamenti, l’instradamento, le architetture centralizzate e distribuite, la ridondanza, la resilienza e i colli di bottiglia, converge in questa considerazione finale. Le reti sono sistemi reali, fisici, limitati. Funzionano perché qualcuno le ha progettate, costruite e le mantiene. Smettono di funzionare quando le condizioni superano i limiti per cui sono state costruite. Comprendere questa realtà non è pessimismo. È il punto di partenza per qualsiasi ragionamento serio sull’affidabilità delle comunicazioni, che è esattamente ciò di cui si occuperanno i capitoli successivi.

Siamo su TELEGRAM!

RIDONDANZA, RESILIENZA, COLLI DI BOTTIGLIA

Quando si osserva una rete di telecomunicazione dal punto di vista di chi la usa, tutto sembra semplice. Si invia un messaggio, si effettua una chiamata, si ricevono dati. O funziona, o non funziona. Ma questa visione binaria è una semplificazione che nasconde la complessità reale di ciò che accade sotto la superficie. Una rete non è mai o completamente funzionante o completamente interrotta. Si trova in continuazione in uno stato intermedio, il cui equilibrio dipende da scelte architetturali precise, dalla disponibilità delle risorse, e dalla distribuzione del carico in un dato momento. Per capire come una rete si comporta quando viene messa sotto pressione, è necessario introdurre tre concetti che torneranno in ogni capitolo successivo: ridondanza, resilienza e collo di bottiglia.

La ridondanza è il principio secondo cui un sistema contiene più elementi di quanti ne siano strettamente necessari al funzionamento ordinario. Un secondo percorso di instradamento che normalmente non viene utilizzato. Un collegamento fisico alternativo che resta silenzioso finché il principale regge. Un apparato di backup che aspetta il proprio turno. La ridondanza, in questo senso, sembra uno spreco: risorse impegnate che non producono traffico, infrastrutture che non vengono sfruttate, capacità inutilizzata. In realtà è l’opposto. La ridondanza è il costo che si paga per rendere un sistema capace di sopravvivere ai propri guasti.

Un sistema senza ridondanza è un sistema in cui ogni elemento è indispensabile. Se tutto funziona in modo ottimale, questo non crea problemi apparenti. Ma nel momento in cui un singolo componente cede, l’intera catena si interrompe. Non perché il guasto sia grave, ma perché non esiste un percorso alternativo. La ridondanza non elimina il guasto: lo isola, lo aggira, ne limita le conseguenze. Un collegamento che si spezza in una rete ridondante viene scavalcato automaticamente da un percorso diverso. L’utente può non accorgersene. Senza ridondanza, quello stesso evento produce un’interruzione visibile e duratura.

È qui che entra in gioco il concetto di resilienza. La resilienza di un sistema non è la sua capacità di non guastarsi mai, ma la sua capacità di continuare a funzionare, anche parzialmente, anche in modo degradato, in presenza di eventi che in un sistema fragile produrrebbero un’interruzione totale. La resilienza si misura nei momenti critici: non quando la rete è scarica e i collegamenti sono integri, ma quando una stazione è fuori servizio, un collegamento è sovraccarico, un nodo è irraggiungibile. Un sistema resiliente non crolla, si adatta. Riorganizza il traffico, abbassa la qualità dove necessario, mantiene il servizio su ciò che è prioritario.

Ridondanza e resilienza non sono sinonimi, ma sono strettamente collegate. La ridondanza è una caratteristica architettonica: descrive la struttura del sistema, la presenza di risorse aggiuntive, la duplicazione dei percorsi. La resilienza è una caratteristica comportamentale: descrive come il sistema reagisce agli eventi avversi. Un sistema può avere ridondanza senza essere resiliente, se le risorse ridondanti non vengono attivate correttamente o non sono dimensionate in modo adeguato. E un sistema può essere parzialmente resiliente anche senza ridondanza fisica, se dispone di meccanismi di degradazione controllata che gli consentono di ridurre le prestazioni mantenendo il servizio minimo.

Il terzo concetto, il collo di bottiglia, è quello che più spesso passa inosservato nei momenti di normale funzionamento. Un collo di bottiglia è un punto della rete in cui la capacità disponibile è inferiore alla domanda che lo attraversa, o inferiore a quella dei segmenti adiacenti. Non è necessariamente un guasto: può essere semplicemente un tratto di rete con capacità limitata, che nelle condizioni ordinarie non crea problemi ma che in condizioni di carico elevato diventa il fattore limitante dell’intera catena. Una catena, per quanto robusta nei suoi anelli, è limitata dall’anello più debole. Nelle reti di telecomunicazione, questo principio non è una metafora: è una realtà tecnica misurabile.

Un collo di bottiglia può trovarsi ovunque. Può essere un collegamento fisico tra due nodi con banda limitata. Può essere un apparato di instradamento con capacità di elaborazione insufficiente. Può essere il canale radio tra un terminale e la stazione più vicina. Può essere, e questo è un caso frequente e sottovalutato, il collegamento tra la rete di accesso e la rete di trasporto a monte. In quest’ultimo caso, la stazione radio base sul territorio può funzionare perfettamente, le antenne possono avere la massima capacità radio, ma se il collegamento verso il nucleo della rete è limitato, il traffico si accumula e degrada comunque. L’utente vede il segnale pieno e la connessione lenta, e non riesce a spiegarselo. Il collo di bottiglia non è dove sembra.

Qui vale la pena fermarsi su un equivoco comune. Una rete ridondante non è una rete priva di colli di bottiglia. Si può avere un sistema con molteplici percorsi alternativi, perfettamente ridondante sotto il profilo architetturale, che in determinate condizioni convoglia tutto il suo traffico verso un unico punto perché tutti i percorsi alternativi convergono fisicamente nello stesso edificio, sullo stesso cavo, sullo stesso apparato. La ridondanza logica non garantisce la ridondanza fisica. E la ridondanza fisica, se non è accompagnata da una separazione reale dei percorsi, è una ridondanza illusoria. Questo tipo di vulnerabilità nascosta è uno degli errori più ricorrenti nella progettazione delle infrastrutture di comunicazione.

Comprendere questi tre concetti significa acquisire un modo preciso di leggere i comportamenti di una rete. Quando una rete rallenta sotto carico, significa che da qualche parte esiste un collo di bottiglia che non è stato previsto o è stato sottodimensionato. Quando un guasto localizzato produce un’interruzione estesa, significa che il sistema non aveva ridondanza sufficiente in quel punto. Quando una rete riesce a mantenere il servizio anche in condizioni di degrado grave, significa che la resilienza è stata progettata e non lasciata al caso. In tutti e tre i casi, la differenza non nasce dall’evento che si è verificato, ma dalle scelte fatte molto prima, nella fase in cui qualcuno ha deciso come costruire il sistema.

Siamo su TELEGRAM!