Manutenzione su condizione e predittiva: opportunità e problematiche

Scopo di questo contributo è evidenziare i presupposti e le difficoltà insite nell’adozione della CBM e PdM affinché le Aziende possano valutare in maniera più consapevole se adottare o meno tali approcci

Febbraio 18, 2022
2161 views

La Curva P-F
Monitoraggio dello stato di degrado nella manutenzione su condizione
Albero decisionale per l’adozione della CBM
Stima della vita residua nella manutenzione predittiva
Classificazione dei metodi PdM

Premessa

La manutenzione su condizione (CBM, Condition Based Maintenance) e quella predittiva (PdM, Predictive Maintenance), sono una radicale evoluzione della tradizionale manutenzione preventiva ciclica. Mentre in quest’ultima gli interventi preventivi sono svolti dopo un prefissato intervallo temporale – o di anzianità di funzionamento – rispetto l’ultimo intervento manutentivo svolto (manutenzione a età costante) oppure dall’ultimo intervento preventivo effettuato (manutenzione a data costante), e quindi a prescindere dall’effettivo stato del componente da sostituire, la CBM subordina l’esecuzione dell’intervento preventivo alla verifica del superamento di un livello di degrado prestabilito (analisi diagnostica); mentre la PdM ha l’obiettivo prognostico di prevedere l’istante in cui avverrà il guasto e quindi valutare il periodo residuo di funzionamento (RUL, Remaining useful Life), in modo da intervenire nell’imminenza del guasto.

Queste tecniche prevedono quindi un monitoraggio e, oltre a concentrarsi sul rilevamento di anomalie, hanno anche lo scopo di individuarne le cause e prevedere i modi di guasto che potrebbero derivare dall’evoluzione temporale dello stato del sistema osservato. Complessivamente, secondo lo standard ISO13374- 2, la manutenzione su condizione e predittiva, e più in generale le attività di Prognostics and Health Management (PHM), si articolano nelle seguenti fasi: acquisizione dati, processamento dati, valutazione delle condizioni e rilevazione anomalie, diagnosi, prognosi, analisi decisionale, presentazione delle informazioni mediante interfaccia uomo- macchina.

In tutti i casi lo scopo è quello di evitare interventi potenzialmente non necessari sfruttando al meglio la vita residua del componente anche in funzione dell’effettiva intensità di utilizzo. L’intervento manutentivo può essere pianificato per tempo interferendo al minimo con le attività lavorative, come nella manutenzione ciclica, e il down time è ridotto rispetto la manutenzione a guasto anche grazie alla informazione sul tipo di guasto imminente derivante dal monitoraggio e dalla prognosi. Vantaggi che si scontano con l’abbandono della evidente semplicità attuativa della manutenzione preventiva ciclica. Le opportunità offerte da CBM e PdM appaiono dunque stimolanti, ed è naturale che molte Aziende intendano abbracciare con entusiasmo questo approccio. Tuttavia, si tratta di pratiche manutentive sofisticate, e la tentazione di adottarle in maniera acritica, quasi fossero l’ennesima moda gestionale cui conformarsi o una panacea ai problemi manutentivi, può comportare esiti insoddisfacenti. È evidente che non basta “strumentare” una macchina per applicare la CBM/PdM, e l’introduzione in contesti privi della dovuta consapevolezza e delle necessarie competenze tecniche, o in cui ancora non si sia neanche padroneggiato l’impiego della manutenzione preventiva ciclica, espone a rischi di fallimento e perdite economiche. Scopo di questo contributo è evidenziare i presupposti e le difficoltà insite nell’adozione della CBM e PdM affinché le Aziende possano valutare in maniera più consapevole se adottare o meno tali approcci.

CBM

Il concetto della CBM si basa sull’ipotesi che esistano dei sintomi di un processo di danno in corso che segnalino il progressivo e graduale degrado funzionale dell’apparecchiatura prima che questo si manifesti in un guasto conclamato. Tale circostanza è concettualmente espressa dalla ben nota curva P-F (Figura 1) che illustra l’andamento temporale del degrado prestazionale dal momento in cui i sintomi del degrado diventano rilevabili (punto P) sino al raggiungimento di un livello critico in corrispondenza del quale il guasto è conclamato o le prestazioni sono ridotte al punto tale da pregiudicare irrimediabilmente la funzionalità dell’apparecchiatura (punto F). Se immaginiamo (Figura 2) che lo stato del sistema sia correlato a un segnale di degrado rilevabile X(t), acquisito in maniera continuativa oppure a intervalli temporali τ di ispezione, e che il periodo P-F sia sufficientemente lungo, possiamo attuare una politica manutentiva con la regola decisionale secondo cui, definiti i valori soglia di allerta XA e di guasto XG qualora in corrispondenza di una ispezione sia X(t) < XA si schedula la successiva ispezione, se XA ≤ X(t) < XG si effettua un intervento preventivo, se X(t) ≥ XG si effettua un intervento a guasto. È evidente che la traiettoria temporale del segnale di degrado è aleatoria e la Figura 2 rappresenta schematicamente solo una delle possibili realizzazioni della traiettoria associata a un modo di guasto.

Prima di pianificare una iniziativa CBM occorre effettuare una analisi tesa a individuare gli asset strategicamente rilevanti e decomporli in sottosistemi per selezionare mediante tecniche consolidate (FMECA, HAZOP, alberi di guasto e degli eventi ecc.) i componenti che, per frequenza elevata dei guasti e/o per la gravità delle conseguenze, risultino critici e quindi da monitorare. Sebbene il lettore sia esortato a riferirsi agli standard di settore, tra cui ad es. la norma ISO 17359 Condition monitoring and diagnostics of machines — General guidelines e quelle sull’asset management, le fasi operative per istituire un piano di CBM sono sintetizzabili come segue:

a) Verificare la sussistenza dei presupposti tecnici per l’applicazione della CBM
b) Identificare il segnale da monitorare e scegliere il metodo di rilevazione più idoneo
c) Scegliere il sistema di acquisizione, trattamento ed elaborazione dati
d) Definire i parametri operativi della politica di manutenzione
e) Effettuare una verifica di convenienza economica
f) Implementare il sistema

Approfondimento delle fasi operative della CBM

a) Verificare la sussistenza dei presupposti tecnici per l’applicazione della CBM

Mentre la manutenzione ciclica e utilmente applicabile solo se il tasso di guasto e crescente nel tempo – essendo tale circostanza indice di fenomeni di usura connessi all’utilizzo e invecchiamento del bene, che possono essere rallentati mediante una sostituzione periodica dei componenti al fine del “ringiovanimento” del sistema – la CBM e applicabile quale che sia l’andamento temporale del tasso di guasto. Tuttavia, è necessario che per il macchinario e il componente individuato come critico sia noto il modo di guasto possibile, che esista un segnale (in genere debole) correlato al fenomeno di danno in questione, che tale segnale sia rilevabile, e che sia complessivamente rappresentativo dello stato di degrado del bene, cosicché sia possibile correlare univocamente il valore del segnale all’effettiva insorgenza del guasto, in modo che il superamento di una soglia di allarme possa essere usato ai fini decisionali per la manutenzione. Moubray aggiunge che deve potere essere chiaramente definibile la condizione di guasto, l’intervallo P-F deve essere sufficientemente lungo e costante nella sua durata da consentire di pianificare gli interventi manutentivi dopo avere rilevato la condizione di allarme, e sia fattibile l’ispezione dello stato del sistema a intervalli minori della durata P-F (si suggerisce che τ sia non più grande della metà dell’intervallo P-F). L’identificazione dei modi di guasto possibili, degli associati segnali deboli e della loro osservabilità e in genere effettuata mediante una analisi Failure Mode Effects/Criticality Analyis (FMEA/ FMECA).

b) Identificare il segnale da monitorare e scegliere il metodo di rilevazione più idoneo

Molteplici tipi di segnale possono essere sintomi di un fenomeno di degrado. Ad esempio, in una macchina rotante il degrado dei cuscinetti potrebbe iniziare a manifestarsi con la presenza di particelle metalliche di usura nell’olio lubrificante, poi di vibrazioni, quindi di locali incrementi di temperatura, poi di rumore udibile, ecc. Occorre quindi identificare quale tipologia di segnale sia più idonea a rappresentare lo stato del sistema e in quali e quanti punti dell’apparecchiatura esso vada rilevato.

Tale scelta e direttamente correlata alla natura fisica del fenomeno in osservazione, alla sua osservabilità in relazione alla durata del periodo P-F e alle tecnologie di rilevazione disponibili, nonché alle caratteristiche dall’apparecchiatura da monitorare. Tale valutazione viene semplificata se si predispongono delle tabelle che confrontino per i vari segnali monitorabili il livello di variazione al modificarsi dei parametri macroscopici rappresentanti lo stato di degrado del sistema. In tal modo solo le grandezze che dimostrano di poter fornire effettivamente informazioni sul cambiamento di stato del sistema, inclusi gli errori sistematici indotti dalla sensoristica, saranno presi in considerazione. Nella CBM ciò che si vuole rilevare sono in genere vibrazioni, emissioni sonore, usura del materiale e surriscaldamenti dovuti a sovraccarichi e difetti di lubrificazione, fenomeni di corrosione, propagazione di cricche; di conseguenza sono disponibili sul mercato una moltitudine di principi di misura diversa e una ampia gamma di sensori (piezoelettrici, accelerometrici, elettromagnetici, ottici, termici, ecc.) tra cui scegliere. Una volta individuato il fenomeno di degrado di interesse, la grandezza fisica che funga da segnale di monitoraggio e il tipo di strumentazione da utilizzare per rilevarla, occorre definire le specifiche tecniche della strumentazione da acquisire, e, infine, effettuare una scelta del sistema di sensoristica commerciale da implementare, definendo, oltre a numero e ubicazione, dei punti di rilevazione anche la frequenza delle rilevazioni.

c) Scegliere il sistema di acquisizione, trattamento ed elaborazione dati

Il segnale ricavato da un sensore di norma non è direttamente utilizzabile in quanto sporcato da rumore e intrinsecamente povero di contenuto informativo. È necessario un suo preliminare condizionamento per eliminare effetti spuri e predisporre i dati in forma utile per la successiva elaborazione (amplificazione/attenuazione, eliminazione del rumore, eventuale normalizzazione, integrazione dei dati mancanti, eliminazione dei valori anomali (outliers), filtraggio, compressione ecc.). Occorre poi un trattamento statistico del dato, mediante un processamento del segnale, ad esempio, nel dominio del tempo (estrazione valore medio, varianza, kurtosis, skewness, correlazione ecc.) o della frequenza (trasformata di Fourier, analisi spettrale, cepstrum ecc.), ovvero analisi combinate tempo-frequenza in caso di segnali non stazionari, per estrarre l’informazione utile alla decisione (features extraction and recognition) mediante il confronto con predefinite soglie e l’analisi dell’evoluzione temporale dello stato del sistema. Spesso conviene ridurre la dimensionalità del problema effettuando una selezione e/o riduzione del tipo e numero delle feature considerate, mediante accorpamento dei dati forniti da diversi sensori al fine di eliminare ridondanze e rendere le features più attendibili semplificando la discriminazione tra diversi stadi di degrado del componente. Tecniche ad hoc, quali la Principal Components Analysis, Kernel Functions, Isometric Feature Mapping ecc. sono disponibili allo scopo. Indicatori compositi di salute del sistema possono poi essere definiti combinando opportunamente i dati grezzi o le features estratte. Questo viene fatto sia per ottenere una più sintetica e complessiva descrizione dello stato del sistema mettendo a fattor comune informazioni di natura complementare, sia perché non è detto che l’evoluzione temporale di un solo parametro rifletta fedelmente l’andamento dello stato dell’apparecchiatura.

Di norma il trattamento del segnale grezzo e direttamente effettuato dal sistema di misura, mentre l’elaborazione per estrarre l’informazione viene svolta da algoritmi e piattaforme SW di tipo proprietario o commerciale, residenti fisicamente in azienda o presso vendor remoti e sistemi cloud. Tali sistemi informativi provvedono anche alla funzione essenziale di archiviazione e recupero della ingente mole di dati derivante da attività di monitoraggio continuo da sensori multipli, e su un parco macchine esteso, nonché di visualizzazione delle informazioni in formato utile al management. La scelta tra lo sviluppo di sistemi personalizzati, magari anche ricorrendo a piattaforme open source ma con lo sviluppo interno delle logiche di funzionamento, oppure l’adozione di una piattaforma CBM commerciale, ha un forte impatto strategico e deve essere attentamente soppesata anche in relazione ai costi implicati e alla libertà di configurazione concessa. Nel primo caso occorre disporre di competenze specialistiche per sviluppare gli algoritmi necessari, ma si ha la libertà di produrre soluzioni ad hoc; mentre nel secondo si possono utilizzare librerie di modelli standard tra cui scegliere ma occorre disporre almeno di operatori che siano in grado di interagire correttamente con le piattaforme per sfruttarne a pieno le potenzialità. Non da sottovalutare e la scelta della infrastruttura di comunicazione tra sensori e piattaforme informatiche, essendo disponibili numerose alternative (reti cablate, sistemi wireless, dispositivi IoT, strumenti palmari ecc.).

Quale ultima considerazione in merito alla scelta del sistema di elaborazione dati e gestione operativa della CBM, si osserva che per supplire alla carenza di competenze interne sono ampiamente disponibili soluzioni di servitizzazione. Spesso i fabbricanti di componenti e i fornitori di strumentazione di misura offrono servizi di telerilevamento ed elaborazione dei dati che si giovano delle competenze specialistiche di dominio possedute dai fabbricanti. Tuttavia, tali soluzioni appaiono tecnicamente valide quando l’apparecchiatura ha un modo di guasto principale e la sua rilevazione sfrutta segnali di tipo omogeneo (es. vibrazioni ecc.). Se invece lo stato di salute dell’apparecchiatura dipende da un coacervo di segnali di natura eterogenea, e i modi di guasto sono di natura fisica assai diversa, e necessario adottare un approccio olistico. In tal caso utilizzare soluzioni dipendenti da una singola tecnologia può essere inappropriato.

D’altro canto, i fornitori di piattaforme integrate di data processing e machine learning (ML) offrono algoritmi general purpose rinunciando a valersi di know how specifico di dominio, ma la taratura di tali sistemi può essere più complessa, e per l’utente tali sistemi sono opachi apparendo come delle black box. Al di là della convenienza economica, occorre comunque considerare che una esternalizzazione spinta significa rinunciare alla costituzione di una competenza specialistica interna, alla possibilità di crescita professionale del proprio personale di manutenzione, e implica la dipendenza da vendor esterni per un fattore cruciale quale la funzionalità dei propri asset produttivi.

d) Definire i parametri operativi della politica di manutenzione

Per attuare la CBM, sia pure nella semplice modalità diagnostica, occorre definire le soglie di allerta X_A e di guasto X_G, e l’intervallo τ di ispezione dello stato del sistema (a meno che non si effettui un monitoraggio continuo, nel qual caso τ→0, il che significa anche trasferirsi quasi automaticamente nel dominio dei Big Data, con tutte le conseguenti problematiche aggiuntive di infrastruttura informatica). Se si vuole ottimizzare per via analitica la scelta dei valori di tali parametri, ad esempio con l’obiettivo di minimizzare il costo di manutenzione, allora occorre anche definire una legge, preferibilmente di tipo probabilistico, che descriva l’andamento del degrado nel tempo. Per rappresentare il processo di degrado si potrebbe modellare il processo fisico di danno, ma più frequentemente si preferisce farlo indirettamente utilizzando processi stocastici di applicabilità generale. A tal scopo sono state proposte diverse formulazioni matematiche (processo tipo gamma, gaussiano inverso, di Wiener, catene di Markov nel caso di processi di degrado discontinui ecc.) ma, scelta quella che meglio si adatta al processo in questione, occorre definirne i valori dei parametri che caratterizzano il modello, cosa che di norma viene fatta mediante un trattamento statistico dei dati storici di monitoraggio, che quindi dovrebbero essere presenti, completi e attendibili, cosa di rado verificata nella pratica. Tali modelli probabilistici di degrado servono sostanzialmente a stimare la probabilità di raggiungere la soglia limite, e quindi il manifestarsi del guasto, entro una data assegnata (ovvero la distribuzione di probabilità del tempo necessario a raggiungere la soglia) e sono quindi necessari per poter stimare il valore atteso del numero di guasti e dei costi della politica manutentiva in un prescritto lasso di tempo.

Si tratta pur sempre di semplificazioni, dato che la distribuzione di probabilità può modificare nel tempo i propri parametri e la famiglia di appartenenza. Si fa anche notare che ha senso individuare una soglia prefissata solo quando la variabile monitorata e una sola e direttamente correlata allo stato di salute del sistema. Se invece lo stato di degrado del sistema e indirettamente definito da un insieme di diverse variabili allora occorre combinare i valori delle variabili di stato in un indice composito di salute del sistema, e in tal caso non ha senso definire una soglia univoca e fissa, che diventa quindi una grandezza aleatoria e variabile nel tempo rendendo necessarie tecniche di classificazione prognostiche tipiche delle applicazioni di ML. A complicare la definizione per via sperimentale dei valori delle soglie c’è il fatto che mentre il valore del segnale di degrado e misurabile, il corrispondente stato della macchina a rigore non è noto, per cui spesso si adottano tecniche di inferenza statistica.

Si noti che la scelta di X_A e di X_G non è comunque banale poiché frutto di compromesso. Fissare valori troppo alti aumenta la probabilità di incorrere in un guasto prima di potere effettuare l’intervento preventivo, mentre fissarli troppo bassi comporta il rischio di effettuare interventi troppo precoci o non necessari. Parimenti e delicata la scelta dell’intervallo τ, in quanto un valore basso incrementa inutilmente i costi delle ispezioni (ed eventualmente il down time se l’ispezione prevede l’arresto del macchinario, come ad esempio nel caso delle osservazioni manuali) mentre uno alto aumenta la probabilità che il punto di guasto F venga raggiunto prima della successiva ispezione. È pur vero che l’intervallo di ispezione può essere adeguato dinamicamente allo stato corrente del sistema, ad esempio riducendone il valore man mano che ci si avvicina alla soglia X_G, ma ciò comporta difficolta organizzative connesse alla ripianificazione delle attività, e comunque richiede che si possa definire una regola con cui decidere la successione dei valori di τ. In sostanza, è evidente come utilizzare una CBM con valori dei parametri fissati in modo arbitrario o inappropriato può vanificare i benefici della politica, e che fissare in maniera corretta tali valori richieda competenze specialistiche anche riferite alla capacità di sviluppare modelli matematico-probabilistici del comportamento di degrado del sistema. Comunque, in fase di verifica di fattibilità della CBM, l’uso di modelli matematici è opportuno per definire almeno in linea teorica i parametri operativi “ottimali” della manutenzione, al fine di potere stimare il numero atteso di interventi manutentivi e quindi consentire una valutazione di convenienza economica. Se ciò non fosse possibile non rimane che procedere a una valutazione economica utilizzando valori orientativi dei parametri operativi stimati a esperienza da tecnici esperti, per poi definirne sperimentalmente quelli effettivi durante la fase di implementazione della CBM, avendone già decisa a priori la sua adozione. E una situazione più rischiosa che obbliga l’Azienda a investimenti senza una adeguata verifica preliminare.

e) Effettuare una verifica di convenienza economica

Verificata l’applicabilità tecnica, e definiti almeno preliminarmente i parametri operativi, e necessario verificare la convenienza economica della CBM. Occorre quindi essere in grado di modellarne i costi e di stimare il tasso di guasto prima e dopo l’introduzione della CBM, oppure a confronto con politiche manutentive alternative. Ricavare tali dati a consuntivo dopo avere introdotto la CBM ovviamente potrebbe essere troppo tardi, mentre desumerli da dati storici o dall’esperienza prevede l’esistenza di tali dati, e la capacità di elaborarli correttamente, per desumerne informazioni attendibili, cosa non sempre scontata.

Nel concreto, o si confrontano in valore assoluto i costi attesi per unità di tempo della politica manutentiva prima e dopo l’introduzione della CBM, oppure si adotta un approccio marginale, verificando che i costi aggiuntivi connessi alla politica CBM siano compensati da una maggiore riduzione di quelli connessi agli interventi preventivi ciclici e a guasto della politica precedentemente adottata.

Detto CI il costo di investimento connesso al sistema CBM e CES il suo corso di esercizio annuo, se CEV sono i costi annui evitati rispetto una politica alternativa (ad es. grazie a un minore numero di interventi o ridotto downtime), allora il risparmio annuo netto è RA = CEV-CS, e il tempo di recupero dell’investimento sarà pari a CI/RA.

In termini del tutto generali si può dire, come suggerito da Provost, che dal punto di vista economico, il costo del monitoraggio per evitare un guasto non dovrebbe superare il valore atteso del beneficio ottenuto, cioè il prodotto αβZ tra la probabilita α di accadimento del guasto, quella β di individuare il problema intervenendo preventivamente, e il beneficio Z derivante dal guasto evitato. Tuttavia, anche sviluppare un corretto confronto economico tra politiche alternative non è banale e richiede competenze specialistiche, a causa della difficoltà nel quantificare correttamente in maniera previsionale la riduzione del numero di interventi manutentivi, sia a guasto che preventivi, conseguita con la CBM e le diverse voci di costo (che includono elementi di costo opportunità oltre che costi monetari).

Piu in dettaglio le principali voci di costo associabili a una politica CBM, e da tenere quindi in considerazione, sono quelli delle analisi ingegneristiche preliminari: l’acquisto, installazione, taratura periodica della strumentazione e del sistema acquisizione dati; l’installazione e manutenzione della rete trasmissione dati; la formazione e addestramento iniziali del personale addetto; i costi operativi del monitoraggio in esercizio incluso il personale adibito; i costi di sviluppo, acquisizione, aggiornamento e utilizzo delle piattaforme SW di archiviazione ed elaborazione dati; le consulenze e servizi esterni; gli extracosti dovuti a inefficienze nella diagnosi predittiva (guasti verificatisi nonostante il monitoraggio oppure interventi non necessari a causa di errori nelle procedure decisionali della CBM o funzionamento contro, i benefici economici vengono dalla riduzione dei costi di intervento, grazie alla riduzione del numero atteso degli interventi a guasto e di quelli preventivi non necessari, il che comporta un aumento della disponibilità, della produttività e minori costi di interruzione della produzione (costi del downtime), oltre a benefici dovuti all’aumento del livello di servizio ai clienti (riduzione scarti e ritardi di consegna ecc.), riduzione dei costi energetici conseguenti alla maggiore efficienza delle apparecchiature, alla riduzione dei costi connessi all’impatto ambientale e alla sicurezza, e i minori costi di approvvigionamento e mantenimento a scorta dei ricambi che potranno essere gestiti a fabbisogno.

Solo a titolo di esempio si riporta uno dei modelli di CBM più elementari per evidenziare come tali strumenti, se applicati nel contesto adeguato ed alimentati da dati attendibili, costituiscano un potente supporto alle decisioni anche in vista dell’ottimizzazione economica delle politiche manutentive. Assumiamo che il degrado sia un processo stocastico, rinnovato ad ogni intervento manutentivo, caratterizzato da X(0) = 0, e incrementi, casuali ed indipendenti, ΔX = X(t) – X(s) tra due istanti temporali s e t (con 0 ≤ s <t) distribuiti con una funzione di densità di probabilità Gamma. I parametri di tale distribuzione di densità di probabilità siano quello di forma α(t-s) proporzionale alla lunghezza dell’intervallo di tempo e quello di scala β, per cui

fx= βαt-sΓαt-sxαt-s-1 e-βx

In tal caso ne consegue che la velocità media di deterioramento e α/β, con varianza α/β2, e il deterioramento medio nell’intervallo (s,t) pari a [(t-s) α/β]. Se gli intervalli di ispezione hanno ampiezza τ il degrado medio tra due ispezioni e (α/β)τ e il numero di ispezioni mediamente necessarie per rilevare il superamento della soglia XA, quindi il tempo medio tra due interventi manutentivi, e [(XAβ/ατ)+1]. Se si definisce CI il costo unitario di ispezione, CMP il costo di un intervento preventivo, CMG il costo di un intervento a guasto, e F(XG-XA) è la probabilità, calcolata integrando la f(x), che il deterioramento durante l’ultimo intervallo di ispezione non ecceda la differenza tra le due soglie, cioè che DX≤(XG-XA), il costo atteso di tale politica per unità di tempo è

CAUτ=CIXAβατ+1+ CMP FXG-XA+ CMG 1-FXG-XAXAβατ+1τ

che ovviamente dipende dai valori scelti per t, XG e XA. Questa espressione può essere usata per minimizzare il costo scegliendo t avendo fissato (XG-XA) oppure per scegliere le soglie XG ed XA dato l’intervallo di ispezione, ovvero per effettuarne una ottimizzazione simultanea. Per intervalli di ispezione variabili, danneggiamenti dovuti a shock, o diversi modelli di degrado occorre riferirsi alla letteratura specialistica.

f) Implementare il sistema

L’implementazione del sistema CBM avverrà prima in maniera pilota e poi verrà estesa a un numero crescente di asset produttivi. A parte l’installazione della porzione hardware e software del sistema, con la soluzione degli inevitabili problemi di interoperabilità tra i vari elementi, occorrerà affrontare gli aspetti organizzativi e quelli legati alle risorse umane (coinvolgimento del management, definizione chiara di obiettivi ragionevoli, comunicazione, motivazione e formazione del personale, assegnazione di ruoli e responsabilità, modifica delle procedure manutentive aziendali ecc.).

L’avviamento del sistema richiederà diversi mesi sia per familiarizzarsi col nuovo modus operandi che per acquisire sufficienti quantità di dati su un periodo di monitoraggio adeguatamente lungo, durante il quale sia possibile osservare l’evoluzione dello stato di salute del bene, al fine di tarare opportunamente algoritmi e parametri tecnici. Naturalmente occorrerà prevedere una revisione critica periodica per valutarne le prestazioni e verificare l’ottenimento dei benefici attesi pianificando le eventuali misure correttive per la soluzione dei problemi riscontrati, finché la politica CBM non vada a regime. Nel complesso la Fig. 4 propone un possibile albero decisionale per l’adozione della CBM su una apparecchiatura individuata come critica.

In questa quarta parte del contributo verrà affrontato l’aspetto della manutenzione predittiva.

LA MANUTENZIONE PREDITTIVA (PDM)

Mentre nella diagnostica lo scopo e essenzialmente quello di rilevare una condizione di funzionamento anomalo o la situazione di guasto incipiente, identificando al contempo quale sottosistema o componente sia sede del guasto, quale sia il modo di guasto verificatosi e la sua gravita, nell’analisi prognostica si aggiungono la stima della rapidità con cui il degrado continuerà a svilupparsi (current failure mode prognostics) nonché l’identificazione della possibilità che si manifestino ulteriori modi di guasto e quali siano i più probabili tra essi (future failure mode prognostics). Nel caso della PdM, quindi, le precedenti fasi rimangono sostanzialmente inalterate in quanto attengono alla definizione diagnostica dello stato del sistema, ma si aggiungono due fasi, quella della formulazione della stima della vita residua utile (Residual Useful Life, RUL) (Figura 4) mediante estrapolazione nel tempo sulla base dello stato corrente e dell’andamento storico del degrado; e l’attività prognostica che dalle variabili di stato correnti consentano di prefigurare il tipo di guasto atteso.

La possibilità di prevedere con sufficiente livello di confidenza l’istante del guasto ha il vantaggio di ridurre ulteriormente il numero di ispezioni e di interventi preventivi effettuando la sostituzione del componente degradato solo quando strettamente necessario nell’imminenza del suo guasto. Il più delle volte per prognosticare correttamente il tipo di guasto futuro e utile mettere a fattore comune le informazioni desumibili dall’analisi di un numero di parametri fisici diversi, il che richiede operazioni di “data fusion” e tecniche inferenziali che recentemente si valgono delle opportunità fornite dagli algoritmi di Machine Learning (ML). Le attività prognostiche sono comunque rese difficili dalle numerose fonti di incertezza presenti, sia in merito alla storia di carico e alle proprietà fisiche del sistema, che alla qualità e completezza dei dati disponibili, spesso affetti da errori di misura e rumore, nonché dalle incertezze sul modello del fenomeno di degrado in corso. Categorizzare gli strumenti e le metodologie esistenti per prevedere la RUL ed effettuare la prognosi nella PdM e impresa ardua, sia perché molteplici criteri alternativi possono essere utilizzati per la classificazione, sia perché il più delle volte le metodologie vengono combinate tra loro in modo da creare approcci ibridi.

A solo scopo esemplificativo vale però la pena di accennare agli approcci principali, che possono essere ricondotti alle due categorie dei metodi basati su modelli espliciti di degrado (model based), e quelli (data based) che sfruttano tecniche di elaborazione statistica o stocastica dei dati di monitoraggio tramite cui desumere il livello di degrado del sistema ed il suo comportamento futuro. Una panoramica dei vari approcci disponibili e anche riportata nella Figura 5, che però rappresenta solo una delle possibili schematizzazioni, dato che a oggi non si è ancora raggiunto un criterio univoco e condiviso di classificazione.

a) APPROCCI MODEL-BASED

Phisical model based. In questo caso ci si basa su modelli che rappresentino dinamicamente a livello “microscopico” il processo fisico di degrado (ad esempio la propagazione di cricche nel caso di danneggiamento per fatica). Hanno il vantaggio che i loro parametri rappresentano grandezze fisiche direttamente interpretabili, ma per applicarli e necessaria una conoscenza dettagliata del fenomeno e della sua legge matematica di evoluzione. Occorre inoltre trasformare le informazioni derivanti dal monitoraggio complessivo del sistema, che in genere fanno riferimento a grandezze macroscopiche quali condizioni di carico, forze ecc., nelle corrispondenti determinanti del danno a livello locale (stress, deformazioni ecc.), per poi valutare quando l’accumulo del danno superi la soglia di resistenza del componente, ottenendo una stima della vita residua. Tali approcci consentono però la correlazione diretta tra il degrado stimato del sistema e l’effettivo profilo di utilizzo dell’apparecchiatura rilevato in termini di sequenza e gravosità dei cicli di lavoro (load and usage based maintenance). Ad esempio, l’usura della guarnizione nell’ammortizzatore del carrello di atterraggio di un elicottero deriva dalla frequenza e dall’ampiezza dello strisciamento relativo tra la parte fissa e quella mobile nonché dall’intensità della forza di contatto, e queste a loro volta derivano dal numero di cicli di atterraggio e dal peso del mezzo che dipende dal carico trasportato, il quale e anch’esso variabile. Note le informazioni sulla storia di utilizzo del componente, il modello microscopico del fenomeno di usura può essere utilizzato per valutare lo stato istantaneo di degrado ed estrapolarlo nell’evoluzione futura. Sebbene lo sviluppo di tali modelli possa essere oneroso, il vantaggio e che non richiedono elevate quantità di dati e che possono essere utilizzati anche in situazioni non incontrate in precedenza e per le quali non si disponga di dati storici. Tali modelli possono essere incorporati in un gemello digitale (Digital Twin, DT) del sistema reale per prevedere l’insorgere di guasti futuri sulla base dello stato di danno rilevato sulla macchina reale e della storia futura di funzionamento del sistema grazie alla simulazione della dinamica del fenomeno di danno nel modello digitale. A questo riguardo si fa notare che talvolta il tipo di parametro fisicamente monitorabile non è il più adatto alla stima della RUL. La disponibilità di un modello digitale dell’apparecchiatura consente di estrapolare il tipo di dato richiesto simulando l’output di sensori virtuali integrati nella rappresentazione matematica della risorsa, mantenendo sempre allineato il modello digitale con il sistema fisico grazie al monitoraggio dei parametri fisici in tempo reale. Se il DT include diversi modelli di danno per i vari componenti e per i vari modi di guasto possibili, questa soluzione consente una efficace analisi dell’intero sistema mediante un approccio tipo bottom-up che parte dalla modellizzazione di dettaglio delle varie componenti anziché un approccio top-down che parte dal monitoraggio dello stato del sistema per tentare di individuare i guasti dei singoli componenti.
State estimation based. In questo caso, anziché concentrarsi sulla modellazione del processo fisico di danno si costruisce un modello matematico che funga da “stimatore” dello stato del sistema. Lo stimatore e una funzione deterministica che a partire dai dati misurati produce una stima dei parametri di interesse rappresentativi dello stato di sistema. Confrontando questo output previsionale generato dal modello e i corrispondenti dati del monitoraggio in tempo reale si possono rilevarne gli scostamenti detti “residui”. L’analisi dei residui consente la prognosi richiesta nel presupposto che sia solo l’insorgenza di guasti ad alterare il valore dei parametri rappresentativi lo stato del sistema, e che l’analisi dei residui sia immune all’inevitabile “rumore” derivante ad es. da errori di misura e variazioni dei parametri di stato imputabili al cambiamento delle condizioni istantanee di funzionamento anziché ad anomalie imputabili a guasti. A tal fine le rilevazioni vengono sottoposte ad un opportuno filtraggio (es. filtro di Kalman).
Knowledge based. Sono approcci in cui si effettua un confronto tra la situazione osservata e un data base predefinito di situazioni anomale, per ricondurre la prima a una delle casistiche note. Ciò viene effettuato mediante l’applicazione di una sequenza di regole esplicite di tipo IF… THEN…, che hanno lo scopo di compendiare la conoscenza degli esperti, eventualmente espresse in termini fuzzy qualora le regole non possano essere applicate con un esito binario vero/falso ma sussistano ambiguità linguistiche o livelli di incertezza per cui ad ogni regola vada associato un grado variabile di verità. Sono metodi applicabili solo se si dispone di esperti della specifica applicazione e le loro conoscenze siano formalizzabili sotto forma di regole induttive/deduttive esplicite e quando si ha a che fare con modi di guasto semplici, ben noti, e un numero limitato di parametri. L’applicazione di tale approccio mediante analisi statistica e strumenti di intelligenza artificiale prende il nome di Case Based Reasoning.

Completiamo l’esame degli approcci per la PdM

b) APPROCCI DATA-BASED

Sono metodi di tipo statistico resi possibil dagli algoritmi di ML e intelligenza artificiale che cercano di classificare, correlare e individuare schemi (pattern) nascosti all’interno dei dati forniti. Richiedono l’analisi di una ampia mole di dati, da utilizzare per l’apprendimento, ma esimono dal definire esplicitamente un modello matematico che correli la grandezza in uscita del modello al valore dei dati in ingresso. Il modello viene infatti definito autonomamente, e in maniera trasparente per l’utente, dall’algoritmo stesso di ML, e la qualità della risposta può essere progressivamente migliorata dato che l’apprendimento viene affinato man mano che nuovi dati vengono resi disponibili. Questo approccio e consigliato quando si ha un problema complesso, un gran numero di variabili, una mole elevata di dati e nessun modello analitico esplicito e disponibile per rappresentare il fenomeno.

Gli algoritmi ML si suddividono grossolanamente nelle due categorie di metodi ad apprendimento supervisionato (supervised leaning, SL) e ad apprendimento non supervisionato (UL, Unsupervised Learning). I metodi UL effettuano sostanzialmente operazioni di raggruppamento (clustering) suddividendo autonomamente i dati di ingresso in gruppi tra loro omogenei ma distinti da quelli degli altri gruppi, sulla base degli schemi rilevati nella natura intrinseca dei dati forniti, senza richiedere a priori la conoscenza della corrispondente attribuzione corretta. Possono essere usati altresi per ridurre la “dimensionalità” del problema, riducendo il numero di variabili da osservare. Ad esempio, combinando dati da sensori multipli o raggruppando variabili che presentino andamento omologo o siano strettamente correlate, si possono evitare ridondanze senza sacrificare la qualità delle informazioni estratte quando la mole dei dati da elaborare e la complessità del sistema monitorato cresce. Tali set di dati ridotti possono poi essere usati come input per i metodi di tipo SL. I metodi SL, invece, esplicano sostanzialmente funzioni predittive ma richiedono di essere “addestrati” grazie alla contemporanea conoscenza dei dati di input e i corrispondenti valori corretti di output. Definita la legge che correla, seppure in presenza di incertezza, l’output con l’input l’algoritmo può poi trattare dati in ingresso diversi da quelli su cui è stato costruito generando delle previsioni ragionevolmente attendibili. Le operazioni consentite sono la classificazione dei dati, per cui e in grado di fornire delle risposte discrete, come l’appartenenza del set di dati in ingresso a una classe (es. guasto tipo 1), ovvero altre (guasto tipo 2, oppure assenza di guasto), e la regressione, cioè la correlazione tra variabili indipendenti in ingresso e variabili dipendenti in uscita di tipo continuo. Nella variante del Reinforcement Learning il sistema non apprende da un predefinito set di dati ma lo fa progressivamente da una sequenza di successi e fallimenti.

È evidente come la possibilità di classificazione offerta dal ML sia utile per individuare il tipo specifico di guasto dati i segnali di monitoraggio del sistema, mentre la regressione consente di stimare la RUL sulla base dello stato di salute corrente e pregresso del sistema. Considerato che esistono varie decine di algoritmi ML (la Fig. 5 ne elenca solo alcuni a titolo di esempio), la scelta di quello più adatto alla specifica applicazione (classificazione, regressione o partizione) richiede tentativi ed una notevole dose di esperienza. Ai fini della scelta e anche importante considerare la natura dei dati da elaborare e il tipo di informazione che si vuole estrarne (se binari o appartenenti a categorie multiple, discreti o continui) nonché la sensibilità dello specifico algoritmo al rumore e alla presenza di dati anomali. Di norma i metodi SL si usano quando si vuole fare previsioni del valore futuro ad es. di una variabile continua, mentre i metodi UL si prestano quando si vuole esplorare i dati in maniera preliminare per individuare possibili strutture sottostanti o individuare i migliori criteri di classificazione (ad es. il migliore numero di raggruppamenti distinti) sfruttandone gli schemi intrinseci che li caratterizzano. Ciò aiuta a comprendere che tipologia di informazioni utili contengono al fine di individuare il migliore modo di utilizzarli.

1) Reliability-based. Sono approcci in cui le variabili di stato del sistema anziché essere sfruttate per modellare esplicitamente il processo di degrado fisico vengono utilizzate per aggiornare il valore nel tempo del tasso di guasto, adeguando dinamicamente il calcolo dell’affidabilità del sistema in base alla quale stimare la RUL. Si tratta dei cosiddetti “proportional hazard models, PHM”, sviluppati in primis da Cox, Makis e Jardine, in cui ad esempio si corregge l’espressione temporale secondo Weibull del tasso di guasto λ(t) includendo una componente che dipende dal valore al tempo t del vettore Z(t) delle variabili di stato z_i.

λt, Zt= βηtηβ-1 expi=1mγizit

Naturalmente si ha bisogno di sufficienti dati storici relativi all’osservazione del tempo di vita sino al guasto per trarne i parametri β, η е γi della funzione tasso di guasto. Utilmente applicabili sono anche i modelli di Markov, in cui si assume che il sistema possa trovarsi in un predeterminato numero di stati direttamente osservabili e che evolva aleatoriamente nel tempo passando da uno stato all’altro mediante opportune “transizioni”.

Nelle applicazioni in questione gli stati rappresentano i diversi livelli di degrado o gli stati di avaria e buon funzionamento. Il parametro temporale lungo cui il sistema evolve può essere continuo o discreto così come lo spazio degli stati. Definendo, in base a dati storici, la probabilità di ciascuno stato e la matrice di probabilità di transizione tra gli stati, si può calcolare la probabilità futura di guasto e la distribuzione di probabilità del numero intervalli temporali (cioè numero di transizioni) necessari a raggiungere lo stato di guasto. In virtù della fondamentale proprietà per cui lo stato futuro, noto lo stato presente, e indipendente dagli stati pregressi (cioè la cosiddetta proprietà di assenza di memoria), tali modelli implicano che il tasso di guasto sia costante, cosa non sempre realizzata in pratica. Tale vincolo e parzialmente rimosso dai modelli di Markov nascosti (HMM, Hidden Markov Models), in cui non tutti gli stati si presume siano osservabili e che richiedono l’addestramento con dati rappresentativi i modi di guasto di interesse. Si tratta però di approcci adatti a sistemi semplici e con pochi stati a causa dell’onere computazionale che cresce non linearmente col numero di stati e di possibili transizioni da considerare. Altra limitazione e che occorre sviluppare un modello separato per ciascun modo di guasto, da addestrare con gli opportuni dati dai sensori corrispondenti ad ogni stadio di degrado funzionale, dall’inizio del processo di degrado fino al guasto vero e proprio.

Oltre ai modelli PHM e di Markov, si può ricorrere a metodi bayesiani di affidabilità condizionata, in cui la probabilità di sopravvivenza futura stimata a priori viene aggiornata a posteriori man mano che si dispone di ulteriori informazioni. Tra questi vi sono un grande numero di modelli basati sulle reti Bayesiane, cioè grafi aciclici che rappresentano un insieme di variabili aleatorie (i nodi) che possono assumere diversi stati o livelli, con le loro interdipendenze causali (gli archi) le cui intensità sono rappresentate da probabilità condizionali. Una volta disegnato il grafo e note le probabilità condizionali dei nodi si può valutare la probabilità che ciascuna causa potenziale sia la responsabile effettiva di un evento. Nelle applicazioni PdM alcuni nodi rappresentano il livello di output di un sensore oppure lo stato di un parametro rilevato, mentre altri possono rappresentare lo stato di degrado di interesse la cui probabilità si vuole calcolare. Ovviamente le reti Bayesiane possono essere usate per stimare la RUL solo per modi di guasto noti e con sintomi noti a priori. I modelli di Markov possono facilmente essere integrati in un approccio Bayesiano, anzi le reti Bayesiane dinamiche rappresentano delle generalizzazioni degli HMM.

2) Time-series based. Sono metodi in cui il progressivo degrado viene modellato estrapolando nel tempo l’andamento pregresso delle variabili di stato. Si può banalmente creare una correlazione tra il segnale di degrado ed il tempo sino al guasto (Trend analysis) interpolando con una prescelta legge analitica l’andamento temporale storico del segnale di degrado, usandola poi per estrapolare l’andamento futuro ed individuare l’istante il cui il segnale raggiungerà la soglia limite. Ma più frequentemente si utilizzano algoritmi di analisi delle serie storiche, quali le tecniche ARMA in cui la previsione dello stato futuro risulta dalla somma di una componente di tipo autoregressivo (AR) in cui il valore futuro viene fatto dipendere da una combinazione lineare dei valori passati, e una derivante dalla media mobile (moving average, MA) degli errori di previsione commessi. Tali approcci in genere non sono adatti quando l’andamento del tasso di guasto e fortemente non lineare nel tempo o quando dipende in maniera complessa dai valori dei parametri ambientali e di utilizzo dell’apparecchiatura.

Gli approcci sopra accennati sono spesso integrati in piattaforme informatiche che consentono funzioni di sentinella (watchdog), supporto decisionale, e la costruzione di modelli digitali emulativi del sistema reale (i citati DT).

La succinta panoramica proposta mette comunque in luce quanto sia delicata la scelta del modello. Infatti, ogni approccio si basa su specifiche e vincolanti assunzioni, richiede una maggiore o minore conoscenza del sistema e dei suoi modi di guasto, e ha bisogno di una maggiore o minore mole di dati per l’addestramento o la taratura. Inoltre, i vari modelli mostrano gradi diversi di sensibilità al rumore ed alla qualità e quantità dei dati su cui si basano, ed i tipi di dati richiesti per le attività diagnostiche in genere sono diversi da quelli richiesti per quelle prognostiche.

Non tutti gli approcci sono poi in grado di fornire livelli di confidenza sulle previsioni fatte, il che e importante dal punto di vista decisionale, considerata l’intrinseca aleatorietà del fenomeno di guasto. Il livello di precisione con cui può essere prevista la RUL pure varia da modello a modello. Quasi tutti gli approcci assumono che le riparazioni siano fatte in modo perfetto (cioè che la distribuzione di probabilità della vita fino al guasto rimanga la stessa in ciascuno dei successivi cicli di vita del sistema) e quindi ignorano gli effetti di riparazioni non perfette che modifichino il valore di partenza o l’andamento del tasso di guasto. Occorre anche rimarcare che sebbene i vari modelli si dimostrino attendibili al livello di guasto di singolo componente, se applicati a livello di sistema perdono rapidamente efficacia previsionale.

Infine, la complessità matematica e computazionale di molti di questi strumenti ne limita molto l’applicabilità nei normali contesti produttivi, e la disponibilità di piattaforme SW commerciali, che sicuramente allevia il ricorso alla programmazione di SW da parte di personale specializzato, non deve fare sottostimare la complessità e il dispendio di risorse richieste per l’implementazione di tali soluzioni. In ultima analisi il tipo di approccio dovrà essere selezionato sulla base di qualità e quantità di dati disponibili, sulla osservabilità dello stato di degrado del sistema, e sul desiderato livello di dettaglio e di attendibilità diagnostica e prognostica il quale, a sua volta, dipende dalla finalità decisionale che ci si prefigge nonché dal contesto in cui si opera. Man mano che ci si sposta da una previsione di vita di massima per una flotta di apparecchiature similari funzionanti in condizioni sostanzialmente analoghe, alla previsione di vita di sistemi specifici operanti in particolari ambienti e condizioni di esercizio, si passerà da approcci statistici basati su dati storici raccolti su una popolazione di apparecchiature similari operanti in condizioni di esercizio nominali (es. metodi affidabilistici tradizionali) a una analisi basata sui dati degli effettivi cicli di lavoro delle apparecchiature (comportamento di un generico componente in specifiche condizioni di esercizio, es. metodi affidabilistici tipo PHM), ad una semplice osservazione dei dati del monitoraggio in tempo reale sulle singole apparecchiature, fino ad arrivare agli approcci model based e data based sviluppati per specifiche apparecchiature e modi di guasto in particolari condizioni di esercizio e di degrado.

Conclusioni

In questo intervento si è cercato si offrire una panoramica sulle problematiche concrete da affrontare per l’introduzione in Azienda della CBM e PdM, elencando anche le fasi fondamentali del processo di adozione e delineando un iter decisionale. La possibilità di effettuare interventi preventivi solo quando effettivamente necessario, limitando nel contempo l’insorgenza di guasti inattesi, costituisce il pregio principale della manutenzione predittiva e su condizione.

Quanto sopra esposto ha altresì evidenziato come si tratti di una modalità manutentiva che può richiedere competenze e risorse strumentali sofisticate. L’entusiasmo per la transizione verso il paradigma Industria 4.0, e le esistenti facilitazioni in conto capitale, favoriranno certamente l’introduzione della CBM/PdM, ma senza adeguata consapevolezza e le necessarie competenze tali investimenti rischiano di essere improduttivi. Quanto più le tecnologie utilizzate diventano sofisticate tanto più le aziende devono risolvere il dilemma legato alla gestione delle competenze, pena il trasformarsi in fruitori passivi ed inconsapevoli. Ciò vale anche nel settore della manutenzione. Per tutti questi motivi e importante che l’evoluzione delle tecnologie manutentive vada di pari passo con la formazione e la crescita delle competenze del personale di manutenzione.

Antonio C. Caputo, Professore ordinario di Impianti industriali nell’Università di Roma Tre Dipartimento di Ingegneria Industriale, Elettronica e Meccanica