[연재] 고장 리스크 관리를 위한 프로세스

1984년 12월 2일, 유니온 카바이드 인도 현지법인 보팔 공장에 메틸 이소시안산 염 (MIC)이 도착했다. 운전원은 탱크의 건조 상태가 적절하다고 판단했지만 그의 판단은 잘못된 것이었다. 탱크 내에 1,000 ~ 2,000 갤런의 물이 유입되어 있었으나 그 사실을 인식하지 못했다. 탱크에 주입된 메틸 이소시안염은 수분과 급격한 반응을 일으켰다. 그 상황을 경감시킬 수 있는 탱크 냉각 시스템은 작동하지 않았다.

MIC 저장 탱크의 내부 온도를 0도로 유지시켜야 하는 냉각 시스템이 무려 5개월 동안 가동되지 않았으나, 공장 인력 중 누구도 이 사실을 몰랐다. MIC 저장 탱크의 마지막 보호 장치로서 질소 탱크의 누출 보고는 경영진에 의해 1개월 넘게 무시되고 있었다.
 

탱크의 온도 경보기 또한 작동하지 않았다. 탱크의 안전 밸브가 개방됐다. 안전 밸브를 통해 방출된 증기는 가스 세정기를 그대로 통과했다. 세정기는 1 개월 넘게 고장 난 상태였다.  세정기 고장에 대한 마지막 방어 장치인 소각 시스템 또한 작동되지 않았다. 

12월 3일 새벽 2시 15분, 610번 탱크가 폭발했다.메틸 이소시안산염 가스 구름은 보팔의 마을을 에워쌌다. 이 사고로 최소 3,786명 (추정치 16,000명 이상)이 사망했고, 55만명 이상이 상해로 고통을 받았다. 화학산업 역사상 최악의 사고로 기록된 인도 보팔의 화학공장 사고다.

설비 자산의 고장 리스크와 대응 전략에 관한 지난 연재에서 중대 고장 결과를 초래하는 물리적 (설비) 자산에 대한 선행적인 대응의 중요성을 강조한 바 있다. 

RELIABILITY WEB  (https://reliabilityweb.com) 에 따르면, 많은 조직이 설비 자산의 고장 리스크를 인식하고 있으나, [그림 1]과 같은 반응 프로세스 (파이어파이팅 보전 프로세스)로 설비 자산을 운영하고 있는 경우가 많다고 한다.

 

그 경우, 다음과 같은 상황에 직면한다.

  • 설비 고장의 발생 시점을 알 수 없다.
  • 설비 고장 결과에 선행적으로 대처할 수 없다. 즉 고장 결과를 경험한 다음, 교정 (수리, 교환, 재생, 복원)할 수 있다. (사후 약방문, 소 잃고 외양간 고치기, 난액의 고사)
  • 신속한 수리, 교환, 재생, 복원에 필요한 기술, 인력, 프로세스에 집중한다.
  • 최상 수리로서 작업 에러를 감소시킬 수 있다. 그러나, 고장결과는 예방할 수 없다.
  • 알 수 없는 시점의 고장에 신속하게 대응하기 위한 잉여 작업자와 예비품이 요구되지만, 그 사용 시점은 알 수 없다.
  • 작업을 계획할 수 없다. 즉, 작업 범위를 알 수 없고, 예산을 정밀하게 관리할 수 없다.
  • 따라서, 작업 기획 및 계획 시스템인 ERP PM 모듈과 CMMS/EAM시스템의 도입 효과를 확보하기 어렵다.

아인슈타인은 ”항상 해 왔던 방법을 고수하면서 다른 결과를 기대하는 것이 정신 나간 짓”으로 정의한 바 있다. 출력의 변경은 입력 또는 프로세스의 변경을 요구한다. 어떤 혁신적 방법론을 적용한다고 할지라도 반응 (돌발) 보전 프로세스를 고수할 경우, 사고 제로, 돌발고장 제로, 품질불량 제로를 결코 달성할 수는 없다.

 

알 수 없는 시점의 고장에 신속하게 반응하는 프로세스를 고수하면서 다른 결과를 기대할 수 있을까? 재수와 운에 맡겨야 할 것이다.

대다수 공장에서 설비 자산관리와 관련한 경영진의 문제의식은 반응작업 프로세스의 결과와 동일하게 나타난다. 장기 악성 재고, 보전 예산 대비 실적의 편차, 인력 요구율의 편차, 환경 및 안전 요구의 충족, 설비 고장에 따른 생산 손실과 품질 문제, CMMS/EAM 시스템에 대한 투자 수익율의 실현 등에 대한 해법은 지난 연재에 소개한 난액의 고사에서 찾을 수 있다. 선행적 프로세스에서 해법을 찾아야 한다.

 

그런 의미에서 2014년 1월 국제 표준화 기구 (ISO)에서 공표한 ‘ISO 55001 자산관리 시스템’은 최적 방향성을 제공한다. ISO 55001은 최상위 경영자, 또는 책임과 권한을 위임 받은 자산 관리자들에게 리스크 관리를 위한 선행적 프로세스의 체계적 기획과 운영을 요구한다. 여러 가지 사례에 비춰볼 때 선행적 대응의 필요성과 실질적인 적용 간에는 큰 갭이 있는 것 같다. 그렇다면 선행적 대응의 정당성은 어디에서 찾아야 할까? 중대 리스크에 대한 선행적 대응으로 예방된 고장결과에서 찾아야 한다. 리스크에 대한 대응은 낭비로 보일 수도 있다. 리스크는 발생 가능성 (확률)의 함수이기 때문이다. 연간 고장 없이 가동될 확률이 90%일 때 고장확률은 10%이다. 90%는 고장 발생의 가능성이 없다. 발생하지 않을 고장에 대한 선행적 대응은 낭비 영역에 속한다고 할 수 있겠다. 그러나 리스크 관리는 다음 세 단계로서 정당화될 수 있다.

 

  • 1단계, 리스크를 평가한다.

리스크는 특정 자산 기능에 내재된 파괴적인 고유 인자로 인식하는 것이 적절하다. 리스크는 정량적 측면과 정성적 측면으로 평가할 수 있다. 정량적 리스크는 사상의 발생 가능성 (확률)과 발생 결과를 알아야 계산할 수 있다. 정성적 측면은 감성과 같이 사람의 인식과 관련이 있다. 리스크에 있어 이 두 가지 측면은 모두 중요하다. 그렇지만 상대적 중요도는 상황에 따라 달라진다. 

리스크의 정성적 측면으로서 다음을 고려해 보자. 백만원을 보유하고 있는데 투자 기회가 주어졌다. 그런데 그 결과는 이백만원이 될 수도, 십만원이 될 수 도 있다. 개별 가능성이 각각 50%인 경우, 어떤 결정을 내릴까? 일반인을 대상으로 한 샘플 조사에서 대다수는 이 기회를 거절했다고 한다. 잠재 손실이 수익보다 훨씬 더 큰 것으로 인식하기 때문이다. 투자 금액이 작지만 잠재 이익이 막대한 경우에는 반대 현상이 나타났다. 복권이 바로 이 원리를 활용한 사례다. 수백만의 사람들로부터 작은 돈을 모아서 몇몇 소수에게 엄청난 당첨금을 제공한다. 대성공을 꿈꾸는 많은 사람들이 복권을 지속적으로 구매하는 한 복권 운영사의 손실 리스크는 작을 것이다. 수익 규모가 극소의 승리 확률을 숨긴다. 

통계적으로, 개인의 복권 당첨 확률은 全無에 가깝다. 그러나 대다수 참여자는 극소의 확률을 타인이 아닌 자기 것으로 인식한다. 사람들은 모든 상황에서 의식적이든 아니든 리스크 평가에 근거하여 결정한다.

 

리스크 인식에 영향을 주는 많은 인자들이 있다. 그러므로 인식에 영향을 주는 인자의 확정은 매우 중요하다. 잘못된 의사 결정을 내릴 수 있기 때문이다. 정량적 리스크는 특정 사상 (고장 모드)의 발생 확률과 발생 결과의 곱으로 계산된다. 고장은 요구 기능을 충족시키지 못하는 상태로서 성능 표준 이하의 상태를 말한다. 

모든 프로세스는 고장의 영향을 받는다. [그림 2]는 탱크 101에서 탱크 102로 H2S 가스가 포함된 화학 물질을 공급 및 저장하는 시스템이다. 펌프의 설계 성능은 분당 1,000리터이고, 탱크 102에서는 분당 800리터가 사용된다. 그러므로 펌프의 고장은 탱크 101에서 탱크102로 분당 800 리터 이상을 공급하지 못하는 상태이다. 정의된 펌프 고장은 임펠러 마모, 축 절단, 커플링 파손, 베어링 파손, 밀봉 시스템 (메커니컬 씰) 누출 등으로 발생할 수 있다 (고장모드). 메커니컬 씰의 누출은 시트 인서트의 불균일한 접촉(고장원인)의 결과일 수 있다. 펌프 씰에서 유체가 누출되면 1명이 사망할 수 있다고 가정해 보자. 또한 이 사상 (고장모드)의 발생 가능성은 1년에 1/100로 가정한다. 이때 고장모드에 내재된 리스크는 1 × (1/100) = 1/100, 즉, 100년에 1명의 피해자가 발생할 수 있다. 탱크 102가 폭발할 경우, 10명의 피해자가 발생할 수 있지만 발생 가능성이 연간 1/1,000인 경우, 리스크는 10×(1/1,000)=1/100, 즉, 펌프 씰 누출과 동일한 100년에 1명의 피해자가 발생하는 것으로 나타난다. 메커니컬 씰과 탱크 Y의 고장 결과와 발생 가능성은 다르지만 정량적 리스크는 동일하다. 동일 기능의 메커니컬 씰이 100 개소에 적용되어 있다면, 그 리스크는 년간 1명의 피해자이다.

 

  • 2단계, 리스크의 허용 가능성을 평가한다.

100년에 1명의 피해자가 발생할 수 있는 리스크를 허용할 수 있는가? ‘리스크를 제로화 한다’는 것은 ‘대다수의 사람들이 침대에서 죽기 때문에 침대에서 잠을 자지 않아야 한다’고 말하는 것과 같다. 이것은 모순이다. 그러므로 리스크는 항상 허용 가능성을 고려해야 한다. 허용 가능한 리스크에 대한 선행적 대응에 요구되는 비용은 절감해야 할 낭비의 영역일 것이다.

 

리스크는 사이클 수, 운전 시간 등 어떤 정량적 단위로도 표현할 수 있다. 그렇지만 일반적으로 년간 단위로 환산된다. 허용 가능성은 개인 또는 조직의 인식에 따라 다르다. 많은 요인의 영향을 받는다. [그림 3]은 IEC 61511-3 출처의 리스크 등급이다. 리스크 등급 Ⅱ와 Ⅲ은 허용될 수도 있으나, 리스크 등급 Ⅰ은 허용될 수 없다.

 

선행적 또는 선제적 대응은 특정 리스크에 대한 허용 가능성을 고려할 때, 정당화될 수 있다. 허용되지 않는 고장결과를 예방하기 위한 선행적 대응은 투자 수익율을 기대할 수 있는 투자의 영역이다. 리스크 관리 측면에서 설비 자산관리를 비용이 아니라 수익으로 인식하는 조직이 많아지고 있는 이유다. ISO 55001에 관심을 가지는 조직이 많아지고 있는 이유이다.

  • 3단계, 허용되지 않는 리스크에 대한 선행적 대응 체계를 수립한다.

SAE JA 1012 (RCM 적용 지침)는 설비 자산의 고장 리스크 평가 및 고장 리스크를 제어하기 위한 고장관리 정책을 개발하는 지침에 관한 국제 표준이다. 모든 물리적  (무형, 인적, 금융 자산 등과 대비되는) 자산의 고장모드는 크든 작든, 허용 가능하든 불가능 하든, 안전과 환경, 그리고 운영적 (품질, 생산손실, 비용) 측면의 리스크가 내재되어 있다. RCM은 설비 자산의 기능적 고장 결과를 허용할 수 없을 때, 종합적인 리스크를 허용 가능한 수준 (고장발생 확률 감소 또는 고장 결과 경감)까지 낮추기 위한 선행적 자산관리 전략 (고장관리 정책 수립)을 개발하는 분석 프로세스이다. 

고장의 시간 관계성이 크고 명확한 고장모드는 고장 결과와 발생 가능성을 허용 가능한 수준까지 낮출 수 있는 계획적 시간기준 직무 (TBM)를 선정한다. 고장의 시간 관계성이 랜덤하고 명확한 고장모드는 비용 효과적인 상태 기준 직무 (CBM)를 선정한다. 고장의 시간 관계성이 랜덤하고 숨겨진 고장모드는 고장감지 직무 (FFT)를 부여한다. 고장 리스크가 허용되지 않지만 적절한 선행적 예방보전 직무를 확정할 수 없을 때, 설계 변경 또는 설비 자산을 추가한다. 그러나 고장모드의 리스크가 허용 가능한 경우에는 RTF (고장까지 지속 가동)를 적용한다. 

ISO 55001은 물리적 (설비) 자산의 전 생애에 걸쳐, 기능, 고장 리스크, 그리고 비용을 최적 관리하기 위한 체계적이고 의도된 활동과 노력이라고 자산관리를 정의한다. 리스크 관리를 위한 프로세스는 [그림 1]의 반응적 프로세스가 아닌 선행적 예방보전 프로세스여야 한다. 설비 자산의 고장이 경영 목표에 중대한 영향을 주고, 허용되지 않을 때, 단순한 고장의 수리, 교체, 재생, 복원 활동은 정당화될 수 없다 (보팔 사고). 이는 안전 사고, 환경 오염, 품질 불량, 생산 손실, 수명 단축을 의미하기 때문이다.

 

설비 자산관리 분야에서, 외주화 비율이 점진적으로 높아지고 있다. IMF 이후, 보전 조직이 일괄적으로 외주화된 경우도 많았다. 설비 자산관리 기능에 대한 그 시점의 조직 인식에서 비롯되었다. 고장 결과의 단순한 복원은 외주 협력사를 활용하는 것이 보다 비용 효과적이라는 의사 결정의 결과이다. 그러나, 중대한 아이러니가 발생한다. 설비 자산관리 외주 사의 수익 구조와 계약은 고장의 예방이 아니라 고장의 발생에 따른 복원 과정에서 발생하기 때문이다. 중대한 리스크가 내재된 설비 자산의 고장은 기업 측면에서 중대한 손실이지만 외주 조직 측면에서 수익을 의미한다.

 

다시 언급하면, 아인슈타인은 항상 해 왔던 방법을 고수하면서 다른 결과를 기대하는 것은 어리석고 정신 나간 짓이라고 말하였다. 산업과 생활 전반에 걸쳐 물리적 자산의 의존도가 높아지고 있다. 고장 리스크가 보다 중대해지고 있다는 것을 의미한다. 설비 자산관리 기능은 이와 같은 물리적 자산의 고장 리스크를 최적 관리할 수 있는 유일한 조직 기능이다. 설비 자산관리에 대한 조직의 인식 변화가 시작되었다. 설비 자산관리 조직과 인력은 그 인식 변화, 즉 요구에 부응할 수 있는 프로세스를 개발하여 운영하여야 한다. ISO 55001은 그 요구에 대한 국제표준이다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다