[연재] 고장 리스크와 대응 전략

고장 리스크는 사고나 바람직하지 않는 사상 (고장 결과)으로 확대될 수 있는 잠재성 (확률)을 의미한다. [그림- 고장 리스크, 사상 (고장), 사고 (고장결과)]과 같이 크레인의 와이어가 끊어졌다고 가정해 보자. 이때 크레인의 기능은 당연히 상실된다. 안전사고, 생산 손실, 보전 비용이 발생할 수 있다. 모두가 크레인 고장의 결과다. 이 같은 고장 결과에 대한 반응적 대응, 다시 말해, 수리·복원·교체·재생 활동을 반응 보전이라고 한다. 반응보전은 고장 결과가 발생한 이후, 그에 대하여 대응하는 활동으로, 사후보전 개념으로 인식해도 무방하다. 사고 제로, 불량 제로, 고장 제로를 목표로 하는 조직이 많다. 그렇다면 앞서 언급한 반응보전만으로 그 목표를 달성할 수 있을까? 특정 자산에서 년간 평균 4건의 중대한 고장이 발생했다면, 고장 제로를 달성할 가능성 (신뢰성)은 1.81% [R(t) = e(-t/MTBF)]에 불과하다. 재수나 운에 맡겨야 할 만큼 불확실성이 높다. 

특히 그 누구도 크레인의 와이어가 끊어지는 시점을 알 수 없기 때문이다.

반응보전 환경에서 우리는 특정 년도의 사고 제로, 고장제로가 차기 년도의 대형 사고와 고장으로 이어지는 경우를 쉽게 접할 수 있다. “현재우리 기업의 설비 자산관리 현황은 어떤 모습인가? 반응적인가 아니면 선행적인가?”

이러한 질문에 대한 답을 얻기 위해 프라이스 워터 하우스 쿠퍼스 (영국의 다국적 회계 컨설팅사)는 조사를 실시했다. 그리고 다음과 같은 사실을 보고했다.

  • 보전활동의 50% 이상은 비 계획적 사후보전 활동이다.
  • 전체 보전활동의 40% 미만이 계획된 예방보전 활동의 결과이다.
  • 그 계획된 예방보전의 60%는 불필요한 보전활동이다.
  • 교정 보전에서 진동분석과 같은 예지보전의 결과는 5% 미만이다.
  • 보전 예비품의 24%는 24개월동안 사용실적이 없다.
  • CMMS/EAM 시스템이 적용된 경우 30% 기능만 활용한다.

그 다음, “오늘날의 보전 비용은 너무 비싸다.”고 결론을 내렸다. 여러 기관 (ARC 어드바이저리 그룹, 신뢰성 웹 등)에서도 이와 유사한 조사를 실시했지만 그 결과는 큰 차이가 없었다.

 

경영환경은 수 십 년을 거치면서 설비관리 영역에 리스크 관리를 포함시켰다. 그 결과, ‘보전 이론의 정글’이라고 표현할 만큼 수 많은 보전개념과 전략이 나타났다. 조직에서는 선행적 보전관리 시스템인 ERP PM 모듈, CMMS/EAM 시스템에 투자하고 동시에 성능과 리스크를 예측하기 위해 고가의 예지보전 장비들을 도입하였다. 그럼에도 불구하고 대다수 조직의 현실은 대량 생산체계 (수요와 공급)의 반응적 프로세스에서 크게 진보하지 못하고 있는 것 같다. 결과적으로 CMMS/EAM시스템, 예지보전 장비 도입의 효과가 조직의 기대에 미치지 못했다는 얘기다.

 

예지보전 결과를 교정하기 위한 선행적 기획 및 계획작업 비율은 최대 5%에 불과하고, 반응보전의 신속한 대응에 필요(요구)한 예비품 수량과 보유 기간은 크게 향상되지 않았다. 그것은 본질적으로 작업 기획과 계획 시스템인 CMMS/EAM 시스템의 기능을 30% 정도만 활용하고 있는 사유이기도 하다. 많은 조직들이 최첨단 장비와 시스템을 반응적 프로세스로 운용하고 있는 듯하다.

 

많은 보전 이론의 등장, 최첨단 관리 시스템과 장비의 도입에도 불구하고, 자동화와 복잡화에 따른 고장 리스크가 크게 증가한 현 시대에 리스크 관리가 아니라 시장 요구 충족을 위한 신. 증설, 신속한 복원이 시급했던 대량 생산 시대의 반응적 관리 방식이 크게 개선되지 못한 이유는 무엇일까?

 

“난액의 고사”를 통해 그 답의 힌트를 얻어 보자.

 

어떤 사람이 집을 지었다. 아궁이와 굴뚝을 가깝게 만들고 굴뚝 옆에는 장작까지 쌓아놓았다. 이를 보고 누군가가 충고했다. “굴뚝과 아궁이가 가까우면 불길이 굴뚝까지 미치게 됩니다. 더구나 굴뚝 옆에 장작을 쌓아두면 위험합니다. 불이 날 수도 있습니다. 지금이라도 굴뚝을 구부리고 땔감을 먼 곳으로 옮기는 것이 좋겠습니다.” 그러나 집주인은 이 충고를 무시하고 그대로 방치했다. 그럴 수 있는 가능성 때문에 설계를 변경하고 다시 공사하는 것이 마땅치 않았을 것이다.

 

그러던 어느 날 바람이 심하게 불더니 결국 사고가 나고 말았다. 굴뚝에 불꽃이 튀면서 굴뚝 옆에 쌓아두었던 장작에 옮겨 붙어 집에 불이 난 것이다. 다행스럽게도 이웃 사람들이 도와준 덕분에 큰 피해는 없었다.

집주인은 불을 끄느라 머리털이 타고 이마를 데는 등의 피해를 입은 이웃을 모른 척할 수 없었다. 그래서 잔칫상을 마련하고 그들을 상석으로 모셨다. 그렇지만 화재 위험을 미리 알아차려서 굴뚝을 구부리고 땔감을 멀리 옮기라고 충고했던 사람에게는 감사는 고사하고 술 한잔도 대접하지 않았다. 불이 났을 때 도와준 사람에게만 한턱 냈을 뿐이다.

 

이 이야기는 여러 가지 의미로 해석할 수 있다.

우선, 설비 자산관리 측면에서 반응적 대응과 선제적 대응의 차이로 이해할 수 있다. 집주인은 “그 동안 아무 일도 없었는데”, “생기지 않을 수도 있는 일” 이라고 생각했을 것이다. 당장이 아니라 장래의 어떤 날을 위하여 현재 뭔가를 하는 것이 낭비로 여겨졌을 것이다. 결국 불이 났지만 그는 수습에 나선 사람만을 칭송하고 예방에 힘썼던 사람은 알아주지도 않았다. 이는 반응적 조직 문화 (파이어 파이팅)에서 가장 인정받는 사람이 문제를 신속하게 복원할 수 있는 사람이라는 의미다. 조직 문화가 반응적인 경우, 기술 인력들은 선행적 예방보전 활동에 큰 가치를 부여하지 않는다. 예방 기술 (점검, 진단, 분석, 기획, 계획, 피드백)이 아닌 반응 기술 (수리, 교체, 재생, 복원)에 집중하기 때문이다. 앞서 소개한 “교정보전에서 진동분석과 같은 예지보전의 결과는 5% 미만이다.”와 그 맥락을 같이한다. 

 

선행적 조직 문화가 정착될 때 반응적 조직문화의 병폐를 극복할 수 있다. 이는 당연하고 단순하지만 우리 조직에서 간과하고 있는 사항이기도 하다. 난액의 고사는 2000년전에 기록되었지만 오늘날과 크게 다르지 않다는 점을 되새길 필요가 있다. 오늘날 조직의 자산관리도 난액의 고사와 유사한 경우가 많다. 선행적이지 않고 단순히 설비를 복원하고 개선하는데 집중하는 경향이 강하다는 얘기다. 설비 자산의 고장 리스크를 인식하는 데 요구되는 인력과 장비를 아까워하는 조직이 많다. 대다수 조직의 운전 부문 인력은 생산 설비의 상태를 제외한 프로세스 변수에 집중한다. 보전 조직의 인력은 대부분 수리, 교체, 복원 작업 인력이다. 그렇다면, 고장 리스크는 누가 인식하고 있는가? 고장 또는 사고가 발생할 때마다 대책을 쏟아 내지만 미봉책에 거치는 경우가 많은 이유다.

 

미국 나사 (NASA)는 고장 프로세스를 [그림-고장 메커니즘]와 같이 정의했다.

설비 고장은 고유의 메커니즘으로 발생하고 관측 가능한 고장 현상은 고장모드에서 비롯된다. 물론 기술의 발전과 함께 관측 또는 감지 가능한 고장 모드는 점점 고장 원인 영역으로 이동하고 있다. 

고장모드는 고장원인에 의해, 고장원인은 고장응력으로 촉발된다. 그러므로 고장 결과 예방, 즉 고장 리스크 관리는 최소 고장모드 단계에서 관리할 수 있다. 일반적으로 고장응력과 고장원인 단계에서 취하는 활동을 선행보전이라고 하고, 고장모드 단계의 보전활동을 예지보전이라고 한다.

챌린저 호 폭발 사고를 살펴보자.

챌린저 호는 이륙 (1986년 1월 28일 11:38 AM) 73초 이후 폭발했고 탑승자 전원(7명)이 사망했다. 이 사고의 원인을 파악하기 위해 국무장관 윌리엄 로저스를 중심으로 조사 위원회가 구성되었다. 캘리포니아 공과대학의 물리학 교수이자 노벨 물리학상 수상자인 리차드 파이먼 또한 조사 위원회의 일원으로 활동했다. 그는 조사 과정과 결과를 책으로 내기도 했다. 밝혀진 사고의 직접적인 원인은 추진 로켓 단 사이의 연결 부위에 조립된 씰 탄성력 문제였다. 그러나 씰 고장은 처음이 아니었다. 씰을 설계한 모튼 티오콜 사는 모든 우주 왕복선 발사 전에 씰 성능을 분석한 결과 씰 발사 시점의 대기 온도 (고장 응력)가 씰의 탄성에 영향을 미친다는 사실을 알고 있었다. 낮은 대기 온도는 씰의 탄성을 저하 (고장 원인)시킬 수 있었기에 모튼 티오콜 사는 사고 전날 밤 대기 온도가 53°F 이하일 때는 챌린저 호를 발사해서는 안 된다고 나사 측에 강력히 경고했다.

그럼에도 불구하고 나사는 발사를 연기할 수 없는 엄청난 정치·언론적 부담을 안고 있었다. 그날 밤, 회의를 지속했으나 과학자들의 반대에도 불구하고 발사를 결정했다. 챌린저 호의 폭발이 결정된 순간이다. “그렇지 않을 가능성이 더 많다.”는 난액의 고사가 다시 적용되는 순간이다. 파이먼은 사고의 원인을 나사의 관리 실패로 결론지었다. 선제적 대응은 어렵다. 리스크와 그 결과를 알고 있어도 실행이 쉽지 않은 까닭이다. 단기적 이익과 장기적 리스크 관계이다. 즉 단기적 경영 성과를 위하여 장기적 리스크를 쉽게 허용할 수 있기 때문이다. 대다수 공장에서 알고 있는 중대 설비 문제를 운영적·경영적 부담을 이유로 지속적으로 가동하는 경우가 이와 유사하다 할 수 있겠다.

중대 고장 리스크에 대한 반응적 대응은 발생 가능성만큼의 고장 결과를 전제한다. 예방이 아니라 사후 복구이기 때문이다. 허용되지 않는 중대 고장 리스크에 대하여, 고장응력과 원인, 그리고 고장모드 단계에서 선제적인 대응은 절대적이다. 그렇게 하지 못하면 고장 발생은 필연적이다.

영국의 파이퍼 알파 플랫폼 폭발사고를 살펴보자 [그림-파이퍼 알파 플랫폼의 해당 P & ID 참조]. 1988년 7월 6일 저녁, 애버딘 북동쪽으로 110 마일 떨어진 북해상에 설치된 파이퍼 알파 플랫폼에서 폭발과 화재가 발생했다. 폭발과 화염으로 구조물의 2/3가 붕괴했다. 근무자 226명중 167명과 구조요원 2명이 사망했다. 이 사고는 총 손실액이 34억불에 달하는 최악의 해양 플랜트 사고로 알려져 있다. 컬런 (W.G.CULLEN) 경이 지휘한 조사 위원회는 생존자, 해양 플랜트 지원 선박, 주변 목격자의 진술에 근거하여 비교적 자세하게 조사할 수 있었다. 7월 6일, 추가 건설작업을 위한 용접작업이 진행되고 있었다. 생산일보에는 오일 내의 수분 함유량이 정상 (2%) 보다 높은 수치 (10%)를 나타내고 있었다. 이는 설계 성능을 충족시키기 위한 단기적 조치였지만 높은 수분함유로 하이드로 싸이클론이 과부하를 일으켰다. 그 결과 일부 탄화수소 성분이 배출 수분에 잔류하게 되었다. 7월 6일 저녁, 배출 수분에 거품이 형성되고 가스 알람이 계속되었다. 가스 알람은 방화 시스템을 자동으로 작동시키기 때문에 원활한 용접 작업을 이유로 방화 시스템의 인터락을 해제시켰다. 디젤 소방 펌프 또한 잠수 작업의 편의성을 위하여 수동으로 전환시켰다. 

한편, JT 가스 팽창 밸브 (PCV-721)와 플래시 드럼(C-701)은 하이드레이트가 쉽게 형성되는 최저온부이다. 프로세스 저온부에 하이드레이트 형성을 방지하기 위한 메탄올 주입량을 증가시켜야 한다는 필요성을 언급하였지만 그 때까지 수용되지 못했다. 

하이드레이트는 부스터 펌프와 인젝션 펌프(G-200 A & B)의 흡입측을 막으면서 케비테이션 현상으로 부품 손상을 동반하는 펌프 차단이 빈번하게 발생했다.

7월 6일, G-200A 응축 인젝션 펌프의 계획 보전이 승인되었다. 동시에 G-200A 펌프 토출측에 설치된 PSV-504 벨브는 기능 검사를 위하여 철거되었다. PSV-504에 대한 작업 승인서는 G-200A 펌프 보전에 대한 작업 승인서를 언급하지 않았고 반대의 경우도 동일했다. 대략 18:00까지 PSV-504는 재설치 준비가 완료되었다. 그러나 크레인을 사용할 수 없었기에 작업을 연기하였다. 작업자는 일정기간 운휴될 것이라는 판단 (G-200B 가동) 하에 이물질의 유입을 방지하기 위해 밸브가 철거된 파이프 끝단을 플랜지로 막은 다음 손으로 볼트를 체결하여 마무리했다. 당일 대략 21:50에 응축 인젝션 펌프(G-200B)가 동일한 원인으로 차단되었다. 운전원은 PSV-504 밸브의 상황을 알지 못했고 현장도 확인하지 않은 상태에서 계획 작업이 승인되었으나, 철거되지 않는 펌프 G-200A를 긴급하게 기동했다. 파이퍼 알파 플레폼이 폭발하는 순간이다. 물론 인터락이 해제된 방화 시스템은 작동하지 않았다.

파이퍼 알파 사고 조사 결과와 재발방지 대책은 해양 플랜트 부문에 큰 변화를 일으켰다. 영국 해양 플랫폼 안전관리는 규제 변화를 포함한 큰 개선이 있었다.

근본적인 변화는 안전관리 시스템 (SMS)으로서 설비 자산의 소유자에게 다음과 같은 의무가 부여되었다.

첫째, 설비 운전의 안전성을 확정하는 방법 (리스크관리 방법)을 제시해야 한다.

둘째, 제어의 적절성을 제시해야 한다.

셋째, 인적 유해성과 리스크를 확정해야 한다.

넷째, 인력의 피난, 대피, 구호를 위한 시설, 그리고 긴급 상황에서 사용될 안전 대피소를 제공해야 한다는 것이다.

덧붙여, 제반 규정이 기존의 관습법에서 강제 규제로 대체되었다. 규정 및 집행 기관을 에너지 부서에서 안전 및 보건부로 이관했다. 또 광범위한 현안들은 24개 범주로 구분되어 모두 106개의 권고사항이 규제화되었다. 오늘날 해양 플랜트 EPC사와 운영사는 이 규정을 준수하고 있다. 규정의 핵심은 리스크 확정과 선행적 관리 체계에 있다. 파이퍼 알파 플래폼 사고는 BSI에 의해 ISO 55000 (PAS 55) 자산 경영 시스템이 생성된 배경이 되었다.

생산 시스템의 자동화와 복잡화로 물리적 자산의 고장 리스크는 점진적으로 증가하고 있다. 난액의 고사를 되풀이하지 않기 위하여, 장기와 단기, 지연과 선제, 반응과 선행 간의 균형이 필요하다. 설비 자산의 고장 리스크를 최적 관리하기 위한 전략적 접근이 필요하다. ISO 55000 시리즈는 이를 SAMP (전략적 자산관리 기획서)와 AMP (자산관리 기획서)로 정의한다. 허용되지 않는 중대한 고장 결과를 예방하려면, 유효한 SAMP에 근거하여 AMP를 개발하여야 하고, 그 이행에 필요한 인력과 조직, 프로세스, 시스템을 승인하여야 한다. 그 인력과 시스템, 그리고 프로세스가 “쓸데없는 것”이라면, 그 “허용되지 않는 고장 결과”는 무엇인가?

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다