Compreendendo o MTBF (Tempo Medio Entre Falhas)

Existem várias diferenças distintas entre os computadores de consumo – de uso pessoal – e os PCs industriais (IPC), como as configurações de seus componentes, seleção de suas interfaces de I/O, fator de forma e os materiais utilizados em sua fabricação. Um dos desafios inerentes aos IPCs é que eles devem enfrentar os rigores dos ambientes industriais, resistir aos danos causados por detritos transportados pelo ar, temperaturas extremas, choque, vibração e interferência eletromagnética, a fim de evitar danos ou falhas e assim reduzir o tempo de inatividade do equipamento.

À medida que mais e mais sistemas de baseados em computadores são implantados em aplicações profissionais, a confiabilidade geral do hardware do IPC se tornou uma vantagem.

As Vulnerabilidades Inerentes dos Computadores Ventilados
Tudo que “se move” dentro de um computador é mais sensível a falhas. O desgaste natural é uma realidade inevitável com qualquer equipamento industrial, mas a proliferação de armazenamento em estado sólido (os chamados SSDs – Solid State Disks) reduziu drasticamente o número de peças móveis necessárias para criar dispositivos IPC. No entanto, mesmo utilizando uma solução de armazenamento confiável (SSDs), e com ciclo de vida prolongado ainda temos um dos pontos de falha mais comuns em computadores a ser resolvido. Especialmente em ambientes propensos a poeira ou outros detritos no ar, os ventiladores (coolers) de um computador são notórios contribuintes para falhas do hardware e tempo de inatividade não programado. Além disso, os ventiladores também exigem a presença de orifícios ou aberturas no gabinete para facilitar a troca de ar, deixando os componentes internos vulneráveis a danos.

Como exemplo, imagine um fabricante de alimentos que produz especiarias e óleos especiais. Sua linha de produção utiliza computadores como equipamentos de controle de qualidade e inspeção. Usando computadores tradicionais “ventilados”, são necessários técnicos para remover regularmente os computadores da linha, abri-los e limpar os resíduos puxados (pelos ventiladores existentes no Computador) para dentro do sistema e aderidos em componentes internos. Esse procedimento causa frequentes períodos de inatividade da produção, e mesmo com a limpeza regular, possivelmente faz-se necessária a substituição dos computadores em um curto período de tempo, devido em grande parte de seus ventiladores (sujos) apresentarem falhas e causarem danos a componentes do sistema.

Soluções de refrigeração passiva não só eliminam um dos pontos mais comuns de falha do computador, mas também o torna uma maquina totalmente “sólida”, totalmente selada, e o mais resistente  à vibração possível. Removendo as aberturas do gabinete que de outra forma seriam necessárias para o resfriamento ativo, contaminantes externos não entram no sistema, ajudando a evitar danos, evitando danos nos dados e aumentando a vida útil geral do produto.

Compreendendo o Tempo Médio Entre Falhas (MTBF)
Em uma tentativa de simplificar a avaliação de dispositivos eletrônicos, Mean Time Between Failure (MTBF) é frequentemente apontado como o padrão definidor de confiabilidade do hardware. Enquanto os fabricantes de componentes publicam frequentemente dados de MTBF, os fabricantes de IPC usam métodos diferentes para determinar as taxas de falha. Além disso, os testes de MTBF são frequentemente conduzidos em condições laboratoriais ideais, muito mais previsíveis e muito menos extenuantes do que as encontradas em instalações da vida real. Como tal, estabelecer a confiabilidade geral de um sistema de informática industrial não é tão simples como adotar o valor do componente com o MTBF mais baixo.

Existem dois padrões de MTBF primários e bem estabelecidos pelos quais os fabricantes de hardware geralmente medem a confiabilidade dos componentes eletrônicos; O padrão do Departamento de Defesa e o Método Preditivo  Bellcore / Telcordia, sendo o MIL-HDBK-217 (Departamento de Defesa) considerado o padrão mais reconhecido internacionalmente.

O Manual Militar para a Previsão de Confiabilidade de Equipamentos Eletrônicos (Military Handbook for Reliability Prediction of Electronic Equipment – MIL-HDBK-217 )  foi criado pelo Centro de Análise de Confiabilidade e Laboratório de Roma em Griffiss AFB, NY e contém dados de pesquisa de taxa de falhas para circuitos integrados, transistores, diodos, resistências, Relés, interruptores, conectores e outros componentes eletrônicos. O modelo preditivo MIL-HDBK-217 consiste em duas partes, o método de “contagem de peças” e o método de “tensão parcial” (Part Stress). Essencialmente, através de testes, a confiabilidade dos componentes individuais é estabelecida e pode ser usada para extrapolar a confiabilidade do dispositivo com base na soma da confiabilidade de suas partes componentes. Esses modelos de confiabilidade de componentes são construídos em testes realizados sob condições de referência, condições ambientais e de potência consideradas “típicas” para um dado componente. A fórmula utilizada no método de contagem de peças é expressa como:

 

 

Onde:

  • λref é a taxa de falha nas condições de referência.
  •  i é o número de peças.

Compreendendo que as condições “típicas” nem sempre são encontradas na vida real, o método de “tensão parcial” usa um algoritmo mais complexo para determinar taxas de falhas e permite variáveis adicionais, com uma fórmula expressa como:

 

 

Onde:

  • πS é o fator de estresse.
  • πT é o fator de temperatura.
  • πE é o fator de ambiente.
  • πQ é o fator de qualidade.
  • πA é o fator de ajuste.

Infelizmente, embora o método de “tensão parcial” seja claramente a medida mais real da confiabilidade dos componentes, pode ser difícil determinar qual método é utilizado para calcular os dados MTBF publicados e a exatidão das variáveis definidas estará quase sempre sujeita a incerteza. Além disso, algumas empresas utilizam o Método Preditivo Alternativo Bellcore / Telcordia, que combina dados de testes semelhantes aos métodos MIL-HDBK-217 de contagem de peças e de estresse com outros dados empíricos. Para complicar ainda mais as coisas, raramente fica claro se os fabricantes estão utilizando o Manual Militar ou o método Bellcore / Telcordia ao publicar informações de MTBF.

Os Desafios do MTBF na Computação Industrial
Na indústria de IPC, os cálculos do tempo médio entre a falha (MTBF) não permitem uma representação exata do ciclo de vida esperado de um sistema em um ambiente industrial, e levantam frequentemente mais perguntas do que respostas. Como foi determinado o número do MTBF? Que testes específicos são usados para reforçar esses números, como foi feito e por quem? E talvez o mais importante, como as condições e métodos de testes de confiabilidade se aplicam à vida real, no campo?

A frequente má interpretação e mau uso do MTBF como padrão de confiabilidade levou até mesmo à criação de sites como o NoMTBF.com, que foi criado por um engenheiro de confiabilidade para explorar a deterioração da confiabilidade dos próprios dados de MTBF. Uma das deficiências fundamentais dos dados de MTBF é que ele assume uma taxa de falha constante, estabelecendo que um componente ou sistema é tão provável de falhar no primeiro momento de sua operação como em seu quinto ano. No caso de computadores industriais, especialmente aqueles sujeitos a ambientes extremos, isso está claramente longe de ser verdade. MTBF simplesmente não consideram variáveis externas que são vitais para realmente se compreender a vida esperada de um sistema.

Considere o exemplo abaixo de um projeto de um sistema de computador ventilado. Deseja-se atingir uma confiabilidade do sistema de pelo menos 95% e espera-se uma taxa de confiabilidade de 99% para o ventilador no primeiro ano de uso. Por segurança, a equipe de projeto estimou que o sistema, e portanto o ventilador, funcionaria 24 horas por dia, o que é comum em ambientes industriais. Isso significaria que, no primeiro ano, o sistema funcionaria por um total de 8.760 horas. O Ventilador que eles haviam selecionado para o projeto tinha um MTBF anunciado de 50.000 horas.


Dado, 50k hrs de MTBF para o ventilador e um uso esperado de 8.760 horas por ano, qual é a confiabilidade (probabilidade de sucesso) apenas para o ventilador em um ano. Para calcular esse resultado, use a função de confiabilidade da distribuição exponencial.


Onde t é o tempo em horas e ø é o MTBF também em horas. R (t) é a probabilidade de não falhar ao longo do período t. Tempo de Uso de 8760 dividido pelo MTBF de 50 000 resulta em 0,1752. Sinal negativo e expoente, para encontrar R (8,760) = 83,9% O que significa que cerca de 16% dos ventiladores devem fracassar dentro de um ano.

Bem, desse ventilador, sozinho, consumirá todo o orçamento e muito mais. É pior ainda em cinco anos. R (5 * 8,760) = 41,6% ou mais da metade dos ventiladores devem apresentar falhas dentro dos cinco anos.

O engenheiro ficou chocado. “50k horas são mais de 5 anos, por isso não deve apresentar qualquer falha”, disse ele. O responsável pelo design disse, sorrindo enquanto pensava em uma maneira de contornar esse dilema: “Ah, lembre-se que estamos sendo conservadores no tempo de uso de 24 horas por dia de operação. Na realidade, o ventilador provavelmente não funcionará mais de 12 horas por dia.”

Está bem. Vamos fazer os números usando 12 horas por dia. 5 * 8,760 / 2 é de 21.900 horas de uso em cinco anos. E R (21.900) = 64.5%, o que ainda não é bom o suficiente. E, um ano, R (4,380) = 91,6%, e ainda não é bom o suficiente.

Assumindo que o valor relatado de 50.000 horas de MTBF é correto para o ventilador em questão, e mesmo cortando seu tempo de uso, ainda não é confiável para esta aplicação. Hora de procurar outro ventilador ou solução de resfriamento.

Fonte: NoMTBF.com


Mesmo com essas limitações, existem casos em que o tempo médio publicado entre números de falha pode ser um guia útil para auxiliar na pesquisa de hardware industrial. Embora permaneça um indicador não confiável da expectativa de vida global do sistema, o MTBF pode ser estimado aproximadamente estabelecendo o componente com o menor número de MTBF dentro do sistema e usando esse número para contrastar e comparar várias configurações possíveis. Usando este método, computadores refrigerados passivamente têm a vantagem de eliminar o ventilador, um ponto comum de falha inicial do sistema. Como tal, o MTBF da placa-mãe torna-se a fonte mais consistente de dados para estimar as taxas de falha do sistema IPC sem ventilador. Fabricantes de placas-mãe industriais como ASRock, Mitac e Jetway muitas vezes utilizam componentes comprovadamente mais confiáveis do que seus colegas fabricantes de sistemas de uso pessoal e, portanto, podem oferecer uma expectativa de vida mais longa para seus produtos.

Projetando Confiabilidade usando a Tecnologia
Na última década, a indústria de computação industrial começou a reconhecer as vantagens distintas do resfriamento passivo, e mais sistemas sem ventiladores estão se tornando comuns no chão de fábrica. Contudo, nem todos os computadores fanless são criados iguais.

A grande maioria da última geração de CPUs consomem em entre 8 e 100 watts de potência. O princípio da Conservação da Energia determina que a energia consumida deve ser expelida em igual proporção, e no caso de um processador de computador e demais componentes que consomem energia, tem essa energia primariamente expelida sob a forma de calor. A ausência de um ventilador tecnicamente pode tornar um sistema “fanless”, mas isso não significa que ele irá efetivamente expulsar o calor necessário para evitar o superaquecimento do componente ou uma diminuição de desempenho inesperada. O desempenho e a confiabilidade dos sistemas sem ventiladores variam muito com base no tipo de resfriamento passivo, na qualidade dos materiais utilizados e no layout dos componentes internos. Muitas placas-mãe industriais são fornecidas a fabricantes de computadores com ventiladores pré-instalados no processador e, em alguns casos, os fabricantes de IPC sem ventiladores fazem pouco mais do que remover o ventilador e encapsular a placa em um case ventilado ou pior ainda, um invólucro não ventilado .

Para garantir confiabilidade e ótimo desempenho em sistemas sem ventiladores, deve-se combinar refrigeração de estado sólido, proteção contra ingresso e robustez para permitir a instalação de PCs de pequeno formato praticamente em qualquer lugar, mesmo nos ambientes mais desafiadores. Deve-se tomar os seguintes cuidados:

• Utilizar dissipador de calor que extraia o calor da placa-mãe e de outros componentes internos sensíveis.
• Caixas sem ventilação que vedam contaminantes aéreos potencialmente nocivos e corrosivos.
• Materiais cuidadosamente escolhidos que garantem a transferência de calor ideal ao criar um gabinete ultra-durável, completo com proteção contra descarga eletrostática (ESD) e interferência eletromagnética (EMI).

Deve-se selecionar processadores eficientes e componentes de nível industrial, a fim de garantir um ótimo desempenho térmico ao longo da vida útil do produto.

Além disso, deve-se selecionar motherboards que apresentam um ciclo de vida industrial, indicando que o fabricante irá suportar seu produto por pelo menos 3-5 anos, permitindo a padronização de longo prazo em uma configuração fixa, em contraste com os componentes de consumo que são frequentemente sujeitos a revisão todo ano.

Quando você está procurando hardware para aplicações em missão crítica, detalhes como estes podem fazer toda a diferença para a vida útil do sistema.

Vida útil do hardware definida pela aplicação
Conforme descrito acima, o número de fatores que desempenham um papel na determinação da confiabilidade do IPC vai muito além dos simples cálculos do MTBF. O verdadeiro teste de confiabilidade do sistema deve levar em conta o uso pretendido e os detalhes da aplicação, incluindo fatores ambientais como temperatura ambiente de operação, exposição a vibrações e presença de contaminantes ou corrosivos no ar. Infelizmente, não existe uma medição única para quantificar a vida esperada de um PC industrial, mas eliminando os pontos de falha conhecidos dentro de um sistema computacional é possível aumentar exponencialmente a sua expectativa de vida comparada a computadores de uso pessoal ou mesmo de grau industrial inferior.

Texto extraído de artigo técnico “Understanding MTBF” – www.logicsupply.com
Adaptado por Carlos A. Farineli.