Repensando a confiabilidade: o que você pode (e não pode) aprender com os incidentes

blog

LarLar / blog / Repensando a confiabilidade: o que você pode (e não pode) aprender com os incidentes

Jun 30, 2023

Repensando a confiabilidade: o que você pode (e não pode) aprender com os incidentes

Apresentações da página inicial do InfoQ Repensando a confiabilidade: o que você pode (e não pode) aprender com os incidentes Courtney Nash discute pesquisas coletadas do VOID, desafiando as práticas padrão da indústria para

Apresentações da página inicial do InfoQ Repensando a confiabilidade: o que você pode (e não pode) aprender com os incidentes

Courtney Nash discute pesquisas coletadas do VOID, desafiando as práticas padrão do setor para resposta e análise de incidentes, como o rastreamento de MMTR e o uso da metodologia RCA.

Courtney Nash é uma pesquisadora focada em segurança de sistemas e falhas em sistemas sociotécnicos complexos. Ela sempre foi fascinada pela forma como as pessoas aprendem e pela forma como a memória influencia a forma como elas resolvem problemas. Nas últimas duas décadas, ela ocupou diversas funções editoriais, de gerenciamento de programas, de pesquisa e de gerenciamento na Holloway, Fastly, O'Reilly Media, Microsoft e Amazon.

QCon Plus é uma conferência virtual para engenheiros e arquitetos de software seniores que cobre as tendências, melhores práticas e soluções aproveitadas pelas organizações de software mais inovadoras do mundo.

Tome as decisões corretas descobrindo como os desenvolvedores de software seniores das empresas que adotam precocemente estão adotando as tendências emergentes. Registrar agora!

Nash: Sou Courtney Nash. Estou aqui para conversar com você sobre como repensar a confiabilidade, o que podemos ou não aprender com as métricas de incidentes. Sou bibliotecário de incidentes na Internet na Verica. Sou um pesquisador com uma longa experiência em vários lugares diferentes. Eu costumava estudar o cérebro. Acho que as mountain bikes são a tecnologia mais legal que já inventamos.

Estou aqui para falar com vocês sobre essa coisa que fiz chamada VOID. O Verica Open Incident Database é um local onde relatórios de incidentes relacionados a software público são coletados e disponibilizados para todos e qualquer pessoa. Nosso objetivo é conscientizar e aumentar a compreensão sobre falhas baseadas em software, a fim de tornar a Internet um lugar mais resiliente e seguro. Por que nos preocupamos com isso? Porque há muito tempo que o software foi além da hospedagem de imagens de gatos online, passando a gerir transportes, infraestruturas e hardware em sistemas de saúde, e dispositivos em sistemas de votação e veículos autónomos. Espera-se que esses modernos sistemas online funcionem 24 horas por dia, 7 dias por semana, 365 dias por ano. As pressões crescentes com as quais todos vocês lidam, combinadas com modelos de software de serviços inter-relacionados e cada vez mais automatizados que são executados na nuvem, aceleraram a complexidade desses sistemas. Como você provavelmente já sabe, por experiência própria, quando esses sistemas complexos falham, eles falham de maneira inesperada e caótica. Todos nós temos incidentes. Sim, isso é um incêndio em uma lixeira com um dragão incendiando um vulcão. Eu acho que o que você enfrenta provavelmente é mais parecido com Calvin e Hobbes, onde há um monstro debaixo da cama, e você nunca tem certeza de quando ele vai sair.

O ponto realmente importante é que a indústria tecnológica possui um imenso corpo de conhecimento comoditizado que poderíamos compartilhar para aprender uns com os outros e impulsionar a resiliência e a segurança do software. Se você está cético sobre isso, eu entendo, você pode estar. Há precedência histórica para isso. Não é a nossa indústria, é uma indústria diferente. Na década de 1990, nos Estados Unidos, a nossa indústria da aviação estava numa espécie de crise, tínhamos um histórico de segurança horrível. Acidentes significativos e de alta consequência aconteciam regularmente. A indústria, coletivamente e desde o início, decidiu se unir e tentar fazer algo a respeito. Vários pilotos de diversas companhias aéreas se reuniram e começaram a compartilhar seus dados de incidentes. Eles começaram a compartilhar suas histórias e padrões do que estavam vendo. Eventualmente, mais pessoas dessa indústria aderiram, os órgãos reguladores, o pessoal dos controladores de tráfego aéreo, um grande número de pessoas se envolveu para compartilhar seus incidentes e encontrar pontos em comum e padrões. Ao longo disso e, obviamente, de outras atividades, o histórico de segurança do nosso setor aéreo aumentou muito. Na verdade, não tivemos um incidente significativo até acontecerem algumas das coisas do Boeing MAX dos últimos anos. É possível fazer isso desde o início, já que os profissionais antes mesmo de aparecerem pessoas reguladoras. Isso é importante.