Atividades — Inteligência Artificial na Medicina

Este conjunto de atividades foi elaborado para que você consolide, aprofunde e aplique os conceitos estudados no material deste módulo. Leia cada enunciado com atenção antes de iniciar a resolução. As atividades devem ser respondidas de forma dissertativa e fundamentada, com base exclusivamente no conteúdo do material didático. O que se espera de você não é a descrição de como sistemas de IA funcionam em termos técnicos abstratos, mas a demonstração de que você compreende o que cada sistema aprende, com quais dados, com quais limites e com quais riscos — e que consegue aplicar esse entendimento a situações clínicas concretas.

Atividade 1 — Identificando e classificando sistemas de IA em contextos clínicos

Contexto

Quatro sistemas de IA utilizados em contextos clínicos estão descritos a seguir. Cada descrição contém detalhes suficientes sobre o modo de funcionamento, os dados utilizados e o objetivo do sistema para que você possa analisá-los tecnicamente com base no conteúdo do módulo.

Sistema 1 — Triagem de risco de sepse em UTI: Um hospital universitário implantou um sistema que lê, a cada hora, os sinais vitais, os resultados laboratoriais e as notas de enfermagem de cada paciente internado na UTI. O sistema foi treinado com dados de 120.000 internações do próprio hospital nos últimos oito anos, usando os registros dos pacientes que desenvolveram sepse confirmada como exemplos positivos e os que não desenvolveram como exemplos negativos. A saída do sistema é um escore de risco de 0 a 100; quando o escore ultrapassa 75, ele envia um alerta ao médico plantonista.

Sistema 2 — Subtipos moleculares de câncer de mama: Um laboratório de oncologia genômica utiliza um sistema que analisa perfis de expressão gênica de amostras tumorais — centenas de genes simultaneamente — sem qualquer rótulo prévio. O sistema agrupa automaticamente as amostras em padrões de expressão semelhantes. Os patologistas então analisam cada grupo identificado e verificam se eles correspondem a subtipos clínicos com diferentes prognósticos e respostas a tratamento.

Sistema 3 — Sugestão de dose de insulina em diabetes tipo 1: Um aplicativo de gerenciamento de diabetes utiliza um sistema que, a partir das doses de insulina administradas, dos valores de glicemia observados e dos alimentos ingeridos por um paciente específico ao longo de semanas, ajusta progressivamente as sugestões de dose de insulina para aquele paciente. O sistema não foi treinado em dados de outros pacientes — ele aprende exclusivamente com o histórico individual do usuário, testando ajustes e observando os efeitos glicêmicos resultantes.

Sistema 4 — Relatório automático de radiografias de tórax: Um serviço de radiologia adotou um sistema que analisa radiografias de tórax e gera, em texto, um relatório preliminar identificando achados como opacidades pulmonares, derrame pleural, cardiomegalia e pneumotórax. O sistema foi treinado com 890.000 radiografias de tórax provenientes de seis hospitais americanos de alta complexidade, cada uma acompanhada do laudo textual escrito pelo radiologista que a interpretou originalmente.

O que você deve fazer

Analise os quatro sistemas sob dois critérios articulados. O primeiro critério é a classificação segundo os paradigmas de aprendizado de máquina discutidos no material: supervisionado, não supervisionado ou por reforço. Para cada sistema, justifique a classificação identificando, no próprio enunciado, os elementos que levaram a ela — perceba que a classificação não depende da sofisticação do sistema nem de sua área de aplicação, mas da estrutura do processo de aprendizagem. O segundo critério é a análise do risco de falha por questões de generalização: para dois dos quatro sistemas, identifique um cenário clínico concreto no qual o sistema poderia apresentar desempenho insatisfatório por razões relacionadas a diferenças entre os dados em que foi treinado e os dados que encontraria em produção. Conecte sua análise ao conceito de dataset shift discutido no material e explique o que isso significa para a segurança clínica do paciente naquele cenário. Responda de forma dissertativa e integrada.

Atividade 2 — Leitura crítica de um estudo sobre IA diagnóstica

Contexto

O estudo descrito a seguir é fictício, mas representa com fidelidade o padrão de publicação de estudos sobre IA diagnóstica em periódicos médicos de alto impacto. Leia com atenção antes de iniciar a análise.

Título: “Desempenho de rede neural convolucional na detecção de fibrilação atrial paroxística em registros de smartwatch: estudo de validação multicêntrico”

Metodologia: Um algoritmo de aprendizado profundo (rede neural convolucional) foi treinado para detectar padrões de fibrilação atrial (FA) em registros de fotopletismografia (PPG) coletados por smartwatches. O conjunto de treinamento consistiu em 2,3 milhões de registros de 180.000 participantes recrutados por um aplicativo de saúde entre 2020 e 2022. Os rótulos foram atribuídos por algoritmo automatizado de leitura de ECG de 12 derivações realizados em até 48 horas dos registros de PPG. O modelo foi testado em dois centros de validação: um hospital universitário em São Paulo (n=4.200 registros, 312 com FA confirmada) e uma clínica cardiológica privada em Belo Horizonte (n=2.800 registros, 198 com FA confirmada).

Resultados: No conjunto de teste do hospital universitário, o modelo atingiu AUC-ROC de 0,94, sensibilidade de 89% e especificidade de 91%. Na clínica privada, a AUC-ROC foi de 0,92, com sensibilidade de 86% e especificidade de 93%. Os autores concluem que o modelo demonstra “desempenho comparable ao de cardiologistas experientes na detecção de FA por PPG” e que “pode ser utilizado como ferramenta de triagem de primeira linha em serviços de saúde primários e secundários”.

Conflitos de interesse: O estudo foi financiado pelo fabricante do smartwatch utilizado na coleta dos dados de treinamento. Três dos seis autores são consultores remunerados da empresa.

Limitação declarada pelos autores: “O estudo não avaliou o desempenho do modelo em pacientes com arritmias distintas da fibrilação atrial que possam gerar sinais de PPG similares.”

O que você deve fazer

Aplique o framework de leitura crítica de estudos sobre IA apresentado no material deste módulo para produzir uma análise estruturada do estudo descrito acima. Percorra cada uma das sete perguntas do framework — qual é a tarefa clínica, quais são os dados de treinamento, qual é o grupo de comparação, quais são as métricas, houve validação externa, o modelo foi testado em condições reais e quais são os conflitos de interesse — aplicando-as especificamente a este estudo e identificando os pontos fortes e as limitações metodológicas que cada pergunta revela. Não basta enunciar as perguntas: você deve respondê-las com base nos dados do estudo e explicar o que cada resposta significa para a confiança que um médico de atenção primária deveria ou não depositar nessa ferramenta. Por fim, avalie a conclusão dos autores — “pode ser utilizado como ferramenta de triagem de primeira linha em serviços de saúde primários e secundários” — à luz da sua análise: essa conclusão é sustentada pelos dados apresentados? Por quê? Responda de forma dissertativa e integrada.

Atividade 3 — Viés algorítmico em contexto clínico brasileiro: análise e responsabilidades

Contexto

Leia com atenção o caso hipotético a seguir.

Um hospital público de referência em oncologia no estado do Maranhão implantou, há dezoito meses, um sistema de triagem por inteligência artificial para priorização de consultas ambulatoriais em oncologia. O sistema analisa dados do prontuário eletrônico — diagnósticos em CID, resultados de exames, medicamentos prescritos e histórico de atendimentos — e classifica cada caso como de alta, média ou baixa prioridade para consulta oncológica. O modelo foi desenvolvido por uma empresa paulista e treinado com dados de dois hospitais privados de alta complexidade de São Paulo e Campinas.

Após dezoito meses de uso, a equipe médica percebeu um padrão perturbador: pacientes com diagnóstico de câncer de colo uterino — a neoplasia mais prevalente na população feminina do Maranhão — estavam sendo sistematicamente classificados como baixa prioridade com muito mais frequência do que pacientes com diagnóstico de câncer de mama ou colorretal. Uma análise interna revelou que o desempenho do sistema variava significativamente por tipo de tumor e por grupo étnico-racial: pacientes negras e pardas com câncer de colo uterino tinham probabilidade 2,3 vezes maior de serem classificadas como baixa prioridade do que pacientes brancas com o mesmo diagnóstico e o mesmo estadiamento.

A empresa desenvolvedora, consultada sobre os achados, respondeu que o modelo foi validado com AUC-ROC de 0,87 nos dados de teste dos hospitais de treinamento, e que “variações de desempenho em contextos distintos são esperadas e estão dentro da margem de erro documentada”. O gestor do hospital está considerando suspender o uso do sistema, mas enfrenta resistência da equipe de TI, que argumenta que a suspensão vai sobrecarregar os agendadores humanos e aumentar o tempo de espera geral.

Você foi designado como consultor técnico e ético pelo conselho médico do hospital para produzir um parecer sobre o caso.

O que você deve fazer

Seu parecer deve percorrer quatro dimensões analíticas de forma dissertativa e coesa, como se fossem partes de um único documento.

A primeira dimensão é técnica: explique o que provavelmente causou o padrão de desempenho desigual observado, usando os conceitos de dataset shift, viés algorítmico e generalização discutidos no material. Por que o fato de o modelo ter sido treinado em hospitais privados de São Paulo e Campinas é relevante para entender seu desempenho num hospital público do Maranhão? O que a métrica AUC-ROC de 0,87 nos dados de teste não revela sobre o desempenho diferenciado por subgrupo?

A segunda dimensão é clínica: quais são as consequências concretas, para os pacientes afetados, de serem sistematicamente classificados como baixa prioridade quando deveriam ser alta prioridade? Relacione essa questão ao conceito de equidade discutido no material — quem o sistema prejudica e quem ele beneficia?

A terceira dimensão é de responsabilidade: com base na discussão do material sobre responsabilidade quando IA contribui para um erro clínico, identifique as responsabilidades do hospital (como instituição que implantou o sistema), da empresa desenvolvedora (que comercializou o produto) e dos médicos que usam as classificações do sistema para suas decisões de priorização. A resposta da empresa — “variações são esperadas e estão dentro da margem de erro” — é aceitável do ponto de vista da responsabilidade ética e legal?

A quarta dimensão é a recomendação: o hospital deve suspender imediatamente o uso do sistema, suspendê-lo com prazo para adequação ou mantê-lo com salvaguardas específicas? Justifique sua recomendação com os conceitos do material e proponha, qualquer que seja sua decisão, pelo menos duas medidas concretas que o hospital deveria adotar.