Atividades — Inteligência Artificial na Medicina

Este conjunto de atividades foi elaborado para que você consolide, aprofunde e aplique os conceitos estudados no material deste módulo. Leia cada enunciado com atenção antes de iniciar a resolução. As atividades devem ser respondidas de forma dissertativa e fundamentada, com base exclusivamente no conteúdo do material didático. O que se espera de você não é a descrição de como sistemas de IA funcionam em termos técnicos abstratos, mas a demonstração de que você compreende o que cada sistema aprende, com quais dados, com quais limites e com quais riscos — e que consegue aplicar esse entendimento a situações clínicas concretas.

Atividade 1 — Analisando outputs de um LLM para tarefas clínicas

Contexto

Um estudante de medicina do quinto período utilizou um modelo de linguagem de grande escala (LLM) disponível publicamente para apoiar o estudo de três casos clínicos simulados. Os trechos a seguir reproduzem, literalmente, as perguntas que o estudante fez ao LLM e as respostas que recebeu. Leia cada par pergunta-resposta com atenção.

Caso 1

Pergunta ao LLM: “Quais são os critérios diagnósticos para sepse segundo o Sepsis-3?”

Resposta do LLM: “Os critérios diagnósticos para sepse segundo o Sepsis-3 (definição de 2016) incluem: suspeita de infecção associada a disfunção orgânica aguda. A disfunção orgânica é identificada por aumento de 2 ou mais pontos no escore SOFA (Sequential Organ Failure Assessment) em relação ao basal. O choque séptico é definido pela necessidade de vasopressor para manter pressão arterial média (PAM) maior ou igual a 65 mmHg e lactato sérico maior que 2 mmol/L na ausência de hipovolemia. Os critérios SIRS (frequência cardíaca, temperatura, leucograma, frequência respiratória) foram explicitamente excluídos da definição de sepse pelo Sepsis-3 por sua baixa especificidade.”

Caso 2

Pergunta ao LLM: “Qual é a dose de ataque de amiodarona para cardioversão farmacológica de fibrilação atrial com instabilidade hemodinâmica?”

Resposta do LLM: “Para cardioversão farmacológica de fibrilação atrial com instabilidade hemodinâmica, a amiodarona é utilizada na dose de 150 mg IV em 10 minutos, seguida de infusão de 1 mg/min por 6 horas e depois 0,5 mg/min por 18 horas. A dose total nas primeiras 24 horas não deve exceder 2,2 g. Importante: fibrilação atrial com instabilidade hemodinâmica é indicação de cardioversão elétrica sincronizada de emergência; a cardioversão farmacológica com amiodarona não é o tratamento de primeira escolha nesta situação.”

Caso 3

Pergunta ao LLM: “Qual é o tratamento de primeira linha para tuberculose pulmonar sensível no Brasil atualmente?”

Resposta do LLM: “O esquema básico para tuberculose pulmonar sensível no Brasil consiste em rifampicina (R) + isoniazida (H) + pirazinamida (Z) + etambutol (E) por dois meses na fase intensiva, seguidos de rifampicina (R) + isoniazida (H) por quatro meses na fase de manutenção — esquema RHZE/RH, totalizando seis meses. Em 2022, o Ministério da Saúde atualizou o Programa Nacional de Controle da Tuberculose para incluir o etambutol como quarto fármaco na fase intensiva para todos os casos novos de tuberculose pulmonar, substituindo o esquema anterior de três fármacos. Essa mudança visa reduzir o risco de resistência primária à isoniazida.”

O que você deve fazer

Analise os três casos sob dois critérios articulados. O primeiro critério é a avaliação do conteúdo factual: para cada resposta, identifique se o conteúdo está correto, parcialmente correto, incorreto ou se contém elementos corretos misturados com elementos incorretos ou imprecisos — e justifique sua avaliação com base no que o material do módulo ensina sobre o que LLMs fazem bem e o que fazem mal. O segundo critério é a aplicação do conceito de alucinação: identifique em qual ou quais dos três casos há risco de alucinação — o modelo gerou texto convincente que pode ser total ou parcialmente factualmente errado sem sinalizá-lo —, explique por que a estrutura da pergunta e/ou o tipo de informação solicitada cria esse risco especificamente naquele caso. Por fim, discuta de forma dissertativa o que esses três exemplos revelam sobre o tipo de uso de LLMs que é relativamente seguro em contexto médico e o tipo de uso que requer verificação independente obrigatória antes de qualquer aplicação clínica.

Atividade 2 — Avaliando uma ferramenta de IA clínica com dois frameworks complementares

Contexto

A ferramenta descrita a seguir existe e está disponível comercialmente para hospitais brasileiros. Os dados apresentados são baseados em informações públicas disponíveis sobre o produto.

Ferramenta: Sistema de estratificação de risco cardiovascular por IA em atenção primária

Uma empresa brasileira de saúde digital comercializa um sistema de suporte à decisão clínica destinado a unidades básicas de saúde e clínicas de atenção primária. O sistema analisa os dados do prontuário eletrônico do paciente — idade, sexo, pressão arterial, tabagismo, colesterol LDL, HDL e total, glicemia, histórico de eventos cardiovasculares, medicamentos em uso — e calcula, em tempo real, o risco de evento cardiovascular maior (infarto, AVC, morte cardiovascular) em 10 anos. O escore gerado pelo sistema foi validado em uma coorte de 85.000 pacientes de 12 unidades básicas de saúde de quatro cidades do estado de São Paulo, com seguimento de 8 anos. O escore tem AUC-ROC de 0,78. A empresa afirma que o sistema apresenta desempenho superior ao do Escore de Framingham convencional na mesma coorte (AUC-ROC de 0,71) e ao do Escore de Risco Global da Diretriz Brasileira (AUC-ROC de 0,73). O custo de licença é de R$4,50 por paciente por mês sob modelo SaaS. O sistema não está aprovado pela ANVISA como dispositivo médico, mas a empresa alega que se enquadra como ferramenta de apoio à decisão sem função diagnóstica autônoma — e que, portanto, não está sujeita à RDC 657/2022.

O que você deve fazer

Realize uma análise desta ferramenta aplicando dois frameworks complementares estudados na disciplina. O primeiro é o framework de cinco perguntas para avaliação crítica de tecnologias médicas apresentado no Módulo 01 — qual problema ela resolve, para quem, a que custo, com qual evidência e quem ganha e quem perde. O segundo é o framework de sete perguntas para leitura crítica de estudos sobre IA apresentado neste módulo. Os dois frameworks não são redundantes: o primeiro avalia a tecnologia como produto e como inovação no ecossistema de saúde; o segundo avalia a qualidade da evidência que sustenta as afirmações de desempenho. Aplique cada framework com rigor e, ao final, escreva um parágrafo de síntese que integre os achados dos dois para responder a uma pergunta única: você recomendaria a adoção desta ferramenta por uma UBS do interior do Maranhão? Por que sim ou por que não? Fundamente exclusivamente nos conceitos dos materiais dos Módulos 01 e 03.

Atividade 3 — Propondo o componente de IA de uma HealthTech

Contexto

Leia com atenção a situação a seguir.

Um grupo de estudantes de medicina está desenvolvendo uma HealthTech cujo objetivo é reduzir o número de internações por descompensação de insuficiência cardíaca em pacientes acompanhados em ambulatório de cardiologia. A hipótese central do grupo é que muitos pacientes se descompensam porque não percebem os sinais precoces de retenção de líquidos — ganho de peso gradual, piora do edema periférico, redução da tolerância ao esforço — antes que atinjam um nível que exija internação. A solução imaginada envolve um aplicativo que os pacientes usam diariamente para registrar peso corporal, pressão arterial, frequência cardíaca, nível de dispneia (em escala numérica) e aderência ao uso de diuréticos. Com esses dados, o aplicativo geraria um alerta para o cardiologista responsável quando identificasse um padrão de deterioração precoce.

O grupo está agora decidindo qual componente de IA seria mais adequado para analisar os dados coletados e gerar os alertas.

O que você deve fazer

Sua tarefa é produzir uma análise técnica e ética do componente de IA para este sistema, em texto dissertativo, percorrendo quatro dimensões.

A primeira dimensão é a escolha do paradigma de aprendizado: qual dos três paradigmas discutidos no material — supervisionado, não supervisionado ou por reforço — seria mais adequado para o objetivo descrito? Justifique a escolha considerando a natureza dos dados disponíveis, o tipo de saída esperada e as implicações práticas de cada abordagem para um sistema que precisa operar com segurança em pacientes com insuficiência cardíaca.

A segunda dimensão é a especificação dos dados de treinamento: que tipo de dados seriam necessários para treinar o modelo escolhido? Quem teria os rótulos (no caso do supervisionado) ou como o modelo definiria “padrão de deterioração” (nos outros paradigmas)? Quais são os riscos de viés nos dados de treinamento para este sistema específico — considerando que pacientes com insuficiência cardíaca têm perfis socioeconômicos e de acesso ao sistema de saúde muito diferentes?

A terceira dimensão é a definição de métricas de avaliação: que métricas de desempenho seriam mais adequadas para avaliar este sistema antes de implantá-lo clinicamente? Por que a AUC-ROC isoladamente seria insuficiente? Qual é o custo relativo de um falso positivo (alarme desnecessário) vs. um falso negativo (deterioração não detectada) neste contexto clínico — e como essa análise deveria influenciar a escolha do limiar de decisão do modelo?

A quarta dimensão é a salvaguarda ética: com base nos conceitos de viés algorítmico, explicabilidade e responsabilidade discutidos no material, identifique três salvaguardas específicas que deveriam estar presentes no design do sistema para garantir que ele seja seguro para uma população diversa de pacientes — não apenas para os pacientes cujos dados foram usados no treinamento.