Resoluções — Inteligência Artificial na Medicina (Turma B)

Este arquivo destina-se exclusivamente ao uso do professor. Ele contém as resoluções comentadas das três atividades da Turma B do Módulo 03, com orientações pedagógicas detalhadas, indicações dos pontos de maior dificuldade esperada pelos estudantes e roteiros para a condução da discussão coletiva em sala. Não distribua este arquivo aos estudantes antes ou durante a realização das atividades.

Atividade 1 — Resolução

Resolução modelo

Os três casos apresentados ao estudante nessa atividade não foram escolhidos aleatoriamente. Eles representam três categorias distintas de risco no uso de modelos de linguagem de grande escala em contexto médico, e a tarefa central do estudante é reconhecer qual categoria está em jogo em cada caso — e por quê a estrutura da pergunta, o tipo de informação solicitada e a forma como a resposta foi construída determinam o risco de cada interação.

O Caso 1 demonstra o território em que os modelos de linguagem têm desempenho relativamente confiável. A pergunta sobre os critérios diagnósticos do Sepsis-3 é uma pergunta sobre um consenso clínico publicado em 2016, amplamente difundido na literatura internacional, exaustivamente reproduzido em revisões, diretrizes, materiais de ensino e artigos de comentário. O conteúdo factual da resposta está correto: suspeita de infecção associada à disfunção orgânica identificada por aumento de dois ou mais pontos no escore SOFA; choque séptico definido pela necessidade de vasopressor para manutenção de pressão arterial média igual ou superior a 65 mmHg e lactato sérico superior a 2 mmol/L na ausência de hipovolemia; exclusão explícita dos critérios SIRS por baixa especificidade. Todos esses elementos correspondem às definições publicadas pelo grupo de trabalho internacional que elaborou o Sepsis-3.

O motivo pelo qual o modelo responde bem a essa pergunta está diretamente relacionado à natureza do que os modelos de linguagem fazem: eles reconhecem padrões em textos com os quais foram treinados e geram respostas coerentes com esses padrões. Uma definição de consenso publicada em 2016, que foi reproduzida em centenas de artigos, dezenas de diretrizes nacionais e internacionais, incontáveis materiais de ensino e provavelmente em resumos de exames de residência médica, representa exatamente o tipo de conteúdo que aparece com alta frequência e alta consistência nos dados de treinamento. O modelo não “sabe” o que é sepse no sentido de compreensão fisiopatológica — mas aprendeu que a combinação de tokens que representa “Sepsis-3” está associada sistematicamente a tokens que representam “SOFA”, “disfunção orgânica”, “dois pontos”, “vasopressor” e “lactato maior que dois”. O resultado é factualmente correto, mas isso não é garantia de que outros resultados também serão.

O Caso 2 é substancialmente mais complexo e demonstra um tipo de erro que não é uma alucinação no sentido de informação inventada, mas algo potencialmente mais perigoso em termos práticos: uma inversão de prioridade que a estrutura da resposta cria sem que o conteúdo técnico seja errado. A dose de amiodarona mencionada — 150 mg IV em dez minutos, seguidos de 1 mg/min por seis horas e 0,5 mg/min por dezoito horas, com dose total de 2,2 g nas primeiras vinte e quatro horas — está correta. Essa é de fato a dose para cardioversão farmacológica de fibrilação atrial com função ventricular preservada e sem instabilidade hemodinâmica. O modelo também menciona, no final da resposta, que fibrilação atrial com instabilidade hemodinâmica é indicação de cardioversão elétrica sincronizada de emergência.

O problema é arquitetônico, não factual. A pergunta do estudante perguntou pela dose de amiodarona para cardioversão farmacológica de fibrilação atrial com instabilidade hemodinâmica. A resposta correta a essa pergunta é: não existe dose de amiodarona que seja tratamento de primeira escolha nesta situação, porque a instabilidade hemodinâmica define a cardioversão elétrica imediata como conduta mandatória. A amiodarona é uma opção auxiliar em circunstâncias específicas após estabilização, mas nunca é o tratamento principal quando o paciente está instável. Ao apresentar a dose farmacológica em primeiro lugar e relegar a indicação de cardioversão elétrica a um comentário final introduzido por “Importante:”, o modelo produziu uma resposta que, lida rapidamente — como estudantes em situação de prova ou plantão leem — transmite a mensagem oposta à que o clínico precisaria. Esse é o risco que o material denomina de alucinação por omissão ou inversão de prioridade: o modelo não inventou nada, mas organizou a informação de uma maneira que distorce o que é prioritário e o que é secundário num contexto em que a ordem importa tanto quanto o conteúdo.

O Caso 3 representa uma categoria diferente de risco: a alucinação por especificidade inverossímil num detalhe periférico, combinada com conteúdo central correto. O esquema básico descrito — rifampicina, isoniazida, pirazinamida e etambutol por dois meses na fase intensiva, seguidos de rifampicina e isoniazida por quatro meses na fase de manutenção — está correto e corresponde ao esquema RHZE/RH atualmente preconizado pelo Programa Nacional de Controle da Tuberculose do Ministério da Saúde do Brasil. A indicação de que o etambutol foi incluído para reduzir o risco de resistência primária à isoniazida também está factualmente fundamentada.

Entretanto, a afirmação de que “em 2022, o Ministério da Saúde atualizou o Programa Nacional de Controle da Tuberculose para incluir o etambutol como quarto fármaco” é, com alta probabilidade, uma alucinação de data. A inclusão do etambutol no esquema básico brasileiro ocorreu em 2009, não em 2022. O modelo produz uma narrativa explicativa — uma “história” sobre por que o esquema tem quatro fármacos — que é plausível, bem-escrita, coerente com o que se sabe sobre resistência à isoniazida, mas que ancora o evento em uma data específica que está errada por mais de uma década. Isso demonstra a característica mais enganosa das alucinações de LLMs: o detalhe inventado é apresentado com o mesmo nível de confiança e com o mesmo estilo narrativo fluente dos detalhes corretos. Não há sinal de incerteza, não há qualificação, não há indicação de que o modelo está menos seguro sobre a data do que sobre o esquema farmacológico. O estudante que confiar nessa resposta sem verificação aprendeu algo errado de maneira convicta.

A análise integrada dos três casos permite derivar um princípio prático de uso de modelos de linguagem em contexto médico. Esse tipo de sistema é relativamente confiável para recuperar conceitos, definições e classificações que foram publicados de maneira consistente e repetida na literatura — informações como critérios diagnósticos de consenso, definições de escore, classificações de estadiamento. O risco aumenta substancialmente quando a pergunta envolve condutas clínicas onde a estrutura da resposta importa tanto quanto o conteúdo — situações de emergência, priorização de tratamentos, definição de primeira linha versus alternativa. E o risco é mais alto para qualquer informação específica que o modelo apresenta como fato datado ou numericamente preciso: datas de atualizações de protocolos, dosagens em situações específicas, proporções numéricas de eficácia, mudanças recentes em diretrizes. Nesses casos, a verificação em fonte primária não é opcional — é parte indispensável do processo de uso seguro do instrumento.

Dicas de resolução para o professor

O erro mais frequente nessa atividade é o estudante que analisa os três casos buscando identificar se cada resposta é “certa” ou “errada” no sentido binário, e que portanto classifica o Caso 2 como correto porque a cardioversão elétrica é de fato mencionada. O professor deve intervir nesse ponto com uma pergunta precisa: “se o estudante que fez a pergunta ler essa resposta em trinta segundos — como se lê em plantão — qual conduta ele vai tomar?” Essa pergunta desloca a análise do conteúdo técnico para o efeito pragmático da resposta, que é o que a atividade efetivamente pede.

O segundo ponto de dificuldade é a distinção entre os três tipos de risco representados pelos três casos. Respostas medianas identificam que há algo errado no Caso 2 e algo errado no Caso 3 sem nomear o mecanismo de cada falha. O professor deve insistir que os mecanismos são diferentes: no Caso 2, o erro é de priorização na estrutura da resposta, não de conteúdo factual; no Caso 3, o erro é um detalhe factual específico inserido numa narrativa explicativa correta. A distinção é importante porque as consequências clínicas são diferentes — inversão de prioridade em emergência é potencialmente mais perigosa de imediato do que uma data errada num protocolo estável — e os comportamentos de verificação necessários também são diferentes.

O terceiro ponto de atenção é a tendência de estudantes de alto desempenho a concluir que “não se deve usar LLMs em medicina”. Essa conclusão nega o que o Caso 1 demonstra — que há usos relativamente seguros — e colapsa toda a análise numa posição binária que o material não sustenta. O professor deve provocar: “então o Caso 1 deveria também ser descartado? Por quê não? O que diferencia o Caso 1 dos outros dois do ponto de vista do risco?” A resposta a essa pergunta é a síntese que a atividade espera.

O que distingue uma resposta mediana de uma excelente nessa atividade é a precisão no diagnóstico do mecanismo de falha em cada caso. Uma resposta mediana diz “o LLM pode alucinar”. Uma resposta excelente diz por que o risco de alucinação é diferente em cada tipo de pergunta — e como o tipo de informação solicitada, a frequência com que essa informação aparece nos dados de treinamento e a estrutura esperada da resposta interagem para produzir riscos distintos.

Como explicar a resolução aos estudantes

O professor pode abrir a discussão com uma pergunta que torna o problema imediatamente concreto: “quem aqui já perguntou alguma coisa ao ChatGPT ou a algum assistente de IA e usou a resposta sem verificar?” A maioria levantará a mão, e isso cria o contexto certo — não de culpa, mas de reconhecimento de que o comportamento é universal e de que o que está em discussão é como fazê-lo com mais inteligência.

Para o Caso 1, o professor pode confirmar a resposta do LLM — “alguém verificou os critérios Sepsis-3 antes de chegar aqui? Quem verificou? Os dados batem?” — e usar o momento para perguntar por que esse caso funcionou. A explicação mais intuitiva para os estudantes é a de que o Sepsis-3 é uma definição publicada que aparece em toda parte, e que o modelo aprendeu a associar esses termos de maneira consistente. O professor pode reforçar: “o que aconteceria se a pergunta fosse sobre um consenso de 2024, publicado seis meses atrás?” Isso introduz o conceito de data de corte de treinamento como limite de confiabilidade.

Para o Caso 2, o professor pode fazer a simulação do plantão. Pede a um estudante que leia a resposta em voz alta em trinta segundos — o tempo que um médico cansado no final de um plantão de doze horas dedicaria — e pergunta à turma: “qual conduta esse estudante tomou?” Se a leitura rápida capturou a dose de amiodarona e não o comentário final sobre cardioversão elétrica, o ponto se faz sozinho. O professor pode então desenvolver a análise: “o modelo não errou. Mas a ordem em que organizou a resposta criou um risco real. Isso é um problema do modelo, da pergunta, ou de como usamos modelos?”

Para o Caso 3, uma estratégia eficaz é pedir a um estudante que verifique a data da inclusão do etambutol no esquema básico brasileiro em uma fonte primária — o manual de tuberculose do Ministério da Saúde, por exemplo — durante a própria aula. O contraste entre a data que o estudante encontra (2009) e a data que o modelo afirmou (2022) é muito mais convincente do que qualquer explicação verbal. O professor pode então perguntar: “como você saberia, antes de verificar, que esse detalhe específico era o detalhe errado na resposta?”

A síntese que o professor deve garantir ao final da discussão é que os três casos ilustram uma hierarquia de risco baseada no tipo de informação — não no uso de LLMs em si. Definições de consenso amplamente publicadas: risco baixo, desde que o material não seja muito recente. Condutas de emergência com priorização de tratamentos: risco médio a alto, porque a estrutura da resposta pode distorcer a prioridade clínica. Datas, dosagens específicas, atualizações recentes de protocolos: risco alto, verificação obrigatória. Essa hierarquia é operacional — os estudantes podem levá-la para seu comportamento cotidiano de uso de ferramentas de linguagem.

Atividade 2 — Resolução

Resolução modelo

A análise deste sistema de estratificação de risco cardiovascular exige que dois instrumentos analíticos distintos sejam aplicados em paralelo, sem que um substitua o outro, porque cada um ilumina uma dimensão que o outro não alcança plenamente. O framework de cinco perguntas avalia a tecnologia como produto inserido num ecossistema de saúde — quem ela serve, a que custo real e com quais efeitos sobre a distribuição de poder no sistema. O framework de sete perguntas avalia a qualidade da evidência que sustenta as afirmações de desempenho — se o que a empresa diz que o sistema faz é sustentado pelos dados que ela apresenta. A integração das duas análises é o que permite ao professor — e ao estudante — chegar a uma recomendação fundamentada que vai além do entusiasmo ou da rejeição reflexivos.

Aplicando o framework de cinco perguntas: o sistema resolve um problema real e clinicamente relevante. A estratificação de risco cardiovascular na atenção primária é uma tarefa de alto valor — identificar pacientes com risco elevado em dez anos para eventos maiores, antes que o evento ocorra, é a base da prevenção primária eficaz. Esse ponto deve ser reconhecido explicitamente antes de qualquer análise crítica, porque é o que torna a análise honesta: o problema existe, é importante, e a proposta de solução não é arbitrária.

A segunda pergunta — para quem — é onde começam as limitações mais sérias. O sistema foi validado em 85.000 pacientes de doze unidades básicas de saúde de quatro cidades do estado de São Paulo. São Paulo é o estado mais rico do Brasil, com o maior PIrus de desenvolvimento humano médio, com infraestrutura de atenção primária historicamente mais robusta do que a maior parte do país, e com uma composição étnico-racial e socioeconômica que é substancialmente diferente da população atendida em UBS do Norte, Nordeste ou interior do Centro-Oeste. Isso não invalida a validação, mas restringe seu escopo. Um modelo de predição de risco cardiovascular aprende a partir dos padrões de dados de uma população específica — as interações entre pressão arterial, colesterol, tabagismo, glicemia e eventos cardiovasculares que existem nessa população. Se a prevalência de cada fator de risco, a frequência de suas combinações e a magnitude do risco associado a cada combinação são diferentes em outra população, o modelo pode estar mal calibrado para ela. Dataset shift não é apenas um conceito técnico abstrato: é a consequência real de usar um modelo fora do contexto em que foi treinado.

O custo de R$4,50 por paciente por mês parece baixo quando citado isoladamente. Mas uma UBS com quinhentos pacientes ativos no prontuário que sejam candidatos a estratificação de risco cardiovascular — não é uma estimativa irreal para serviços de atenção primária urbanos — representa R$2.250 mensais ou R$27.000 anuais. Em estados com orçamentos de atenção primária altamente pressionados, essa é uma despesa recorrente significativa. Além do custo financeiro direto, há um custo de privacidade que a descrição do sistema torna relevante: os dados de prontuário eletrônico dos pacientes — incluindo pressão arterial, colesterol, glicemia, medicamentos — são enviados ao servidor da empresa para processamento em tempo real. Isso significa que dados de saúde de pacientes do SUS estão sendo processados por uma empresa privada sob um modelo SaaS, o que levanta questões específicas sobre a Lei Geral de Proteção de Dados que precisam ser formalizadas em contrato antes de qualquer adoção.

A evidência apresentada — AUC-ROC de 0,78 contra 0,71 do Framingham convencional e 0,73 do Escore de Risco Global da Diretriz Brasileira — tem uma limitação metodológica que a empresa não destaca mas que é determinante para a interpretação dos resultados: os três modelos foram comparados na mesma coorte de treinamento. Um modelo treinado e testado em dados de São Paulo inevitavelmente apresentará desempenho melhor em dados de São Paulo do que um modelo desenvolvido décadas antes em uma coorte americana — o Framingham — ou um escore baseado em fatores de risco gerais sem adaptação local. Essa comparação não demonstra que o sistema de IA é genuinamente superior; demonstra que ele foi ajustado para o contexto em que foi testado. Para afirmar superioridade real, seria necessária uma comparação em uma coorte de validação externa — preferencialmente em diferentes regiões do Brasil — que o estudo não realizou.

Há também uma ausência de dados sobre efetividade que é, do ponto de vista da decisão de adoção, a mais importante de todas as lacunas: o sistema tem AUC-ROC superior ao Framingham na mesma coorte, mas não há dados demonstrando que médicos que usam o sistema tomam decisões preventivas melhores, que pacientes estratificados pelo sistema têm taxas menores de infarto e AVC, ou que o investimento produz desfechos melhores do que os produzidos pelos escores tradicionais. Acurácia diagnóstica não é efetividade clínica, e essa distinção é central no framework de avaliação de tecnologias médicas.

A quinta pergunta — quem ganha e quem perde — revela uma assimetria importante. Os médicos de família que trabalham com atenção primária ganham uma ferramenta de apoio à decisão que pode estruturar a conversa sobre risco cardiovascular com o paciente. A empresa ganha um contrato recorrente de SaaS — um modelo de negócio vantajoso, porque a receita é previsível e crescente sem custo marginal significativo. A UBS e o SUS ganhariam se o sistema reduzisse efetivamente a incidência de eventos cardiovasculares — mas essa evidência não existe. Pacientes em populações diferentes das que treinaram o modelo podem ser prejudicados por uma estratificação de risco mal calibrada: um paciente do Maranhão classificado como baixo risco por um modelo treinado em São Paulo pode ter risco real muito maior do que a classificação indica, levando à não prescrição de medidas preventivas indicadas.

Aplicando o framework de sete perguntas: a tarefa clínica está bem definida — calcular o risco de evento cardiovascular maior em dez anos — o que é um ponto forte, porque especificidade na definição da tarefa é o primeiro requisito para um estudo de IA confiável. Os dados de treinamento, porém, têm as limitações geográficas e de diversidade já descritas: 85.000 pacientes de quatro cidades do estado de São Paulo não constituem uma amostra representativa da diversidade brasileira. A composição étnico-racial da coorte não está descrita nos elementos apresentados — e essa ausência de informação sobre diversidade da amostra é ela própria um sinal de alerta.

O grupo de comparação — Framingham e Diretriz Brasileira — é honesto em incluir dois comparadores. Mas a validade da comparação depende de que os três modelos sejam testados em uma coorte externa, não na mesma coorte usada para treinar o modelo de IA. A ausência dessa validação externa torna a comparação metodologicamente fraca. A métrica de AUC-ROC de 0,78 mede discriminação — a capacidade de separar quem terá evento de quem não terá — mas não mede calibração, que é a capacidade de acertar o valor absoluto de risco atribuído. Um modelo com boa discriminação pode sistematicamente subestimar o risco em determinados subgrupos, o que seria clinicamente perigoso. Não há análise por subgrupo de raça, sexo ou faixa etária nos dados apresentados. A validação externa é declaradamente ausente. O uso em condições reais — com médicos reais, em tempo de consulta real, com impacto em desfechos clínicos mensurados — não foi estudado.

A questão regulatória merece análise específica. A empresa afirma que o sistema não se enquadra como Software como Dispositivo Médico e que portanto não está sujeito à RDC 657/2022 da ANVISA. Essa afirmação merece questionamento técnico rigoroso. A RDC 657/2022 define SaMD como software destinado a ser usado para uma ou mais finalidades médicas sem fazer parte integrante de um dispositivo médico físico. Um sistema que calcula, a partir de dados clínicos estruturados, o risco de evento cardiovascular maior em dez anos e exibe esse resultado ao médico como apoio à decisão terapêutica — iniciar estatina, intensificar anti-hipertensivo, recomendar mudança de estilo de vida — atende funcionalmente à definição de SaMD. A alegação de que é “ferramenta de apoio à decisão sem função diagnóstica autônoma” é uma interpretação da empresa, não uma determinação regulatória formal. Adotar o sistema sem aprovação regulatória expõe a instituição a um risco institucional e jurídico que deve ser considerado na decisão de adoção.

A recomendação para uma UBS do interior do Maranhão é, com base em ambos os frameworks, contrária à adoção sem validação local. O modelo foi treinado e validado exclusivamente em populações de São Paulo, que diferem do perfil epidemiológico, étnico-racial e socioeconômico do Maranhão em dimensões que são diretamente relevantes para a predição de risco cardiovascular — prevalência de hipertensão, diabetes, perfil lipídico, acesso histórico a cuidados preventivos. Sem evidência de calibração adequada nessa população, adotar o sistema significa usar uma ferramenta cuja acurácia real para os pacientes atendidos é desconhecida. O status regulatório incerto é um risco adicional de natureza institucional. O custo de R$4,50 por paciente por mês, embora modesto na apresentação da empresa, é um custo recorrente em um contexto de recursos altamente limitados. A decisão de não adotar, neste caso, não é tecnofobia nem conservadorismo: é exigência de que a evidência sustente o contexto de uso antes da adoção — que é exatamente o que os dois frameworks ensinam.

Dicas de resolução para o professor

O erro mais frequente nessa atividade é o estudante que interpreta os dois frameworks como equivalentes e aplica um deles de maneira completa e o outro de maneira superficial, presumindo que as análises se repetem. O professor deve reforçar que os dois frameworks não se substituem: o framework de cinco perguntas avalia a tecnologia como produto numa cadeia econômica e social; o framework de sete perguntas avalia a evidência científica que sustenta as afirmações. O sistema pode ter boa evidência de acurácia e ainda assim ser uma má decisão de adoção por razões econômicas ou de equidade — e vice-versa. A análise integrada exige que as conclusões de cada framework sejam articuladas explicitamente na síntese final.

O segundo erro frequente é a aceitação da comparação com Framingham como evidência de superioridade. Muitos estudantes leem “AUC-ROC 0,78 versus 0,71” e concluem que o sistema de IA é 10% melhor que o Framingham. O professor deve perguntar: “em qual amostra os três modelos foram comparados? Se um deles foi treinado nessa amostra e os outros dois não, o que isso significa para a comparação?” A resposta a essa pergunta — que comparar um modelo no seu próprio conjunto de dados com um modelo desenvolvido fora dele favorece o primeiro — é o insight metodológico central que a atividade pede.

O terceiro ponto de atenção é a questão regulatória. Muitos estudantes ignoram completamente o trecho sobre ANVISA e RDC 657/2022, por considerá-lo um detalhe jurídico fora do escopo do exercício. O professor deve insistir que a decisão de adoção de um dispositivo médico digital sem aprovação regulatória é uma decisão com consequências institucionais reais — responsabilidade civil, responsabilidade do médico que usa o sistema, responsabilidade do gestor que aprovou a adoção — e que esse risco deve aparecer explicitamente na análise.

O que distingue uma resposta mediana de uma excelente nessa atividade é a síntese final. Uma resposta mediana conclui “não recomendo porque o estudo foi feito em São Paulo”. Uma resposta excelente articula por que a ausência de validação externa em populações diversas, combinada com a ausência de dados de efetividade clínica e o status regulatório incerto, produz um risco de adoção que os benefícios potenciais não justificam no contexto específico de uma UBS do Maranhão — e identifica o que precisaria ser demonstrado para que a recomendação mudasse.

Como explicar a resolução aos estudantes

Uma boa abertura para essa atividade é uma pergunta que simula a situação de gestão real: “imaginem que vocês são secretários municipais de saúde de um município do interior do Maranhão. Um vendedor apresenta esse sistema para vocês e diz que o estudo demonstra que ele é melhor que o Framingham. Vocês assinariam o contrato hoje?” A maioria dos estudantes vai hesitar, e o professor pode explorar a hesitação: “o que vocês precisariam saber antes de assinar?”

Para introduzir a limitação da comparação no mesmo conjunto de dados, o professor pode usar uma analogia esportiva acessível: “imaginem que um time de futebol paulista joga um torneio no estado de São Paulo, aprende tudo sobre os adversários locais ao longo da temporada, e depois é comparado com times de outros estados jogando no mesmo campeonato paulista. Qual time vai ter vantagem?” Os estudantes reconhecem imediatamente a vantagem de adaptação ao contexto local, e o professor pode então transitar: “o modelo de IA é exatamente o time paulista nessa analogia. O Framingham é o time de fora.”

Para a questão da calibração versus discriminação, o professor pode introduzir um exemplo clínico concreto: “um modelo que diz que todos os pacientes têm risco de 15% pode ter uma AUC-ROC razoável se de fato 15% desenvolvem eventos — mas ele não serve para nada clinicamente, porque diz a mesma coisa para todo mundo. Já um modelo com boa discriminação mas má calibração pode dizer que um paciente tem risco de 5% quando o risco real é de 18% — porque esse paciente faz parte de um subgrupo que o modelo nunca aprendeu a reconhecer. Isso é dataset shift na prática.”

Para a análise de quem ganha e quem perde, o professor deve garantir que a empresa apareça explicitamente como parte interessada na análise. Uma estratégia eficaz é perguntar: “quem tem incentivo financeiro para que esse sistema seja adotado em todas as UBS do Brasil?” A resposta — a empresa, que recebe R$4,50 por paciente por mês por todo o tempo que o contrato durar — contextualiza a afirmação de desempenho de maneira que transforma a análise de ingênua em crítica.

Por fim, o professor deve garantir que a recomendação final não seja lida como rejeição da tecnologia em si, mas como exigência de evidência adequada ao contexto de uso. A pergunta que estrutura essa distinção é: “o que precisaria existir para que vocês recomendassem essa ferramenta para o Maranhão?” Estudantes que conseguem responder a essa pergunta com especificidade — validação em coorte nordestina, análise por subgrupo racial, dados de efetividade em desfechos clínicos, regularização junto à ANVISA — demonstraram que compreenderam a análise no nível exigido.

Atividade 3 — Resolução

Resolução modelo

O componente de inteligência artificial descrito nesta atividade — um sistema que analisa séries temporais de dados fisiológicos coletados diariamente por pacientes com insuficiência cardíaca e gera alertas para o cardiologista quando identifica padrões de deterioração precoce — não é um exercício acadêmico hipotético. Sistemas com essa arquitetura já existem em diferentes estágios de desenvolvimento e validação na literatura internacional. A análise técnica e ética que esta atividade solicita é precisamente a análise que um estudante de medicina precisará fazer, no futuro, como clínico que adota ou rejeita uma ferramenta, como pesquisador que a desenvolve ou como gestor que decide sobre sua implantação.

Dimensão I — Paradigma de aprendizado

O paradigma de aprendizado supervisionado é o mais adequado para o objetivo descrito. A justificativa não é apenas técnica, mas clínica: o objetivo do sistema é identificar, em séries temporais de dados fisiológicos individuais, padrões que precedem eventos específicos e mensuráveis — internações por descompensação de insuficiência cardíaca. Esse tipo de tarefa tem uma estrutura que se encaixa diretamente na definição de aprendizado supervisionado: há uma saída esperada bem definida (internação ou não-internação dentro de uma janela temporal de sete a quatorze dias), e existe uma fonte objetiva de rótulos — os registros de internação hospitalar, que podem ser ligados ao histórico de dados do aplicativo através do número de identificação do paciente.

O aprendizado não supervisionado poderia, em princípio, identificar padrões recorrentes nas séries temporais de dados — grupos de pacientes com padrões similares de variação de peso, pressão arterial e dispneia. Essa seria uma aplicação útil como etapa exploratória de análise dos dados ou como ferramenta para identificar subtipos clínicos de descompensação. Mas ela não geraria diretamente o alerta de deterioração precoce, que exige que o sistema saiba distinguir padrões que precedem internação de padrões que não precedem. Sem rótulos, o modelo não tem como aprender essa distinção.

O aprendizado por reforço é inadequado neste contexto por razões que vão além da preferência técnica. O aprendizado por reforço aprende através de iterações de tentativa, erro e recompensa — o agente toma uma ação, observa a consequência e ajusta seu comportamento para maximizar recompensas futuras. Em um sistema médico que monitora pacientes com insuficiência cardíaca, os “erros” durante o processo de aprendizado são fisicamente perigosos para os pacientes envolvidos. Um modelo que ainda está aprendendo poderia sistematicamente deixar de emitir alertas em situações de deterioração real enquanto explora diferentes estratégias de decisão. Além disso, o ciclo de feedback no aprendizado por reforço precisa ser rápido para que o aprendizado seja eficiente — e em insuficiência cardíaca, o desfecho que dá o sinal de recompensa ou punição ao agente pode demorar dias ou semanas para se manifestar, tornando o aprendizado lento e instável. Pela combinação de risco para o paciente durante o aprendizado e pela lentidão do ciclo de feedback, o aprendizado por reforço não é apropriado para a tarefa descrita.

Dimensão II — Dados de treinamento

Para treinar um modelo supervisionado com o objetivo descrito, são necessários dados de séries temporais que incluam, para cada paciente, registros longitudinais de peso corporal, pressão arterial sistólica e diastólica, frequência cardíaca, nível de dispneia em escala numérica e informação de aderência ao uso de diuréticos — com granularidade diária, ao longo de um período suficientemente longo para capturar múltiplos episódios de estabilidade e de deterioração. O rótulo de treinamento seria a ocorrência ou não de internação por descompensação de insuficiência cardíaca dentro de uma janela pré-definida — sete ou quatorze dias é uma escolha comum na literatura — após cada observação. A janela de sete dias captura deteriorações agudas; a de quatorze dias permite identificar padrões mais graduais de descompensação.

A fonte dos rótulos é uma questão de design importante. O registro de internação hospitalar é uma fonte objetiva e verificável, que independe do julgamento subjetivo de nenhum clínico individual. Isso é uma vantagem metodológica. A limitação, porém, é que esse critério captura apenas deteriorações que resultaram em internação — pacientes que foram descompensando gradualmente, foram atendidos em pronto-socorro e estabilizados sem internação formal não seriam capturados como eventos positivos, introduzindo viés no rótulo.

Os riscos de viés nos dados de treinamento para este sistema específico são múltiplos e clinicamente relevantes. O primeiro é o viés de seleção por acesso tecnológico: pacientes que usam o aplicativo diariamente são, por definição, pacientes que têm smartphone ou tablet, têm familiaridade suficiente com tecnologia para usar o aplicativo de maneira consistente, têm motivação para registrar dados diariamente — uma população que tende a ser mais jovem, mais escolarizada, com maior suporte familiar e, provavelmente, com melhor adesão geral ao tratamento. Pacientes idosos, com baixa escolaridade, com multimorbidade complexa, que são precisamente os pacientes com maior risco de descompensação de insuficiência cardíaca, são sub-representados nos dados de treinamento. O modelo aprenderá padrões de deterioração precoce a partir dos pacientes que registram dados de maneira consistente — e poderá ter desempenho substancialmente pior para os pacientes de maior risco que registram dados de maneira esporádica ou que abandonam o aplicativo nas semanas anteriores à internação.

O segundo viés é socioeconômico e de acesso ao sistema de saúde: pacientes com maior renda tendem a ir ao pronto-socorro ou ao ambulatório mais cedo quando percebem deterioração, o que aumenta a probabilidade de que sua deterioração seja detectada, documentada e rotulada. Pacientes com menor acesso podem aguardar mais tempo antes de buscar atendimento — ou podem ser internados diretamente por urgência num estado já avançado de descompensação, sem o registro dos sinais precoces que o modelo precisaria aprender a reconhecer. A população que gerou os dados de treinamento é, assim, uma população que chegou ao sistema de saúde — e não necessariamente a população que mais se beneficiaria do sistema de alerta precoce.

Dimensão III — Métricas de avaliação

A AUC-ROC isoladamente é insuficiente para avaliar um sistema de alerta clínico por razões que vão além do rigor metodológico: ela é insuficiente porque não responde à pergunta clinicamente relevante, que não é “o modelo discrimina bem os casos dos não-casos?” mas sim “para o limiar de decisão específico em que operaremos o sistema, quantas deteriorações serão detectadas e quantos alarmes falsos serão gerados?”

A AUC-ROC mede o desempenho do modelo em todos os limiares possíveis de decisão simultaneamente, produzindo uma curva que sumariza essa performance geral. É uma métrica útil para comparar modelos durante o desenvolvimento. Mas quando o modelo vai para produção, ele opera em um único limiar — e o que importa é o desempenho naquele limiar específico. Sensibilidade, especificidade, valor preditivo positivo e valor preditivo negativo no limiar de operação são as métricas clinicamente relevantes.

Em insuficiência cardíaca, a análise do custo relativo de falsos positivos e falsos negativos é direta. Um falso negativo representa um paciente em deterioração real que o sistema não alertou — o cardiologista não foi notificado, o paciente não foi contatado, a deterioração progrediu até atingir um nível que exigiu internação de emergência ou resultou em morte. O custo do falso negativo, em termos clínicos, é a internação que poderia ter sido evitada, o sofrimento do paciente durante a deterioração não detectada, e potencialmente a morte. Um falso positivo representa um alerta de deterioração para um paciente que está, na verdade, estável — o cardiologista recebe uma notificação, contacta o paciente ou programa uma consulta, e descobre que não há deterioração real. O custo do falso positivo, na maior parte dos casos, é uma consulta desnecessária, uma medição de peso adicional, um ajuste preventivo de diurético que talvez não fosse necessário.

Esse desequilíbrio de custo — falso negativo muito mais grave do que falso positivo — implica que o limiar de decisão do modelo deve ser calibrado para maximizar sensibilidade, mesmo que isso resulte em especificidade mais baixa e, portanto, em uma taxa de falsos positivos mais alta. Em termos operacionais, é melhor alertar o cardiologista dez vezes para pacientes estáveis do que deixar de alertar uma vez para um paciente em deterioração real.

Há, porém, uma limitação prática que precisa ser considerada explicitamente: a fadiga de alarme. Estudos em contextos de unidade de terapia intensiva demonstram que quando sistemas de alerta geram um volume alto de alarmes falsos, os clínicos passam a ignorar os alarmes — incluindo os verdadeiros positivos. Em ambulatório de cardiologia com alta carga de pacientes monitorados pelo aplicativo, uma taxa muito alta de falsos positivos pode não apenas criar trabalho desnecessário, mas paradoxalmente reduzir a segurança clínica ao tornar o cardiologista menos responsivo aos alertas. O limiar ótimo não é simplesmente o mais sensível possível — é o mais sensível possível que ainda mantenha a taxa de falsos positivos abaixo do nível que gera fadiga de alarme clínica. Determinar esse limiar empiricamente, com os usuários reais do sistema em condições reais de trabalho, é uma etapa de validação que nenhum teste em conjunto de dados pode substituir.

Dimensão IV — Salvaguardas éticas

A primeira salvaguarda é a validação por subgrupo antes da implantação clínica ampla. O sistema não deve ser implantado até que seu desempenho tenha sido testado separadamente em subgrupos definidos por faixa etária, sexo, raça e condição socioeconômica. A insuficiência cardíaca tem manifestações clínicas e perfis de progressão distintos em diferentes populações: mulheres com insuficiência cardíaca com fração de ejeção preservada têm padrões de descompensação diferentes de homens com fração de ejeção reduzida; pacientes negros têm maior prevalência de insuficiência cardíaca hipertensiva e podem responder diferentemente a determinados tratamentos, o que afeta os padrões de dados que o modelo aprendeu a associar com deterioração. Se o desempenho do modelo for substancialmente pior em algum subgrupo — o que é tecnicamente possível e clinicamente preocupante — essa informação deve ser documentada explicitamente e comunicada aos clínicos que usam o sistema.

A segunda salvaguarda é a explicabilidade mínima dos alertas gerados. O sistema não deve emitir um alerta que diga apenas “alto risco de descompensação” sem informar quais variáveis dispararam o alerta. O cardiologista que recebe o alerta precisa saber se o que o sistema detectou foi um ganho de peso de 2 kg nos últimos três dias, uma elevação progressiva da pressão arterial sistólica, uma piora da dispneia autorrelatada, ou uma combinação de fatores. Essa informação tem dois propósitos simultâneos: permite que o cardiologista avalie clinicamente se o alerta faz sentido — exercendo o papel de supervisão humana que o material desta disciplina identifica como indispensável quando IA contribui para decisões clínicas — e permite que o sistema seja auditado e corrigido quando seus alertas se revelarem sistematicamente equivocados por razões que só se tornam visíveis ao examinar o que o modelo priorizou em cada caso.

A terceira salvaguarda é a transparência documentada sobre os limites de validação do sistema. O material clínico que acompanha o sistema deve declarar explicitamente em que populações o modelo foi validado, em que período os dados de treinamento foram coletados, quais são as taxas de sensibilidade e especificidade no limiar de operação para cada subgrupo testado, e para quais populações o desempenho é incerto porque o subgrupo não estava representado nos dados de treinamento. Essa documentação não é um detalhe técnico periférico — é a base para que o cardiologista use o sistema com calibração de confiança adequada. Um clínico que usa um sistema de alerta sem saber seus limites de validade não está exercendo supervisão clínica: está delegando a decisão para um algoritmo sem compreender o que o algoritmo sabe e o que ele não sabe. A transparência sobre limitações é, portanto, uma pré-condição da responsabilidade clínica no uso de sistemas de IA.

Dicas de resolução para o professor

O erro mais frequente na primeira dimensão é a justificativa incompleta para a escolha do paradigma supervisionado. Muitos estudantes escolhem corretamente o aprendizado supervisionado, mas justificam dizendo apenas que “há rótulos disponíveis”. O professor deve exigir mais: “mas de onde vêm os rótulos? Quem os produz? Existe viés na forma como são gerados?” A resposta completa inclui a identificação dos registros de internação como fonte objetiva, a discussão de suas limitações — descompensações atendidas em pronto-socorro sem internação formal não são capturadas — e a implicação disso para os dados de treinamento.

Para o aprendizado por reforço, o erro mais frequente é a justificativa técnica sem a dimensão ética: estudantes explicam que o ciclo de feedback é lento mas não mencionam que os erros durante o aprendizado têm consequências físicas reais para pacientes reais. O professor deve insistir nesse ponto: “imaginem que o modelo está ‘aprendendo’ e decide, por alguma razão de exploração, não emitir alertas durante duas semanas. O que acontece com os pacientes em deterioração nesse período?”

Na segunda dimensão, o viés por acesso tecnológico é frequentemente identificado pelos estudantes, mas o viés socioeconômico de acesso ao sistema de saúde raramente o é. O professor pode introduzi-lo com uma pergunta concreta: “o paciente que vive em uma área com baixo acesso a serviços de saúde, que aguarda semanas antes de procurar atendimento quando sente piora, e que quando vai é internado direto em estágio avançado — esse paciente está bem representado nos dados de treinamento? O que isso significa para o desempenho do modelo nessa população?”

Na terceira dimensão, o conceito de fadiga de alarme é o que mais frequentemente aparece nas melhores respostas e mais frequentemente está ausente nas respostas medianas. O professor deve destacá-lo como o exemplo perfeito de como uma métrica que parece boa — alta sensibilidade — pode produzir consequências clínicas ruins em contexto real. Perguntar “qual é a utilidade de um sistema de alerta que emite cem alertas por dia para um cardiologista que atende quatrocentos pacientes?” torna o conceito imediatamente intuitivo.

Na quarta dimensão, o erro mais comum é a enumeração de salvaguardas genéricas — “garantir privacidade dos dados”, “obter consentimento informado” — sem especificidade operacional. O professor deve exigir que cada salvaguarda seja descrita de maneira que permita verificar se está implementada. “Validação por subgrupo” sem especificar quais subgrupos e qual critério de performance aceitável não é uma salvaguarda — é uma intenção. O mesmo se aplica à explicabilidade: “o sistema deve ser explicável” é diferente de “o alerta deve indicar quais variáveis, com qual magnitude de desvio em relação à linha de base individual, dispararam a classificação de risco”.

O que distingue uma resposta excelente nessa atividade é a integração entre as quatro dimensões. A escolha do paradigma supervisionado deve informar a discussão de dados de treinamento — porque supervisionado exige rótulos, e os rótulos têm fontes com limitações específicas. Os dados de treinamento com viés de seleção devem informar a escolha de métricas — porque se o modelo foi treinado numa população específica, a validação precisa incluir subgrupos sub-representados. As métricas e o limiar de decisão devem informar as salvaguardas éticas — porque a decisão de priorizar sensibilidade cria uma taxa de falsos positivos que precisa ser monitorada explicitamente e que tem implicações para a fadiga de alarme. Respostas que tratam as quatro dimensões como perguntas independentes não alcançam o nível de integração que a atividade espera.

Como explicar a resolução aos estudantes

A abertura mais eficaz para essa atividade é conectá-la ao projeto de startup que os estudantes estão desenvolvendo em paralelo à disciplina. O professor pode perguntar: “algum grupo está pensando em usar algum componente de IA no seu projeto? O que o sistema aprenderia? Com quais dados? Como vocês saberiam se está funcionando?” Mesmo que nenhum grupo tenha pensado explicitamente nesses termos, a pergunta ativa o pensamento sobre o problema concreto antes de apresentar a resolução abstrata.

Para a escolha do paradigma, o professor pode usar o contraste entre os três paradigmas com perguntas sequenciais. Primeiro: “o sistema precisa saber o que é um padrão de deterioração precoce antes de poder alertar sobre ele, ou pode descobrir isso sozinho sem nenhum exemplo?” A resposta — precisa saber, porque precisa distinguir deterioração de variação normal — leva diretamente ao supervisionado. Segundo: “quem ensina ao sistema o que é deterioração precoce?” A resposta — os registros de internação como rótulos — introduz o conceito de fonte de rótulos. Terceiro: “o que aconteceria se deixássemos o sistema aprender tentando alertar e observando o resultado?” Isso introduz as limitações do aprendizado por reforço de maneira natural.

Para a discussão de dados de treinamento e viés, uma estratégia narrativa eficaz é construir o perfil do paciente que não vai aparecer nos dados. O professor pode pedir que os estudantes descrevam o paciente típico que usa o aplicativo diariamente por seis meses sem interrupção. Provavelmente será um homem ou mulher de cinquenta e poucos anos, com ensino médio ou superior, com smartphone recente, com suporte familiar, morando em área urbana com bom acesso a serviços. Em seguida, o professor pede que descrevam o paciente com maior risco de descompensação de insuficiência cardíaca no Brasil: provavelmente mais idoso, com maior carga de comorbidades, com menor acesso, com menor familiaridade tecnológica. A dissonância entre os dois perfis é o viés de seleção tornando-se visível.

Para a discussão de métricas, o professor pode usar o experimento de pensamento do falso negativo: “imaginem que vocês são o cardiologista responsável por um paciente de sessenta e oito anos com insuficiência cardíaca há dez anos. O aplicativo não enviou alerta nessa semana. Na sexta-feira, o paciente vai ao pronto-socorro em edema agudo de pulmão. Depois, vocês descobrem que nos dados do aplicativo o peso tinha aumentado 3 kg nos últimos cinco dias. O que aconteceu?” Tornar o falso negativo concreto — com nome, idade, consequência clínica — muda radicalmente a percepção sobre o custo relativo dos erros do modelo.

Para a fadiga de alarme, o professor pode usar o exemplo das unidades de terapia intensiva modernas, onde o volume de alarmes de monitores multiparamétricos é tão alto que os estudos mostram que enfermeiros chegam a ignorar até 90% dos alarmes — incluindo alertas genuinamente relevantes. A pergunta é simples: “se o sistema de insuficiência cardíaca enviar ao cardiologista cinquenta alertas por semana para uma lista de quatrocentos pacientes, e trinta e cinco deles forem falsos positivos, qual é o comportamento esperado do cardiologista na semana três?” A resposta é intuitiva e abre a discussão sobre o limiar ótimo de operação como uma questão de design do sistema, não apenas de desempenho estatístico do modelo.

Para a quarta dimensão, o professor pode simular uma situação de auditoria: “vocês estão analisando os alertas do mês anterior. Percebem que o sistema alertou para doze pacientes, dez eram verdadeiros positivos. Mas percebem também que os dois falsos positivos eram homens brancos de cinquenta anos, e que nenhum dos três pacientes negros acima de setenta anos que foram internados no mesmo período tinha recebido alerta. O que isso significa? O que vocês fazem?” Esse cenário torna concretas as salvaguardas de validação por subgrupo e de auditoria regular do desempenho diferenciado — e conecta a discussão técnica à dimensão ética de maneira que dificilmente pode ser ignorada.