Resoluções — Inteligência Artificial na Medicina (Turma A)

Este documento é de uso exclusivo do professor. Contém as resoluções modelo das três atividades da Turma A do Módulo 03, acompanhadas de orientações pedagógicas para condução da discussão em sala e de indicações dos erros mais frequentes observados em estudantes de medicina ao abordarem esses temas pela primeira vez.

Atividade 1 — Resolução

Resolução modelo

A classificação dos quatro sistemas exige que o estudante identifique, em cada descrição, a estrutura do processo de aprendizagem — e não a sofisticação técnica do sistema nem a área clínica em que ele atua. A classificação correta, portanto, deve ser extraída diretamente dos elementos que cada enunciado apresenta.

O Sistema 1, destinado à triagem de sepse em UTI, é um exemplo canônico de aprendizado supervisionado. O enunciado deixa explícito que o modelo foi treinado com 120.000 internações em que cada registro já possuía um rótulo definitivo atribuído pela equipe clínica: sepse confirmada (positivo) ou ausência de sepse (negativo). Há, portanto, pares de entrada e saída fornecidos ao algoritmo durante o treinamento, que é exatamente a estrutura que define o paradigma supervisionado. O modelo aprendeu a associar padrões de sinais vitais, exames e notas clínicas a um resultado já conhecido, de modo que pôde ajustar seus parâmetros internos para minimizar o erro de predição em relação àqueles rótulos. A saída em forma de escore contínuo (0 a 100) e a presença de um limiar de alarme (75) são características de implementação que não alteram a natureza do processo de aprendizagem.

O Sistema 2, que analisa perfis de expressão gênica para identificar subtipos moleculares de câncer de mama, pertence ao paradigma não supervisionado. A chave está na ausência de qualquer rótulo prévio durante o treinamento: o algoritmo recebe apenas as características de cada amostra e deve, por conta própria, encontrar estrutura nos dados — agrupando amostras com padrões de expressão semelhantes. Os patologistas só entram em cena depois, para interpretar os grupos já formados. Esse detalhe é fundamental: quando especialistas humanos interpretam grupos que um algoritmo formou sem orientação prévia, o processo foi não supervisionado, independentemente de quanto conhecimento humano seja empregado na etapa posterior de interpretação. O algoritmo não recebeu exemplos de “subtipo A” ou “subtipo B” — ele descobriu os agrupamentos por conta própria.

O Sistema 3, que sugere doses de insulina para um paciente específico com diabetes tipo 1, caracteriza o aprendizado por reforço. O enunciado descreve com precisão os elementos estruturais desse paradigma: o sistema testa ajustes de dose (ações), observa os efeitos glicêmicos resultantes (consequências no ambiente) e ajusta seu comportamento com base nesses efeitos. Não há rótulos pré-existentes, como no aprendizado supervisionado, nem busca de estrutura em dados sem retroalimentação, como no não supervisionado. Há um ciclo iterativo de decisão, observação do resultado e atualização da estratégia, que é o que define o aprendizado por reforço. O fato de o sistema aprender exclusivamente com os dados do paciente individual — sem utilizar dados de outros pacientes — reforça a natureza do processo: o ambiente de aprendizagem é o próprio histórico glicêmico do usuário.

O Sistema 4, que gera relatórios automáticos de radiografias de tórax, é também supervisionado, embora sua estrutura seja diferente do Sistema 1. Enquanto o Sistema 1 tem rótulos binários (sepse ou não), o Sistema 4 possui rótulos textuais: cada radiografia é acompanhada do laudo escrito pelo radiologista. O par (imagem, laudo) constitui o exemplo supervisionado. O modelo aprendeu a associar padrões visuais nas imagens a descrições textuais de achados clínicos. O volume de dados (890.000 radiografias de seis hospitais) e a natureza dos rótulos (texto contínuo em vez de categoria binária) são características que aumentam a complexidade do sistema, mas não alteram o paradigma: há supervisão humana na forma de rótulos explícitos fornecidos para cada entrada do conjunto de treinamento.

Quanto ao risco de falha por dataset shift, dois sistemas se destacam para uma análise aprofundada. O Sistema 1 foi treinado exclusivamente com dados do próprio hospital universitário ao longo de oito anos. Se esse sistema for exportado para um hospital de perfil diferente — por exemplo, um hospital geral de médio porte no interior do Nordeste, um hospital pediátrico ou uma unidade de menor complexidade — os dados que o modelo encontrará em produção podem ser estruturalmente distintos dos dados de treinamento. A prevalência de sepse pode ser diferente; o padrão de exames solicitados pode ser outro; os protocolos de documentação dos sinais vitais podem variar; a proporção de pacientes imunossuprimidos, oncológicos ou cirúrgicos pode ser completamente diferente. Em qualquer um desses cenários, o modelo estará sendo aplicado a uma população para a qual não foi desenvolvido, e seu limiar de alarme calibrado para 75 pode ter significados clínicos completamente distintos — gerando excesso de alarmes falsos em populações de baixo risco ou falhando silenciosamente em populações cujo padrão de sepse não foi representado no treinamento. O dataset shift, nesse contexto, pode se manifestar como uma sensibilidade dramaticamente reduzida, levando a atrasos no reconhecimento de sepse e potencial dano ao paciente.

O Sistema 4 apresenta um risco análogo, mas com uma dimensão geográfica e tecnológica adicional. O modelo foi treinado com quase 900.000 radiografias de seis hospitais americanos de alta complexidade. Esse dado de proveniência é relevante: a prevalência de determinadas doenças nos dados de treinamento é muito diferente da prevalência que o sistema encontrará em contextos brasileiros. Tuberculose pulmonar, por exemplo, é muito mais prevalente em populações brasileiras de baixa renda do que nos dados de hospitais terciários americanos. Sequelas pulmonares de doenças tropicais, parassitoses e padrões de acometimento pulmonar por doenças como paracoccidioidomicose podem estar completamente ausentes do conjunto de treinamento. Além disso, a resolução técnica dos equipamentos de imagem varia enormemente: uma radiografia obtida em unidade básica de saúde com equipamento portátil de menor potência tem características técnicas muito distintas das radiografias de hospitais universitários americanos com equipamentos de alta resolução. O modelo pode simplesmente não reconhecer os padrões visuais produzidos por esses equipamentos diferentes. A consequência clínica desse dataset shift é que o sistema pode produzir relatórios com alta taxa de achados falsos negativos justamente nas populações mais vulneráveis — aquelas que mais dependem de um suporte diagnóstico automático por falta de acesso a radiologistas especializados.

Dicas de resolução para o professor

O erro mais frequente nesta atividade é a confusão entre aprendizado supervisionado e aprendizado por reforço, particularmente no Sistema 3. Muitos estudantes identificam o Sistema 3 como supervisionado porque associam o conceito de “aprender” a receber exemplos corretos. O professor deve explorar a distinção estrutural: no aprendizado supervisionado, há um professor externo que fornece rótulos antes ou durante o treinamento; no aprendizado por reforço, não há rótulo — o sistema apenas recebe um sinal de recompensa ou penalidade depois de executar uma ação, e esse sinal não diz o que o sistema deveria ter feito, apenas se o resultado foi bom ou ruim. Perguntas provocadoras úteis: “Quem fornece a resposta correta ao sistema 3 antes de ele tomar a decisão de dose?” e “Como o sistema sabe que a dose sugerida foi boa ou ruim?”

Outro erro recorrente é classificar o Sistema 2 como supervisionado porque patologistas avaliam os grupos formados. O professor deve enfatizar que o que define o paradigma é o que acontece durante o treinamento do algoritmo, não o que os humanos fazem depois com os resultados. A pergunta correta é: “O algoritmo recebeu algum rótulo enquanto aprendia a formar os grupos?” A resposta, como o enunciado deixa claro, é não.

Na parte do dataset shift, a dificuldade mais comum é que os estudantes descrevem cenários genéricos de “contextos diferentes” sem especificar o mecanismo pelo qual a diferença de dados afeta o desempenho do modelo. O professor deve exigir que o estudante articule o seguinte raciocínio: (1) os dados de treinamento têm determinada distribuição; (2) os dados de produção têm uma distribuição diferente; (3) o modelo, que otimizou seus parâmetros para a distribuição de treinamento, não generalizará corretamente; (4) isso se manifesta como erro clínico de um tipo específico. A cadeia causal completa é o que demonstra compreensão real do conceito.

Perguntas provocadoras adicionais que o professor pode usar durante a discussão:

“Se o Sistema 1 fosse exportado para um hospital pediátrico e o escore de sepse fosse calibrado para adultos, o que aconteceria com os alarmes para crianças com infecções graves?”

“Por que um AUC-ROC alto obtido nos dados de teste de treinamento não garante desempenho equivalente quando o sistema é implantado num contexto diferente?”

“O enunciado diz que o Sistema 4 foi treinado com laudos escritos por radiologistas. O que acontece se o radiologista que escreveu o laudo no hospital de treinamento usava terminologia diferente do radiologista do hospital onde o sistema será implantado?”

Como explicar a resolução aos estudantes

O professor pode iniciar a discussão pedindo a um ou dois estudantes que apresentem suas classificações e as justificativas. A estratégia mais eficaz é não confirmar nem negar imediatamente, mas pedir à turma que avalie a justificativa apresentada: “O colega classificou esse sistema como supervisionado. Quem concorda? Quem discorda? Por quê?”

Para consolidar os três paradigmas, é útil usar uma analogia pedagógica que os estudantes de medicina já conhecem bem: o processo de aprendizagem clínica. No aprendizado supervisionado, o estudante vê um paciente e o preceptor diz imediatamente: “Este achado é pneumonia. Aquele é derrame pleural.” O estudante aprende com rótulos explícitos fornecidos por um professor. No aprendizado não supervisionado, o estudante lê centenas de prontuários sem qualquer orientação e começa a perceber que certos conjuntos de sintomas aparecem juntos com frequência — sem que ninguém tenha dito o que são. No aprendizado por reforço, o estudante propõe condutas, observa o que melhora ou piora no paciente, e vai ajustando seu raciocínio clínico ao longo do tempo — sem que ninguém tenha dito de antemão qual era a conduta correta.

Após consolidar as classificações, o professor deve guiar a transição para a discussão de dataset shift. Uma forma eficaz de fazer essa transição é perguntar: “Vocês já viram em medicina o fenômeno em que uma habilidade aprendida em um contexto não se transfere automaticamente para outro?” Os estudantes costumam lembrar de exemplos como um médico treinado em hospital terciário que tem dificuldade de adaptar sua prática a uma UBS com recursos limitados, ou a diferença de apresentação de doenças entre populações distintas. Esse reconhecimento intuitivo pode ser então formalizado: o dataset shift é exatamente esse fenômeno, mas operando sobre algoritmos em vez de sobre médicos.

O professor deve enfatizar, ao final da discussão, que dataset shift não é um defeito do modelo — é uma consequência inevitável da diferença entre o contexto de treinamento e o contexto de uso. O problema não é que o modelo foi mal desenvolvido; é que foi implantado sem que essa diferença fosse avaliada. Essa distinção tem implicações práticas importantes: a solução não é descartar modelos, mas validá-los adequadamente antes de implantá-los em novos contextos.

Atividade 2 — Resolução

Resolução modelo

A aplicação do framework de sete perguntas ao estudo sobre detecção de fibrilação atrial paroxística por PPG revela um conjunto de pontos fortes metodológicos reais e, simultaneamente, um conjunto de limitações que tornam a conclusão dos autores injustificada pelos dados apresentados.

A primeira pergunta — qual é a tarefa clínica — é respondida de forma satisfatória pelo estudo. A tarefa está bem definida: detectar fibrilação atrial paroxística em registros de fotopletismografia obtidos por smartwatch. A especificidade da tarefa é um ponto a favor do estudo: não se trata de um modelo genérico de “diagnóstico cardiológico”, mas de um sistema voltado a uma pergunta clínica específica (FA ou não FA) a partir de um tipo específico de dado (PPG de smartwatch). Isso facilita a interpretação das métricas e a avaliação da pertinência clínica.

A segunda pergunta — quais são os dados de treinamento — revela a limitação mais importante do estudo. O conjunto de treinamento foi composto por 2,3 milhões de registros de 180.000 participantes recrutados por um aplicativo de saúde. Esse modo de recrutamento introduz um viés de seleção significativo: participantes de aplicativos de saúde tendem a ser mais jovens, mais escolarizados, mais saudáveis e mais propensos a monitoramento preventivo do que a população geral com risco de FA, que tipicamente inclui idosos com múltiplas comorbidades. Além disso, e este é o ponto mais grave, os rótulos não foram atribuídos por cardiologistas humanos, mas por um algoritmo automatizado de leitura de ECG. Isso significa que o modelo aprendeu a imitar um algoritmo, não um especialista — e as limitações e erros sistemáticos do algoritmo de rotulação se propagam para o modelo. A ausência de qualquer descrição da composição demográfica (idade, sexo, raça, comorbidades) da população de treinamento impede qualquer avaliação de generalização. Um modelo treinado em jovens saudáveis pode ter um desempenho completamente diferente quando aplicado a idosos com FA e outras condições cardíacas superpostas.

A terceira pergunta — qual é o grupo de comparação — revela a afirmação mais insustentável do estudo. Os autores declaram que o modelo demonstra “desempenho comparável ao de cardiologistas experientes na detecção de FA por PPG”. Contudo, o estudo não apresenta qualquer dado sobre o desempenho de cardiologistas na mesma tarefa, com os mesmos dados. Não há análise de concordância com especialistas, não há estudo de comparação direta, não há sequer referência a estudos de comparação com metodologia equivalente. A afirmação de comparabilidade com especialistas humanos, sem dados que a sustentem, constitui uma extrapolação inaceitável dos resultados apresentados.

A quarta pergunta — quais são as métricas — revela resultados razoáveis em termos absolutos, mas com ausência de estratificação por subgrupo. Os valores de AUC-ROC de 0,94 e 0,92, com sensibilidade entre 86% e 89% e especificidade entre 91% e 93%, são métricas que indicam bom desempenho geral. No entanto, não há qualquer estratificação por faixa etária, sexo, tipo de smartwatch, presença de outras arritmias ou comorbidades. A limitação que os próprios autores declaram — que o modelo não foi avaliado em pacientes com outras arritmias que possam gerar sinais de PPG semelhantes ao da FA — é clinicamente relevante: flutter atrial, taquicardia supraventricular paroxística e ritmos ectópicos frequentes podem gerar padrões de irregularidade em PPG que o modelo pode confundir com FA. Em atenção primária, onde o sistema seria supostamente implantado, a prevalência dessas condições é considerável. A taxa de falsos positivos nesses subgrupos pode ser muito maior do que as métricas globais indicam.

A quinta pergunta — houve validação externa — revela uma validação parcial. Dois centros independentes foram utilizados para teste, o que é melhor do que validação apenas nos dados do próprio hospital de treinamento. Contudo, ambos os centros são brasileiros, de grandes cidades, e o texto não indica diversidade suficiente em termos de perfil de paciente, tipo de smartwatch ou sistema de saúde. Dois centros de cidades grandes não constituem uma validação suficientemente ampla para sustentar a afirmação de que o sistema pode ser utilizado em “serviços de saúde primários e secundários” de maneira geral. Uma validação robusta exigiria centros com diferentes perfis populacionais, diferentes equipamentos e, idealmente, diferentes países ou regiões epidemiológicas.

A sexta pergunta — o modelo foi testado em condições reais — revela que não. O estudo é um estudo de acurácia diagnóstica, não um estudo de efetividade clínica. Não há dados sobre o que acontece quando o sistema é utilizado em fluxo de atendimento real: ele aumenta a taxa de diagnóstico de FA? Reduz a incidência de AVC por FA não diagnosticada? Gera fadiga de alarme nos médicos que recebem os alertas? Aumenta o número de consultas desnecessárias por falsos positivos? A acurácia diagnóstica elevada é uma condição necessária, mas não suficiente, para sustentar a conclusão de que um sistema “pode ser utilizado como ferramenta de triagem de primeira linha”. A efetividade em condições reais precisa ser demonstrada de forma independente.

A sétima pergunta — quais são os conflitos de interesse — é respondida pelo próprio estudo com uma declaração preocupante: o fabricante do smartwatch financiou a pesquisa e três dos seis autores são consultores remunerados da mesma empresa. A presença de conflito de interesse não invalida os dados por si só, mas exige um escrutínio mais rigoroso de todas as escolhas metodológicas — do recrutamento dos participantes ao desenho dos testes de validação. Estudos patrocinados pela indústria têm historicamente probabilidade maior de apresentar resultados favoráveis ao produto. A combinação de conflito financeiro com afirmações não fundamentadas (como a comparação com cardiologistas) deve aumentar o ceticismo do leitor.

A conclusão dos autores — de que o sistema “pode ser utilizado como ferramenta de triagem de primeira linha em serviços de saúde primários e secundários” — não é sustentada pelos dados apresentados por, pelo menos, três razões independentes. Em primeiro lugar, a afirmação de comparabilidade com cardiologistas não tem base nos dados do estudo. Em segundo lugar, não há dados de efetividade em condições reais de atendimento. Em terceiro lugar, a limitação declarada pelos próprios autores — desempenho desconhecido na presença de outras arritmias similares à FA — é clinicamente relevante em exatamente o contexto em que o sistema seria implantado, pois em atenção primária a prevalência de arritmias diversas é mais alta e o médico que recebe o alarme tem menor especialização para avaliar criticamente um resultado falso positivo.

Dicas de resolução para o professor

O erro mais frequente nesta atividade é a aceitação acrítica das métricas absolutas. Muitos estudantes escrevem que “AUC-ROC de 0,94 é uma ótima métrica” e concluem que o sistema é confiável, sem perceber que a métrica global pode mascarar desempenho muito inferior em subgrupos específicos — que são exatamente os pacientes que o sistema encontrará com mais frequência em atenção primária. O professor deve provocar a reflexão sobre o que AUC-ROC de 0,94 significa em termos absolutos: para 100 pacientes com FA, o modelo identificará entre 85 e 89 corretamente. Para 100 pacientes sem FA, classificará entre 7 e 9 incorretamente como tendo FA. Em atenção primária, com prevalência de FA em torno de 2 a 4%, o valor preditivo positivo do sistema — o que o médico realmente quer saber — pode ser consideravelmente inferior ao que as métricas sugerem.

Um segundo erro comum é tratar os conflitos de interesse como irrelevantes porque “os dados são os dados”. O professor deve ajudar os estudantes a entender que o conflito de interesse não implica fraude, mas sugere que decisões metodológicas — como escolher os centros de validação, definir o critério de inclusão dos participantes, ou selecionar quais métricas apresentar — podem ter sido influenciadas pela necessidade de produzir resultados favoráveis. A questão não é integridade pessoal; é a estrutura de incentivos que a relação financeira cria.

Um terceiro ponto frequentemente negligenciado é a diferença entre acurácia diagnóstica e efetividade clínica. Muitos estudantes de medicina ainda não foram expostos a essa distinção de forma explícita. O professor pode usar uma analogia: um teste laboratorial pode ter excelente sensibilidade e especificidade in vitro e, ainda assim, levar a piora de desfechos clínicos quando incorporado ao fluxo de atendimento porque gera mais procedimentos desnecessários do que benefícios. O mesmo raciocínio se aplica a qualquer sistema de IA: métricas de acurácia e métricas de impacto clínico são perguntas diferentes que exigem estudos diferentes.

Perguntas provocadoras que o professor pode usar durante a discussão:

“O estudo diz que o modelo tem desempenho comparável ao de cardiologistas. Onde estão os dados que sustentam essa afirmação?”

“Imaginem que vocês trabalham em uma UBS onde 3 em cada 100 pacientes triados têm FA. Com a especificidade de 91%, quantos alarmes falsos vocês receberiam por dia se triassem 200 pacientes? O que fariam com cada alarme?”

“Por que o fato de os rótulos terem sido atribuídos por um algoritmo automático, e não por cardiologistas, é importante para a validade do estudo?”

“A limitação declarada pelos autores — outras arritmias com PPG similar — é incomum na população que usaria o sistema? Por quê?”

Como explicar a resolução aos estudantes

O professor pode iniciar a discussão desta atividade de forma provocadora, apresentando apenas os números de desempenho (AUC-ROC 0,94, sensibilidade 89%, especificidade 91%) sem o contexto do estudo, e perguntando: “Vocês usariam esse sistema na sua UBS para triagem de FA?” A maioria dos estudantes responderá afirmativamente — e essa resposta cria uma abertura pedagógica para construir, passo a passo, a análise crítica que os leva a rever essa posição inicial.

O professor pode então apresentar as perguntas do framework uma a uma, pedindo que os estudantes as respondam com base no texto do estudo. A estratégia de ir construindo a análise em camadas é mais eficaz do que apresentar a resolução completa de uma vez: cada pergunta revela um novo problema, e os estudantes percebem progressivamente que a impressão inicial de robustez do sistema vai sendo desconstruída por cada resposta.

Ao chegar à discussão dos conflitos de interesse, o professor deve resistir à tendência — frequente em estudantes de medicina — de tratar o assunto como tangencial ou moralmente simplista. A reflexão útil não é “esses autores são desonestos?” mas “como a estrutura de incentivos financeiros afeta as decisões metodológicas de forma sistêmica, mesmo quando todos os envolvidos agem de boa-fé?” Estudos clássicos de medicina baseada em evidências mostram que estudos patrocinados pela indústria farmacêutica têm probabilidade significativamente maior de apresentar resultados favoráveis ao patrocinador. O mesmo padrão emerge em pesquisa com dispositivos médicos e, crescentemente, em pesquisa com IA em saúde.

Para encerrar a discussão, o professor pode propor um exercício prático: “Reescrevam a conclusão do estudo de forma que ela seja sustentada pelos dados apresentados.” Isso força os estudantes a calibrar a linguagem de suas afirmações ao nível de evidência disponível — uma habilidade fundamental tanto para a leitura crítica quanto para a comunicação científica.

Atividade 3 — Resolução

Resolução modelo

O caso do hospital público do Maranhão oferece um exemplo de como múltiplos problemas técnicos e éticos podem coexistir em um único sistema de IA implantado em contexto clínico real, tornando-se mutuamente agravantes. A análise deve percorrer as quatro dimensões propostas de forma integrada, pois elas não são independentes: as causas técnicas produzem consequências clínicas que criam responsabilidades que exigem recomendações.

Do ponto de vista técnico, o padrão de desempenho desigual observado é produto de pelo menos dois mecanismos operando simultaneamente. O primeiro é o dataset shift, que ocorre quando a distribuição estatística dos dados em produção é substancialmente diferente da distribuição dos dados utilizados no treinamento. O modelo foi desenvolvido com dados de dois hospitais privados de alta complexidade de São Paulo e Campinas, e foi implantado em um hospital público de referência no Maranhão. Esses contextos diferem em praticamente todas as dimensões que um modelo de priorização oncológica utilizaria como preditores: o perfil epidemiológico das doenças é distinto (o câncer de colo uterino, altamente prevalente no Maranhão, era provavelmente sub-representado nos hospitais privados paulistas); o estadiamento médio dos casos no momento da primeira consulta é diferente (pacientes em sistemas de saúde com menor acesso chegam mais frequentemente em estágios avançados); os padrões de documentação em prontuário eletrônico são distintos; o vocabulário de CID utilizado pode variar. O modelo não “sabe” nada disso: ele simplesmente não encontra, nos dados do Maranhão, os padrões que aprendeu a associar a “alta prioridade” durante o treinamento.

O segundo mecanismo é o viés algorítmico derivado das desigualdades presentes nos dados de treinamento. Nos hospitais privados de São Paulo, o câncer de colo uterino provavelmente estava associado, em média, a estadiamentos mais iniciais (por maior acesso a exames preventivos) e a tempos de resolução mais curtos. O modelo pode ter “aprendido” que esse diagnóstico está associado a menor urgência relativa, comparado a outros tumores. No Maranhão, onde o mesmo diagnóstico frequentemente representa estadiamento avançado, o modelo aplica uma lógica aprendida num contexto de menor gravidade a um contexto de maior gravidade — e classifica como baixa prioridade casos que deveriam ser alta prioridade. O padrão diferenciado por grupo étnico-racial não é acidental: é a manifestação das desigualdades estruturais de saúde presentes nos dados de treinamento, que se reproduzem e amplificam no modelo.

A métrica AUC-ROC de 0,87 não revela nenhum desses problemas porque é uma métrica agregada de discriminação. Ela descreve o quão bem o modelo separa casos de alta prioridade de casos de baixa prioridade em média, sobre toda a distribuição dos dados de teste — que eram, no caso, os dados dos próprios hospitais de treinamento. Uma AUC-ROC de 0,87 pode coexistir com um viés sistemático de 2,3 vezes na probabilidade de classificação errônea de pacientes negras e pardas com câncer de colo uterino, simplesmente porque esse subgrupo representa uma fração pequena do conjunto de teste e seu erro não afeta a métrica global de forma perceptível.

Do ponto de vista clínico, as consequências para as pacientes afetadas são concretas e graves. Pacientes com câncer de colo uterino classificadas como baixa prioridade aguardam mais tempo para a consulta oncológica. A relação entre tempo até o início do tratamento e prognóstico no câncer de colo uterino está bem documentada: cada semana de atraso no tratamento de tumores em estadiamento intermediário ou avançado está associada a piora na sobrevida. Pacientes que poderiam receber tratamento com intenção curativa em um estadiamento podem progredir para estágios que permitem apenas tratamento paliativo durante o período de espera gerado pela classificação incorreta. Além da questão de estadiamento, há o impacto sobre a integralidade do cuidado: uma paciente classificada como baixa prioridade pode desistir do acompanhamento, perder a janela terapêutica ou sofrer progressão de doença sem atendimento adequado.

A dimensão da equidade é inseparável da dimensão clínica. O sistema prejudica sistematicamente as pacientes que já eram as mais vulneráveis antes de sua implantação: mulheres negras e pardas, com tumor de alta prevalência em sua população, em hospital público com recursos limitados. O sistema não criou a desigualdade, mas a amplificou e a formalizou: transformou uma disparidade de saúde existente em uma regra algorítmica. Isso é o que torna o caso eticamente grave além da falha técnica: o algoritmo não falha aleatoriamente, mas falha de forma direcionada e sistemática contra o grupo que mais precisa de prioridade.

Do ponto de vista das responsabilidades, o hospital, a empresa e os médicos compartilham responsabilidades distintas mas interconectadas. O hospital, como instituição que implantou o sistema, é responsável por ter adotado uma ferramenta sem validar seu desempenho na população local antes da implantação. Essa etapa — denominada validação de implantação ou validação de contexto — não é um luxo técnico; é o mínimo necessário para garantir que um sistema de triagem clínica funciona adequadamente para os pacientes que atende. Além disso, o hospital tem responsabilidade por continuar utilizando o sistema após a evidência de desempenho desigual, mesmo que seja por inércia institucional ou resistência da área de TI.

A empresa desenvolvedora tem responsabilidade por ter comercializado um produto sem documentar adequadamente suas limitações de generalização e sem exigir validação local como condição para implantação. A resposta da empresa — “variações de desempenho em contextos distintos são esperadas e estão dentro da margem de erro documentada” — é eticamente inaceitável por uma razão precisa: “margem de erro” descreve variação aleatória em torno de uma estimativa, não viés sistemático por raça com magnitude de 2,3 vezes. Um sistema que, de forma consistente e reprodutível, classifica pacientes negras e pardas como menos urgentes do que pacientes brancas com o mesmo diagnóstico e estadiamento não está dentro de uma margem de erro — está produzindo discriminação algorítmica documentada. Normalizar esse resultado como “variação esperada” é, no mínimo, uma tentativa de minimizar a gravidade do problema para preservar um contrato comercial.

Os médicos que utilizam as classificações do sistema sem revisão crítica sistemática também têm responsabilidade clínica. A delegação de uma decisão clínica a um algoritmo não elimina a responsabilidade do médico sobre essa decisão — o profissional de medicina permanece responsável pela conduta clínica, independentemente de ter ou não utilizado suporte computacional. Um médico que percebe que pacientes com diagnóstico de câncer de colo uterino estão sendo consistentemente classificadas como baixa prioridade tem o dever profissional de questionar essa classificação, de não seguir acriticamente a recomendação do sistema em casos clinicamente relevantes, e de reportar o padrão observado à gestão.

Do ponto de vista da recomendação, a suspensão imediata do uso autônomo do sistema é a medida mais defensável do ponto de vista técnico e ético. O argumento de que a suspensão sobrecarregará os agendadores humanos e aumentará o tempo de espera geral precisa ser ponderado contra o fato de que o sistema atual está produzindo atrasos ainda maiores para as pacientes mais vulneráveis — e está fazendo isso de forma sistemática e não aleatória. Substituir um agendamento humano imperfeito por um algoritmo que discrimina por raça não é uma melhoria neutra: é uma piora documentada para um subgrupo específico, disfarçada de eficiência agregada.

As medidas concretas que o hospital deveria adotar incluem, em primeiro lugar, a implementação imediata de revisão humana mandatória de todos os casos classificados como baixa ou média prioridade enquanto o problema é investigado — o que limita o dano clínico em andamento sem exigir desligamento completo do sistema. Em segundo lugar, a realização de uma auditoria completa do histórico de classificações do sistema com estratificação por tipo de tumor, estadiamento, grupo étnico-racial e desfecho clínico — para dimensionar o dano já produzido e identificar pacientes que podem ter sido prejudicadas. Em terceiro lugar, a exigência formal à empresa de que realize validação do sistema na população específica do hospital do Maranhão, com estratificação por subgrupo, como condição para reativação plena do sistema. Qualquer reativação que não inclua essa validação reproduzirá o mesmo problema.

Dicas de resolução para o professor

Esta atividade é deliberadamente a mais complexa do módulo porque exige que os estudantes integrem conceitos técnicos (dataset shift, viés algorítmico, métricas de avaliação) com raciocínio clínico concreto (prognóstico do câncer de colo uterino) e análise ética (responsabilidade, equidade, discriminação). O erro mais frequente é que os estudantes tratam as quatro dimensões como compartimentos estanques, sem construir a narrativa de como uma dimensão explica a outra.

Um segundo erro recorrente é a resposta que aceita o argumento da empresa. Muitos estudantes, ainda não habituados ao raciocínio sobre responsabilidade institucional em saúde, tendem a achar que a resposta da empresa é razoável porque “variações são esperadas em qualquer sistema”. O professor deve insistir na distinção técnica entre variância aleatória — que se manifesta como erros não sistematizados — e viés sistemático, que se manifesta como erro consistentemente direcionado a um subgrupo específico. Um sistema que classifica errado 15% dos casos de forma aleatória e um sistema que classifica errado 2,3 vezes mais frequentemente os casos de um grupo étnico-racial específico têm o mesmo AUC-ROC médio mas são eticamente completamente diferentes.

Outro ponto frequentemente mal resolvido é a questão de responsabilidade dos médicos. Muitos estudantes respondem que os médicos “não têm culpa porque estão seguindo o sistema”. O professor deve explorar a distinção entre usar uma ferramenta de suporte e transferir responsabilidade para ela. Em medicina, a responsabilidade clínica pela decisão é sempre do profissional que toma a decisão, independentemente das ferramentas que utilizou para chegar a ela.

Perguntas provocadoras que o professor pode usar durante a discussão:

“O sistema tem AUC-ROC de 0,87. Por que esse número não é suficiente para afirmar que ele está funcionando adequadamente neste hospital?”

“A empresa diz que variações são esperadas. O que você precisaria que a empresa demonstrasse para considerar a variação dentro de uma margem aceitável?”

“Se você fosse o médico que usou a classificação do sistema para priorizar as consultas e descobrisse agora que pacientes negras com câncer de colo uterino foram sistematicamente atrasadas, qual seria sua responsabilidade?”

“A equipe de TI argumenta que suspender o sistema vai aumentar o tempo de espera geral. Como você pesa isso contra o benefício de eliminar a discriminação sistemática?”

“O que o hospital deveria ter feito antes de implantar o sistema? Por que não fez?”

Como explicar a resolução aos estudantes

A condução da discussão desta atividade exige que o professor estabeleça, desde o início, o nível de gravidade do que está sendo analisado. O caso não é hipotético no sentido de ser improvável: sistemas de IA treinados em populações majoritariamente brancas de alta renda, implantados em contextos com perfil epidemiológico e demográfico distinto, reproduziram padrões de discriminação documentados em estudos publicados nos maiores periódicos médicos do mundo. O professor deve situar o caso nesse contexto antes de iniciar a análise, para que os estudantes compreendam que estão exercitando um raciocínio que terão de aplicar como médicos.

A estratégia pedagógica mais eficaz é começar pela dimensão técnica e ir progressivamente construindo as demais. O professor pode perguntar: “O que o modelo aprendeu nos hospitais de São Paulo sobre câncer de colo uterino?” Os estudantes percebem, ao refletir, que o modelo provavelmente aprendeu que esse diagnóstico, naquele contexto, estava associado a menor urgência — porque nesses hospitais o diagnóstico era feito mais precocemente, com melhor prognóstico imediato. O passo seguinte é perguntar: “O que acontece quando esse aprendizado é aplicado ao Maranhão?” Os estudantes constroem a lógica do dataset shift a partir de premissas concretas, em vez de memorizar uma definição abstrata.

A transição para a dimensão clínica pode ser feita com uma pergunta simples mas poderosa: “O que significa, para uma paciente com câncer de colo uterino em estadiamento IIB, esperar três meses a mais para a consulta oncológica?” Estudantes do terceiro semestre de medicina já têm conhecimento suficiente de biologia tumoral para entender que essa espera pode significar progressão de estágio, mas o professor deve tornar isso explícito se necessário.

Para a dimensão de responsabilidade, o professor pode organizar a discussão em três momentos: “O que o hospital deveria ter feito e não fez?” (validação de implantação), “O que a empresa deveria ter dito e não disse?” (limitações de generalização), “O que os médicos deveriam ter feito e não fizeram?” (revisão crítica sistemática das classificações). Essa estrutura paralela ajuda os estudantes a entender que as responsabilidades se complementam em vez de se excluírem.

Para encerrar a discussão, o professor pode pedir que cada estudante formule em uma frase a recomendação que daria ao gestor do hospital. Essa síntese final não só avalia a compreensão, mas obriga o estudante a traduzir a análise em decisão — que é a habilidade central que esta atividade pretende desenvolver. Qualquer recomendação que ignore o dano em andamento, que aceite o argumento da empresa ou que não inclua medidas de proteção aos pacientes já afetados deve ser questionada pelo professor com perguntas específicas sobre as dimensões negligenciadas.