Plano de Aula — Módulo 03: Inteligência Artificial na Medicina

Documento exclusivo para o professor | Módulo 03 | Formato: Teórico-Prático

Este plano de aula é o guia pedagógico completo para a condução do Módulo 03. Ele detalha a visão geral da sessão, os objetivos de aprendizagem, a preparação prévia necessária, o sumário denso das dez seções do material para revisão rápida, o roteiro dos 50 minutos de exposição dialogada dividido em cinco blocos, o roteiro dos 150 minutos de laboratório dividido em três estágios, as orientações sobre as atividades das Turmas A e B e os pontos críticos de tutoria. Leia-o integralmente na semana anterior ao módulo e mantenha-o acessível durante toda a sessão.

1. Visão geral do módulo

O Módulo 03 é o primeiro módulo técnico de alta densidade da disciplina. Seu tema — Inteligência Artificial na Medicina — é também o que carrega mais ruído prévio: estudantes chegam com expectativas formadas por cobertura jornalística entusiasmada, por experiências de uso de ChatGPT e por narrativas de substituição ou amplificação do médico que raramente têm fundamento rigoroso. A função pedagógica central deste módulo não é transmitir uma taxonomia de algoritmos nem inventariar aplicações clínicas — o material de leitura prévia cumpre esse papel com amplitude e profundidade consideráveis. A função do módulo é construir a capacidade crítica: ao final de 200 minutos de aula, o estudante deve ser capaz de interrogar uma ferramenta de IA com perguntas precisas, não apenas de descrevê-la ou admirá-la.

O formato é idêntico ao do Módulo 01: 50 minutos de exposição dialogada conduzida pelo professor, seguidos de 150 minutos de laboratório de informática. Os dois momentos são conceitualmente integrados, não apenas temporalmente sequenciais. A exposição fornece o quadro conceitual e as ferramentas analíticas que os estudantes aplicarão imediatamente no laboratório; o laboratório é, portanto, o teste de compreensão real daquilo que foi apresentado.

Os 50 minutos de exposição estão estruturados em cinco blocos progressivos. O primeiro bloco desestabiliza as concepções espontâneas sobre IA. O segundo bloco constrói a intuição sobre como os modelos aprendem, com ênfase nas armadilhas do overfitting e do dataset shift. O terceiro bloco mapeia os três paradigmas de aprendizado de máquina com exemplos clínicos concretos, com ênfase especial em métricas de avaliação. O quarto bloco apresenta aplicações reais e falhas documentadas, calibrando o entusiasmo com evidência. O quinto bloco apresenta o framework de sete perguntas para leitura crítica e faz a transição para o laboratório.

Os 150 minutos de laboratório estão divididos em três estágios: a apresentação das tarefas e formação dos grupos, a execução com tutoria ativa do professor, e a síntese coletiva com discussão facilitada. As Turmas A e B realizam atividades distintas, mas complementares, e o professor deve conhecer os dois conjuntos de atividades antes da aula.

O material de estudo prévio foi disponibilizado aos estudantes na semana anterior e cobre dez seções: fundamentos de IA e aprendizado de máquina, o ciclo de aprendizado, os três paradigmas com exemplos clínicos, redes neurais e deep learning, visão computacional, análise de prontuários, processamento de linguagem natural e LLMs, ética e equidade, leitura crítica de estudos de IA, e uma síntese com glossário. O professor deve assumir que parte dos estudantes leu o material e calibrar a exposição para ir além da descrição do que está no texto.

2. Objetivos, competências e habilidades

Objetivo central do módulo

Desmistificar a IA para que os estudantes possam avaliá-la com rigor, compreendendo como os algoritmos funcionam, onde são aplicados clinicamente, por que falham e quais são suas implicações éticas e regulatórias. O destino não é a admiração acrítica nem o ceticismo paralisante, mas a capacidade de fazer as perguntas certas.

A competência central que este módulo constrói é a capacidade de interrogar — não apenas usar — ferramentas de IA em saúde. Interrogar significa perguntar: o que este modelo aprendeu? Com quais dados e em qual população? Quais são os limites de generalização para o contexto em que está sendo aplicado? O que acontece quando o modelo erra? Quem pode ser prejudicado de forma desproporcional se o erro se concentrar em um grupo específico? Essa competência é transversal a toda a disciplina e será retomada no Módulo 06 (Agentes de IA), que exigirá do estudante uma compreensão sólida das bases construídas aqui.

Do ponto de vista das habilidades concretas, ao final da aula o estudante deve ser capaz de distinguir os três paradigmas de aprendizado de máquina — supervisionado, não supervisionado e por reforço — com exemplos clínicos genuínos; de calcular e interpretar sensibilidade, especificidade e área sob a curva ROC em contexto clínico; de identificar riscos de viés algorítmico em um sistema de IA descrito; e de aplicar um framework estruturado de perguntas para analisar um estudo que avalia ferramenta de IA diagnóstica.

3. Preparação do professor

Esta seção descreve o que o professor deve preparar e revisar antes da aula. A preparação deve ser concluída com pelo menos dois dias de antecedência, para garantir sedimentação dos exemplos e tempo para ajuste do material de apoio ao laboratório.

Leituras e revisão de conteúdo

O professor deve ter lido o material do módulo integralmente e com atenção clínica. Isso significa não apenas verificar se os conceitos estão corretos, mas identificar quais exemplos do material são mais facilmente compreensíveis por estudantes sem formação em estatística ou computação e quais exigem mediação verbal adicional durante a exposição.

Alguns pontos específicos demandam preparo além da leitura do material: a distinção entre sensibilidade e especificidade é frequentemente mal compreendida mesmo por estudantes que cursaram bioestatística — o professor deve estar preparado para revisitar a definição com exemplos numéricos simples durante a exposição, sem transformar o módulo em uma aula de bioestatística; a seção sobre Epic Sepsis Model e suas controvérsias é particularmente rica para discussão, pois envolve ao mesmo tempo limitação técnica (baixo valor preditivo positivo) e viés sistêmico (desempenho diferencial por raça), e o professor deve ter em mente não apenas os fatos descritos no material, mas a pergunta estruturante que ela levanta — o que é aceitável como desempenho de um modelo clínico, comparado a quê e para quem?

Para a seção sobre LLMs, o professor deve ter uma posição preparada sobre a questão do USMLE: o argumento frequente de que “a IA passou no USMLE, logo ela pode praticar medicina” contém um sofisma que o professor deve ser capaz de desmontá-lo com precisão. A seção de pontos críticos deste plano de aula desenvolve esse ponto em detalhe.

Para a atividade de Leitura Crítica (Turma A, Tarefa 2, e Turma B, Tarefa 2), o professor deve ter lido o artigo selecionado antes da aula e ter identificado pelo menos três limitações que os grupos provavelmente não encontrarão por conta própria, para usar como perguntas de aprofundamento durante a tutoria.

Exemplos clínicos a ter prontos

Prepare ao menos três exemplos clínicos que possam ser usados de forma anedótica e precisa durante a exposição. O primeiro deve ilustrar aprendizado supervisionado com resultado clínico real: a detecção de retinopatia diabética por IA aprovada pelo FDA em 2018 (IDx-DR) é um exemplo sólido porque tem contexto regulatório, métricas publicadas e uma narrativa de implantação em cuidados primários que torna o impacto concreto. O segundo deve ilustrar uma falha documentada: o Epic Sepsis Model, cujas controvérsias estão bem documentadas e envolvem tanto limitação estatística quanto viés demográfico, é o exemplo mais didático disponível. O terceiro deve ser local ou regionalmente relevante: qualquer ferramenta de IA já usada ou em implantação em hospitais brasileiros de referência serve, mesmo que o professor a mencione apenas como pergunta — “vocês sabem que o Hospital X usa IA para triagem de exames de imagem? O que você saberia perguntar antes de confiar nessa ferramenta?”.

Armadilhas conceituais a antecipar

Há quatro equívocos recorrentes que o professor deve estar preparado para corrigir com precisão e sem constranger o estudante. O primeiro é a confusão entre “IA” e “algoritmo determinístico”: muitos estudantes chegam com a percepção de que IA é sinônimo de “programa de computador” e usam os termos de forma intercambiável. A distinção relevante para medicina é que sistemas de regras explícitas não aprendem com dados e não generalizam além do que foi programado — sistemas de aprendizado de máquina aprendem padrões de dados e generalizam, mas com margem de erro que precisa ser medida.

O segundo equívoco é tratar métricas de desempenho de forma isolada. Um modelo com 95% de acurácia pode ser completamente inútil clinicamente se a condição que ele detecta tem prevalência de 1% na população testada, pois um classificador que simplesmente declara “ausente” em todos os casos atingiria 99% de acurácia. O professor deve ter esse exemplo preparado e antecipar que algum estudante o trará como objeção ou que nenhum estudante o trará — e que, no segundo caso, o professor deve introduzi-lo por conta própria.

O terceiro equívoco é a crença de que modelos treinados em populações diversas são automaticamente equânimes. Diversidade de dados não garante equidade de desempenho: um modelo pode ter sido treinado com dados de populações diversas e ainda assim apresentar desempenho significativamente inferior em subgrupos específicos se esses subgrupos forem sub-representados na amostra de treinamento, se os dados foram coletados com instrumentos calibrados para outros padrões ou se a variável-alvo foi definida de forma que incorpora desigualdades preexistentes no sistema de saúde. O caso do algoritmo da Optum, descrito no material, é o exemplo mais citado na literatura e deve ser conhecido em detalhe pelo professor.

O quarto equívoco é mais sutil e mais difícil de corrigir: a crença de que um modelo que funciona bem em um hospital necessariamente funcionará bem em outro. O conceito de dataset shift — variação entre a distribuição dos dados de treinamento e a distribuição dos dados de aplicação real — é central para entender por que modelos precisam ser validados externamente antes de serem generalizados e reavaliados periodicamente após a implantação.

Como calibrar o ritmo para diferentes backgrounds

A turma de terceiro semestre de medicina é, em geral, heterogênea em relação à familiaridade com conceitos matemáticos e computacionais. O professor deve calibrar a exposição de duas formas. Para os estudantes sem background técnico, a âncora deve ser sempre a pergunta clínica e o exemplo concreto — mecanismo serve apenas para contextualizar, não para intimidar. Para os estudantes com maior familiaridade técnica, o desafio é diferente: eles tendem a considerar os conceitos básicos triviais e a perder o interesse na discussão clínica e ética, que julgam ser “só conversa”. O professor deve preparar perguntas que invertam essa hierarquia — algo como “você sabe como funciona uma CNN, mas você saberia explicar por que o modelo do Google Health para mamografia performou pior em centros de saúde comunitários do que em hospitais universitários?” — para mostrar que a sofisticação técnica sem o enquadramento clínico e social é analiticamente incompleta.

4. Sumário de conteúdo — referência rápida

Esta seção apresenta uma síntese densa das dez seções do material do módulo, destinada à revisão rápida do professor imediatamente antes da aula. Não substitui a leitura integral do material.

Seção 1 — O que é IA: regras versus aprendizado de máquina

A distinção fundamental é entre sistemas que seguem regras explicitamente programadas por um humano e sistemas que induzem regras a partir de dados. Um sistema de regras para diagnóstico de diabetes pode ser: “se glicemia em jejum ≥ 126 mg/dL em duas medições distintas, classificar como diabetes”. Um sistema de aprendizado de máquina para a mesma tarefa recebe milhares de pares (conjunto de variáveis, diagnóstico confirmado) e aprende, por otimização iterativa, quais padrões nas variáveis de entrada são preditivos do diagnóstico. O que o aprendizado de máquina não faz é explicar causalidade, garantir resultados individuais, funcionar além da distribuição dos dados de treinamento sem degradação de desempenho, ou substituir julgamento clínico em contextos com alta ambiguidade ou alto custo de erro. Esses limites precisam ser conhecidos antes de qualquer discussão sobre aplicação clínica.

Seção 2 — O ciclo de aprendizado: dados, overfitting e generalização

O ciclo de aprendizado de um modelo supervisionado começa com a coleta e rotulagem de dados de treinamento, passa pela otimização dos parâmetros do modelo para minimizar o erro nesse conjunto de dados e termina com a avaliação da capacidade de generalização — ou seja, de quanto o modelo performa bem em dados que nunca viu. Overfitting ocorre quando o modelo aprende os padrões específicos dos dados de treinamento, incluindo seus ruídos e idiossincrasias, a tal ponto que perde a capacidade de generalizar. A curva de aprendizado clássica mostra o erro de treinamento caindo continuamente enquanto o erro de validação cai até um ponto e depois sobe — o ponto de cruzamento indica onde o modelo passou de aprender padrões reais para memorizar ruídos. A separação rigorosa em conjuntos de treinamento, validação e teste independentes é a salvaguarda metodológica central contra overfitting, e sua ausência ou inadequação em estudos clínicos de IA é uma das fontes mais comuns de resultados irreproduticíveis.

Seção 3 — Três paradigmas de aprendizado de máquina

No aprendizado supervisionado, o modelo aprende de pares (entrada, saída desejada). Exemplos clínicos: detecção de retinopatia diabética a partir de imagens de fundo de olho (entrada = imagem, saída = presença/ausência de retinopatia), predição de reinternação em 30 dias (entrada = dados do prontuário, saída = reinternação sim/não) e classificação de melanoma em imagens dermatoscópicas. As métricas principais são sensibilidade (proporção de casos verdadeiramente positivos que o modelo identifica como positivos — a capacidade de não perder casos), especificidade (proporção de casos verdadeiramente negativos que o modelo classifica corretamente — a capacidade de não alarmar desnecessariamente) e AUC-ROC (área sob a curva que plota sensibilidade versus 1–especificidade em todos os thresholds possíveis, medindo a capacidade discriminativa geral do modelo). Um modelo com AUC-ROC de 0,5 é equivalente a um sorteio aleatório; de 1,0, é perfeitamente discriminativo; valores acima de 0,85 são geralmente considerados clinicamente úteis em contextos diagnósticos.

No aprendizado não supervisionado, não há rótulos — o modelo encontra estrutura nos dados por conta própria. Exemplos clínicos: clustering de pacientes com diabetes tipo 2 em subtipos com perfis de progressão e resposta a medicamentos distintos; subtipagem molecular de tumores que revela grupos prognósticos não identificados pela histologia convencional. O papel clínico não é de diagnóstico direto, mas de geração de hipóteses e descoberta de padrões latentes.

No aprendizado por reforço, o modelo aprende por tentativa e erro em um ambiente simulado, maximizando uma função de recompensa. Exemplos clínicos: otimização de dosagem de sedativos em UTI (o modelo aprende que doses que levam o paciente ao nível ótimo de sedação conforme escala padronizada são recompensadas) e ajuste de parâmetros de ventilação mecânica. As limitações são significativas: resultados de modelos treinados em ambientes simulados nem sempre se traduzem em segurança quando aplicados em pacientes reais, e a definição da função de recompensa requer julgamento clínico especializado para não otimizar métricas intermediárias às custas de desfechos clínicos relevantes.

Seção 4 — Redes neurais e deep learning

Uma rede neural artificial é composta por camadas de unidades de processamento (neurônios artificiais) que transformam progressivamente a representação da entrada. As primeiras camadas aprendem características de baixo nível (bordas, texturas, frequências), as camadas intermediárias combinam essas características em padrões mais abstratos, e as camadas finais produzem a classificação ou predição. O treinamento ocorre por retropropagação do erro com gradiente descendente: o erro do modelo na saída é propagado de volta pela rede, e os pesos são ajustados iterativamente para reduzir esse erro.

As redes neurais convolucionais (CNNs) são a arquitetura padrão para visão computacional: usam filtros convolucionais que detectam padrões espaciais em imagens independentemente de sua posição, tornando o modelo invariante a translação. Os Transformers, introduzidos em 2017, usam mecanismo de atenção que permite ao modelo ponderar a relevância de diferentes partes da entrada para cada elemento da saída — o que os torna excepcionalmente poderosos para texto (LLMs) e crescentemente aplicados em imagens médicas.

O problema da caixa-preta é central para a medicina: modelos de deep learning com dezenas de milhões de parâmetros não permitem introspecção direta sobre o raciocínio. Um modelo que classifica um exame de tórax como “pneumonia” não produz, por padrão, uma explicação que o radiologista possa verificar — ele produz um número. Técnicas de IA Explicável (XAI) como GRAD-CAM (mapas de calor que indicam quais regiões da imagem mais influenciaram a classificação) e LIME (aproximações lineares locais do comportamento do modelo) buscam mitigar esse problema, mas têm limitações próprias que precisam ser conhecidas.

Seção 5 — Visão computacional em medicina

A visão computacional é a área de aplicação de IA mais madura em medicina. CheXNet (Stanford, 2017) demonstrou que uma CNN treinada em 100 mil radiografias de tórax com 14 condições rotuladas atingiu desempenho comparável ou superior ao de radiologistas em tarefas específicas de classificação. Análise de TC para detecção de nódulos pulmonares, diagnóstico de retinopatia diabética (IDx-DR, aprovado pelo FDA em 2018 — primeiro dispositivo de IA diagnóstica totalmente autônomo aprovado nos EUA), análise de lâminas de patologia digital e classificação dermatoscópica de lesões cutâneas (Esteve et al. 2017, Nature, demonstrando CNN com desempenho equivalente ao de dermatologistas em melanoma) são os exemplos mais citados. O caso de McKinney et al. 2020 (Google Health, Nature Medicine) — modelo de IA para leitura de mamografias com redução de 5,7% em falsos positivos e 9,4% em falsos negativos em relação a radiologistas humanos — é o caso de leitura crítica trabalhado no Módulo 03 e deve ser conhecido em detalhe pelo professor.

Seção 6 — Análise de prontuários eletrônicos

O prontuário eletrônico é uma fonte de dados clínicos de alto valor para aprendizado de máquina, mas também de alta complexidade: dados são coletados com finalidade clínica, não de pesquisa; há grande variação de padronização entre instituições; os dados refletem as práticas de documentação dos clínicos, não necessariamente a realidade clínica do paciente; e fenômenos como viés de indicação e confundimento por variáveis não observadas são endêmicos. O Epic Sepsis Model é o exemplo de referência: um modelo amplamente implantado em hospitais americanos para predição de sepse, cujo artigo de validação interna reportou desempenho expressivo, mas que em validação externa por pesquisadores do University of Michigan (2021) demonstrou baixo valor preditivo positivo (inferior ao de critérios clínicos como o NEWS) e, mais preocupantemente, sinais de desempenho diferencial por raça e status socioeconômico. O caso ilustra com precisão os riscos de implantação prematura baseada em validação interna exclusiva.

Seção 7 — PLN, LLMs e suas limitações clínicas

O processamento de linguagem natural (PLN) tem aplicações clínicas em extração de informações de notas clínicas, triagem de documentos, identificação de fenótipos em dados não estruturados e análise de dados de pacientes coletados por texto. Os LLMs — modelos de linguagem de grande escala como GPT-4, Claude, Gemini e LLaMA — representam um salto qualitativo em capacidade de geração e compreensão de texto, com desempenho documentado em nível de aprovação em exames médicos como o USMLE. Suas limitações clínicas são, contudo, bem documentadas: alucinações (geração de informações factualmente incorretas com aparência de plausibilidade), ausência de memória clínica persistente, incapacidade de realizar exame físico ou integrar contexto clínico não textual, e ausência de responsabilidade legal. A regulação de LLMs como Software como Dispositivo Médico (SaMD) pela ANVISA e pela FDA é ainda incipiente e representa uma fronteira regulatória ativa. A LGPD e as resoluções do CFM sobre telemedicina e IA têm implicações diretas para o uso clínico de LLMs no Brasil.

Seção 8 — Ética, equidade e regulação

Algoritmos de IA em saúde herdam e frequentemente amplificam as desigualdades presentes nos dados de treinamento. O caso do algoritmo da Optum — amplamente usado por planos de saúde americanos para predizer necessidade de gestão de cuidados complexos — é o exemplo mais citado: o modelo usava custos históricos como proxy para necessidade de saúde, o que sistematicamente subestimava a necessidade em pacientes negros, que historicamente recebem menos cuidados a custo equivalente. Isso resultou em negação de acesso a programas de cuidados complexos precisamente para os pacientes que mais precisavam deles. Desempenho diferencial de modelos de detecção de melanoma em fototipos mais escuros — devido à sub-representação desses fototipos em datasets de treinamento — é outro exemplo com implicações diretas para a população brasileira. Dataset shift, explainability (XAI), responsabilidade médica e consentimento informado para uso de sistemas de IA são os quatro eixos éticos centrais do módulo. Do ponto de vista regulatório, o professor deve conhecer o quadro básico: ANVISA RDC nº 657/2022 (SaMD), LGPD (Lei 13.709/2018) e Resolução CFM nº 2.227/2018 (telemedicina e tecnologias digitais).

Seção 9 — Framework de leitura crítica de estudos de IA

O framework de sete perguntas para avaliação de estudos de IA diagnóstica cobre: (1) qual é a pergunta clínica e o desfecho de referência (padrão-ouro)? (2) como os dados foram coletados e de qual população? (3) o conjunto de teste foi separado corretamente e antes do treinamento? (4) o modelo foi testado em uma população diferente da de treinamento (validação externa)? (5) quais são as métricas reportadas e quais são aquelas que não foram reportadas? (6) o modelo é interpretável? Há informação sobre quais características guiaram a predição? (7) quais são os riscos de implantação em contextos com características populacionais diferentes das do estudo? A aplicação desse framework ao artigo McKinney et al. 2020 (Google Health, mamografia) deve ser ensaiada pelo professor antes da aula, identificando as respostas — e as respostas ausentes ou insatisfatórias — para cada uma das sete perguntas.

Seção 10 — Síntese: taxonomia e glossário

O material encerra com um diagrama Mermaid de taxonomia da IA em medicina e um glossário de 20 termos, que servem como material de consulta rápida para os estudantes durante o laboratório. O professor deve ter fluência nos 20 termos do glossário e deve ser capaz de explicar cada um com um exemplo clínico concreto.

5. Roteiro da exposição — 50 minutos

Os cinco blocos a seguir não carregam minutagem nos títulos. A distribuição indicada ao final de cada bloco é uma referência de ritmo, não uma obrigação rígida. O professor deve calibrar em função do engajamento e das perguntas da turma.

Bloco 1 — Abertura e desmistificação

O ponto de partida da exposição não é uma definição de IA, mas uma pergunta: “O que a Inteligência Artificial faz, exatamente?” O objetivo é colocar a turma em posição de articular suas concepções antes de qualquer apresentação formal — o que expõe tanto o entusiasmo acrítico quanto o ceticismo mal fundamentado, e cria a abertura para uma exposição que verdadeiramente acrescenta algo ao que os estudantes já trazem.

Deixe a turma responder livremente por dois a três minutos. Em geral, as respostas se agrupam em dois polos: “IA aprende com dados e toma decisões” (aproximação razoável) e “IA pensa como um ser humano” (confusão frequente). Ambos os polos contêm premissas que valem a pena examinar.

Com base nas respostas da turma, construa a distinção central: sistemas de regras explícitas versus sistemas de aprendizado de máquina. Use o exemplo concreto do diagnóstico: um médico experiente que examina um fundo de olho e classifica a retinopatia está aplicando regras que foram formalizadas ao longo de anos de treinamento — algumas explícitas (critérios de severidade da ETDRS), outras tácitas (padrões que o especialista reconhece mas não consegue verbalizar completamente). Um algoritmo de aprendizado de máquina para a mesma tarefa aprende padrões diretamente de imagens rotuladas, sem que ninguém tenha programado explicitamente os critérios. Ambos cometem erros. Os erros têm naturezas diferentes. Essa diferença importa clinicamente.

Encerre o bloco confrontando a questão da substituição: “A IA vai substituir o médico?” A resposta honesta não é nem “sim” nem “não” — é “em quais tarefas, em quais contextos, com quais salvaguardas?” Essa reformulação da pergunta é, em si, o primeiro exercício do modo crítico que o módulo pretende construir. Duração estimada: 8 a 10 minutos.

Bloco 2 — Como os modelos aprendem

Com a distinção entre regras e aprendizado estabelecida, o segundo bloco aprofunda a mecânica do aprendizado sem entrar em matemática desnecessária. O objetivo é dar ao estudante a intuição suficiente para entender por que overfitting ocorre e por que ele importa clinicamente.

Comece com uma analogia verificável: um estudante que estuda exclusivamente questões de uma banca específica pode ter desempenho excelente em simulados dessa banca e muito pior em uma prova de outra banca que usa a mesma base de conhecimento, mas com outro estilo de formulação. Ele “memorizou” padrões específicos da banca em vez de aprender o conceito subjacente. Isso é, em termos funcionais, o que ocorre com um modelo de ML em overfitting.

Apresente a curva de aprendizado: no eixo y, o erro do modelo; no eixo x, a complexidade do modelo ou o número de épocas de treinamento. O erro de treinamento cai monotonicamente. O erro de validação cai até um ponto e depois sobe. O ponto de mínimo do erro de validação é o ponto de generalização ótima. À direita desse ponto, o modelo está em overfitting.

A implicação clínica é direta: se um estudo de IA reporta apenas métricas em um conjunto de dados de teste que foi selecionado do mesmo hospital onde o modelo foi treinado, as métricas reportadas podem ser substancialmente melhores do que o desempenho real do modelo quando implantado em outro contexto. Isso é um problema metodológico documentado na literatura de IA médica, não uma hipótese teórica. Duração estimada: 8 a 10 minutos.

Bloco 3 — Três paradigmas com exemplos clínicos

O terceiro bloco é o de maior densidade conceitual. A abordagem recomendada é partir do exemplo clínico e chegar ao paradigma — não o inverso.

Para o aprendizado supervisionado, a pergunta de abertura é: “Como um algoritmo aprende a detectar melanoma?” Percorra o raciocínio: você precisa de imagens rotuladas (benigno/maligno), de uma arquitetura que aprenda padrões nessas imagens e de uma métrica que quantifique o quão bem o modelo classifica. Introduza sensibilidade e especificidade neste ponto: em triagem de melanoma, um modelo com alta sensibilidade e baixa especificidade gera muitos falsos positivos — biópsias desnecessárias, ansiedade, custo. Um modelo com alta especificidade e baixa sensibilidade perde casos reais de melanoma. A curva ROC formaliza esse trade-off: cada ponto da curva representa um threshold de decisão diferente, e a área sob a curva (AUC-ROC) mede a qualidade discriminativa geral do modelo independentemente de um threshold específico. Apresente os valores de referência: AUC de 0,5 equivale a um classificador aleatório; acima de 0,85 é geralmente considerado clinicamente útil.

Para o aprendizado não supervisionado, a pergunta de abertura é: “E se não soubermos o que estamos procurando?” Use o exemplo de subtipagem molecular de tumores: sem rótulos, o modelo agrupa pacientes com perfis moleculares semelhantes, e os pesquisadores então verificam se esses grupos têm relevância clínica (prognóstico diferente, resposta diferente a tratamentos). Esse é o modo de geração de hipóteses, não de confirmação.

Para o aprendizado por reforço, o exemplo da dosagem de sedativos em UTI é o mais acessível: o modelo testa políticas de dosagem em ambiente simulado, recebe “recompensa” quando o paciente simulado atinge o nível ótimo de sedação e “penalidade” quando há desvio. A limitação prática é central: o ambiente simulado pode não capturar toda a complexidade do paciente real. Duração estimada: 15 a 18 minutos.

Bloco 4 — Aplicações e limitações documentadas

O quarto bloco equilibra o entusiasmo com evidência de falhas reais. O professor deve resistir à tentação de ser exaustivo — dois ou três exemplos bem trabalhados valem mais do que sete exemplos superficiais.

Comece com uma aplicação de sucesso: IDx-DR, o primeiro dispositivo de IA diagnóstica totalmente autônomo aprovado pelo FDA (2018), para detecção de retinopatia diabética em cuidados primários. O sistema é instalado em clínicas de atenção primária onde não há oftalmologista, o médico generalista captura a imagem do fundo de olho e o sistema retorna uma classificação binária (encaminhar / não encaminhar para oftalmologista). Isso é IA como ferramenta de triagem em contexto de escassez de especialistas — um caso de uso genuíno e bem validado.

Em seguida, apresente o Epic Sepsis Model como o contraponto. Descreva o contexto: um modelo de predição de sepse integrado ao sistema de prontuário do Epic, amplamente implantado em hospitais americanos, com validação interna publicada reportando bom desempenho. A validação externa independente (University of Michigan, 2021) encontrou valor preditivo positivo de apenas 8% — o que significa que de cada 100 alertas gerados pelo modelo, apenas 8 correspondiam a casos reais de sepse. Os 92 alertas restantes eram falsos positivos, cada um deles potencialmente gerando avaliação médica desnecessária, ansiedade da equipe e risco de intervenção inadequada. Além disso, o modelo apresentou sinais de desempenho diferencial por raça, alertando proporcionalmente menos para pacientes negros com sepse.

Encerre o bloco com uma frase que sintetiza a tensão central: a IA em medicina pode ser transformadora e pode ser danosa, frequentemente ao mesmo tempo, dependendo do contexto de aplicação. O papel do médico é não apenas saber usar a ferramenta, mas saber quando não usá-la e para quem ela funciona melhor. Duração estimada: 8 a 10 minutos.

Bloco 5 — Framework de leitura crítica e transição para o laboratório

O quinto bloco é de transição pedagógica. O objetivo é dotar os estudantes de um instrumento concreto — o framework de sete perguntas — e demonstrá-lo em uso antes que eles o apliquem de forma independente no laboratório.

Apresente as sete perguntas em sequência, exemplificando brevemente cada uma com o estudo McKinney et al. 2020 (Google Health, mamografia). Não percorra todas as perguntas com profundidade igual — reserve mais tempo para as perguntas 4 (validação externa) e 7 (riscos de generalização), que são as mais frequentemente omitidas pelos estudantes na primeira análise.

A pergunta 4 — “o modelo foi testado em uma população diferente da de treinamento?” — é particularmente reveladora no caso McKinney: o estudo foi conduzido com dados de centros do Reino Unido e dos EUA, com validação cruzada, mas as populações de cuidados primários comunitários e de centros de baixa renda não estavam representadas. A pergunta 7 — “quais são os riscos de generalização?” — abre a discussão sobre para onde o modelo NÃO deveria ser implantado sem reavaliação: hospitais com equipamentos de mamografia diferentes, populações com perfis de risco distintos, sistemas de saúde com padrões de laudo diferenciados.

Encerre o bloco com o briefing do laboratório: anuncie que a Turma A trabalhará com classificação de sistemas de IA, leitura crítica de um artigo e análise de um cenário de viés; a Turma B trabalhará com análise de outputs de LLM, avaliação de ferramenta clínica e proposta de componente de IA para a startup. Cada conjunto de atividades está disponível no Moodle. Informe os grupos que o professor circulará sistematicamente. Duração estimada: 6 a 8 minutos.

6. Roteiro do laboratório — 150 minutos

Estágio 1 — Apresentação das atividades e formação de grupos

O laboratório começa imediatamente após a exposição. Os estudantes se deslocam para o laboratório de informática e formam grupos de três a quatro pessoas — grupos menores do que os grupos do projeto de startup, para garantir participação individual mais intensa nas tarefas analíticas. Grupos maiores tendem a dividir o trabalho de forma excessivamente especializada, com cada membro respondendo apenas à pergunta que considera mais fácil, o que compromete o objetivo de desenvolvimento de competência crítica individual.

O professor projeta ou distribui o briefing das atividades. Para a Turma A, os materiais necessários são: a descrição das quatro ferramentas de IA da Tarefa 1 (preparada pelo professor com base em sistemas reais ou adaptados), o artigo científico pré-selecionado para a Tarefa 2 e o enunciado do cenário de viés para a Tarefa 3. Para a Turma B, os materiais são: os outputs de LLM para análise da Tarefa 1, a descrição da ferramenta de IA clínica para a Tarefa 2 e o enunciado de proposta de componente de IA para a Tarefa 3.

O artigo para a Tarefa 2 da Turma A deve ter sido preparado pelo professor antes da aula — a seção de recursos e materiais de apoio deste plano detalha as características que o tornam adequado. O professor deve distribuir o artigo já com anotações de leitura pessoal que orientem a busca, mas sem fornecer as respostas. Anotações como “atenção para a seção de dados” ou “verifique como os autores descrevem a separação treino/teste” são úteis sem ser prescritivas.

Este estágio deve durar no máximo 10 a 15 minutos. Se a apresentação se prolongar, o tempo das tarefas é comprometido.

Estágio 2 — Execução das tarefas com tutoria

Este é o coração do laboratório. O professor circula entre os grupos em rodadas estruturadas, com uma visita a cada grupo a cada 20 a 25 minutos, garantindo ao menos duas visitas por grupo ao longo dos 120 minutos deste estágio.

Como circulação funciona. Em cada visita a um grupo, o professor deve primeiro ouvir o que o grupo está discutindo antes de falar. Grupos que estão em silêncio ou com apenas um membro falando requerem intervenção ativa; grupos em debate acalorado precisam apenas de um direcionamento pontual. A pergunta mais produtiva para iniciar uma visita é: “o que vocês encontraram até agora?” — não “como está indo?”, que produz respostas vagas.

Para a Tarefa 1 da Turma A (classificação de paradigma e métricas de quatro sistemas de IA). O erro mais frequente é classificar todos os sistemas como “supervisionado” porque os estudantes consideram que todo sistema de IA tem uma resposta correta que aprendeu. O professor deve perguntar: “para treinar este sistema, você precisaria de rótulos nos dados de treinamento? Quem forneceria esses rótulos? Isso é possível neste contexto?” Para o item sobre risco de overfitting, pergunte: “em que contexto clínico esse modelo estaria sendo avaliado de forma diferente do contexto em que foi treinado? Isso importa clinicamente?”

Para a Tarefa 2 da Turma A (leitura crítica com as sete perguntas). O grupo mais frequente de erros é responder “sim, o conjunto de teste foi separado corretamente” baseando-se apenas na presença de um conjunto de teste descrito no artigo, sem verificar quando e como ele foi separado. O professor deve perguntar: “quando a separação foi feita? O modelo teve acesso a informações do conjunto de teste durante o treinamento de alguma forma indireta?” Para a pergunta sobre validação externa, os grupos tendem a aceitar validação em um segundo hospital do mesmo sistema como “externa”. O professor deve explorar: “o que tornaria uma validação genuinamente externa neste contexto?”

Para a Tarefa 3 da Turma A (análise de cenário de viés). Esta é a tarefa com maior potencial de discussão substantiva e a que os estudantes com menor background técnico costumam sentir mais insegurança. O professor deve assegurar que todos os membros do grupo estejam contribuindo — não apenas os que se consideram mais “técnicos”. A pergunta de desbloqueio para grupos travados é: “imagine que você é o médico que vai usar esse sistema no próximo paciente. O que você precisaria saber sobre ele antes de confiar no resultado?” Isso traz a questão de equidade para o nível da prática clínica individual, onde ela faz mais sentido para estudantes de medicina.

Para a Tarefa 1 da Turma B (análise de outputs de LLM). O grupo mais comum de erros é aceitar outputs que contêm informações verídicas mas formuladas com confiança excessiva ou sem contextualização adequada. O professor deve distinguir: “estar correto” é diferente de “ser útil clinicamente”. Um output que responde corretamente a uma pergunta clínica com uma linguagem que um paciente interpretaria como recomendação sem a necessidade de consulta médica pode ser correto e, ao mesmo tempo, clinicamente inadequado.

Como lidar com grupos que aceitam o output de IA acriticamente. Este é o risco pedagógico mais importante da Tarefa 1 da Turma B. Quando um grupo classificar como “correto e adequado” um output que contém uma alucinação ou uma imprecisão clínica relevante, não corrija diretamente — pergunte: “como você verificaria essa informação? Qual seria o padrão-ouro para confirmar que está correto?” Em seguida: “se um paciente lesse isso, qual seria o risco de ele tomar uma decisão clínica baseada nesse output sem consultar um médico?” A autocorreção guiada é mais eficaz do que a correção direta.

Como lidar com grupos que não conseguem identificar limitações de um artigo. Para a Tarefa 2 de ambas as turmas, grupos que afirmam “o estudo está completo, não encontramos limitações” merecem uma pergunta socrática específica: “o modelo foi testado em um hospital brasileiro, com pacientes de diferentes fototipos e diferentes condições socioeconômicas? Se não, o que isso implica para a adoção dessa ferramenta no Brasil?” Esta pergunta quase sempre abre uma fenda de análise crítica.

Para a Tarefa 3 da Turma B (proposta de componente de IA para a startup). O professor deve orientar os grupos a serem específicos: “qual é a tarefa clínica exata que o componente de IA realizaria? Qual seria o padrão de referência (padrão-ouro) para treinamento? Quais grupos de pacientes estariam sub-representados em um dataset de treinamento típico?” Grupos que propõem “um LLM que responde perguntas dos pacientes” sem especificar mais nada devem ser questionados sobre: o que o modelo precisaria saber que não está no treinamento genérico? Como você trataria dados de saúde de pacientes na LGPD?

Estágio 3 — Apresentação dos relatórios e síntese coletiva

Os últimos 20 a 25 minutos são reservados à síntese coletiva. O professor não deve usar este tempo para “cobrir” conteúdo não abordado na exposição — o tempo é para fechar o loop entre o que foi aprendido individualmente nos grupos e o que a turma como coletivo pode construir.

Como facilitar a discussão final. Solicite que dois ou três grupos compartilhem um ponto que os surpreendeu ou que gerou mais debate em cada tarefa. Não peça apresentações formais — peça insights. A diferença é importante: uma apresentação tende a sumarizar o que foi feito; um insight tende a revelar o que foi aprendido. Perguntas que produzem insights: “qual foi o ponto em que o grupo discordou mais entre si?”, “o que no artigo vocês esperavam encontrar e não encontraram?”, “qual das sete perguntas foi mais difícil de responder e por quê?”

Quais perguntas fazer à turma para aprofundar a síntese. Duas perguntas de alto rendimento para a síntese coletiva: a primeira é “o que todos os casos de falha de IA que analisamos hoje têm em comum?” (resposta esperada: insuficiência de validação externa, dataset não representativo, ou ausência de monitoramento pós-implantação — qualquer dessas respostas abre uma discussão produtiva); a segunda é “se você fosse o diretor médico de um hospital e recebesse a proposta de implantar um dos sistemas de IA que analisamos hoje, qual pergunta você faria antes de qualquer outra?”

Como conectar com o projeto de startup. A síntese deve terminar com uma ponte explícita para o projeto. O professor pode dizer: “nos próximos módulos, vocês continuarão desenvolvendo suas startups. Alguns grupos já estão pensando em componentes de IA. Antes de propor qualquer sistema de IA na startup, as perguntas que trabalhamos hoje — sobre dados de treinamento, validação, equidade, regulação — são as perguntas que investidores, hospitais e a ANVISA farão. Conhecê-las é uma vantagem competitiva real.”

7. Orientações sobre as atividades

Como apresentar as atividades da Turma A

As atividades da Turma A têm uma progressão deliberada: a Tarefa 1 trabalha reconhecimento e classificação (habilidade de ordem inferior), a Tarefa 2 trabalha análise e avaliação com ferramenta estruturada (habilidade de ordem superior), e a Tarefa 3 trabalha síntese e julgamento em contexto de alta ambiguidade (habilidade de ordem superior com componente ético). O professor deve apresentar essa progressão explicitamente na abertura do laboratório, para que os grupos gerenciem o tempo adequadamente. Um erro frequente é os grupos investirem tempo excessivo na Tarefa 1 (que é mais fácil e mais certa) e chegarem à Tarefa 3 com pouco tempo disponível.

Para a Tarefa 1, os quatro sistemas de IA descritos devem variar em paradigma (ao menos um supervisionado, um não supervisionado, um por reforço), em domínio clínico (imagem, prontuário, sensor wearable) e em grau de evidência disponível. O professor deve ter preparado um gabarito de referência, não para distribuir, mas para usar durante a tutoria.

Para a Tarefa 2, o artigo deve ser o mesmo para todos os grupos da Turma A, pois a comparação das análises entre grupos é parte da síntese coletiva — grupos diferentes costumam identificar limitações diferentes no mesmo artigo, e a discussão coletiva produz uma análise mais completa do que qualquer grupo individual teria produzido.

Para a Tarefa 3, não há resposta correta. O cenário de viés tem múltiplas interpretações válidas. O professor deve avaliar a qualidade do raciocínio — se o grupo identificou os mecanismos de viés, propôs salvaguardas concretas e demonstrou consciência das implicações para diferentes grupos de pacientes — e não a convergência para uma resposta esperada.

Como apresentar as atividades da Turma B

As atividades da Turma B têm uma progressão diferente: a Tarefa 1 trabalha análise de produto existente (LLM em contexto clínico), a Tarefa 2 trabalha avaliação combinando dois frameworks (do Módulo 01 e do Módulo 03), e a Tarefa 3 trabalha design e proposição — o que torna a Turma B mais próxima do trabalho do projeto de startup.

Para a Tarefa 1, o professor deve selecionar outputs de LLM que variem em qualidade: um output factualmente correto, bem calibrado e clinicamente útil; um output factualmente correto mas formulado de forma que induz à automedicação ou à substituição da consulta médica; e um output com alucinação clínica identificável. Os três tipos de output devem ser incluídos para que os grupos precisem realmente analisar, em vez de simplesmente identificar “o errado”.

Para a Tarefa 2, a combinação dos dois frameworks é intencional: o framework de cinco perguntas do Módulo 01 avalia a tecnologia em relação ao problema clínico que resolve e ao contexto de adoção; o framework de sete perguntas do Módulo 03 avalia a qualidade metodológica da evidência que a suporta. Nenhum dos dois é suficiente isoladamente. O professor deve verificar, durante a tutoria, se os grupos realmente aplicaram os dois frameworks ou apenas um deles.

Para a Tarefa 3, o professor deve orientar os grupos a trabalhar com a startup que já estão desenvolvendo, quando possível, ou a criar um cenário hipotético plausível. A entrega esperada é um texto dissertativo com: descrição do paradigma de aprendizado de máquina, especificação do tipo de dado de treinamento necessário, métricas de avaliação relevantes para o contexto clínico e pelo menos duas salvaguardas éticas concretas. Propostas vagas como “usaremos um modelo de IA para melhorar o diagnóstico” sem especificação do paradigma, dos dados e das métricas não atendem aos critérios.

O que avaliar e como usar os resultados

Não é necessário coletar os relatórios do laboratório para avaliação formal neste módulo — o foco deve ser no aprendizado processual, não no produto. O que o professor deve registrar mentalmente (ou em nota breve) durante a tutoria é: quais grupos demonstraram capacidade de análise crítica espontânea (sem precisar das perguntas do professor para identificar limitações); quais grupos apresentaram dificuldade persistente com a distinção entre paradigmas; e quais grupos mostraram resistência a questionar sistemas de IA, mesmo quando apresentados com evidência de falha.

Esse registro é o insumo mais valioso para a calibração do Módulo 06 (Agentes de IA), que aprofundará sistemas de IA mais complexos e autônomos. Grupos que demonstraram dificuldade conceitual com os paradigmas básicos precisarão de mais scaffolding na exposição do Módulo 06; grupos que chegaram rapidamente à análise crítica de segunda ordem precisarão de desafios mais sofisticados no laboratório daquele módulo. Anote também quais grupos do projeto de startup demonstraram intenção real de incorporar componentes de IA na startup — esses grupos merecem atenção especial na tutoria do Módulo 06.

8. Pontos críticos e estratégias de tutoria

Esta seção descreve os erros conceituais mais frequentes, as perguntas-armadilha com respostas preparadas e orientações para lidar com situações específicas de alta frequência no laboratório deste módulo.

Os três erros conceituais mais frequentes

O erro mais frequente, e o mais resistente à correção, é a conflação entre acurácia e utilidade clínica. Estudantes que tiveram contato com estatística básica reconhecem a definição formal de acurácia, mas tendem a interpretá-la intuitivamente como “o modelo acerta X% das vezes” e a inferir daí que o modelo é clinicamente útil. O professor deve ter o exemplo do classificador trivial pronto e aplicado: em uma população com prevalência de 1% da condição alvo, um modelo que declara “ausente” em todos os casos tem 99% de acurácia e 0% de utilidade. Este exemplo é simples, memorável e destrói a intuição equivocada com uma única demonstração.

O segundo erro frequente é a atribuição de causalidade a correlações aprendidas por modelos de ML. Estudantes tendem a descrever o que um modelo “sabe” ou o que o modelo “entendeu” a partir do que ele aprendeu a predizer. Um modelo que aprendeu que pacientes com maior número de consultas médicas têm maior probabilidade de reinternação não “entendeu” que consultas médicas causam internações — ele identificou uma correlação que pode refletir um confundidor (gravidade da doença), uma consequência (pacientes mais doentes consultam mais), ou um artefato do sistema de saúde. Ensinar essa distinção no contexto do Módulo 03 é uma preparação para evitar erros de interpretação que têm implicações diretas no Módulo 06 (Agentes de IA) e em toda a vida clínica do estudante.

O terceiro erro é a percepção de que viés em IA é um problema de intenção — que sistemas enviesados foram construídos por pessoas mal-intencionadas. O material explica que o viés algorítmico é frequentemente estrutural: emerge de desigualdades históricas no acesso à saúde que se refletem nos dados de treinamento, de escolhas de design aparentemente neutras que têm efeitos distributivos desiguais, e de metas de otimização que não incorporam critérios de equidade explicitamente. O professor deve reforçar essa perspectiva estrutural sempre que a discussão de ética tender para a atribuição individual de responsabilidade.

As três perguntas-armadilha com respostas preparadas

Primeira pergunta-armadilha: “O algoritmo não é objetivo? Não é melhor do que o julgamento humano, que é subjetivo e sujeito a viés?”

Esta pergunta contém três premissas que merecem ser examinadas separadamente. A primeira premissa — de que algoritmos são objetivos — é falsa no sentido relevante: um algoritmo aprende de dados produzidos por humanos em sistemas produzidos por humanos, e herda os padrões — incluindo os vieses — presentes nesses dados. Objetividade de processo não implica objetividade de resultado. A segunda premissa — de que o julgamento humano é necessariamente subjetivo — subestima a estrutura e a sistematicidade do raciocínio clínico baseado em evidência. A terceira premissa — de que “melhor que o humano” é o critério relevante — é o problema mais sutil: a comparação relevante não é IA versus médico em isolamento, mas IA integrada em um sistema de cuidado versus o sistema de cuidado sem a IA, considerando todos os efeitos de segunda ordem (como a mudança de comportamento dos clínicos quando têm acesso ao output do modelo, a automação de vieses de triagem, etc.).

Segunda pergunta-armadilha: “Por que não usar IA em tudo, se ela é mais rápida e mais barata?”

Esta pergunta merece uma resposta em dois níveis. No nível técnico: velocidade e custo são critérios relevantes, mas não suficientes — um modelo rápido e barato que tem desempenho inferior ao padrão de cuidado pode aumentar eficiência enquanto degrada desfechos. No nível sistêmico: a implantação de IA em larga escala transforma os incentivos e as práticas do sistema de saúde de formas que não são totalmente previsíveis a priori. Um sistema de triagem automatizado que nega acesso a cuidados a pacientes com determinado perfil não é apenas um erro técnico — é uma decisão de alocação de recursos com implicações éticas e legais.

Terceira pergunta-armadilha: “Mas a IA não passou no USMLE? Não é melhor do que a maioria dos médicos?”

Esta é a pergunta com maior potencial de desorientar a discussão se o professor não tiver uma resposta preparada. A resposta tem três partes. Primeira: passar no USMLE demonstra desempenho em questões de múltipla escolha com texto clínico estruturado — não em raciocínio clínico real, exame físico, integração de informação de múltiplas fontes em tempo real, comunicação com pacientes ou tomada de decisão em condições de alta ambiguidade e alto custo de erro. Segunda: desempenho médio em um teste padronizado diz pouco sobre desempenho em casos atípicos, populações sub-representadas ou situações fora da distribuição de treinamento — que são exatamente os casos em que o suporte clínico é mais necessário. Terceira: a questão relevante não é “o LLM é melhor do que o médico médio no USMLE?” mas “o LLM pode ser implantado com segurança como substituto do julgamento clínico em contextos reais, com pacientes reais, sob a LGPD e as regulações do CFM?” A resposta para esta última pergunta é claramente não, e a diferença entre as duas perguntas é a que precisa ser ensinada.

9. Recursos e materiais de apoio

Referências internas

O professor deve ter lido o material do módulo integralmente antes da aula. O glossário de 20 termos ao final do material é o vocabulário mínimo que os estudantes devem dominar ao final do módulo, e o professor deve verificar, durante a tutoria, se os grupos estão usando esses termos com precisão. O diagrama Mermaid de taxonomia da IA em medicina, também ao final do material, é um recurso visual útil para projetar durante a síntese coletiva e deve ser reconhecível pelo professor para que ele possa navegar por ele com fluência durante a discussão.

O conteúdo do Módulo 01, especialmente o framework de cinco perguntas para avaliação de tecnologias médicas, é retomado explicitamente na Tarefa 2 da Turma B. O professor deve verificar, antes da aula, se os estudantes têm acesso ao material do Módulo 01 durante o laboratório ou se é necessário disponibilizar um resumo do framework de cinco perguntas como material de apoio.

Sugestão de artigo para a Tarefa 2 da Turma A

O professor deve selecionar um artigo que valide uma ferramenta de IA diagnóstica em contexto clínico concreto. As características que tornam um artigo adequado para esta atividade são: descrição suficientemente detalhada dos dados de treinamento e teste para que os grupos possam responder às sete perguntas; presença de pelo menos uma limitação metodológica identificável por estudantes com as ferramentas do módulo (por exemplo, ausência de validação externa, seleção de pacientes de único centro, ausência de análise de subgrupos demográficos); e relevância para um domínio clínico que os estudantes de medicina do terceiro semestre reconhecem (diagnóstico por imagem, triagem de sepse, predição de reinternação).

O artigo de McKinney et al. 2020 (Google Health, Nature Medicine, mamografia com IA) pode ser usado diretamente — o professor conhece o artigo em detalhe porque ele é o exemplo trabalhado na exposição, o que facilita a tutoria no laboratório. Uma alternativa de alto valor pedagógico é o artigo de Raghu et al. sobre detecção de nódulos pulmonares em TC, que tem limitações de generalização bem documentadas e uma metodologia acessível a estudantes sem background estatístico avançado. Outra alternativa é qualquer artigo de validação do Epic Sepsis Model ou de ferramenta similar de predição de sepse publicado após 2019, que permita discussão direta sobre dataset shift e viés demográfico.

Independentemente do artigo escolhido, o professor deve preparar um guia de leitura orientada — não um gabarito, mas um conjunto de cinco a seis perguntas que direcionem os grupos para as seções mais relevantes do artigo (métodos de coleta de dados, descrição do conjunto de teste, análise de subgrupos, seção de limitações). Esse guia deve ser distribuído junto com o artigo no início do laboratório.

Conexão com módulos subsequentes

Este módulo é a base conceitual direta para o Módulo 06 (Agentes de IA), que aprofundará sistemas mais autônomos e cadeias de raciocínio de múltiplos passos. Os conceitos de aprendizado por reforço, alucinações em LLMs, explainability e regulação de SaMD introduzidos aqui serão retomados com maior sofisticação no Módulo 06. O professor deve ter em mente que os estudantes que apresentarem maior facilidade com análise crítica neste módulo são candidatos naturais a líderes de discussão no laboratório do Módulo 06.