Plano de Aula — Módulo 6: Agentes de Inteligência Artificial na Medicina

Este documento destina-se exclusivamente ao professor. Ele contém o roteiro detalhado da aula, o resumo dos conceitos-chave para preparação, as orientações pedagógicas para cada etapa da exposição e do laboratório, a descrição completa das atividades práticas e os pontos críticos que exigem atenção especial na tutoria. Não distribua este documento aos estudantes.

Visão geral do módulo

Formato: Teórico-Prático | 50 min exposição dialogada + 150 min laboratório de informática

Este módulo ocupa uma posição estratégica no arco de conteúdo. Do ponto de vista da progressão pedagógica, ele representa uma virada conceitual importante. Os módulos anteriores trataram de tecnologias que, em sua maioria, operam como ferramentas passivas — respondendo quando consultadas, exibindo resultados quando requisitadas. Este módulo introduz uma classe de sistemas qualitativamente diferente: sistemas que percebem, raciocinam, planejam e agem de forma autônoma. Essa distinção não é cosmética; ela muda o perfil de risco, o perfil de benefício e as questões éticas envolvidas.

A função pedagógica do módulo é dupla. A primeira é conceitual: desenvolver nos estudantes um framework mental que os permita classificar, analisar e discutir agentes de IA com precisão técnica — distinguindo tipos de agentes, entendendo suas arquiteturas e reconhecendo quando uma afirmação sobre agentes é factualmente fundamentada e quando é projeção entusiasta. A segunda é prática: ao final deste módulo, o estudante deve ser capaz de avaliar criticamente qualquer produto ou sistema de agentes de IA apresentado em contexto clínico, usando as cinco dimensões do framework de avaliação apresentado no material.

Um aspecto pedagogicamente sensível deste módulo é a fronteira entre o que os agentes de IA fazem hoje, de forma documentada e em uso real, e o que ainda é pesquisa em estágio inicial ou promessa de médio prazo. O professor deve ser explícito e rigoroso sobre essa distinção durante toda a aula, evitando tanto o pessimismo tecnológico quanto o entusiasmo descolado da realidade clínica atual. Estudantes formados hoje serão médicos ao longo das próximas décadas — período em que os agentes de IA provavelmente se tornarão componentes rotineiros do cuidado. O que eles precisam não é de entusiasmo nem de ceticismo, mas de um instrumental analítico robusto para avaliar e interagir com esses sistemas de forma fundamentada.

O conteúdo do módulo foi disponibilizado aos estudantes na semana anterior. A exposição dos primeiros 50 minutos deve, portanto, partir do pressuposto de que os estudantes leram o material — e deve usar esse tempo para aprofundar os pontos de maior complexidade conceitual, provocar análise crítica e confrontar ideias, não para reler o material em voz alta.

Objetivos, competências e habilidades

Objetivo da aula

Ao final desta aula, o estudante deve ser capaz de: distinguir um modelo de IA passivo de um agente de IA e articular por que essa distinção importa na prática clínica; descrever os componentes funcionais da arquitetura de um agente — percepção, representação do conhecimento, raciocínio, planejamento e execução — com exemplos clínicos concretos para cada um; classificar agentes de IA segundo a taxonomia de Russell e Norvig e aplicar essa classificação a sistemas reais; explicar como LLMs funcionam como motor de raciocínio de agentes modernos por meio dos paradigmas ReAct e Chain-of-Thought; descrever os mecanismos de function calling e RAG e identificar sua relevância para agentes clínicos; reconhecer as principais aplicações de agentes de IA já em uso clínico, distinguindo-as de aplicações ainda em pesquisa; aplicar o framework de cinco dimensões para avaliação crítica de qualquer sistema de agentes de IA em saúde; e discutir as implicações éticas, legais e de segurança dos agentes autônomos em medicina, com referência ao contexto regulatório brasileiro.

Competências a serem desenvolvidas

O estudante deve desenvolver a competência de avaliar, com perguntas estruturadas, em que situações clínicas um agente de IA representaria benefício real, em quais seria neutro e em quais poderia representar risco. Essa competência exige integrar três capacidades distintas: a análise técnica do funcionamento do sistema, a avaliação clínica do problema que ele se propõe a resolver, e o julgamento ético sobre o grau de autonomia adequado para aquele contexto. Nenhuma dessas capacidades isolada é suficiente — é a integração das três que constitui a competência completa.

Habilidades a serem desenvolvidas

As habilidades específicas deste módulo incluem: mapear o fluxo de funcionamento de um agente de IA real (o que percebe, como raciocina, que ações toma, quais são seus limites); testar intencionalmente os limites de um agente por meio de casos ambíguos, raros ou fora de escopo, e interpretar os resultados; formular perguntas relevantes ao avaliar um produto ou proposta baseada em agentes de IA; e identificar os requisitos de supervisão humana adequados para diferentes níveis de autonomia de agentes em contextos clínicos específicos.

Preparação prévia do professor

Antes da aula, o professor deve realizar três tipos de preparação.

O primeiro tipo é a preparação conceitual. Revise os conceitos centrais do material, com atenção especial para a taxonomia de Russell e Norvig — especialmente a distinção sutil entre agente reativo com estado interno e agente baseado em objetivos, que é o par mais frequentemente confundido pelos estudantes. Familiarize-se com os exemplos clínicos de cada tipo de agente apresentados no material, porque durante a exposição dialogada os estudantes farão perguntas que exigem classificação rápida e fundamentada de sistemas específicos. Revise também os paradigmas ReAct e Chain-of-Thought com exemplos concretos, pois eles são o elo entre o conceito abstrato de agente baseado em LLM e as ferramentas que os estudantes já conhecem do cotidiano (chatbots de saúde, assistentes digitais).

O segundo tipo é a preparação de materiais para o laboratório. O professor deve identificar, com antecedência, uma ou mais plataformas que permita aos grupos interagir com um agente de IA de saúde de forma prática. Opções adequadas incluem assistentes de saúde baseados em LLM com acesso gratuito ou de demonstração (como versões demo de ferramentas de triagem, chatbots de sintomas ou assistentes de saúde conversacionais). O que importa não é a sofisticação da plataforma, mas que ela permita observar o ciclo de percepção-raciocínio-ação de um agente e que seja possível testá-la com casos clínicos reais ou simulados. O professor deve testar a plataforma escolhida com antecedência, verificando o acesso a partir dos computadores do laboratório e identificando seus limites declarados e suas falhas típicas, que serão material pedagógico central na segunda etapa do laboratório.

O terceiro tipo é a preparação para a discussão ética. A questão da responsabilidade por erros de agentes de IA — quem responde quando um sistema autônomo prejudica um paciente — não tem resposta definitiva no direito brasileiro atual. O professor deve estar preparado para conduzir essa discussão de forma que os estudantes compreendam a complexidade da questão sem esperar uma resposta binária e resolvida. Familiarize-se com os documentos do CFM relevantes (especialmente a CFM 2.314/2022 sobre telemedicina, que toca tangencialmente no tema) e com os princípios do guia de ética da OMS para IA em saúde de 2021, que estruturam a discussão sem encerrá-la.

Resumo do conteúdo para o professor

Esta seção sintetiza os conceitos-chave do módulo para facilitar a preparação e servir como referência rápida durante a aula. Não substitui a leitura integral do material do módulo.

A distinção fundamental: modelos passivos versus agentes

A distinção que estrutura todo o módulo é funcional, não tecnológica: um modelo passivo responde apenas quando consultado; um agente age de forma autônoma no ambiente, persiste ao longo do tempo e toma iniciativa baseada em objetivos. O cenário de abertura do material — médico plantonista em UTI às 3h da manhã — contrasta explicitamente um modelo de risco de sepse (que calcula probabilidade quando consultado) com um agente de monitoramento (que detecta autonomamente, raciocina, busca diretrizes e envia notificação proativa). Esse contraste é o ponto de ancoragem para toda a discussão técnica subsequente.

A definição formal de agente, derivada de Russell e Norvig, é: um sistema que percebe seu ambiente por meio de sensores, processa essas percepções por meio de um componente de raciocínio e planejamento, e age sobre o ambiente por meio de atuadores. A racionalidade de um agente é definida como a capacidade de selecionar a ação que maximiza a medida de desempenho esperada, dado o que o agente conhece. Isso implica que um agente pode ser mais ou menos racional dependendo da qualidade de sua percepção, da completude do seu conhecimento e da adequação do seu componente de raciocínio.

Arquitetura funcional de um agente

Os quatro componentes da arquitetura são: (1) percepção — o que o agente capta do ambiente (prontuário eletrônico, monitores, resultados laboratoriais, registros de enfermagem); (2) representação do conhecimento — como o agente armazena e organiza o que sabe sobre o estado do mundo (estado interno, modelo do ambiente); (3) raciocínio e planejamento — como o agente decide o que fazer (chain-of-thought, árvore de objetivos, função de utilidade); e (4) execução — o que o agente faz concretamente no mundo (envia alerta, acessa ferramenta, gera relatório, ajusta parâmetro). O ciclo de feedback completa a arquitetura: o agente observa os resultados de suas ações e atualiza seu estado interno.

Taxonomia de Russell e Norvig

Os cinco tipos formam uma hierarquia de crescente sofisticação. O agente reativo simples opera por regras condição-ação sem memória — exemplos clínicos: monitores de alarme por limiar fixo. O agente reativo com estado interno mantém um modelo do mundo acumulado ao longo do tempo — exemplos: sistemas de detecção de sepse por tendência de múltiplos parâmetros. O agente baseado em objetivos tem uma meta explícita e planeja ações para atingi-la — exemplos: sistemas de verificação de interações medicamentosas antes da liberação da farmácia. O agente baseado em utilidade maximiza uma função que pondera múltiplos objetivos conflitantes — exemplos: sistemas de seleção de antibiótico que ponderam efetividade, toxicidade renal e custo simultaneamente. O agente de aprendizado melhora seu desempenho com a experiência — exemplos: sistemas de ajuste de antibioticoterapia que aprendem o perfil de resistência local ao longo do tempo.

LLMs como motor de raciocínio e os paradigmas associados

Os LLMs tornaram-se o núcleo cognitivo de agentes modernos porque exibiram capacidade emergente de decompor tarefas complexas, raciocinar em múltiplos passos e identificar quando precisam de informações externas. O paradigma ReAct (Reasoning + Acting) alterna passos de raciocínio explícito com chamadas a ferramentas externas e observação dos resultados. O Chain-of-Thought (CoT) instrui o LLM a “pensar em voz alta” antes de responder, reduzindo erros em tarefas de raciocínio lógico e clínico. O Tree-of-Thought explora múltiplas ramificações de raciocínio em paralelo, análogo ao raciocínio diagnóstico diferencial.

O function calling é o mecanismo pelo qual o LLM, ao identificar que precisa de dado externo, emite uma chamada estruturada para uma ferramenta específica (prontuário, base de medicamentos, calculadora clínica, diretriz), recebe o resultado e incorpora ao raciocínio. O RAG (Retrieval-Augmented Generation) fundamenta o raciocínio do agente em fontes de conhecimento externas atualizadas — especialmente relevante para diretrizes clínicas que mudam com frequência e que o modelo pode não conhecer ou pode conhecer em versão desatualizada.

Aplicações clínicas: o que existe hoje

Em uso clínico real ou em estudos prospectivos avançados: Epic Sepsis Model (CDSS proativo para risco de sepse, com evidências de implantação publicadas, mas com controvérsias sobre especificidade); eICU da Philips (monitoramento em UTI remota combinado a análise automatizada e teleconsulta); DAX/Nuance (documentação clínica assistida por IA, com redução documentada do tempo de documentação por consulta). Em estudo avançado com resultados preliminares: assistentes conversacionais para diabetes e doenças crônicas (Diabot e similares, com dados de melhoria de hemoglobina glicada e redução de hospitalizações em estudos piloto). Em desenvolvimento ou uso limitado: agentes de triagem conversacional (Babylon Health, Ada Health — pré-triagem de urgência, com questionamento sobre acurácia e equidade); coordenação de cuidado e gestão de prontuário (sistemas hospitalares em grandes centros, sem estudos de desfechos publicados em larga escala).

O framework de cinco dimensões para avaliação crítica

As cinco dimensões são: validade clínica (o sistema foi validado prospectivamente e em populações similares ao contexto de uso?); impacto em desfechos (o uso do sistema melhora resultados que importam aos pacientes, não apenas métricas de acurácia?); transparência e explicabilidade (o sistema apresenta seu raciocínio de forma que o médico possa avaliá-lo criticamente?); segurança e gestão de falhas (como o sistema falha — de forma segura e sinalizada, ou com falsa confiança?); equidade e viés algorítmico (o desempenho é consistente entre subgrupos populacionais relevantes?).

Ética e responsabilidade

O espectro de autonomia vai de sugestão (humano decide sempre) a alerta (agente notifica de forma proativa) a execução supervisionada (agente age após aprovação) a autonomia plena (agente age sem confirmação). Em medicina, os níveis três e quatro exigem validação rigorosa e enquadramento regulatório. O conceito de Human-in-the-Loop (HITL) define sistemas que preservam o humano como decisor final em pontos críticos. A responsabilidade por erros distribui-se entre médico, hospital e desenvolvedor em função do nível de autonomia do sistema e da forma como foi apresentado ao usuário. No Brasil, dados de saúde são dados sensíveis nos termos da LGPD (Lei 13.709/2018), e a alucinação em LLMs clínicos é mitigada por RAG, verificação cruzada por segundo agente, restrição de escopo e calibração de incerteza — mas não eliminada.

Roteiro da exposição teórica (50 minutos)

O professor deve conduzir os 50 minutos como aula dialogada, não como apresentação unidirecional. A densidade conceitual deste módulo é alta, e a tendência de cobrir todo o material expositivamente em detrimento do diálogo produz aulas pesadas e mal assimiladas. O princípio orientador é: o professor apresenta o framework conceitual; os estudantes populam esse framework com exemplos e com questionamentos críticos.

Bloco 1 — Abertura com o cenário da UTI

Inicie com o cenário de abertura do material: médico plantonista em UTI às três da manhã, paciente de sessenta e dois anos com tendências sutis — leucócitos em ascensão discreta, taquicardia progressiva, queda de pressão —, nenhum valor individualmente cruzando o limiar de alarme do monitor. Apresente o cenário como pergunta aberta: “como você saberia que esse paciente está entrando em sepse antes que seja tarde demais?”

Depois de colher as respostas da turma, introduza o contraste entre o modelo de risco (que calcula probabilidade quando você o consulta) e o agente de monitoramento (que detectou a tendência sozinho, buscou as diretrizes e enviou uma notificação proativa às 03h07 sem que ninguém pedisse nada). Não explique ainda por que eles são diferentes — deixe a pergunta “por que esses dois sistemas são tão diferentes, se ambos usam IA?” suspensa, e anuncie que o módulo responderá essa pergunta em detalhes.

Esse procedimento de abertura cumpre três funções: ativa o raciocínio clínico dos estudantes logo no início, ancora o conteúdo técnico subsequente em uma situação clínica concreta e memorável, e cria curiosidade intelectual genuína antes da explicação.

Bloco 2 — O que é um agente: conceito e arquitetura

Apresente a definição formal de agente e os quatro componentes da arquitetura funcional usando o diagrama do material como referência visual. Para cada componente, use o cenário da UTI como exemplo concreto: o que o agente de monitoramento de sepse percebe (sensores), como ele mantém o estado interno do paciente (representação), como ele decide se deve ou não enviar a notificação (raciocínio), o que ele faz concretamente (execução).

Enfatize a distinção entre dados brutos e modelo interno — essa distinção será fundamental nas atividades de laboratório e é frequentemente subestimada pelos estudantes. A frequência cardíaca de 94 bpm medida às 03h05 é um dado bruto; a tendência ascendente de 2 bpm por hora nas últimas quatro horas, combinada com a queda de pressão e o lactato em ascensão, é o modelo interno — a representação elaborada que o agente constrói a partir das percepções acumuladas.

Reserve os últimos dois minutos deste bloco para introduzir o conceito de ambiente parcialmente observável: nenhum agente clínico tem acesso perfeito a todas as informações relevantes para uma decisão. O prontuário tem lacunas, os registros de enfermagem são incompletos, o paciente não comunicou todos os medicamentos que toma. Um agente bem projetado sabe o que não sabe — e declara essa incerteza em vez de agir como se tivesse acesso completo.

Bloco 3 — Tipos de agentes: da reatividade ao aprendizado

Apresente a taxonomia de Russell e Norvig usando o diagrama hierárquico do material. O objetivo deste bloco não é que os estudantes memorizem os cinco tipos, mas que compreendam a lógica da progressão — cada nível adiciona uma capacidade que o anterior não tinha, e essa capacidade adicional resolve uma limitação real.

Use um único domínio clínico para ilustrar todos os cinco tipos — o material usa antibioticoterapia, que é pedagogicamente eficaz. O agente reativo simples verifica se o antibiótico está na lista de uso restrito e emite alerta se estiver: simples, previsível, mas cego a qualquer situação não antecipada nas regras. O agente com estado interno rastreia a evolução clínica ao longo do tempo e detecta que a febre não cedeu em 48 horas — mas não sabe o que fazer com essa informação. O agente baseado em objetivos tem a meta explícita de erradicar a infecção com o menor espectro possível e planeja passos deliberados para isso. O agente baseado em utilidade pondera efetividade versus toxicidade renal específica do paciente. O agente de aprendizado aprende o perfil de resistência daquele hospital específico ao longo de meses.

Ao final do bloco, faça a pergunta: “qual desses tipos de agente você acha que descreve melhor o Epic Sepsis Model que mencionamos?” Isso força a aplicação da taxonomia a um sistema real e frequentemente gera discussão produtiva — o sistema tem características de agente com estado interno (rastreia tendências), mas não de agente baseado em objetivos (não planeja ações para atingir um objetivo clínico).

Bloco 4 — LLMs como motor de raciocínio: function calling e RAG

Este bloco conecta os conceitos de agente com o que os estudantes já conhecem dos módulos anteriores sobre LLMs. O ponto central é que os LLMs passaram de ferramentas de geração de texto para núcleos cognitivos de agentes — e que isso foi viabilizado pelos paradigmas de raciocínio em múltiplos passos (ReAct, Chain-of-Thought) e pelo mecanismo de function calling.

Projete o diagrama de sequência do material — o agente respondendo à consulta de risco de sangramento perioperatório através de quatro chamadas de ferramentas — e percorra-o passo a passo com a turma. Peça que os estudantes identifiquem, para cada chamada de ferramenta no diagrama, se ela acessa dados específicos do paciente ou conhecimento generalista. Essa distinção é o núcleo do entendimento de function calling versus RAG.

Para o RAG, a analogia mais eficaz é a do médico que ao ver um caso consulta o UpToDate (RAG) além do prontuário (function calling para dados do paciente): ele não apenas lembra o que aprendeu na faculdade (conhecimento de treinamento do LLM), mas busca ativamente o que há de mais recente e contextualizado sobre aquela condição específica. Isso é o que o RAG faz para um agente baseado em LLM.

O ponto crítico que não pode ser omitido é a alucinação: um LLM pode afirmar que um medicamento tem uma indicação que não tem, citar um estudo que não existe, ou descrever um mecanismo que é incorreto — na mesma voz fluente e segura de uma afirmação correta. O RAG, a verificação cruzada e a calibração de incerteza mitigam esse risco, mas não o eliminam. Um agente clínico que alucina em contexto de tomada de decisão real não é apenas inútil — pode ser ativamente perigoso.

Bloco 5 — Aplicações clínicas e ética: o que existe e o que é promessa

Nos minutos finais da exposição, apresente as aplicações clínicas de forma explicitamente estruturada em dois grupos: o que já está em uso real, com evidências publicadas, e o que ainda está em pesquisa ou em desenvolvimento. O professor deve ser firme nessa distinção — é o ponto onde o entusiasmo tecnológico mais frequentemente distorce o julgamento crítico.

Em uso real documentado: sistemas de alerta de sepse integrados a prontuários eletrônicos (com controvérsias sobre especificidade, como evidenciado pelo estudo do JAMA Internal Medicine de 2021 sobre o Epic Sepsis Model); sistemas de UTI remota com monitoramento automatizado (eICU); documentação clínica assistida (DAX). Com dados piloto promissores: assistentes de doenças crônicas (Diabot). Com uso, mas evidência de desfechos limitada: agentes de triagem conversacional.

Para a ética, o professor não precisa cobrir todas as dimensões neste bloco — as atividades de laboratório e as atividades escritas abordarão isso em profundidade. O que é necessário agora é lançar a questão que estruturará toda a discussão subsequente: “quando um agente de IA participa de uma decisão clínica e o resultado é adverso, quem é responsável?” Não responda essa pergunta neste momento — deixe-a suspensa para motivar o engajamento nas atividades.

Roteiro do laboratório de informática

Os estudantes trabalham em grupos de cinco a seis durante toda a sessão de laboratório. O professor circula entre os grupos de forma contínua, atuando como tutor — questionando as análises superficiais, provocando reflexão onde os grupos ficam confortáveis demais com suas conclusões, e fazendo a conexão ativa com o projeto de startup quando pertinente. O produto de cada etapa é registrado por escrito pelos grupos e postado no Moodle ao final da aula.

Etapa 1 — Mapeamento arquitetural de um agente real

Cada grupo acessa a plataforma de agente de IA pré-selecionada pelo professor — um chatbot clínico de saúde, um assistente de triagem de sintomas, ou um agente de suporte ao manejo de condições crônicas disponível gratuitamente. O grupo interage com o agente usando casos clínicos variados — um caso de febre sem foco, um caso de dor torácica, um caso de cefaleia súbita, um caso de criança com dificuldade respiratória — e, enquanto interage, mapeia sistematicamente o funcionamento do agente usando o framework do material.

O grupo deve identificar e documentar: o que o agente percebe (quais dados ele solicita ao usuário, quais dados ele já tem acesso, quais fontes externas ele consulta); como o raciocínio se manifesta nas respostas (o agente explica seu raciocínio? usa Chain-of-Thought explícito? cita fontes?); que ações concretas o agente realiza (envia alerta, gera relatório, encaminha, apenas responde?); e quais são os limites declarados pelo próprio sistema.

O produto desta etapa é um diagrama ou descrição estruturada do funcionamento do agente com cada componente identificado, fundamentado nas interações observadas. O professor deve verificar se os grupos estão distinguindo as quatro categorias do framework arquitetural ou tratando tudo como “a IA responde perguntas” — essa superficialidade deve ser corrigida com perguntas como: “onde está o componente de raciocínio nessa resposta que o agente gerou? Como você sabe que ele raciocinou em múltiplos passos ou simplesmente recuperou uma resposta de treinamento?”

Etapa 2 — Teste intencional de limites

Esta é a etapa mais pedagogicamente densa e aquela onde a tutoria do professor faz maior diferença. O grupo submete o agente a casos intencionalmente desafiadores — casos para os quais um agente bem projetado deveria reconhecer incerteza ou limitação, e para os quais um agente mal calibrado pode gerar respostas com falsa confiança.

Os tipos de caso que o grupo deve testar incluem: casos raros ou incomuns (uma doença rara com apresentação clínica atípica); casos ambíguos (sintomas que admitem múltiplas hipóteses igualmente plausíveis, incluindo hipóteses benignas e perigosas); casos fora do escopo declarado (um problema jurídico apresentado como problema de saúde, ou um pedido de diagnóstico definitivo sobre um caso que requer exame físico); e casos com dados contraditórios (o agente afirmou em uma interação anterior que a frequência cardíaca era de 80 bpm, agora o grupo afirma que é de 140 bpm — o agente detecta a contradição?).

Para cada categoria de caso, o grupo registra: qual foi a resposta do agente, o agente declarou incerteza ou limitação explicitamente, a resposta gerada poderia ser clinicamente perigosa se seguida por um usuário leigo, e o agente se comportou como o material descreve que um agente bem projetado deveria comportar-se diante de incerteza.

O professor deve orientar os grupos a registrar tanto os comportamentos adequados quanto os inadequados — um agente que declina responder um caso fora de seu escopo e encaminha para um profissional está demonstrando exatamente o comportamento de degradação segura que o material descreve como critério de qualidade. Isso deve ser reconhecido e explicado ao grupo, não tratado como limitação.

Etapa 3 — Avaliação de segurança e conexão com o projeto de startup

Com base nas etapas anteriores, o grupo elabora uma avaliação estruturada usando o framework de cinco dimensões do material. Por limitações de tempo, a ênfase deve recair sobre três dimensões que podem ser avaliadas a partir das interações observadas: validade (o agente declarou a população e o contexto em que foi validado?), segurança e gestão de falhas (como o agente se comportou nos casos limites da Etapa 2?), e transparência e explicabilidade (o agente apresentou seu raciocínio de forma que o usuário pudesse avaliá-lo criticamente?).

A avaliação culmina em uma posição fundamentada que responde à pergunta: “esse agente poderia ser usado com segurança em um contexto clínico real? Em quais condições? Com qual nível de supervisão humana?” A resposta deve ser nuançada — reconhecer tanto os casos para os quais o agente demonstrou comportamento adequado quanto os casos em que falhou, e especificar as condições e limitações concretas que precisariam ser satisfeitas para um uso seguro.

Nos últimos quinze minutos desta etapa, o grupo discute a conexão com o projeto de startup. Há algum processo no problema que o grupo está endereçando que se beneficiaria de um agente — de autonomia proativa, monitoramento contínuo ou ação não mediada? Se sim, em qual nível do espectro de autonomia esse agente operaria, e como seria o mecanismo de supervisão humana? Se não, por quê — o problema que a startup endereça é melhor resolvido por um modelo passivo ou por outro tipo de solução? Ambas as conclusões são igualmente válidas; o que se avalia é a qualidade do raciocínio.

O produto final desta etapa — a avaliação de segurança e o parágrafo sobre a conexão com o projeto de startup — é postado no Moodle ao final da aula.

Descrição das atividades escritas

As atividades constituem tarefas de aprofundamento realizadas no laboratório ou como registro estruturado do trabalho desenvolvido. A seguir, uma orientação ao professor sobre as expectativas de cada atividade e os pontos que merecem atenção especial na avaliação.

Atividade 1 — Identificando e classificando sistemas (Turma A) e Dissecando arquitetura (Turma B)

A Atividade 1 da Turma A apresenta quatro sistemas clínicos hipotéticos e solicita a classificação de cada um como modelo passivo ou agente de IA, seguida da identificação do tipo na taxonomia de Russell e Norvig para os sistemas classificados como agentes. O ponto de avaliação mais importante não é a classificação em si — que é relativamente direta para os sistemas Alfa e Gama —, mas a qualidade do argumento que a sustenta: o estudante deve identificar no enunciado os elementos específicos que fundamentam cada classificação. Atenção especial para a distinção entre os sistemas Beta (reativo com estado interno) e Delta (baseado em objetivos), que é o par mais sutil e mais frequentemente confundido.

A Atividade 1 da Turma B apresenta o agente PediGuard e solicita a identificação componente a componente da arquitetura funcional, incluindo a análise da ausência de feedback e suas implicações. O ponto crítico é a distinção entre dados brutos e modelo interno — estudantes que descrevem os dados brutos coletados e o modelo interno como equivalentes não demonstraram compreensão do componente de representação do conhecimento. A análise do feedback deve ir além de “não há feedback” para articular as implicações práticas concretas dessa ausência ao longo do tempo.

Atividade 2 — Function calling e RAG em cardiopatia (Turma A) e Sistema multiagente para stewardship (Turma B)

A Atividade 2 da Turma A apresenta um agente de insuficiência cardíaca descompensada e solicita análise do uso de function calling e RAG, além de resposta à preocupação de um cardiologista sobre dados incompletos e aplicação mecânica das diretrizes. O ponto mais frequentemente subestimado é a distinção entre ferramentas de dados do paciente e ferramentas de conhecimento generalista — que o professor deve verificar explicitamente nas respostas. A preocupação do cardiologista sobre diretrizes aplicadas sem contextualização individual é válida e deve ser tratada com rigor, não descartada.

A Atividade 2 da Turma B solicita o projeto de um sistema multiagente para stewardship de antimicrobianos, incluindo agentes especialistas, orquestrador e análise de propagação de erros. O erro mais frequente é propor agentes que são variações do mesmo domínio sem diferença funcional real. Avalie se o estudante descreve o que cada agente faz de forma distinta e por que a distinção é funcionalmente necessária. A análise de propagação de erros deve especificar o mecanismo, não apenas afirmar que “erros se propagam” de forma genérica.

Atividade 3 — Caso de responsabilidade em anticoagulação (Turma A) e Avaliação do OncoPlan AI (Turma B)

A Atividade 3 da Turma A é o caso mais complexo: um evento adverso grave relacionado a um agente de anticoagulação com escopo de percepção limitado, analisado em quatro dimensões — arquitetural, espectro de autonomia, responsabilidade jurídica e prevenção. O ponto arquitetural mais importante é a compreensão de que a limitação de escopo não é um bug, mas uma decisão de design sobre o que o agente percebe — uma consequência da arquitetura, não de um erro de codificação. O ponto de responsabilidade mais frequentemente omitido é a responsabilidade institucional do hospital por criar condições estruturais (sobrecarga do plantonista) que tornaram a supervisão adequada impraticável.

A Atividade 3 da Turma B solicita um parecer técnico ao comitê hospitalar sobre o OncoPlan AI usando o framework de cinco dimensões. Avalie se o estudante aplica cada dimensão ao caso específico com precisão (não de forma genérica) e se a recomendação final é coerente com a análise produzida. A dimensão de equidade é frequentemente abordada de forma superficial — o professor deve verificar se o estudante articula o mecanismo pelo qual o viés se manifesta, não apenas nomeia o risco.

Pontos críticos e estratégias de tutoria

A fronteira entre o que existe hoje e o que é promessa

Este é o ponto de maior risco pedagógico do módulo, e o professor deve abordá-lo de forma ativa e explícita, não passiva. Estudantes tendem a extrapolar a existência de qualquer aplicação clínica de agentes de IA como confirmação de que “a IA vai resolver tudo em medicina”. O antídoto é a pergunta específica, repetida ao longo de toda a aula: “esse sistema está em uso clínico rotineiro, em estudo prospectivo com resultados publicados, ou ainda na fase de protótipo e demonstração de conceito?” As três categorias têm implicações radicalmente diferentes, e o professor deve tornar isso explícito sempre que um exemplo for apresentado.

O caso do Epic Sepsis Model é particularmente valioso pedagogicamente porque é um sistema real, amplamente implantado, com estudos publicados — e ainda assim com controvérsia substancial sobre sua especificidade na prática real. Ele ilustra que estar em uso clínico não é o mesmo que ter evidência robusta de benefício.

O viés de automação e suas consequências

O viés de automação é a tendência humana de aceitar recomendações de sistemas automatizados sem o escrutínio crítico que se aplicaria a uma recomendação humana equivalente. É um fenômeno psicológico bem documentado em aviação, controle de tráfego aéreo e radiologia digital — e está emergindo como um risco central no uso clínico de agentes de IA.

O caso de anticoagulação da Atividade 3A ilustra exatamente esse viés: o plantonista sobrecarregado, após meses de uso bem-sucedido do agente, passou a aceitar recomendações sistematicamente sem revisão crítica. O professor deve explorar este ponto com a turma: “o plantonista errou? Ou o sistema foi implantado de forma que tornava a supervisão adequada quase impossível nas condições reais de trabalho?” Essa pergunta não tem resposta fácil, e a tensão que ela gera é pedagogicamente valiosa.

A questão da responsabilidade como motor de aprendizagem

A questão de quem é responsável quando um agente de IA prejudica um paciente não deve ser apresentada como problema sem solução nem como problema com resposta simples. Ela deve ser usada como motor de aprendizagem: para responder a pergunta, o estudante precisa entender o nível de autonomia do agente, o papel do médico que o usou, as obrigações do hospital que o implantou e as responsabilidades do desenvolvedor que o construiu. Cada uma dessas dimensões exige a aplicação de conceitos específicos do material.

O professor deve evitar a tendência de simplesmente atribuir toda a responsabilidade ao médico (“afinal, a decisão final é sempre do médico”). Isso é tecnicamente verdadeiro em muitos cenários, mas pedagogicamente empobrecedor — e ignora a responsabilidade institucional e de produto que o material discute explicitamente. A discussão mais rica é aquela que reconhece a distribuição de responsabilidades como um problema genuinamente complexo que a regulamentação brasileira ainda não resolveu.

A armadilha de confundir sofisticação com segurança

Estudantes frequentemente associam a sofisticação técnica de um sistema com sua segurança clínica. Um agente baseado em um LLM de última geração com function calling e RAG parece mais confiável do que um agente reativo simples — mas não é necessariamente mais seguro em um contexto clínico específico. O que determina a segurança clínica de um agente é a qualidade de sua validação naquele contexto, a adequação do seu nível de autonomia ao perfil de risco das decisões que apoia, e a existência de mecanismos de degradação segura.

A pergunta que o professor pode usar para combater essa confusão é: “um agente muito sofisticado que foi validado em uma população completamente diferente da sua é mais seguro ou menos seguro do que um agente simples validado prospectivamente nos seus próprios pacientes?” A resposta — que o agente simples validado localmente pode ser mais seguro para aquela população específica — frequentemente surpreende os estudantes e instala a distinção entre sofisticação técnica e adequação clínica.

A dificuldade de integrar dimensões na Atividade 3

As atividades de nível desafiador de ambas as turmas exigem integração de múltiplas dimensões — arquitetural, clínica, ética, jurídica, de processo. Grupos que respondem por tópicos isolados, sem conectar as dimensões entre si, não atingem o objetivo da atividade. O professor deve identificar esses grupos durante o laboratório e provocar a integração com perguntas transversais: “a limitação arquitetural que você descreveu tem consequências sobre a questão de responsabilidade que você analisou? Como elas se conectam?” Esse tipo de pergunta transversal é o que mais diferencia a tutoria ativa da avaliação passiva.

Recursos e materiais de apoio

Para a seleção da plataforma de agente de IA a ser usada no laboratório, o professor deve priorizar sistemas com as seguintes características: acesso gratuito ou por demonstração sem necessidade de cadastro que comprometa a privacidade dos estudantes; orientação explícita para saúde ou para triagem de sintomas (em vez de chatbots generalistas); e comportamento suficientemente transparente para que o raciocínio do agente seja observável durante a interação. Plataformas como o Ada Health e o Babylon Health (em versões de demonstração) e assistentes de saúde baseados em LLM com acesso gratuito têm sido usados em contextos educacionais similares, mas o professor deve verificar a disponibilidade e a adequação de cada uma para o contexto específico da aula.

Para o bloco de ética na exposição, o professor pode consultar o documento da OMS “Ethics and governance of artificial intelligence for health” (2021), disponível em acesso aberto no site da organização, que estrutura os princípios de autonomia, não maleficência, beneficência, justiça, privacidade e explicabilidade para IA em saúde de forma acessível e diretamente aplicável ao contexto clínico. O Capítulo 3 do documento, sobre princípios para uso responsável de IA em saúde, é especialmente útil como referência para a discussão de supervisão humana e responsabilidade.

Para o debate sobre o Epic Sepsis Model, o professor pode consultar o artigo de Wong et al. publicado no JAMA Internal Medicine em 2021 (“External Validation of a Widely Implemented Proprietary Sepsis Prediction Model in Hospitalized Patients”), que demonstrou alta taxa de alarmes falsos positivos em implantação prospectiva. Esse artigo é um exemplo pedagógico valioso de como um sistema amplamente implantado pode não apresentar o desempenho esperado em contextos diferentes do desenvolvimento.

Para grupos de startup que demonstrarem interesse em incorporar agentes de IA em seu produto, o professor pode orientar a consulta às diretrizes da ANVISA para Softwares como Dispositivos Médicos (SaMDs), especialmente a RDC 657/2022, que estabelece os critérios de classificação de risco e os requisitos regulatórios aplicáveis — documentos públicos disponíveis no portal da agência. A compreensão do enquadramento regulatório precoce é um componente relevante para o pitch final do projeto de startup.