O que são dados sintéticos em saúde e por que são cruciais para a IA médica?

Alguns bebês nascem com disfunção ventricular, que é a incapacidade do coração em bombear sangue eficientemente. Agora, imagina que pesquisadores queiram criar um modelo de inteligência artificial (IA) para identificar e classificar estes pacientes precocemente. Pra isso, eles usariam dados ecocardiográficos e laboratoriais reais, mas descobrem que algumas informações importantes para o treinamento do modelo estão faltando. Diante dessa limitação, o desenvolvimento do modelo estaria comprometido? Seria necessário interromper o projeto por falta de dados?

É exatamente aqui que entram os dados sintéticos, criados para mimetizar, ou seja, imitar dados reais para a criação de modelos de inteligência artificial.

Dados sintéticos e aplicação na área da saúde

Dados sintéticos são informações geradas artificialmente por algoritmos de computador que reproduzem as características estatísticas de dados reais de pacientes, como os presentes em prontuários eletrônicos, exames ou sensores.

A pesquisa mencionada acima sobre utilização deste tipo de dado para classificar pacientes com disfunção ventricular não é hipotética, é real, e foi publicada na revista Congenital Heart Disease, em março de 2025. E os pesquisadores conseguiram demonstrar real utilidade de sua aplicação neste contexto.

Mas preencher lacunas ausentes para treinar e validar ferramentas de IA não é a única função dos dados sintéticos, que podem ser usados também para acelerar pesquisa, desenvolvimento e ensaios clínicos, e reduzir riscos de privacidade e conformidade legal.

Como os dados sintéticos são gerados

Sua geração pode ocorrer por diferentes métodos, escolhidos conforme o contexto e os objetivos do projeto:

  • Baseado em propriedades estatísticas e conhecimento de especialistas: combina estatísticas populacionais com conhecimento especializado para simular dados coerentes com padrões reais, especialmente útil quando os dados originais são escassos ou sensíveis;
  • Obscurecimento e manipulação manual de dados de origem: parte dos próprios dados reais, aplicando obscurecimento e manipulações para manter as relações estatísticas, sem revelar informações identificáveis;
  • Técnicas de aprendizado de máquina (machine learning): são métodos mais avançados que utilizam modelos de aprendizado de máquina, capazes de aprender relações complexas entre os dados e gerar amostras altamente realistas, inclusive para aplicações específicas como imagens médicas, dados tabulares ou séries temporais.

Características dos dados sintéticos

Sua qualidade é medida principalmente pela fidelidade, ou seja, o quanto se assemelha aos dados reais, e pela utilidade, quão eficaz é ao substituir os dados originais em tarefas específicas. No entanto, quanto maior a utilidade, maior também pode ser o risco à privacidade, já que os dados se aproximam demais dos originais.

Esses dados podem ser totalmente sintéticos (com todas as variáveis geradas artificialmente) ou parcialmente sintéticos (com apenas algumas variáveis simuladas), e essa escolha afeta diretamente o equilíbrio entre privacidade e complexidade.

Dados sintéticos na saúde: onde estão sendo aplicados

Estudo com dados sintéticos em radiografias de tórax

Pesquisadores de departamentos de radiologia e informática dos Estados Unidos, divulgaram um estudo que teve como objetivo avaliar a performance de classificadores patológicos baseados em radiografias de tórax, com e sem uso de dados sintéticos.

Eles criaram, usando modelos avançados de inteligência artificial, 10 cópias sintéticas para cada imagem real do banco de dados CheXpert, que contém 72.053 radiografias anteroposteriores (AP). Isso resultou em aproximadamente 720 mil imagens. Cada imagem sintética foi condicionada em idade, sexo, raça e uma patologia específica (de 14 patologias no total, como cardiomegalia, pneumonia, fratura, dentre outras).

E os resultados mostraram ganho de desempenho ao comparar dados reais + dados sintéticos, em relação à utilização de apenas dados reais. Por outro lado, ao testar o classificador apenas com dados sintéticos, ainda que tenha chegado perto, observou-se queda no desempenho. Assim, conclui-se que, pelos resultados deste estudo, a melhor forma de utilização destes dados é quando misturados com dados reais.

Os resultados foram medidos através da métrica AUROC (Area Under the Receiver Operating Characteristic Curve), que avalia o poder de um modelo em distinguir entre pacientes com e sem a condição, variando de 0,5 (aleatório) até 1,0 (perfeito).

Conjunto 1AUROC 1Conjunto 2AUROC 2Ganho/Perda
CheXpert sem dados sintéticos0.7821000% de suplementação sintética0.804+0.022
Base Externa MIMIC-CXR sem dados sintéticos0.7491000% de suplementação sintética0.770+0.021
Base Externa ECXR sem dados sintéticos0.7391000% de suplementação sintética0.756+0.017

O artigo foi publicado em junho de 2024, na revista eBioMedicine, um periódico do grupo The Lancet.

Uso de dados sintéticos derivados de dispositivos vestíveis, como Apple Watch

Em agosto de 2025, pesquisadores ligados a importantes universidades do Reino Unido discutiram, em artigo publicado na npj Digital Medicine, o uso de dados provenientes de vestíveis, como o Apple Watch, para a sintetização de dados.

Segundo os autores, por serem coletados continuamente, com alta resolução temporal, estes dados são valiosos para modelar ciclos de sono, resposta fisiológica ao estresse e padrões de atividades físicas. E destacam que são ricos também para a criação de “digital twins” (gêmeos digitais), construindo modelos personalizados e simuladores sintéticos.

Riscos na utilização de dados sintéticos provenientes de wearables
  • Alto risco de reidentificação: ainda que os dados sejam anonimizados, há o risco de reidentificação e uso indevido por parte de empresas e organizações;
  • Viés de representatividade: a maioria dos usuários destes dispositivos são jovens, e pertencem a classes mais privilegiadas economicamente, o que pode levar a desenvolvimento de modelos enviesados;
  • Dificuldade de validar privacidade e veracidade: ainda há uma lacuna de métodos auditáveis que garantam a privacidade e veracidade destas informações;
  • Possível replicação de erros: ruídos nos sensores, erros de calibração e vieses nos algoritmos podem acabar sendo replicados e herdados pelos modelos sintéticos.

Recentemente publicamos um artigo sobre a criação de um modelo fundacional com base nos dados de wearables, onde é possível verificar o poder que estas informações têm. Clique aqui para ler o artigo.

Conclusão: o papel estratégico dos dados sintéticos na saúde digital

Os dados sintéticos estão se consolidando como uma ferramenta essencial para o avanço da inteligência artificial na medicina, especialmente em cenários com limitações de acesso a dados reais. Seja para treinar algoritmos diagnósticos, acelerar ensaios clínicos ou preservar a privacidade dos pacientes, seu uso permite romper barreiras éticas, técnicas e regulatórias.

Estudos recentes demonstram que a combinação de dados reais e sintéticos tende a gerar os melhores resultados em modelos preditivos, como vimos nas aplicações com radiografias torácicas e dados de dispositivos vestíveis. No entanto, é fundamental considerar os riscos associados, como reidentificação e viés de representatividade.

À medida que a saúde digital evolui, entender como os dados sintéticos funcionam — e onde podem ser aplicados com segurança e eficiência — será cada vez mais necessário para pesquisadores, profissionais de saúde e desenvolvedores de IA médica.

Para aprofundar seu conhecimento em inteligência artificial aplicada à saúde, continue acompanhando o glossário Neural Explica! e explore nossos conteúdos sobre aprendizado de máquina em medicina, privacidade de dados em saúde digital e modelos fundacionais baseados em wearables.

Referências e Leituras Complementares

O Neural Explica! é nosso glossário de IA na área da saúde. Aqui você aprende sobre os mais variados termos com exemplos reais de aplicação na área da saúde.

— 🧠 **Por Gustavo Giannella, para o Neural Saúde** Biomédico especialista em diagnóstico por imagem e inteligência artificial aplicada à saúde. Editor do portal NeuralSaude.com.br, dedicado a mapear e explicar como a IA está transformando a medicina no Brasil. 📩 Quer acompanhar as novidades? Siga o [Instagram @neuralsaude] ou visite o site [www.neuralsaude.com.br] —

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *