Alguns bebês nascem com disfunção ventricular, que é a incapacidade do coração em bombear sangue eficientemente. Agora, imagina que pesquisadores queiram criar um modelo de inteligência artificial (IA) para identificar e classificar estes pacientes precocemente. Pra isso, eles usariam dados ecocardiográficos e laboratoriais reais, mas descobrem que algumas informações importantes para o treinamento do modelo estão faltando. Diante dessa limitação, o desenvolvimento do modelo estaria comprometido? Seria necessário interromper o projeto por falta de dados?
É exatamente aqui que entram os dados sintéticos, criados para mimetizar, ou seja, imitar dados reais para a criação de modelos de inteligência artificial.
Dados sintéticos e aplicação na área da saúde
Dados sintéticos são informações geradas artificialmente por algoritmos de computador que reproduzem as características estatísticas de dados reais de pacientes, como os presentes em prontuários eletrônicos, exames ou sensores.
A pesquisa mencionada acima sobre utilização deste tipo de dado para classificar pacientes com disfunção ventricular não é hipotética, é real, e foi publicada na revista Congenital Heart Disease, em março de 2025. E os pesquisadores conseguiram demonstrar real utilidade de sua aplicação neste contexto.
Mas preencher lacunas ausentes para treinar e validar ferramentas de IA não é a única função dos dados sintéticos, que podem ser usados também para acelerar pesquisa, desenvolvimento e ensaios clínicos, e reduzir riscos de privacidade e conformidade legal.
Como os dados sintéticos são gerados
Sua geração pode ocorrer por diferentes métodos, escolhidos conforme o contexto e os objetivos do projeto:
- Baseado em propriedades estatísticas e conhecimento de especialistas: combina estatísticas populacionais com conhecimento especializado para simular dados coerentes com padrões reais, especialmente útil quando os dados originais são escassos ou sensíveis;
- Obscurecimento e manipulação manual de dados de origem: parte dos próprios dados reais, aplicando obscurecimento e manipulações para manter as relações estatísticas, sem revelar informações identificáveis;
- Técnicas de aprendizado de máquina (machine learning): são métodos mais avançados que utilizam modelos de aprendizado de máquina, capazes de aprender relações complexas entre os dados e gerar amostras altamente realistas, inclusive para aplicações específicas como imagens médicas, dados tabulares ou séries temporais.
Características dos dados sintéticos
Sua qualidade é medida principalmente pela fidelidade, ou seja, o quanto se assemelha aos dados reais, e pela utilidade, quão eficaz é ao substituir os dados originais em tarefas específicas. No entanto, quanto maior a utilidade, maior também pode ser o risco à privacidade, já que os dados se aproximam demais dos originais.
Esses dados podem ser totalmente sintéticos (com todas as variáveis geradas artificialmente) ou parcialmente sintéticos (com apenas algumas variáveis simuladas), e essa escolha afeta diretamente o equilíbrio entre privacidade e complexidade.
Dados sintéticos na saúde: onde estão sendo aplicados
Estudo com dados sintéticos em radiografias de tórax
Pesquisadores de departamentos de radiologia e informática dos Estados Unidos, divulgaram um estudo que teve como objetivo avaliar a performance de classificadores patológicos baseados em radiografias de tórax, com e sem uso de dados sintéticos.
Eles criaram, usando modelos avançados de inteligência artificial, 10 cópias sintéticas para cada imagem real do banco de dados CheXpert, que contém 72.053 radiografias anteroposteriores (AP). Isso resultou em aproximadamente 720 mil imagens. Cada imagem sintética foi condicionada em idade, sexo, raça e uma patologia específica (de 14 patologias no total, como cardiomegalia, pneumonia, fratura, dentre outras).
E os resultados mostraram ganho de desempenho ao comparar dados reais + dados sintéticos, em relação à utilização de apenas dados reais. Por outro lado, ao testar o classificador apenas com dados sintéticos, ainda que tenha chegado perto, observou-se queda no desempenho. Assim, conclui-se que, pelos resultados deste estudo, a melhor forma de utilização destes dados é quando misturados com dados reais.
Os resultados foram medidos através da métrica AUROC (Area Under the Receiver Operating Characteristic Curve), que avalia o poder de um modelo em distinguir entre pacientes com e sem a condição, variando de 0,5 (aleatório) até 1,0 (perfeito).
| Conjunto 1 | AUROC 1 | Conjunto 2 | AUROC 2 | Ganho/Perda |
| CheXpert sem dados sintéticos | 0.782 | 1000% de suplementação sintética | 0.804 | +0.022 |
| Base Externa MIMIC-CXR sem dados sintéticos | 0.749 | 1000% de suplementação sintética | 0.770 | +0.021 |
| Base Externa ECXR sem dados sintéticos | 0.739 | 1000% de suplementação sintética | 0.756 | +0.017 |
O artigo foi publicado em junho de 2024, na revista eBioMedicine, um periódico do grupo The Lancet.
Uso de dados sintéticos derivados de dispositivos vestíveis, como Apple Watch
Em agosto de 2025, pesquisadores ligados a importantes universidades do Reino Unido discutiram, em artigo publicado na npj Digital Medicine, o uso de dados provenientes de vestíveis, como o Apple Watch, para a sintetização de dados.
Segundo os autores, por serem coletados continuamente, com alta resolução temporal, estes dados são valiosos para modelar ciclos de sono, resposta fisiológica ao estresse e padrões de atividades físicas. E destacam que são ricos também para a criação de “digital twins” (gêmeos digitais), construindo modelos personalizados e simuladores sintéticos.
Riscos na utilização de dados sintéticos provenientes de wearables
- Alto risco de reidentificação: ainda que os dados sejam anonimizados, há o risco de reidentificação e uso indevido por parte de empresas e organizações;
- Viés de representatividade: a maioria dos usuários destes dispositivos são jovens, e pertencem a classes mais privilegiadas economicamente, o que pode levar a desenvolvimento de modelos enviesados;
- Dificuldade de validar privacidade e veracidade: ainda há uma lacuna de métodos auditáveis que garantam a privacidade e veracidade destas informações;
- Possível replicação de erros: ruídos nos sensores, erros de calibração e vieses nos algoritmos podem acabar sendo replicados e herdados pelos modelos sintéticos.
Recentemente publicamos um artigo sobre a criação de um modelo fundacional com base nos dados de wearables, onde é possível verificar o poder que estas informações têm. Clique aqui para ler o artigo.
Conclusão: o papel estratégico dos dados sintéticos na saúde digital
Os dados sintéticos estão se consolidando como uma ferramenta essencial para o avanço da inteligência artificial na medicina, especialmente em cenários com limitações de acesso a dados reais. Seja para treinar algoritmos diagnósticos, acelerar ensaios clínicos ou preservar a privacidade dos pacientes, seu uso permite romper barreiras éticas, técnicas e regulatórias.
Estudos recentes demonstram que a combinação de dados reais e sintéticos tende a gerar os melhores resultados em modelos preditivos, como vimos nas aplicações com radiografias torácicas e dados de dispositivos vestíveis. No entanto, é fundamental considerar os riscos associados, como reidentificação e viés de representatividade.
À medida que a saúde digital evolui, entender como os dados sintéticos funcionam — e onde podem ser aplicados com segurança e eficiência — será cada vez mais necessário para pesquisadores, profissionais de saúde e desenvolvedores de IA médica.
Para aprofundar seu conhecimento em inteligência artificial aplicada à saúde, continue acompanhando o glossário Neural Explica! e explore nossos conteúdos sobre aprendizado de máquina em medicina, privacidade de dados em saúde digital e modelos fundacionais baseados em wearables.
Referências e Leituras Complementares
- Orientações do NHS sobre Governança e Inteligência Artificial na Saúde
- OMS: Diretrizes Éticas e de Governança para Modelos de IA Multimodais (2024)
- Uso de Dados Sintéticos em Radiologia: Evidências da eBioMedicine
- Desafios na Geração de Dados Sintéticos para IA em Saúde
- Privacidade e Simulação de Dados em IA Médica (ScienceDirect)
- Geração de Dados Sintéticos com Aprendizado de Máquina — Estudo PubMed
- Duke Health Policy: Inovação Biomédica com Dados Sintéticos
- PHG Foundation: Dados Sintéticos em Saúde Podem Ser Dados Pessoais?
- Modelagem de Gêmeos Digitais com Dados de Dispositivos Vestíveis — The Lancet Digital Health
- Aspectos Éticos da Geração de Dados Sintéticos na Saúde (Wiley)
- IA Médica com Dados Sintéticos: Limites e Potencial — The Lancet Digital Health (2025)
- Nature Digital Medicine: Aplicações Práticas de Dados Sintéticos em Saúde
- Riscos de Viés em Modelos Treinados com Dados Sintéticos — The Lancet Digital Health
- Geração de Dados Sintéticos com IA Generativa para Dispositivos Vestíveis — Nature (2025)
O Neural Explica! é nosso glossário de IA na área da saúde. Aqui você aprende sobre os mais variados termos com exemplos reais de aplicação na área da saúde.
— 🧠 **Por Gustavo Giannella, para o Neural Saúde** Biomédico especialista em diagnóstico por imagem e inteligência artificial aplicada à saúde. Editor do portal NeuralSaude.com.br, dedicado a mapear e explicar como a IA está transformando a medicina no Brasil. 📩 Quer acompanhar as novidades? Siga o [Instagram @neuralsaude] ou visite o site [www.neuralsaude.com.br] —



