Seu relógio vai detectar gravidez? A revolução silenciosa da IA nos wearables

Um relógio sabe quando você está grávida?” A pergunta resume o impacto do Wearable Behavior Model (WBM), modelo fundacional de inteligência artificial (IA) treinado pela Apple em 162 mil participantes e mais de 15 bilhões de horas de dados. Diferente das abordagens focadas em sinais brutos (batimentos cardíacos, por exemplo), o WBM aprende padrões comportamentais (passos, sono, mobilidade) para prever estados de saúde — e demonstrou capacidade de detectar gravidez em 92% das vezes. Ao longo do artigo vamos entender o poder da IA aplicada em dispositivos vestíveis, como o Apple Watch, e Iphone.

O que foi descoberto?

Pesquisadores da Apple, em 30 junho de 2025, divulgaram um estudo, cujo objetivo foi desenvolver um modelo fundacional, chamado Wearable Behavior Model (WBM), a partir de dados obtidos através do Apple Watch e do Iphone, para melhorar as previsões de saúde. Para isso, coletaram dados de 161.855 participantes únicos voluntários, que forneceram 2.5 bilhões de horas de dados.

Modelo fundacional é um tipo de modelo de inteligência artificial treinado com uma grande quantidade de dados genéricos e diversos, com o objetivo de servir como base para várias tarefas específicas, mesmo que essas tarefas não tenham sido previstas originalmente.

Quais dados foram utilizados?

Dois tipos de informações foram coletadas dos voluntários:

Informações ativas

  • Realizada através da aplicação de questionário:
    • Idade;
    • Sexo Biológico;
    • Histórico Médico Basal e Uso de Medicamentos;
    • Estados de Saúde:
      • Status de Diabetes via HbA1c;
      • Infecção Respiratória;
      • Lesão/Ferimento;
      • Gravidez;
      • Métricas de Qualidade do Sono.

Aqueles que não responderam ao questionário, foram excluídos do estudo.

Informações passivas

Foram coletados, passivamente, através da utilização de Apple Watch e Iphone, 27 dados, que fazem parte do modelo fundacional desenvolvido, WBM:

  • Atividade (8 variáveis): Energia ativa queimada, energia basal, contagem de passos (telefone e relógio), tempo de exercício, tempo em pé e andares subidos (telefone e relógio).
  • Cardiovascular (4 variáveis): Frequência cardíaca em repouso, média da frequência cardíaca ao caminhar, frequência cardíaca e variabilidade da frequência cardíaca.
  • Sinais Vitais (3 variáveis): Taxa respiratória (apenas durante a noite), oxigênio no sangue e temperatura do pulso (durante a noite).
  • Marcha/Mobilidade (8 variáveis): Métricas de caminhada (velocidade, comprimento do passo, porcentagem de apoio duplo, porcentagem de assimetria e pontuação de estabilidade), velocidade de subida/descida de escadas e contagem de quedas.
  • Medidas Corporais (2 variáveis): Massa corporal e IMC.
  • Aptidão Cardiovascular/Capacidade Funcional (2 variáveis): VO2max e distância percorrida em seis minutos

Mais pra frente vamos falar sobre o PPG (Fotopletismograma), por isso, cabe aqui explicar sobre. Você sabe como o Apple Watch faz para estimar frequência cardíaca, variabilidade da frequência cardíaca (HRV), e níveis de oxigênio no sangue (SpO₂)? Ele utiliza o PPG, um sensor que mede o volume de sangue sob a pele. Para isso, ele emite luz (geralmente verde ou infravermelha); que penetra os tecidos e reflete de volta dependendo da quantidade de sangue presente nos capilares naquele momento. Assim, consegue estimar estas informações.

Quais predições foram apresentadas no estudo?

A Detecção de Gravidez foi apenas uma das tarefas preditivas apresentadas no estudo. Ao todo, o modelo WBM foi avaliado para 57 tarefas relacionadas à saúde, abrangendo uma ampla variedade de domínios médicos. Dentre elas, estão:

  • Previsão de Idade;
  • Previsão de Sexo Biológico;
  • Ansiedade;
  • Medição para Pressão Alta;
  • Câncer;
  • Colesterol Alto;
  • Depressão;
  • Diabetes;
  • Ataque Cardíaco;
  • Cirrose Hepática;
  • Dentre outras…

A métrica utilizada para a avaliação foi a AUROC (Área sob a Curva ROC), que mede a capacidade do modelo de distinguir entre duas classes. Os cinco melhores resultados, dentre todas as predições realizadas, foram:

  1. Sexo Biológico, com AUROC de 0.999;
  2. Detecção de Gravidez, com AUROC de 0.921;
  3. Utilização de Marca-Passo, com AUROC de 0.899;
  4. Insuficiência Cardíaca, com AUROC de 0.889;
  5. Detecção de Fumante Ativo, com AUROC de 0.881.

Detecção de Gravidez

Para criar o conjunto de dados de gravidez, os pesquisadores utilizaram informações de 385 participantes, que geraram 430 gestações terminadas em parto normal ou cesariana, ao longo de todo o estudo.

A gravidez resulta em mudanças substanciais tanto na fisiologia, capturada pelo PPG, quanto no comportamento, capturado pelo WBM. E o modelo combinando os dois dados demonstrou o melhor resultado:

Modelo testado para Detecção de GravidezAUROC
WBM + PPG 0.921 (intervalo de confiança de 0.914, 0.928)
WBM0.864 (intervalo de confiança de 0.855, 0.873)
PPG 0.873 (intervalo de confiança de 0.865, 0.882)
Baseline (estatísticas e dados demográficos)0.804 (intervalo de confiança de 0.795, 0.813)

Este último modelo é baseado em estatísticas simples dos dados de cada participante, como: média e desvio padrão de cada uma das 27 variáveis; e dados demográficos básicos (ídade, sexo, IMC, raça/etnia…). Não usa aprendizado profundo nem fundações complexas, servindo apenas como ponto de comparação.

Abordagem do estudo: a) dados coletados de 161.855 participantes; b) desenvolvimento do modelo WBM; c) predição de 57 tarefas relacionadas à saúde | Fonte: imagem coletada do Eray Erturk et al. (2025)

Conclusão

Apple Watch poderá prever gravidez ou outras condições? Ainda não é possível afirmar com certeza. Apesar dos avanços promissores, diversos desafios precisam ser superados antes que essa tecnologia possa ser utilizada clinicamente com segurança e confiabilidade.

Entre as principais limitações destacadas pelos autores do estudo, estão:

  • Generalização limitada: o modelo foi treinado com base em dados comportamentais de uma população específica. Como pessoas com a mesma condição de saúde podem apresentar comportamentos distintos, o desempenho do modelo pode variar em grupos mais diversos.
  • Qualidade dos dados: muitas das informações usadas como rótulo foram obtidas via questionários auto-relatados, o que pode comprometer a precisão. Embora eventos como gravidez sejam mais confiáveis por sua natureza marcante, outras condições são mais suscetíveis a erro.
  • Viés de seleção: mesmo com uma grande amostra, os participantes tendem a representar um perfil com maior nível socioeconômico, acesso à tecnologia e engajamento com saúde — o que limita a aplicabilidade universal dos resultados.
  • Acionabilidade clínica: ainda é incerto como as predições geradas devem ser utilizadas na prática. Se o modelo detectar sinais precoces de gravidez, por exemplo, ele deve alertar o usuário? Recomendar testes laboratoriais? A forma de atuação diante dessas predições ainda precisa ser cuidadosamente avaliada.

Essas são apenas algumas das limitações relevantes. Ainda assim, os modelos de inteligência artificial baseados em dados de dispositivos vestíveis demonstram um enorme potencial para transformar a saúde digital, oferecendo monitoramento contínuo, não invasivo e a possibilidade de detecção precoce de condições clínicas importantes.

📚 Referências

Esta não é a primeira vez que trazemos um artigo sobre um estudo da Apple. Já trouxemos um artigo para o Neural em Campo sobre a detecção de frequência cardíaca, e até sopros cardíacos, pelos AirPods. Clique aqui para ler

— 🧠 **Por Gustavo Giannella, para o Neural Saúde** Biomédico especialista em diagnóstico por imagem e inteligência artificial aplicada à saúde. Editor do portal NeuralSaude.com.br, dedicado a mapear e explicar como a IA está transformando a medicina no Brasil. 📩 Quer acompanhar as novidades? Siga o [Instagram @neural.saude] ou visite o site [www.neuralsaude.com.br] —

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *