Pesquisadores da Apple, em colaboração com universidades como a Universidade da Carolina do Norte e a Universidade Johns Hopkins, investigaram o uso de modelos de IA treinados em fala para estimar a frequência cardíaca a partir de sons do coração (fonocardiogramas).
O estudo avaliou seis modelos de representação acústica, incluindo HuBERT, wav2vec2, wavLM, Whisper, CLAP e uma versão interna do CLAP. Modelos de representação acústica são algorítimos de IA que transformam sinais sonoros brutos (como gravações de voz), em um conjunto de números que codificam informações relevantes do áudio. E os resultados mostraram que, mesmo sem treinamento específico para dados médicos, esses modelos podem estimar a frequência cardíaca com precisão comparável a métodos tradicionais. Notavelmente, o modelo interno da Apple (CLAP) superou os demais, alcançando o menor erro absoluto médio (MAE) em várias divisões de dados.
A pesquisa utilizou o conjunto de dados público CirCor DigiScope Phonocardiogram, contendo cerca de 20 horas de gravações de sons cardíacos. Essas gravações foram segmentadas em trechos de cinco segundos para análise. Os modelos de IA analisaram essas amostras para prever a frequência cardíaca em batimentos por minuto (BPM).
O estudo também observou que camadas intermediárias dos modelos de IA foram mais eficazes na detecção de sinais cardíacos, enquanto camadas mais profundas, geralmente ajustadas para reconhecimento de fala, foram menos eficazes na análise de sons biológicos como batimentos cardíacos. Segundo o estudo, isso se deve ao fato de camadas intermediárias preservarem informações acústicas essenciais, não linguísticas.
Além disso, a Apple está explorando a possibilidade de integrar essa tecnologia em dispositivos como os AirPods, permitindo a monitorização passiva da frequência cardíaca sem a necessidade de sensores dedicados. Essa abordagem poderia oferecer monitoramento contínuo da saúde cardíaca de forma não invasiva.
Detecção de sopros cardíacos com redes neurais convolucionais
Em um estudo relacionado, pesquisadores desenvolveram uma abordagem baseada em redes neurais convolucionais 2D (2dCNN) para estimar a frequência cardíaca e detectar sopros cardíacos a partir de fonocardiogramas.
Utilizando o mesmo conjunto de dados CirCor DigiScope, o modelo alcançou um erro absoluto médio (MAE) de 1,312 BPM na estimativa da frequência cardíaca. Além disso, ao estender o modelo para uma estrutura de aprendizado multitarefa (MTL), foi possível detectar sopros cardíacos com precisão superior a 95%, mantendo um MAE de 1,636 BPM na estimativa da frequência cardíaca. Esses resultados atendem aos requisitos estabelecidos pela Association for the Advancement of Medical Instrumentation (AAMI).
Conclusão
Esses avanços demonstram o potencial da inteligência artificial na análise de sons cardíacos para estimativa da frequência cardíaca e detecção de anomalias como sopros. A utilização de modelos de IA treinados em fala para aplicações médicas pode abrir caminho para soluções de monitoramento cardíaco mais acessíveis e não invasivas.
FAQ
1. Como a inteligência artificial consegue estimar a frequência cardíaca a partir de sons do coração?
A IA utiliza modelos de aprendizado profundo treinados com grandes quantidades de dados sonoros (como fala humana) para extrair padrões em fonocardiogramas — gravações de sons cardíacos. Esses padrões são analisados para identificar os ciclos cardíacos e calcular a frequência dos batimentos por minuto (BPM).
2. Esses modelos de IA foram originalmente desenvolvidos para uso médico?
Não. Modelos como HuBERT, Whisper e wav2vec2 foram originalmente treinados para tarefas de reconhecimento de fala. No entanto, seus recursos de representação sonora se mostraram eficazes também na análise de sinais biológicos, como os sons do coração.
3. Qual é a vantagem de usar modelos de IA em comparação com métodos tradicionais de auscultação?
A IA oferece maior precisão, consistência e a possibilidade de análise automatizada em tempo real. Além disso, pode permitir o monitoramento contínuo e não invasivo em dispositivos vestíveis ou auriculares, como os AirPods, sem necessidade de sensores cardíacos dedicados.
4. Esses modelos conseguem detectar problemas cardíacos além da frequência dos batimentos?
Sim. Estudos mostram que, com abordagens de aprendizado multitarefa (MTL), os mesmos modelos também podem identificar anomalias como sopros cardíacos com alta precisão, o que contribui para diagnósticos precoces.
5. Essa tecnologia já está disponível para uso clínico ou pessoal?
Ainda não. Os estudos são experimentais, mas os resultados promissores indicam que, no futuro próximo, dispositivos de consumo como fones de ouvido poderão integrar esse tipo de monitoramento cardíaco. Para uso clínico, ainda são necessários mais testes e validações regulatórias.
Referências
Nie, J., Tran, D. T., Thakkar, K., Kowtha, V., Huang, J., Avendano, C., Azemi, E., & Mitra, V. (2025). Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation. arXiv preprint arXiv:2505.20745. Disponível em: https://arxiv.org/abs/2505.20745
Nie, J., Liu, R., Mahasseni, B., Azemi, E., & Mitra, V. (2024). Model-Driven Heart Rate Estimation and Heart Murmur Detection Based on Phonocardiogram. arXiv preprint arXiv:2407.18424. Disponível em: https://arxiv.org/abs/2407.18424



