Um dois
LarLar > blog > Um dois

Um dois

Jun 09, 2024

Scientific Reports volume 13, Artigo número: 12846 (2023) Citar este artigo

268 Acessos

2 Altmétrico

Detalhes das métricas

Este trabalho propôs o KidneyRegNet, um novo pipeline de registro profundo para tomografia computadorizada 3D e varreduras renais 2D U/S de respiração livre, que compreende uma rede de recursos e uma rede de registro 3D-2D baseada em CNN. A rede de recursos possui camadas de recursos de textura artesanais para reduzir a lacuna semântica. A rede de registro é uma estrutura codificador-decodificador com perda de recurso-imagem-movimento (FIM), que permite a regressão hierárquica nas camadas do decodificador e evita a concatenação múltipla da rede. Ele foi primeiro pré-treinado com um conjunto de dados retrospectivo com estratégia de geração de dados de treinamento e depois adaptado para dados específicos de pacientes sob aprendizagem de transferência não supervisionada de um ciclo em aplicações no local. O experimento foi realizado em 132 sequências U/S, 39 imagens de TC multifásicas e 210 imagens públicas de TC monofásica e 25 pares de sequências de TC e U/S. Isso resultou em uma distância média de contorno (MCD) de 0,94 mm entre os rins nas imagens de TC e US e MCD de 1,15 mm na TC e nas imagens de TC de referência. Conjuntos de dados com pequenas transformações resultaram em MCDs de 0,82 e 1,02 mm, respectivamente. Grandes transformações resultaram em MCDs de 1,10 e 1,28 mm, respectivamente. Este trabalho abordou dificuldades no registro renal 3DCT-2DUS durante a respiração livre através de novas estruturas de rede e estratégias de treinamento.

O registro de imagens médicas é um processo que alinha uma imagem a outra proveniente da mesma modalidade ou de modalidade diferente. Esta imagem alinhada contém mais informações espaço-temporais, o que é importante para aplicações como cirurgia guiada por imagem1, monitoramento de doenças2 e previsão de risco3. O registro entre imagens da mesma modalidade é o registro monomodal, e o registro entre imagens de modalidades diferentes é o registro multimodal. Diferentes técnicas de imagem são sensíveis a diferentes tecidos do corpo. Portanto, imagens de diferentes modalidades precisam ser cadastradas entre si para fornecer informações complementares. No entanto, isto é difícil devido à complexa relação entre as intensidades das estruturas correspondentes nas duas imagens. As imagens de ultrassom (U/S) são especialmente desafiadoras devido ao seu grande movimento, pequeno campo de visão e baixa qualidade de digitalização. No entanto, é necessário o registo 3D-2D. O potencial da aprendizagem profunda sobre estas questões não foi totalmente alcançado4. Neste trabalho, propusemos um método de aprendizagem profunda em duas etapas para abordar o registro renal da tomografia computadorizada (TC) 3D ao ultrassom 2D (3DCT-2DUS).

Os métodos de última geração (SOTA)5 podem ser classificados como registro supervisionado, fracamente supervisionado e não supervisionado, de acordo com a estratégia de aprendizagem ou registro de imagem baseado em rede neural convolucional (CNN), baseado em rede adversária profunda e baseado em transformador, de acordo com a arquitetura de rede básica. O registro supervisionado 6 é treinado para prever a transformação usando imagens e suas transformações de verdade. O registro fracamente supervisionado7,8,9 utiliza segmentações sobrepostas de estruturas anatômicas como uma função de perda, o que reduz as limitações associadas aos dados reais. O registro não supervisionado10,11,12,13,14,15 é treinado minimizando uma medida de dissimilaridade dado um conjunto de imagens e não precisa de transformações de verdade. O registro de imagens baseado em CNN treina uma arquitetura CNN projetada e aprende o mapeamento entre as imagens de entrada e os campos de deformação. O registro profundo de imagens adversárias consiste em uma rede geradora e uma rede discriminadora. A rede geradora é treinada para gerar transformações e a rede discriminadora aprende métricas de similaridade para garantir que as transformações geradas sejam realistas ou que as imagens de entrada estejam bem registradas. O registro baseado no Vision Transformer (ViT)20,21,22,23,24 aprende os relacionamentos inerentes entre os dados por meio do mecanismo de atenção. Nossa solução é o registro não supervisionado baseado em CNN. Referimo-nos ao registro como aprendizagem não supervisionada porque a sub-rede de registro está sob treinamento não supervisionado. As sub-redes de recursos são treinadas separadamente e não especificamente para a tarefa de registro. Eles são extratores de recursos independentes e recursos universais também são aplicáveis ​​à nossa solução.