波谱学杂志, 2025, 42(2): 117-129 doi: 10.11938/cjmr20243127

研究论文

基于DCGAN的脑膜瘤与听神经瘤检测模型优化方法研究

陈静聪1, 冉凤伟1, 章浩伟2, 刘颖,2,*

1.陆军军医大学第一附属医院肿瘤科,重庆 400038

2.上海理工大学健康科学与工程学院医学影像工程研究所,上海 200093

Optimization Methodology for Meningioma and Acoustic Neuroma Detection Model Based on DCGAN

CHEN Jingcong1, RAN Fengwei1, ZHANG Haowei2, LIU Ying,2,*

1. Department of Oncology, First Affiliated Hospital of Army Medical University, Chongqing 400038, China

2. Institute of Medical Imaging Engineering, School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China

通讯作者: *Tel: 18602168660, E-mail:ling2431@163.com.

收稿日期: 2024-08-6   网络出版日期: 2024-10-31

基金资助: 微创励志创新基金资助项目(182702156)

Corresponding authors: *Tel: 18602168660, E-mail:ling2431@163.com.

Received: 2024-08-6   Online: 2024-10-31

摘要

由于人体桥小脑角区的脑膜瘤与听神经瘤在影像学的表现以及发病位置极其相似,临床诊断极易发生误诊.采用深度学习方法建立肿瘤自动检测模型,能有效降低人工诊断主观性,减少误诊漏诊率,提高工作效率.而数据集的多样性及图像质量的优越性很大程度上决定了检测模型的性能.针对医学图像数据集稀缺、类别数量不平衡及成像质量较差等问题,本文提出一种改进损失函数的深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)进行脑膜瘤与听神经瘤检测模型的数据增强,并与传统数据集增强方法进行了对比.结果显示通过改进的DCGAN优化数据集后,脑膜瘤与听神经瘤检测模型的精确率、特异性以及均值平均精度值(Mean Average Precision,mAP)分别较原数据集提高了0.014 6、0.022 4、0.030 0,上升至0.932 8、0.898 6、0.930 0.实验结果表明,通过DCGAN对数据集进行优化处理后,在脑肿瘤临床检测领域中,能较好地提高其模型的检测性能,更为可靠地辅助临床医学诊断.

关键词: 脑肿瘤; 检测模型; 数据集增强; DCGAN

Abstract

Due to the extreme similarity in imaging manifestations and locations of onset between meningiomas and acoustic neuromas in the CPA (cerebellopontine angle) region of the human body, clinical diagnosis is prone to misdiagnosis. Establishing an automatic tumor detection model using deep learning methods can effectively reduce the subjectivity of manual diagnosis, decrease missed diagnosis rates, and improve work efficiency. The diversity of datasets and superiority of image quality largely determine the performance of the detection model. This paper proposes a DCGAN (deep convolutional generative adversarial networks) with improved loss function for data augmentation of meningioma and acoustic neuroma detection models to address the issues of scarce medical image datasets, imbalanced number of categories, and poor imaging quality. Compared with traditional dataset augmentation methods, the results show that after optimizing the dataset with DCGAN, the accuracy, specificity, and mAP (mean average precision) of the brain tumor detection model increase by 0.014 6, 0.022 4, and 0.030 0 respectively compared to the original dataset, reaching 0.932 8, 0.898 6, and 0.930 0. The study demonstrates that optimizing datasets with DCGAN can significantly improve the performance of the brain tumor detection model, providing a more reliable tool for clinical medical diagnosis.

Keywords: brain tumors; detection model; dataset augmentation; DCGAN

PDF (1774KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈静聪, 冉凤伟, 章浩伟, 刘颖. 基于DCGAN的脑膜瘤与听神经瘤检测模型优化方法研究[J]. 波谱学杂志, 2025, 42(2): 117-129 doi:10.11938/cjmr20243127

CHEN Jingcong, RAN Fengwei, ZHANG Haowei, LIU Ying. Optimization Methodology for Meningioma and Acoustic Neuroma Detection Model Based on DCGAN[J]. Chinese Journal of Magnetic Resonance, 2025, 42(2): 117-129 doi:10.11938/cjmr20243127

引言

随着深度学习技术在医学图像领域中的成熟应用,为了提高数据集的质量,如何改进图像的单一性、稀缺性也成为研究热点.现如今医学图像有多种成像模态,但其存在获取成本高、涉及患者隐私、数据量不平衡等问题,因此利用深度学习技术进行数据增强或可成为解决这一难点的有效途径[1]

深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)近年来被广泛应用至图像处理领域,其由生成器与判别器两部分组成,可以实现对图像数据的扩展、文本与图像之间的转换以及交互式操纵图像生成等[2],并可通过数据增强、缺失数据填补、病变模拟、多模态图像生成等方式发挥作用[3].其在数据增强领域具有以下优点:(1)能生成细节丰富、逼真的图像;(2)与传统生成模型相比,能通过对抗训练直接学习数据分布;(3)并行计算友好,能加速训练过程。对比其他图像生成算法如PixelCNN(Pixel Convolutional Neutral Networks)、VAE(Variational Autoencoder),DCGAN在复杂纹理和细节表现上优于VAE,而且由于其采用的是深度卷积结构和对抗训练机制,所以训练速度较快,对计算机算力要求更低,更适合于线下开展的辅助临床诊疗的深度学习模型的建立.

在农业、建筑业和其他领域的研究中,Wu等[4]利用DCGAN对现有的人脸数据进行了训练,生成的新数据集效果清晰,从而弥补了数据集的不足也提高了模型的检测准确率.Wang等[5]提出将DCGAN应用于图像数据的增强,并将其用于水产动物的分类识别中.采用ResNet50、VGG16与InceptionV3三个模型进行对照实验,结果表明运用DCGAN的数据增强方式相较于传统数据扩充方式,三个模型的识别准确率分别提高了1.2%、9.8%和2.7%.Yin[6]提出将DCGAN与深度卷积神经网络相结合,并通过AdaBoost分类器的方法成功提高了模型对病害松树的识别能力.Zhao等[7]提出了一种名为ShuffleNetV2-1.0-SE的改进LCNNs(Lightweight Convolutional Neural Networks)模型,结果表明,基于DCGAN的数据增强方法可以显著提高ShuffleNetV2-1.0-SE对隧道衬砌裂缝的分类精度,其在增强数据集上的准确率达到98.14%,优于多种先进的LCNN模型.Zhao等[8]为解决现有图像分类技术在分类小尺度岩石图像时精度过低的问题,将DCGAN应用于增强岩石图像数据集,在该数据集上训练的分类模型的准确率高达96.38%,比在非增强数据集上培训的分类模型高13.39%,有效提高了岩石分类模型的准确性.

在医学领域研究中,Du等[9]针对运动图像脑电图(EEG)信号标记数据的有限可用性,提出了一种新的数据增强方法,利用改进的具有梯度惩罚的深度卷积生成对抗网络(DCGAN-GP)将原始EEG信号转换为二维时频图,并采用DCGAN-GP网络生成类似真实数据的合成时频表示.在BCI IV 2b数据集上进行了验证实验,结果表明,用合成数据训练的分类器在多个主题上表现出更强的鲁棒性,并实现了更高的分类准确率.Huang[10]针对FER-2013数据集,提出用DCGAN增强面部情绪图像,通过图像变换在其设计的CNN(Convolutional Neural Network)模型中训练,以进行面部情绪分类.结果表明,分类模型的准确性确实得到了提高.Mayank等[11]研究了生成对抗网络(GAN)的数据增强技术在胸部图像X射线数据集上的性能.准确性、召回率和曲线下面积(AUC)等评估指标表明,DCGAN的表现优于其他传统模型.Dong[12]提出一种融合多尺度特征的生成对抗模型Multi-GAN,有效提升了生成乳腺图像的质量,进而可解决INbreast数据集中良恶性数据不平衡的问题,提升乳腺结节良恶性分类模型的预测性能.Yu[13]针对假阳性率高、肺结节数据少等问题提出DCGAN来替代传统数据增强方法,结果表明生成的肺结节图像具有新的特征,从而可以提高肺结节分类器的判别性能.Mou[14]为获取多样性的眼底图像,基于DCGAN为基本结构,结合EMD(Earth-Mover Distance,EMD)损失设计了PG-EMD-DCGAN(Progressive Growing EMD DCGAN)模型.结果表明,新数据集模型检测性能有所提高,表明了DCGAN用于医学图像增强的可行性.

在肿瘤的分类识别领域中,Saswati等[15]提出了一种混合GAN集成的新型混合增强预测卷积神经网络(CNN)模型.脑肿瘤图像数据使用GAN集成进行增强,GAN集成使用混合调制CNN技术进行分类.分析表明,混合GAN的表现优于其他增强方法,其准确率达90%以上,证实了GAN用于医学图像检测领域的可行性.Tiwari等[16]提出了一种新的检测肺肿瘤的方法,该方法将高斯滤波器与混合循环神经网络生成对抗网络相结合(GAN_RCNN).GAN组件通过创建类似于实际肿瘤图像的合成肿瘤样本来改进循环神经网络(RNN)的训练,以实现准确的分类.此外,所提出的方法使用高斯滤波器对肺肿瘤图像进行预处理,以提高其质量.高斯滤波器通过降低噪声和平滑图片来提高特征提取和肿瘤边界的可见性.与传统技术相比,混合RNN-GAN在肺肿瘤识别中具有更高的准确性.Zhao[17]提出了一种基于多视图感知和放射学指导生成对抗网络用于肝血管瘤和肝细胞癌增强,实验结果表明,此增强方法能将y型统一网络(y-Net)对肝血管瘤和肝细胞癌的检出率提升至91.3%.Hong[18]提出一种基于改进的EfficientNetV2网络的脑肿瘤图像分类方法,并用生成对抗网络对CE-MRI脑肿瘤数据集进行增强研究,分析得知,其模型对于脑肿瘤检出精确率得到明显提升.Hu等[19]利用融合注意力机制的掩膜区域神经网络(Mask RCNN)模型实现对桥小脑角区听神经瘤和脑膜瘤的识别,其中VGG19-CBAM模型综合性能最高,在分类和病灶分割的mAP达0.930,但由于听神经瘤与脑膜瘤数据量不平衡导致对两类肿瘤分类精确率有待提高.Lou等[20]经过建立的三维卷积神经网络(3-Dimensional Convolutional Neural Network,3D CNN)深度学习框架中图像特征的学习,实现对脑膜瘤与听神经瘤的分类. 图像增强参数与网络结构参数经过优化后,对脑膜瘤与听神经瘤分类的准确率达到0.918 0,但由于数据集中听神经瘤约为脑膜瘤图像的两倍多,导致模型泛化性及特异性仍有待提高.

通过文献研究分析,DCGAN用于肿瘤检测领域数据增强方面的相关研究尚少.为解决因数据集量少且不平衡从而影响脑膜瘤与听神经瘤检测模型性能的问题,本文提出将改进损失函数的DCGAN应用至数据集增强中,为优化检测模型提供解决思路.同时将采用传统数据集增强、改进损失函数前后的DCGAN增强方法后的数据集,输入四类不同主干网络的Mask RCNN检测模型[21]中进行对比实验.进而通过检测模型评价指标证实:本文提出的基于改进损失函数的DCGAN优化脑膜瘤与听神经瘤检测模型方法的可行性与有效性.

1 实验部分

1.1 实验数据来源

采集上海市某三甲医院经过病理结果验证后,患脑膜瘤与听神经瘤病人的磁共振图像(Magnetic Resonance Imaging,MRI).图像获取均取得患者知情同意书.经过不同磁共振序列扫描成像后,由于T1W-SE序列增强图像中病灶轮廓显示最为清晰,所以将此序列图像作为实验模型的输入数据集.采集设备为GE 1.5T SignaHDxt MRI,参数设置如下:扫描层厚2 mm,层间隔2 mm,采集矩阵(Acquisition Matric)256×256,回波时间(Echo Time,TE)8 ms,重复时间(Repetition Time,TR)580 ms.剔除成像质量过差的图像后,保留208例脑膜瘤患者图像共1 664张,238例听神经瘤患者图像共1 904张,再用传统数据集增强和DCGAN增强两种方式对数据集进行扩充平衡处理后,脑膜瘤与听神经瘤各为3 000张.其中训练集、验证集与测试集的比例为6 : 2 : 2.实验编译环境为Python 3.12.0,操作系统为Windows10,硬件环境为Intel(R)Core(TM)i5-1035G1 CPU@1.00GHz 1.19GHz,内存为8.0 G.

1.2 实验流程

首先对采集的图像进行筛选,剔除不包含肿瘤的影像数据并对其进行编号,再将DICOM格式图片转换为JPEG格式,对图片进行预处理并运用labelme图像标注工具对肿瘤区域进行勾画,进而获得位置信息,完成COCO(Common Objects in Context)数据集的制作.其次将COCO数据集输入脑肿瘤检测模型Mask RCNN中进行训练.应用传统数据增强和改进损失函数的DCGAN网络两种方式对数据集进行扩展平衡并对比两种方法对模型性能的影响.实验中,分别对以FPN+VGG16、FPN+VGG19、FPN+ResNet50和FPN+ResNet101作为主干网络的Mask RCNN模型的检测结果进行了对比,并采用精确率(precision)、召回率(recall)、特异性(specificity)以及均值平均精度值(mAP)四个指标评估检测模型性能.实验流程图如图1所示.

图1

图1   实验流程图

Fig. 1   Experimental flowchart


1.3 数据集扩展平衡

由于本文实验数据存在不平衡的客观情况,听神经瘤数据量约为脑膜瘤数据量的两倍,所以将改进损失函数的DCGAN应用于数据集的优化平衡中,扩大数据样本量的同时也获取了更高质量的生成数据集.

1.3.1 镜像翻转方式

数据集增强方式通常有图像镜像翻转、旋转、加噪点等方式,Wang等[22]探索了九种数据增强的方法,结果表明镜像翻转方式最优,并进一步探索用贪婪算法搜索数据增强的更好组合,进一步提高了裂纹检测器的性能.本文运用传统数据集增强方式如图2所示.

图2

图2   数据集镜像翻转结果

Fig. 2   Mirror flip results of the dataset


1.3.2 DCGAN数据增强

文献[23]的实验结果表明了最小二乘损失函数提高实验结果的可行性,分析了最小二乘损失函数的两个优势:(1)可以使得生成模型的生成样本图像质量提高;(2)函数特点为仅在一个点达到饱和,相较于交叉熵损失函数更能保持训练的稳定性.所以本文中提出将最小二乘损失函数替代DCGAN原本的交叉熵损失函数并应用于实验数据的优化平衡中,并对两者的实验结果进行了对比.(1)、(2)式为最小二乘损失函数表达式:

minDV(D)=12Ex~pdata(x)[(D(x)b)2]+12Ez~pz(z)[(D(G(z))a)2]
minGV(G)=12Ez~pz(z)[(D(G(z))c)2]

式中pdata(x)为真实样本x的分布,pz(z)为随机噪声z的分布,D(G(z))为D网络判断G网络生成的图片是否真实的概率值,a表示生成样本的标签,b表示真实样本的标签,c为常数(使D发生误判),实验中设定a值为0,bc值设定为1.

DCGAN生成器与判别器的训练参数表分别如表1表2所示,DCGAN网络结构图如图3所示.训练生成器时,除输出层外其余层均采用批量归一化(Batch Normalization,BN)算法且除输出层激活函数为Tanh外其余层激活函数均为ReLU.首先输入一个100维的随机噪声向量z,通过致密层将其扩展为14×14×1024,然后通过四个5×5的卷积核进行填充值为1,步长为2的反卷积操作,输出大小分别为28×28×512、56×56×256、112×112×128、224×224×3;训练判别器时,除输入层外其余层均采用BN算法且每一层的激活函数均为Leaky ReLU.将生成器输出的分辨率为224×224×3的样本输入,经过四个5×5的卷积核进行填充值为1,步长为2的卷积操作,输出大小分别为112×112×64、56×56×128、28×28×256、14×14×512,由输出层判别生成数据集的真假,最后通过损失值(判断真假的两部分损失之和)反向传播,进而优化生成网络与判别网络的参数.经过多次实验分析后,本文选取的神经网络训练参数如下:选用Adam优化器,并将其动量设定为0.8,学习率定为0.000 5[24],batch_size(批次处理大小)设定为64且采取1 : 2的比例训练判别器与生成器.输入脑膜瘤、听神经瘤样本量分别为320张,输入DCGAN中进行训练,训练轮数epoch设定为10 000,每一轮迭代5次.

表1   DCGAN生成器训练参数表

Table 1  Training parameters of DCGAN generator

网络层卷积核填充(padding)步长(stride)激活函数BN算法
输入层//ReLU采用
Conv15×512ReLU采用
Conv25×512ReLU采用
Conv35×512ReLU采用
Conv45×512ReLU采用
输出层//Tanh不采用

新窗口打开| 下载CSV


表2   DCGAN判别器训练参数表

Table 2  Training parameters of DCGAN discriminator

网络层卷积核填充(padding)步长(stride)激活函数BN算法
输入层//Leaky ReLu不采用
Conv15×512Leaky ReLu采用
Conv25×512Leaky ReLu采用
Conv35×512Leaky ReLu采用
Conv45×512Leaky ReLu采用
输出层//Leaky ReLu采用

新窗口打开| 下载CSV


图3

图3   DCGAN网络结构图

Fig. 3   DCGAN network architecture diagram


DCGAN损失函数改进前后的结果对比如图4所示.图4中(a)、(b)显示了DCGAN训练脑膜瘤生成的样本,(c)、(d)显示了DCGAN训练听神经瘤生成的样本.将损失函数替换为最小二乘损失后,凭借视觉感知的主观评价[23],可一定程度上提高生成样本的图像质量.图5中(a)、(b)分别展示了DCGAN损失函数改进前后生成脑膜瘤与听神经瘤图像的细节对比图,其中左侧为交叉熵损失函数的DCGAN生成图像,右侧为最小二乘损失函数的DCGAN生成图像.图中代表肿瘤的红色区域右侧相较于左侧边界更加清晰,病变区域更加突出,组织界限分明;代表正常组织的橙色区域图像噪点明显减少,质量更优.

图4

图4   DCGAN损失函数改进前后结果对比图. (a) DCGAN损失函数为交叉熵脑膜瘤生成样本;(b) DCGAN损失函数为最小二乘脑膜瘤生成样本;(c) DCGAN损失函数为交叉熵损失函数听神经瘤生成样本;(d) DCGAN损失函数为最小二乘听神经瘤生成样本

Fig. 4   Comparison of results before and after improvement of DCGAN loss function. (a) The DCGAN loss function is the cross entropy loss function for generating samples from meningiomas; (b) The DCGAN loss function is the least squares loss function for generating samples from meningiomas; (c) The DCGAN loss function is the cross entropy loss function for generating samples from acoustic neuromas; (d) The DCGAN loss function is the least squares loss function for generating samples from acoustic neuromas


图5

图5   DCGAN损失函数改进前(左)后(右)生成图像细节对比图. (a)脑膜瘤生成图像;(b)听神经瘤生成图像

Fig. 5   Detail comparison of images generated before (left) and after (right) improvement of DCGAN loss function. (a) Meningioma-generated image; (b) acoustic neuroma-generated image


图6图7分别为DCGAN损失函数改进后的脑膜瘤训练损失曲线图与听神经瘤训练损失曲线图.损失曲线图中较深曲线为可视化工具-tensorboard对较浅曲线经过平滑处理后得出的最终损失曲线变化,其横坐标为训练轮数,纵坐标为损失值.从图67所示的损失曲线可看出,脑膜瘤与听神经瘤的生成器损失曲线在后半段均是逐渐上升的,而判别器的损失曲线则呈现逐渐下降趋势(判别器的判别能力有所提高).训练过程中生成器与判别器互相博弈,所以损失值不断波动,但总体来看,生成器与判别器的损失曲线随着训练次数的不断增加而逐渐趋于相互制约的动态平衡中.上述脑膜瘤与听神经瘤的生成样本图以及两者的训练损失曲线图的结果表明了改进损失函数DCGAN应用于增强脑膜瘤与听神经瘤数据集的可行性,并可进一步优化两类肿瘤的检测模型.

图6

图6   脑膜瘤训练损失曲线图. (a)判别器损失曲线图;(b)生成器判别损失曲线图

Fig. 6   Meningioma training loss curve. (a) Discriminator loss curve; (b) generator discrimination loss curve


图7

图7   听神经瘤训练损失曲线图. (a)判别器损失曲线图;(b)生成器判别损失曲线图

Fig. 7   Acoustic neuroma training loss curve. (a) Discriminator loss curve; (b) generator discrimination loss curve


2 实验结果

2.1 检测模型性能评估

为验证本文优化检测模型方法的有效性,将1 200张测试集图像(脑膜瘤600张、听神经瘤600张)输入四类不同主干网络的Mask RCNN检测模型中进行测试,并将脑膜瘤设定为正样例,听神经瘤为负样例.采用精确率(precision)、召回率(recall)、特异性(specificity)以及均值平均精度值(mAP)四个指标评估检测模型性能,计算公式如(3)~(6)式所示:

precision=TPTP+FP
recall=TPTP+FN
specificity=TNTN+FP
AP=precisionN(total images),mAP=Average precisionN(classes)

实验中将脑膜瘤定为正样本,听神经瘤定为负样本.计算公式中,TP代表样本为正,检测结果也为正;FP代表样本为负,检测结果为正;TN代表样本为负,检测结果也为负;FN代表样本为正,检测结果为负.

表3为实验中各对比模型的评价指标比较.由表3数据显示,在通过改进损失函数的DCGAN数据增强后,以FPN+ResNet101为主干网络的Mask RCNN检测模型表现最优,综合评价指标mAP最高达0.93,精确率与特异性相较于原数据集、传统数据增强、改进损失函数前的DCGAN均有所提高,召回率由于与精确率之间存在相互平衡而处于小幅波动状态,证实了本文提出基于改进损失函数DCGAN优化脑膜瘤与听神经瘤检测模型方法的有效性.

表3   检测模型评价指标对比

Table 3  Evaluation indicators comparison of detection models

Mask RCNN检测模型的主干网络数据集增强方式精确率特异性召回率mAP
FPN+VGG16原数据集0.85370.83430.88320.7836
传统数据集增强0.87250.85630.87510.7982
改进损失函数前的DCGAN数据集增强0.88820.86230.88210.8167
改进损失函数后的DCGAN数据集增强0.90330.87150.88020.8255
FPN+VGG19原数据集0.90220.86910.86890.8312
传统数据集增强0.90950.87020.86580.8398
改进损失函数前的DCGAN数据集增强0.91050.87890.85930.8615
改进损失函数后的DCGAN数据集增强0.91560.88230.85020.8906
FPN+ResNet50原数据集0.90120.85890.86150.8000
传统数据集增强0.90780.86870.85890.8331
改进损失函数前的DCGAN数据集增强0.90890.87050.85750.8532
改进损失函数后的DCGAN数据集增强0.91230.87930.85360.8882
FPN+ResNet101原数据集0.91820.87620.85690.9000
传统数据集增强0.92350.88060.85230.9200
改进损失函数前的DCGAN数据集增强0.92530.88630.85110.9225
改进损失函数后的DCGAN数据集增强0.93280.89860.85630.9300

新窗口打开| 下载CSV


2.2 数据集增强方法对比结果

实验采取传统数据集增强与改进损失函数的DCGAN数据增强方法后,脑膜瘤与听神经瘤样本量各为3 000张,将其输入至表现最佳的即以FPN+ResNet101为主干网络的Mask RCNN检测模型中进行训练,验证集损失曲线对比图如图8所示.图8中横坐标为训练轮数,实验中设定为10轮,每一轮训练迭代次数为100,图中浅色线条是直接得到的,深色曲线为平滑处理后曲线.由图中得知数据集经过改进损失函数的DCGAN优化平衡后,随着训练轮数增加,图8(c)损失值相比8(a)8(b)下降得更快,而后更快趋近于0,模型性能更稳定.

图8

图8   验证集损失曲线对比图. (a) FPN+ResNet101验证集模型损失曲线;(b)传统数据集增强后FPN+ResNet101验证集模型损失曲线;(c) DCGAN数据集增强后FPN+ResNet101验证集模型损失曲线

Fig. 8   Validation set loss curves comparison. (a) FPN+ResNet101 validation set model loss curve; (b) traditional dataset-enhanced FPN+ResNet101 validation set model loss curve; (c) DCGAN dataset-enhanced FPN+ResNet101 validation set model loss curve


图9展示了测试集中随机的两个脑膜瘤样本预测结果:(a)为数据集优化平衡前,检测模型预测为听神经瘤的置信度为0.888,高于预测为脑膜瘤的置信度0.770,判断错误;(b)为数据集经过传统增强方法再重新训练模型后,预测正确为脑膜瘤,置信度0.964;(c)为数据集经过改进的DCGAN优化平衡再重新训练模型后,预测正确为脑膜瘤,置信度为0.996,病灶区域的掩膜图像与目标框最贴近肿瘤真实形状,优于前两者且置信度有所提高;(d)为数据集优化平衡前,预测正确为脑膜瘤且置信度0.986;(e)为数据集经过传统增强方法再重新训练模型后,预测正确为脑膜瘤且置信度0.989;(f)为数据集经过改进的DCGAN优化平衡再重新训练模型后,预测正确为脑膜瘤且置信度1.000.(f)中预测置信度最高,掩膜图像质量相较于前两者更佳.

图9

图9   随机的两个(上和下)脑膜瘤样本预测结果对比图. (a, d) FPN+ResNet101脑膜瘤预测结果; (b, e)传统数据集增强后FPN+ResNet101脑膜瘤预测结果; (c, f) DCGAN数据集增强后FPN+ResNet101脑膜瘤预测结果

Fig. 9   Comparison of prediction results for two random (upper and lower) meningioma samples. (a, d) FPN+ResNet101 meningioma prediction results; (b, e) FPN+ResNet101 meningioma prediction results using traditional enhancement methods on the dataset; (c, f) FPN+ResNet101 meningioma prediction results after DCGAN enhancement method on the dataset


图10展示了测试集中随机的两个听神经瘤样本预测结果:(a)、(b)、(c)分别为数据集优化平衡前,数据集经过传统增强方法后以及数据集经过改进的DCGAN优化平衡后,检测模型对听神经瘤样本的预测结果.预测均正确为听神经瘤,且置信度均为1.000.但(c)中病灶区域的掩膜图像与真实目标拟合度更高,形状更贴切;(d)为数据集优化平衡前,预测正确为听神经瘤且置信度0.991;(e)为数据集经过传统增强方法后,预测正确为听神经瘤且置信度0.999;(f)为数据集经过改进的DCGAN优化平衡后,预测正确为听神经瘤且置信度1.000.(f)中预测置信度最高,掩膜图像与肿瘤区域最贴切,包含信息更完善.

图10

图10   随机的两个(上和下)听神经瘤样本预测结果对比图. (a, d) FPN+ResNet101听神经瘤预测结果; (b, e)传统数据集增强后FPN+ResNet101听神经瘤预测结果; (c, f) DCGAN数据集增强后FPN+ResNet101听神经瘤预测结果

Fig. 10   Comparison of prediction results for two random (upper and lower) acoustic neuroma samples. (a, d) FPN+ResNet101 acoustic neuroma prediction results; (b, e) FPN+ResNet101 acoustic neuroma prediction results using traditional enhancement methods on the dataset; (c, f) FPN+ResNet101 acoustic neuroma prediction results after DCGAN enhancement method on the dataset


3 讨论

在本研究中,为解决数据集数量过少且类别不平衡影响两类肿瘤检测模型性能的问题,首先将DCGAN用于数据增强,并与传统增强方法作对比.其次对DCGAN的损失函数进行改进,结果显示将最小二乘损失函数代替交叉熵损失函数后的DCGAN应用至脑肿瘤数据增强后,图像成像质量得以提升,证实了其用于医学图像增强领域的可行性与可靠性.同时,数据集数量和质量的提升也为优化基于原数据集建立的脑膜瘤与听神经瘤检测模型提供了新的思路与可能性.

Wang等[25]使用DCGAN对矿物图像进行数据增强,结果表明在不同的矿物识别模型上较原数据集平均提升了3.12%的准确率,对于36种矿物识别准确率提升至87.47%;Wubineh等[26]提出ResNet50V2模型用于宫颈异常细胞生长的识别中,并使用DCGAN进行图像数据增强以提高模型的泛化能力与性能,结果表明数据增强后的检测模型精确率上升至96.4%;Onakpojeruo等[27]提到疾病预测受到数据集稀缺和与真实医疗数据相关的隐私问题的极大挑战,并提出利用DCGAN增强数据集来评估条件深度卷积神经网络(C-DCNN)模型在脑肿瘤分类方面的性能,结果显示相较于原数据集,模型的分类准确率、召回率和F1得分均得到提升;Sarath等[28]使用深度学习技术建立模型确定新生儿呼吸频率并对其进行分类,而不同分类呼吸综合征的红外视频和图像数量有限,且获取难度较大,从而提出DCGAN用于图像数据增强,结果显示基于优化平衡后的数据集建立的分类模型准确率更高.

上述文献的研究结果均表明了DCGAN数据增强方法用于优化模型的有效性,与本文检测模型性能提升近似.同时本文进一步对DCGAN的损失函数进行了改进,为后续优化模型提供了更为可靠的解决方案,强调了使用DCGAN生成数据在提升医学图像检测的深度学习模型性能方面的潜力.特别是在数据有限的情况下,这种方法不仅提高了模型的准确性,还解决了隐私问题,使其成为实际临床应用中疾病预测和诊断的可行解决方案.

但当前实验还存在一定的不足,数据集较为单一,仅针对磁共振图像,在后续研究中可将此方法应用于更复杂的数据集.针对较大尺度、纹理信息复杂的图像如病理图像,如何改善增强其图像质量作深入探讨,将磁共振图像与病理图像结合做多模态分析后再应用至优化检测模型方法的研究中.对于数据增强,后续可对生成对抗网络结构作进一步细化处理,融入多注意力机制模块,提取更为精细的图像特征,使得生成图像更接近真实样本.同时,为给临床医生的诊断工作提供更直观的数据参考,后续研究可将此模型通过前后端分离的技术,采用VUE、FlASK框架建立一个检测结果可视化系统,有助于减少医生工作量,提升临床工作效率.

4 结论

在通过深度学习方法构建脑膜瘤与听神经瘤自动检测模型时,存在因两类肿瘤图像数据量较少且不平衡而影响检测模型性能的问题.因此,本文提出将改进损失函数的DCGAN用于数据增强,并与传统数据集增强方法作对比,同时将数据增强后的数据集输入至四类不同主干网络的Mask RCNN检测模型中进行对比实验.实验结果表明,将交叉熵损失函数改进为最小二乘损失函数后的DCGAN用于原数据集样本增强,能够有效提高其检测模型性能:以FPN+ResNet101为主干网络的Mask RCNN检测模型表现最佳,其精确率提高至0.932 8,特异性最高为0.898 6且mAP综合评价指标最佳达0.93,较传统数据增强方法分别提高了0.009 3、0.018 0、0.010 0,较原数据集分别提高了0.014 6、0.022 4、0.030 0,进一步证明了本文提出改进损失函数的DCGAN优化脑膜瘤与听神经瘤检测模型的可行性与有效性.

利益冲突

参考文献

RAN W B, LIANG Y C, QIN Q, et al.

Medical image super-resolution reconstruction based on generative adversarial networks and attention mechanisms

[J]. Intelligent Computer and Applications, 2023, 13 (1): 136-141.

[本文引用: 1]

冉文兵, 梁永超, 覃芹, .

基于生成对抗网络和注意力机制的医学图像超分辨率重建

[J]. 智能计算机与应用, 2023, 13(1): 136-141.

[本文引用: 1]

TAI Z Y, LI D D, LIU M.

Medical image generation based on self attention mechanism and generative adversarial network

[J]. Journal of Changchun University of Technology, 2024, 45 (3): 208-215.

[本文引用: 1]

邰志艳, 李黛黛, 刘铭.

基于自注意力机制生成对抗网络的医学图像生成

[J]. 长春工业大学学报, 2024, 45(3): 208-215.

[本文引用: 1]

GAN Y, YE M, ZENG F Y.

A review of generative adversarial networks and their applications

[J]. Journal of Chinese Computer Systems, 2020, 41(6): 1133-1139.

[本文引用: 1]

淦艳, 叶茂, 曾凡玉.

生成对抗网络及其应用研究综述

[J]. 小型微型计算机系统, 2020, 41(6): 1133-1139.

[本文引用: 1]

WU T Y, XU Y C, CHAO P F.

Research on data enhancement based on generative adversarial networks

[J]. Optics and Optoelectronic Technology, 2020, 18 (4): 47-52.

[本文引用: 1]

吴天雨, 许英朝, 晁鹏飞.

基于生成对抗网络的数据增强研究

[J]. 光学与光电技术, 2020, 18(4): 47-52.

[本文引用: 1]

WANG D X, QIN E Q, YUAN H C.

Classification method of aquatic animals based on DCGAN data augmentation

[J]. Fishery Modernization, 2019, 46(6): 68-75.

[本文引用: 1]

王德兴, 秦恩倩, 袁红春.

基于DCGAN数据增强的水产动物分类方法

[J]. 渔业现代化, 2019, 46(6): 68-75.

[本文引用: 1]

针对公开大规模水产动物数据集少、人为采集数据工作量大以及传统数据增强方法对数据的特征提升有限的问题,提出一种基于深度卷积生成对抗网络的数据增强方法用于水产动物图像识别。首先,使用深度卷积生成对抗网络(DCGAN)对样本数据进行增强,然后分别使用VGG16、InceptionV3、ResNet50 这三个训练模型,以微调的方式,对样本进行训练、识别。结果显示,所提出的方法在水产动物数据集上,与非生成式的数据增强方法相比,在三种模型上分类的准确率可分别提高9.8%、2.7%、1.2%。试验证实,DCGAN可有效增强水产动物图像数据,提高深度神经网络模型对水产动物图像分类的准确率。

殷存军. 基于深度卷积网络和AdaBoost算法的无人机图像中病害松树识别[D]. 合肥: 安徽大学, 2020.

[本文引用: 1]

ZHAO N, SONG Y, YANG A, et al.

Accurate classification of tunnel lining cracks using lightweight ShuffleNetV2-1.0-SE model with DCGAN-based data augmentation and transfer learning

[J]. Appl Sci, 2024, 14(10): 4142.

[本文引用: 1]

ZHAO G, CAI Z, WANG X, et al.

GAN Data augmentation methods in rock classification

[J]. Appl Sci, 2023, 13(9): 5316.

[本文引用: 1]

DU X, DING X, XI M, et al.

A data augmentation method for motor imagery EEG signals based on DCGAN-GP network

[J]. Brain Sci, 2024, 14(4): 375.

[本文引用: 1]

HUANG H.

Data augmentation by using gans and image transformation in facial emotion classification

[C]// Journal of Physics: Conference Series. IOP Publishing, 2023, 2580(1): 012003.

[本文引用: 1]

MAYANK B, TRIPTI M.

Comparison of affine and DCGAN-based data augmentation techniques for chest X-ray classification

[J]. Procedia Comput Sci, 2023, 218: 283-290.

[本文引用: 1]

董家乐. 基于GAN的医学图像生成方法研究[D]. 郑州: 郑州大学, 2021.

[本文引用: 1]

于明浩. 基于深度卷积对抗生成网络的肺结节分类和分割方法[D]. 北京: 北京化工大学, 2021.

[本文引用: 1]

牟峙桦. 基于生成对抗网络的眼底图像生成方法研究[D]. 武汉: 华中科技大学, 2022.

[本文引用: 1]

SASWATI S, SUSHRUTA M, BAIDYANATH P, et al.

An augmented modulated deep learning based intelligent predictive model for brain tumor detection using GAN ensemble

[J]. Sensors-Basel, 2023, 23(15): 6930.

[本文引用: 1]

TIWARI A, HANNAN A S, PINNAMANENI R, et al.

Optimized ensemble of hybrid RNN-GAN models for accurate and automated lung tumour detection from CT images

[J]. Int J Adv Comput Sci Appl, 2023, 14(7): 621-631.

[本文引用: 1]

赵建峰. 基于生成对抗网络的肝血管瘤和肝细胞癌的增强及检测方法的研究[D]. 济南: 山东师范大学, 2020.

[本文引用: 1]

洪怡. 基于深度学习的脑肿瘤图像检测方法研究[D]. 长春: 长春工业大学, 2024.

[本文引用: 1]

HU X Y, LIU Y, CHEN S, et al.

Identification of acoustic neuroma and meningioma in the cerebellopontine angle region using Mask RCNN fusion attention mechanism

[J]. Chinese J Magn Reson, 2023, 40(3): 293-306.

[本文引用: 1]

胡小洋, 刘颖, 陈淑, .

融合注意力机制Mask RCNN的桥小脑角区听神经瘤和脑膜瘤的识别研究

[J]. 波谱学杂志, 2023, 40(3): 293-306.

DOI:10.11938/cjmr20223045      [本文引用: 1]

为探讨采用T1WI增强图像,利用融合注意力机制的掩膜区域神经网络(Mask RCNN)模型实现对桥小脑角区听神经瘤和脑膜瘤的识别.本文回顾性收集经病理或临床诊断确诊的脑膜瘤116例和听神经瘤427例,经图像筛选后共采用脑膜瘤872张和听神经瘤2 467张.按近似7:1.5:1.5的比例分为训练集、验证集和测试集.对图像进行预处理后,采用以Resnet50、Resnet101和VGG19为主干网络的Mask RCNN模型,以及融合卷积注意力机制的Mask RCNN模型Resnet101-CBAM和VGG19-CBAM对桥小脑角区听神经瘤和脑膜瘤进行检测和病灶分割.并使用均值平均精度(mean average precision,mAP)和均值平均召回率(mean average recall,mAR)评价模型性能.测试集结果显示卷积注意力机制可以提升模型性能,VGG19-CBAM模型在5个模型中综合性能最高,在分类和病灶分割的mAP分别为0.932和0.930.这表明融合注意力机制的Mask RCNN模型对桥小脑角区听神经瘤和脑膜瘤的识别较为理想,可为诊断和靶区勾画提供参考,提高临床工作效率.

LOU Y Z, LIU Y, JIANG H, et al.

Research on classification algorithm for meningiomas and acoustic neuromas in the cerebellopontine angle region based on MRI and deep learning

[J]. Chinese J Magn Reson, 2020, 37(3): 300-310.

[本文引用: 1]

娄云重, 刘颖, 江华, .

基于MRI和深度学习的桥小脑角区脑膜瘤与听神经瘤分类算法研究

[J]. 波谱学杂志, 2020, 37(3): 300-310.

DOI:10.11938/cjmr20192753      [本文引用: 1]

桥小脑角区脑膜瘤与听神经瘤是两种常见的脑部肿瘤,它们的临床表现和影像学表现极为相似,在临床诊断时极易发生误诊.将影像数据与深度学习方法相结合,建立脑膜瘤与听神经瘤的判别模型,可以为两种脑肿瘤的及时准确诊断提供重要手段.本文采集了307名脑肿瘤患者的T<sub>1</sub>W-SE序列图像,通过对原始图像进行限制对比度自适应直方图均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)等预处理,提升数据集图像质量,再经过建立的三维卷积神经网络(3-Dimensional Convolutional Neural Network,3D CNN)深度学习框架中图像特征的学习,实现对脑膜瘤与听神经瘤的分类.图像增强参数与网络结构参数经过优化后,对脑膜瘤与听神经瘤分类的准确率达到0.918 0,曲线下面积(Area Under Curve,AUC)为0.913 4,实现了对桥小脑角区脑膜瘤与听神经瘤的有效判别.

LIU Y, CHEN J C, HU X Y, et al.

Classification and localization of meningiomas and acoustic neuromas in the cerebellopontine angle region based on Mask RCNN

[J]. Chinese J Magn Reson, 2021, 38(1): 58-68.

[本文引用: 1]

刘颖, 陈静聪, 胡小洋, .

基于Mask RCNN的桥小脑角区脑膜瘤与听神经瘤分类定位研究

[J]. 波谱学杂志, 2021, 38(1): 58-68.

DOI:10.11938/cjmr20202825      [本文引用: 1]

由于人体桥小脑角区的脑膜瘤与听神经瘤在影像学的表现以及发病位置极其相似,所以临床诊断极易发生误诊.针对此问题,本文应用掩膜区域卷积神经网络(Mask RCNN)对两类肿瘤进行分类定位研究.首先采集89名脑膜瘤与218名听神经瘤患者的T<sub>1</sub>WI-SE序列的磁共振图像,对其进行预处理,再结合改进的特征金字塔网络(FPN)算法进行网络训练.本文对比了三种不同的Mask RCNN主干网络对两者分类定位的效果.结果表明,结合改进的FPN算法和ResNet101作为主干网络的Mask RCNN分类定位模型能够有效实现对两类肿瘤的分类定位,精确率为0.918 2、召回率为0.856 9、特异性为0.876 2、均值平均精度(mAP)为0.90.

WANG Z R, YANG J J, JIANG H N, et al.

CNN training with twenty samples for crack detection via data augmentation

[J]. Sensors, 2020, 20(17): 4849.

[本文引用: 1]

龙程. 基于对抗网络的图像数据集扩充研究与实现[D]. 西安: 西安理工大学, 2020.

[本文引用: 2]

KINGMA D P.

Adam: A method for stochastic optimization

[J]. arxiv preprint arxiv:1412.6980, 2014.

[本文引用: 1]

WANG L, JI X H, YANG M, etc.

Mineral image recognition based on data augmentation and ensemble learning

[J]. Geoscience Frontiers, 2024, 31(4): 87-94.

[本文引用: 1]

王琳, 季晓慧, 杨眉, .

基于数据增强和集成学习的矿物图像识别

[J]. 地学前缘, 2024, 31(4): 87-94.

DOI:10.13745/j.esf.sf.2024.5.6      [本文引用: 1]

矿物识别是地质学研究的一个重要部分,对于资源勘探、岩石分类和地质环境监测都有着重要的意义。然而,传统方法通常依赖人的经验进行主观判断,并且效率低下。近年来,已有许多研究将深度学习的图像分类技术应用于矿物识别,以客观快速地识别矿物,这些研究都取得了一定的成果,但可识别矿物种类有限且精度需要进一步提升。为此本文首先解决了矿物数据集图像数据样本分布不平衡问题,对数据集中矿物图像较少的11个矿物类别采用DCGAN生成矿物图像进行数据增强,对比选择效果更好的方案对数据集进行扩充。其次,为了得到更可靠、精确度更高的识别模型,将ImageNet上表现较好的ResNet、RegNet、EfficientNet和Vision Transformer模型迁移到本文使用的矿物数据集上。针对训练好的基模型排列组合得到11个子模型,分别使用平均软投票法和加权软投票法两种方法进行集成,得到22个集成模型并对其训练得到识别结果,对比22个集成模型的结果选择出精度最高的集成模型。实验结果表明:使用DCGAN进行数据增强,在不同的模型上平均提升了3.12%的准确率,充分证明了DCGAN数据增强的有效性;在所有集成模型中,使用加权软投票法的模型表现较好,其中精度最高的是利用4个基分类模型进行加权软投票得到的集成模型,在扩充后的36种常见矿物数据集上达到了87.47%的准确率。

WUBINEH Z B, RUSIECKI A, HALAWA K.

Classification of cervical cells from the pap smear image using the RESDCGAN data augmentation and ResNet50V2 with self-attention architecture

[J]. Neural Comput Appl, 2024, 36: 1-15.

[本文引用: 1]

ONAKPOJERUO P E, MUSTAPHA T M, OZSAHIN U D, et al.

A comparative analysis of the novel conditional deep convolutional neural network model, using conditional deep convolutional generative adversarial network-generated synthetic and augmented brain tumor datasets for image classification

[J]. Brain Sci, 2024, 14(6): 559.

[本文引用: 1]

SARATH S, NAIR J J.

Detection and classification of respiratory syndromes in original and modified DCGAN augmented neonatal infrared datasets

[J]. Procedia Comput Sci, 2024, 233: 422-431.

[本文引用: 1]

/