基于内容的医学图像检索高维数据库系统

2017-07-03 11:23:21 爱德腕带 阅读

1  引言


在医学领域,随着医院数字化的不断推进,各类医学成像(CT、MRI等)技术得到了普及,医院影像数据量也飞速增长,然而影像数据中所包含的信息并没有得到充分的利用,因此基于内容的图像检索技术被应用到医学领域中。基于内容的医学图像检索系统可以充分挖掘医学影像信息,提高医生诊断效率。


本文以提高医院图像检索系统检索速度为出发点,使用VA-Trie索引结构,设计一套基于内容的医学图像检索高维数据库系统。


2  研究背景


基于内容的图像检索系统应用到医学影像领域以提高临床决策是目前的研究热点,与标准的CBIR系统相比,医学图像灰度值以及纹理特征差异性较小,特征提取难度更大。因此为了更加精确的表达图像特性,需要提取更多的特征,特征向量的维数可以达到几百甚至上千维。而图像特征数量的增加,会导致检索时出现“维度灾难”问题,即系统的检索响应时间随着特征维数的增加而急剧增长。一些研究人员针对这一现象,提出了一些高维索引结构,如R*-Tree,VA-File等,但是面对超高维数特征时,效果并不理想。


3   病灶分割及特征提取


研究的目的在于引入VA-Trie索引结构,设计一个基于内容的图像检索高维数据库系统,以提高检索速度。因此,我们首先需要对病灶区域进行特征提取。


在系统中,通过基于Web的医学影像系统对ROI(感兴趣区域)进行勾画。例如,有经验的医生从一系列中选择关键图像,然后利用绘图工具绘制ROI的轮廓。当绘图完成时,医生按下保存按钮,ROI的坐标将以Dicom文件格式保存到PACS系统数据库中。通过使用这些坐标和原始图像数据,得到一个只有ROI区域中包含像素数据的新图像,而ROI之外的像素均被置为0。至此,得到了ROI区域的粗略范围,为了提高ROI的准确性,使用由哥伦比亚大学开发和许可的模式识别自动分割算法,根据医生勾勒出的区域精确绘制病灶的轮廓,从而提高系统的检索精度。


文中使用肺结节CT图像进行系统测试。根据提取出的精确区域,对图像进行特征的提取。提取的特征可以分为三类:(i)病灶强度特征,(ii)形状特征,(iii)纹理特征。


根据肺结节的特性提取了114个特征。其中包括6个强度特征,3个形状特征以及105个图像纹理特征。纹理特征中包含30个Gabor特征,10个Hurst特征。5个马尔科夫随机域特征及60个灰度共生矩阵特征。


4   高维特征数据库


基于关系数据库或树状索引结构化文件系统的查询性能将随着维数的增加而急剧减少。这就是所谓的“维度灾难”,并且在许多结构化文件系统如R-Tree,X-Tree和SS-Tree中均会出现这一现象。同时,研究人员提出了许多其他方法来解决“维度灾难”,诸如引入VA-File通过近似特征向量来减少磁盘读写成本。在本文中,我们使用一个新的索引结构VA-Trie。VA-Trie的主要思想是结合VA-File和A-Tree来对向量数据进行压缩,同时引入Trie数据结构来组织和管理近似向量。 图1为VA-Trie的结构。


VA-Trie由两层组成:Trie层和VA层。 Trie层由VA-Trie的内部节点组成。 Trie层的数据结构是:(internal,pointer),“internal”是节点的量化区间; “pointer”是指向下一层节点的指针。VA层由保存所有近似矢量数据的叶节点组成。VA层的结构是:(va,oid-list),“va”是特征向量的近似向量; “oid-list”是该近似向量的id序列。 在PACS中,每个DICOM图像具有唯一的标识符SOPInstanceUID。 为了识别同一图像中的不同ROI,我们给每个ROI分配一个唯一的ID,ROIUID。因此在VA层中,每个向量的oid-list标识符都是由SOPInstanceUID和ROIUID组成。


5   讨论


首先,通过语义搜索功能从上海华东医院的临床RIS数据库中选择了158例具有肺结节病灶的CT数据进行研究。这些病例均由有丰富经验的放射科医生对病灶进行勾画,并由自动分割算法进行精确分割。


然后,对这些肺结节CT的图像提取了114维特征。为了比较CBIR检索使用VA-Trie索引结构所带来的性能提升,我们从114个特征中使用机器学习算法选择了57个特征,这个57维的特征向量即为114维特征的最优特征子向量。同时使用R*-Tree索引结构进行检索响应时间的比较。


从这158个病例中,选择1568幅包含不同大小和形状的病变图像。从这些1568幅图像中选择100,400,1000,1568幅图像,以测试CBIR系统的检索性能。为了测试系统处理大量图像数据的检索性能,将CT图像的数量增加到25088,所增加的图像为这158个病例中不包含病灶的图像。随着图像的数量增加,检索的响应时间将连续改变。


图2即为该次的测试结果,可以看到114维特征向量检索所消耗的时间比57个维的特征向量消耗的时间更长。因此特征向量维数越高,检索所需的时间越长。所以减少图像特征维数是提高CBIR检索性能的关键。


同时从图2可以看到,基于VA-Trie的高维数据库索引结构检索响应时间在57维特征向量和114维特征向量均在毫秒量级,而且随着数据库中图像数量的增加,检索响应时间几乎没有改变,保持在了一个十分稳定的状态,性能表现非常优异;而R*-Tree索引结构则随着数据维度以及检索图像的增加,检索响应时间也在增长。因此,对于CBIR系统VA-Trie索引可以在高维度图像特征数据库应用中提供更好的检索性能。


在研究中提出了在集成RIS/PACS环境中使用VA-Trie索引结构为CBIR设计高维图像特征数据库的架构。选择158例肺结节CT研究病例对该基于内容的图像检索高维数据库系统索引和检索的性能进行了测试,并与R*-Tree索引结构进行性能比较。初步结果表明,CBIR高维特征数据库系统有出色的检索性能。下一步的任务是对医学图像的特征提取做更深入的研究,使得提取出的特征能够更加全面精确的描述图像特性,同时,进一步研究高维数据索引结构,以提升系统检索性能,为医生提供更多的帮助。




点击这里给我发消息
点击这里给我发消息