基金项目: 国家重点研发计划项目(No. 2021YFC2400103);浙江省基础公益研究计划项目(No. LGF20F50006);之江实验室科研项目(No. 2019MC0AD02, 2022MG0AL01)
近些年来,我国的胃肠道疾病始终处于高发状态,当胃肠道疾病的病变体积大、位置特殊或者基底较宽时,使用普通的内镜切除技术具有较大的难度[1-3]。对于这些情况,传统方法是采用开腹手术,这样医生可以直观地观察病灶,但该方法创伤较大,不利于术后恢复。随着医疗水平的进步,在过去几十年中,中微创手术得到了广泛普及。微创手术相较于传统手术,有减少术后疼痛、降低伤口发病率、提高术后恢复速度和改善创口美观程度等多方面优势。与此同时,微创手术也面临如何从小创口全面获取病灶信息的难题,其狭窄的视野让医生无法直观看到胃肠道病灶的全貌,特别是对于病变程度较轻的肿瘤或者没有造成胃黏膜浆膜面出现异常变化的病灶,会导致手术时间延长,甚至需再次进行开腹手术治疗。
普通内窥镜由于视场角(Field of View, FOV)较小,成像范围受限,只能对周围有限区域进行成像,可能导致病变部位被遗漏。全景内窥成像技术可通过胶囊内镜或者腹腔镜等手段,获得创口内器官的全貌,为医生提供更加丰富的手术视野。
据相关研究表明[4-5],在诊断和治疗肠道疾病方面,全景成像起到了非常重要的作用。全景胶囊内窥镜可以用于检查上、下消化道检查中遗漏的胃结肠病变,在检查不明原因消化道出血(Obscure Gastrointestinal Bleeding, OGIB)病理方面有着很好的效果[6-9]。在治疗克罗恩病(Crohn’s Disease)方面,胶囊内镜通过对肠道的全景成像,可以观察到小肠侧梳理褶皱情况,指导患者升/降级治疗管理[10]。
本文通过梳理各种全景内窥成像技术,分析全景内窥成像对于微创手术的重要作用。第2节主要介绍了二维全景内窥成像技术,将二维全景内窥成像技术分为多摄像头全景成像技术和全景镜头技术分别阐述。第3节主要介绍了三维全景内窥成像技术,将其分为深度相机与单目相机两大类分别阐述。第4节介绍了全景内窥成像技术目前的应用和相应产品。第5节对全景内窥成像技术的未来进行展望,并分析其未来的发展方向。
二维全景内窥成像主要有两种实现方式:一种是基于多个摄像头对多个不同角度成像,结合合适的图像拼接算法,将多个图像进行拼接,形成更广的视野,形成全景图像;或者调用多个摄像头,直接拍摄出多个角度的图像,在不同显示器中显示,实现全景成像;另一种是基于全景镜头成像,利用自由曲面、全景环带和折反射棱镜等方式实现单一镜头视场角扩大,从而可以观察到更多视野。
采用多摄像头实现全景成像是目前研究比较广泛的一种方式,如前文所述,其可以分为两类,一类是结合图像拼接算法将多个摄像头的图像拼接在一张图中显示,另外一种是直接利用多个摄像头,将拍摄结果显示在多个显示器上,以下将针对两种技术分别进行阐述。
传统的图像拼接算法已经在无人机、航空航天、遥感测绘等领域有非常广泛的应用[11],可以提供更广的视野和更清晰的图像。在医学图像领域,通过CT、显微镜、腹腔镜等技术获得的图像大多存在视野狭窄的问题,在诊断时,需要医生结合不同角度的图像判断病因。而将图像拼接技术引入到医学图像领域,拼接后的图像可以提供更加丰富的信息,便于医生判断病灶在器官内的位置,为医生做出准确判断提供可靠信息。
目前应用于医学的图像拼接技术与常规的图像拼接技术很接近,其中,基于特征点的方法得到了广泛的应用,例如Zeng等人提出的MicroEYE系统[12],通过基于特征点的图像拼接算法,扩大观察视野。2004年,Lowe 等人提出了尺度不变特征变换(SIFT)算法,其准确度较高,但缺点是计算速度较慢,而且对于边缘光滑目标的特征点提取能力较弱[13]。2006年,Rosten等[14]提出了 FAST(Feature from Accelerated Segment Test)特征检测算法,其速度较快,但不包含特征点描述子。同年,Bay等人对SIFT进行改进,提出SURF(Speed-up Robust Features)算法[15],其在保持 SIFT 算子优良性能的基础上,解决了 SIFT 计算复杂度高、耗时长的问题,而且在特征点提取及其特征向量描述方面进行了改进。
2011年,Rublee等人提出一种在速度和性能上都优于SIFT和SURF的ORB(Oriented Fast and Rotated Brief)特征提取算法[16],其是一种使用FAST进行特征检测的二值特征提取方法,使用BRIEF(Binary Robust Independent Elementary Feature)进行特征描述,还解决了BRIEF算法不具有旋转不变性的问题。虽然该算法不具有尺度一致性,但在OpenCV中使用图像金字塔可以解决该问题。
上述这些描述子被广泛应用于图像拼接领域,在获得每幅图像特征点及其描述子后,通过对特征点匹配可实现图像关联以及后续的点云拼接融合。其中最简单的方法是暴力匹配(Brute-Force Matcher),对匹配图片中所有特征点两两计算描述子的距离,但对于特征点较多的情况,会消耗过多时间,影响计算效率。2009年,Muja等人提出一种匹配算法,在OpenCV中以FLANN(Fast Library for Approximate Nearest Neighbors)的形式实现,它是目前最完整的最近邻开源库,不但实现了一系列查找算法,还包含了一种自动选取最快算法机制[17]。随机抽样一致性算法(RANdom SAmple Consensus,RANSAC)的加入,消除了主动匹配存在的误匹配[18]。
考虑到医学图像存在纹理信息偏少、清晰度低等问题,不同的研究人员针对传统算法进行了优化和改进,使其在内窥镜的工作环境中也能有良好的工作效果。根据搜索特征点方法的不同,将在医学图像领域实现二维全景图像拼接的算法分为SURF和ORB两类分别进行讨论。此外,引入无需拼接算法的多摄像头成像技术,可提供不同视角的图像。同时降低了对硬件和算法的需求,系统鲁棒性好,对工作环境要求低,无需检测特征点即可正常工作。
SURF算法是对SIFT算法的优化[15],该算法基于Hessian矩阵构造金字塔尺度空间,利用箱式滤波器简化二维高斯滤波,无需再进行降采样;通过Harr小波特征设定特征点主方向,这样构建的特征点描述子就是64维。相对于SIFT算法,SURF算法加快了检测的速度。
Peng等人基于双目内窥镜,开发了一种可以提供全景视野的双目内窥镜(MIS Panoramic Endoscope, MISPE)[19-21]。其实现原理是将两个摄像头所拍摄的图像使用SURF算法进行拼接,其视野相较于单目成像扩展了155%。之后,缩小了需要检索特征点的范围,由于两个相机固定,可以从两幅原始图像中估算出重合区域,从而仅需对两幅图像的重合区域使用SURF算法寻找特征点并计算单应性矩阵,使得搜索范围进一步减小,从而提高了特征点对的搜索准确性,同时也减少了特征点的搜索时间。结合对特征区域的放大,使得速度相较于原始算法提升了两倍。
随后,考虑到医生在进行微创手术时,手持内窥镜的移动速度较慢,提出了可以结合前后帧的情况进行视频拼接。为了进一步提高匹配和拼接的速率,使用双线性插值的方法对图像帧进行下采样,将640 pixel×480 pixel的图像帧下采样为320 pixel×240 pixel,速度可提升10倍(CPU)和23倍(GPU)。在双摄像头的分辨率为640 pixel×480 pixel的情况下,拼接视频的帧速率可以达到12.82 fram/s[22]。2018年,Kim课题组提出了通过计算前两帧单应性矩阵在当前帧匹配特征集上的中值重投影误差,实现自动更新,同时使拼接视频随摄像机位置变化或环境变化而保持稳定不变,从而提高拼接算法的稳定性[23]。接着,该课题组研究人员基于立体视觉合成理论同时实现了三维重建和图像拼接,将两个内窥镜的视场合并为一个更宽的视场,在单台Intel i5-4590 CPU计算机上实现了高达11.3 fram/s的帧速率,在带有额外的GTX1060 NVIDIA GeForce GPU的计算机上可以实现CUDA加速,实现17.6 fram/s的帧速率[24-25]。
2018年,Kim等人设计了一种套针相机组件(Trocar-Camera Assembly, TCA)[26],通过TCA的套管实现微型摄像机的部署,如图1所示。该设计中包含5个摄像头,其中套针上分布有4个摄像机,使用SURF算法实现图像的拼接;中间的单独摄像头提供中央主视图,从而实现了视场扩大。该方法能够以26 frame/s的帧率实现拼接后的视频显示。
图 1 套针相机组件[26]
Figure 1. Trocar-camera assembly[26]
ORB特征提取算法在实时嵌入式应用、目标检测和图像跟踪方面的表现优于SIFT和SURF算法。
原始ORB算法在关键点匹配中没有尺度不变性,容易受到噪声影响,2022年,Zhang等人针对内窥镜的图像提出了一种金字塔ORB算法[27]。该算法通过建立高斯金字塔,在检测特征点之前建立一个尺度空间,解决了ORB算法没有尺度不变性的问题。在图像尺度发生变化时,其匹配精度为93.2%。该算法的匹配精度远高于传统的ORB算法,较传统ORB算法高约44%。虽然该算法的平均匹配精度略低于SIFT,但匹配时间为SIFT的1/8,远低于SIFT。由于其具有尺度不变性,并能基本满足实时性的要求,因此该算法具有一定的实用性。
在图像拼接技术中,对计算资源的消耗比较大,对于轻量的内窥镜系统,如胶囊内窥镜等,往往无法满足实时性的要求,因此,研究人员提出了多摄像头的显示技术,即通过不同视角的摄像头采集并显示器官内的图像。在文献[28-29]中,研究人员在胶囊内镜中放置了4个摄像头,覆盖胶囊周围的360°视角,文献采用了不同的技术以改善胶囊内窥镜的大小、信号的传输和控制等[28-29]。同时还有部分内窥镜专门用于观察侧壁的息肉等病变,对于OGIB等疾病的诊疗起到了重要作用。
2015年,Sheu等人设计了一种双摄像头的胶囊内窥镜,如图2所示,用来观察肠道前后的息肉,其中前向摄像头的FOV在90°左右,图像失真率控制在30%以下,后向摄像头的FOV在260°~290°内,图像失真控制在25%以下[30]。
图 2 双摄像头胶囊内窥镜[30]
Figure 2. Dual-view capsule endoscope[30]
类似地,Tamadazte等人在传统内窥镜镜体末端安置了两个单独的相机。当外科医生插入内窥镜时,会将两个摄像头推出滑轨,当两个相机都离开滑轨并且内窥镜完全插入时,该系统完全进入腹腔内。为了保持整个系统的完全稳定,医生通过拉动系统的电源线将摄像头固定,就可以进行诊断了。两个相机就像在腹腔镜的镜体末端再放了一副眼镜,实现了视野的放大[31]。
相较于多摄像机拼接成像技术而言,无拼接算法的多摄显示技术对于计算的需求较低,但对镜体的机械设计水平要求较高,需要在较小的体积下集成多个摄像头,对镜头的设计和加工技术等方面提出了更高的要求。同时,由于是多个摄像头采集到的图像同时显示,因此对数据的存储和通讯也有较高要求。对于胶囊内窥镜而言,多个摄像头同时工作引起的功耗提升也需要设计人员去解决。
传统实现全景成像的方法是通过扩大镜头的视场角,从而观察到更大范围的视场。最初,鱼眼镜头由于具有宽广的视场角和设计简单的优点成为了全景光学镜头设计的优先选择,在全景镜头技术方面得到了广泛的应用。但鱼眼镜头的缺点也很明显,其虽然具有良好的中心区域成像质量,但过大的FOV使图像边缘产生很大的畸变,侧视图像的成像质量很差,因此在需要观察侧壁细微病变的胃肠道中并不适用,无法广泛应用于全景内窥成像技术。随后部分研究人员参考全景图像的拍摄原理,在内窥镜镜体的侧壁加入了一个有倾角的导航镜,并结合动态机械模块使其旋转,从而获得了目标成像区域的全景图像[32]。该方法引入了额外的机械部件,结构复杂,对操作的稳定性要求很高,因此在实际应用方面也有很多局限性。
随着光学设计技术的发展,自由曲面棱镜、全景环形透镜和抛物面镜等多种设计被引入到了全景内窥领域,从而实现了更大的视场角,或者在相等视场角的情况下实现更小的畸变。同时,随着加工工艺的提升,逐渐实现了各个镜体的小型化,可以将它们集成到现有的内窥成像设备中,对于各种设计有着重要的意义。
自由曲面棱镜的设计方法已经日趋成熟。在传统成像光学系统中,自由曲面能够进一步实现系统的小型化,从而可以放入体积狭小的内窥镜中。
2015年,Katkam等人设计了一种紧凑的双视角内窥镜,该内窥镜基于自由曲面棱镜实现了前向90°和后向45°的成像,其设计图如图3所示[33]。
图 3 紧凑双视角内窥镜设计方案[33]
Figure 3. Design scheme of compact dual-view endoscope[33]
与其他双视图物镜相比,该设计中仅使用了一个自由曲面棱镜来组合前视图和后视图,详细设计结果如图4所示。图4仅给出了第一个透镜的细节,它由4个光学表面组成。前视光首先通过表面1进入物镜,然后通过表面4。来自后视图的光通过表面3后,从表面2反射到表面4,来自两个视图的光通过其余透镜到达最终的CMOS(Complementary Metal Oxide Semiconductor)。这种配置的主要优点是其物镜比其他双视图内窥镜物镜更紧凑。为了确保两个FOV都具有良好的性能,为表面1和表面2设计了不同的半径,并将表面2设计为铝涂层。同时将表面1和表面2设计成非球面,从而降低了每个视场的像差。
图 4 自由曲面棱镜的设计方案[33]
Figure 4. Design scheme of freeform surface lens[33]
全景环形透镜(Panoramic Annular Lens, PAL)是一种紧凑的光学结构,具有大视场和小畸变的特点。PAL设计可以提供全景视图和清晰的成像质量,这意味着它非常适合用于全景内窥镜结构。PAL系统的光学特性如图5所示,从α到z轴的区域是一个盲区,不参与成像。其本身是由图中用斜线标记的两个反射面和两个折射面组成的,光线离开PAL后进入一个中继透镜,用于校正和平衡PAL的像差。最终在CCD上形成环形图像。
图 5 全景环形透镜的原理示意图
Figure 5. Principle schematic diagram of panoramic annular lens
2016年,Liu等人设计了一种基于全景环形透镜和自由曲面棱镜的内窥镜系统,其结构如图6(彩图见期刊电子版)所示[34]。该设计能够实现全景成像,同时可获得局部高分辨率图像,并充分利用了传统全景环形透镜系统图像表面的盲区像素,解决了宽视场和高分辨率之间的矛盾。该设计分为两个子系统,一个是用于实现360°成像的PAL子系统,一个是用于局部放大的高分辨率子系统。高分辨率子系统基于图像平面上的盲区和PAL子系统的中继系统给出,其图像正好位于PAL图像的盲区内。其PAL子系统的FOV达(60°~97.5°)×360°,而高分辨率系统实现了0.008 mm的物方分辨率。
图 6 基于全景环形透镜和自由曲面棱镜的内窥镜系统[34]
Figure 6. Endoscope system based on PAL and freeform surface lens[34]
折反射成像系统是一种使用较少镜片即可实现超广角成像的技术,可以通过锥形镜、抛物面镜、凹凸镜片折叠等方式实现。折反射成像系统的成像方式简单、易于加工、成本较低,具有广泛的应用潜力。2015年,Sahli设计了一种将普通的广角镜头和由锥形镜和透镜组成的折反射系统结合起来的系统,该系统可以实现侧视图360°成像[35]。
该系统通过折反射系统捕获侧向视图,利用侧向视图组件中心的孔,捕获前视图。两个成像模式共享多个透镜,使用单个CMOS便可以实现两个视图的同时采集。
2016年,Dallaire等人针对上述设计中使用的镜头片数过多的缺点重新进行了设计,通过设计凹凸镜头折叠的方式实现折反射,该设计图如图7(彩图见期刊电子版)所示,其视场角可以达到180°[36]。
图 7 凹凸型广角内窥镜设计方案[36]
Figure 7. Design of foveated wide angle endoscope lens[36]
2017年,Tseng等人设计了一种复杂度较低的全景内窥系统,在该系统上使用抛物面镜作为反射镜,用于实现侧视图的360°全景成像[37]。该方案使用的透镜更少,在装配方面可靠性更好,图像失真更少。后续在其设计的基础上,加入了一个中继镜头,接收由凹面镜反射回来的侧向光,设计结果如图8(彩图见期刊电子版)所示[38]。
图 8 基于抛物面镜内窥镜设计图[38]
Figure 8. Design of endoscope based on convex parabolic mirrors[38]
在大自然中同样也有全景成像的解决方案,昆虫的复眼便是一个很好的例子,也一直是生物学家的研究热点。研究人员从昆虫的复眼获得灵感,提出了兼具均匀性和高分辨率的成像能力的全景内窥成像系统。
2016年,Tseng等人根据昆虫的复眼结构提出了一种具有大视场的灵活胶囊内窥镜,其整体系统的原型如图9所示[39]。该方案使用31个球透镜覆盖175°的观察区域,用于构建复合透镜,胶囊内镜中使用的球透镜负责40°视角,在曲线图像平面上形成图像。在畸变控制方面,应用光纤阵列来拟合曲线图像平面,以改善场曲像差并将图像传送到图像传感器中。这种复合透镜可以将像差共享到多个球透镜中,保持较高的相对照度,并使视场角的调整成为可能。同时使用45×45光纤阵列模拟光线追踪,验证了该方案中的胶囊内窥镜的可行性。结果表明,该胶囊内窥镜可以通过基于球透镜设计的复合透镜捕获175°的可视区域。
图 9 基于复合透镜的仿生内窥镜原型[39]
Figure 9. Prototype of bionic endoscope based on compound lens[39]
2017年,Cogal等人受昆虫复眼启发,提出了一种小型化高清视觉系统。该系统采用分布式照明方法,可以在黑暗环境中工作,用于内窥镜等近距离成像应用[40]。该方法使用现有的小型相机对生物系统进行建模,并结合数字电路设计进行实时图像处理。构建了一个半径为5 mm的半球形复眼,可覆盖180°×180°的视场,同时在18 mm径向距离处采用超过1.1 Mpixel的视频模拟小眼作为实时视频,小眼角Δφ=0.5°,图像处理系统通过FPGA 实现,该系统能以120 MHz的处理时钟频率生成具有1080 pixel×1080 pixel分辨率的 25 frame/s视频。
与多摄像头显示技术类似,该方法将不同的超广角技术组合起来,充分发挥各项技术的长处,弥补不同技术存在的缺陷,从而实现良好的畸变和体积控制。
2019年,Chen等人设计了一种紧凑的双视场内窥镜物镜,其视场角达±80°[41],其结构如图10(彩图见期刊电子版)所示。该内窥镜由两种光学配置组成,前视图配置是一个视场角为±55°的鱼眼镜头,侧视图通过PAL实现,覆盖了剩余视场。这两种配置由一个混合透镜组成,该混合透镜由中心折射部分和侧面折反射部分组成。虽然该设计中,视场角不如其他系统广,但其畸变控制在了10%以内,提高了边缘视场的成像质量。同时其结构更加紧凑,易于安装。
图 10 紧凑双视场内窥镜的设计示意图[41]
Figure 10. Schematic diagram of compact dual-view endoscope design[41]
表1总结了不同全景镜头技术的优缺点。其中:自由曲面棱镜、全景环形透镜和折反射光学系统在系统小型化方面优势明显,加工技术也日趋成熟,是目前应用前景较好的3种类型;仿生光学系统在成本方面难以控制,目前主要用于科学研究方面,距离实际应用仍然存在着距离。多系统组合在畸变控制方面有很好的效果,同时装配更简单,但视场角较小,尚无法覆盖180°的范围,仍然需要研究更多系统的不同组合。
表 1 不同全景镜头技术对比
Table 1. Comparison of different panoramic lens technologyies
成像方式 | 视场 | 结构复杂度 | 成本 | 畸变 | 特点 |
自由曲面棱镜[33] | 中 | 中 | 中 | 小 | 多视角成像, 视场不连续 |
全景环形透镜[34] | 大 | 高 | 中 | 小 | 宽视场、高分辨率 |
折反射成像 系统[35-37] | 大 | 低 | 低 | 大 | 加工难度低 |
仿生光学系统[39-40] | 小 | 高 | 高 | 小 | 分辨率高、 成像均匀 |
多系统组合[41] | 小 | 高 | 中 | 小 | 边缘视场成 像质量高 |
下载: 导出CSV
| 显示表格
通过三维拼接能够获得更全面的信息,目前根据采用的方法不同,三维全景内窥技术可分为深度相机与单目相机两大类。其中,深度相机可以从单帧图像直接获得深度图,从而得到对应的局部点云图,再通过算法进行拼接即可实现全景成像,但其结构相对复杂,增大了内窥镜的尺寸。
深度相机的实现方式根据原理可分为两种:一种为主动形式,设备主动投射特定光,再利用反射光信息进行深度图计算;另一种为被动形式,相机只通过被动接收的可见光信号进行深度图计算。主动形式包括ToF相机以及结构光系统,被动方法主要为双目相机。
ToF(Time of Flight)相机向目标连续发射光脉冲,传感器不断接收由物体反射回来的信号,通过计算光脉冲的飞行时间得到各个像素对应点与相机的距离。2009年,Penne等首次将其应用到内窥镜系统中,完成了大量体外实验,实现了3072个三维点的20 frame/s实时测量,误差为0.89 mm[42]。受限于当时的技术,该研究中的ToF相机分辨率过低,且没有RGB相机的参与,其所重建出的三维模型不包含颜色等纹理细节。2013年,Köhler等人将低分辨率ToF传感器与高分辨率RGB传感器相结合,提出一种多帧超分辨率框架有效提升了深度图的信噪比及分辨率[43]。2022年,Stolyarov等将ToF系统整合进商用内窥镜中,像素数提升至几十万级别,在30 frame/s实时成像速度下精度能达到亚毫米级[44]。
结构光系统使用投影仪将特定信息投射至目标物体表面,再由摄像头采集图像,通过对图像上结构光的特征信息进行解码,得到目标物体表面的三维信息。根据结构光的编码方式,可以将其分为顺序投影模式结构光、连续变化投影模式结构光、条纹模式结构光、网格模式结构光和混合模式结构光等[45-46]。
顺序投影模式结构光是较早被研究的一类结构光,需要投影多幅结构光图像,可以分为二进制编码模式、灰度模式及相位模式。其中二进制编码方式是将预设的黑白条纹投射至物体表面;灰度模式较二进制编码模式在黑白条纹中增加了不同的灰度信息;相位模式将同一结构光图案不同相位的图像结合在一起,利用相位信息进行解码[47-49]。
连续变化投影模式的结构光是指系统能投射出波长连续变化的颜色波带,其先建立出投影仪和颜色波带中各个波长之间夹角θ的对应关系,然后利用三角测量原理进行三维重建[50]。
条纹模式结构光是通过投影不同颜色或灰度的条纹进行编码的。2012年,Maurice利用10 mm双通道腹腔镜建立了一个可视化的结构光系统,他们设计了基于特殊图像的结构光条纹,并对猪体内25个图像进行三维重建,得到了很好的实验效果[51]。
网格模式结构光中的伪随机序列通过投影随机的颜色点阵,并利用每个颜色点和周围颜色点的对应关系对结构光进行编码。颜色编码模式是对光的横向和纵向分别进行编码的彩色条纹投影,在两个维度进行结构光编码[52]。二维颜色阵列是设计一种复杂而特殊的颜色点阵,利用点阵中颜色点之间的相互关系进行编码[53]。
混合模式结构光通常利用多种结构光的编码方式,比如同时利用结构光的相位和条纹的颜色信息对结构光进行编码。这种方式增加了编码难度,但同时也提高了分辨率[47, 54]。2011年,Clancy等人利用多光谱激光器和超光谱相机,将127个随机而又可识别的彩色斑点投影在猪结肠表面,并准确重建出了两个猪结肠之间的波谷[55]。
除了以上几种模式的结构光,还有一种采用被动式双目结构的双目结构光,其仅提供目标物体表面的特征纹理信息,从而使双目重建算法可以更加准确地运行,因此不需要进行解码,对弱纹理区域有较好的重建成像效果。Stoyanov和Yang通过对特征表面进行约束和匹配,该方法实现了动态目标的跟踪和测量。对场景中遮挡和镜面反射有较好的鲁棒性。实验表明,该方法在实时体内三维重建具有可行性[56]。
双目内窥方案模仿人眼的视觉系统,可以通过双目的单帧图像计算获得对应的深度图,从而可以与RGB-D相机一样实时获得深度图,且拥有更高的分辨率,因此现在多使用双目相机来实现最初基于RGB-D的SLAM(Simultaneous Localization and Mapping)方案。
由双目单帧图像计算得到深度图的算法,称为双目立体视觉匹配算法,2007年,Hirschmuller等提出一种名为半全局匹配(Semi-Global Matching,SGM)的算法[57],其在Open CV中的实现为半全局块匹配(Semi-Global Block Matching,SGBM)。该算法结合了局部匹配算法的低时间复杂度和全局匹配算法的高匹配精度, 先计算出视差图,再根据人眼视觉系统的物理模型计算出深度图,从而重建出局部三维模型。由于算法开源且匹配效果较好,SGBM算法目前已被广泛使用。
随着深度学习的发展以及计算机硬件性能的提高,近年来,深度学习在图像分类、图像检测以及图像分割等计算机视觉领域展现了优异性能,许多研究团队也开始探索如何将深度卷积网络应用到双目立体匹配任务中,并在多个场景中取得了远优于传统算法的结果。2018年,Khamis等提出了第一个用于实时立体匹配的端到端网络StereoNet[58]。其将代价匹配、代价聚合、视差计算及优化等步骤全部用卷积网络实现,由特征提取网络、代价计算及滤波网络、差计算及逐层优化网络组成。其改进点在于通过低分辨率特征图以及边缘感知上采样模块实现高精度实时视差预测。2021年,Yu等人使用双目内窥镜[59],利用SGBM与StereoNet分别对胃模型进行三维重建,如图11所示。结果表明,StereoNet 重建的三维点云的各项指标下均优于SGBM算法结果,尤其运算时间方面下降了90.5%。
图 11 真实内窥镜图像视差图。(a)输入图像(左);(b)SGBM视差图;(c)StereoNet视差图[59]
Figure 11. Disparity results of real endoscopic images. (a) Input image (left); (b) disparity map produced by the SGBM algorithm; (c) disparity map produced by StereoNet
通过以上方法,可以在内窥镜场景中获得深度图,即局部点云。而为了获得全景三维点云,需要对所获得的多个局部点云进行拼接。2021年,Zhou等人将双目相机获得的图像转换为局部点云,通过使用SURF检测相邻左图像的特征点并进行匹配来估计摄像机姿态变化。最后,在计算得到变换矩阵的基础上,利用迭代最近点(ICP)算法进行更精细的点云配准,实现了整个胃器官的三维密集重建[60],如图12所示。
图 12 整个胃器官重建三维点云图[60]
Figure 12. Reconstruction 3D point cloud of the whole stomach[60]
在内窥镜领域,成像对象往往是未知的软组织环境,并且涉及不确定的环境描述与噪声,现有研究多采用基于概率估计的内窥镜视觉SLAM方法来描述该问题。其主要由特征提取、特征匹配以及内窥镜定位方法组成。随着双目相机研究的深入及计算机配置的不断提高,目前通过对双目相机采集到的单帧图像进行视差计算,已可以与RGB-D相机一样实时获得深度图,且拥有分辨率更高等优点,因此,现在多使用双目相机实现原本基于RGB-D的SLAM方案。
SLAM中特征提取与特征匹配算法沿用了较早研究中图像拼接领域中使用的特征提取与匹配算法,如SIFT、SURF和ORB特征提取算法及FLANN匹配算法。Mur-Artal等人基于ORB特征提取算法,提出了ORB-SLAM系统[61-62],2017年提出更新的ORB-SLAM2系统[63],该系统支持单目相机、双目相机、RGB-D相机,为目前公认的性能较好的SLAM系统。2021年,Campos等人提出ORB-SLAM3系统,其较ORB-SLAM2精度大幅提升,且能够有效应对长时弱纹理环境[64]。
2015年,Whelan等人提出一种基于RGB-D相机实现稠密三维全景重建的SLAM方法[65],名为Elastic Fusion。该方法没有任何姿态图优化步骤,传统的SLAM算法一般通过不断优化相机轨迹或者特征点的方式,来提高轨迹估计或者重建精度,而该方法采用不断优化全景重建图的方式,提高重建和位姿估计的精度。
2021年,Docea等人使用双目相机,将ORB-SLAM3与ElasticFusion应用至腹腔镜场景中进行测试。测试结果表明: ORB-SLAM3在轨迹估计方面大大优于ElasticFusion,并且其腹腔镜手术图像序列更稳定,而在表面全景重建上则有着相似的性能,如图13所示[66]。
图 13 实验场景及全景三维点云图[66]
Figure 13. Experiment scene and full-view 3D point clouds
近年来,使用单目内窥镜进行三维全景成像成为研究重点。单目内窥镜体积小、功耗低,但无法直接获得深度图,因此对算法提出了很高的要求。目前使用更多的是SLAM方法,根据其前端匹配方式的不同,可分为基于特征的 SLAM,稠密 SLAM 和半稠密 SLAM。基于特征的SLAM通过对多幅图像进行特征提取及匹配,计算出相机位姿及运动轨迹,从而进行三维全景重建,因为仅使用特征点进行计算,减少了处理数据量,在实时性上有优势,但在弱纹理区域因特征稀少而不稳定。Chen等人使用单目ORB-SLAM进行稠密表面重建,其精度远高于其他单目重建方法,可以与双目重建方法媲美[67]。单目稠密SLAM不提取特征点,直接对整幅图像进行处理,可以利用的信息更多,重建也更精确,但计算复杂度高,导致实时性较差。2011年,Newcombe等人提出DTAM(Dense Tracking and Mapping)方法。它分为姿势跟踪和3D映射两部分,使用单个RGB相机实现了实时稠密重建与定位[68]。单目半稠密的SLAM结合上述两种方法的优点,实时性尚可,且在缺少纹理时较为稳定[69]。
近年来,研究人员开始尝试将卷积神经网络与单目SLAM相结合。Chen等人使用对抗性训练的卷积神经网络(CNN),对从人体结肠的计算机断层扫描测量中渲染出来的图像以及对应的正确深度图进行训练,由单目内窥镜图像实时预测深度图并使用ElasticFusion进行三维拼接[70],实现对猪胃肠道组织的全景密集重建,如图14(彩图见期刊电子版)所示。
图 14 单目内窥镜SLAM框架[70]
Figure 14. Framework for monocular SLAM-endoscopy[70]
SfM(Structure from Motion)算法也被运用到单目内窥镜三维重建中,与SLAM不同的是,SfM不要求实时处理,数据是无序的,可以一次输入所有图像,利用所有图像信息。由于SfM更注重精度,因此多使用SIFT作为特征检测算子。Widya等人[71]设计了一种基于平面拟合的三维点离群点去除算法,使用单目内窥镜视频重建整个胃的彩色纹理3D模型,如图15(彩图见期刊电子版)所示,实现了将视频任意帧定位到三维模型。
图 15 SfM重建三维点云图[71]
Figure 15. 3D point cloud reconstructed by SfM[71]
全景内窥成像目前主要应用于胶囊内镜和大视场结直肠镜中。胶囊内镜的发展非常多元,从普通的超广角镜头,到多个摄像头的拼接均有实际应用。而结肠镜的大视野主要通过多摄像头拼接和多视角显示实现。以下针对两种内镜,结合需诊断治疗的相关疾病,对全景内窥成像技术的应用进行论述。
目前,国内外多个厂家均能提供大视角的胶囊内窥镜。单个超广角镜头的胶囊内窥镜的视场角均在156°~170°之间,可视范围大致相同,区别在于帧率、通信方式和电池寿命等方面不同。近些年来,随着小型化技术的进步和相关元件功耗的降低,各个厂家逐渐开始在胶囊内镜中集成更多的摄像头。
Medtronic在SB3的基础上,针对克罗恩病研制出了具备前后两个摄像头的胶囊内镜,在胶囊的前后两个方向安装了两个摄像头,每个摄像头的视场角为168°。与其类似的还有IntroMedic研发的MC2000系列,同样在胶囊的前后各安装两个摄像头,每个摄像头的视场角为170°,同时提供了前后两个视野,但同时在帧率上由原本单个摄像头的6 frame/s降低为每个摄像头3 frame/s,保证了数据的存储和传输。
与其他几种胶囊内镜不同的是, CapsoVision公司研发的胶囊内镜,具有4个摄像头,分布在胶囊的侧壁,其结构图如图16(a)所示,通过对4个摄像头的画面进行拼接,可以实现对肠道的360°全景成像,为观察肠道内壁的褶皱、息肉等病变提供了良好的视野。表2总结了目前主流的商用胶囊内镜的技术指标,多摄像头胶囊内镜正逐渐成为各大商业公司发力的目标,可观察的视场也在逐渐扩大。随着在通信模块、电池寿命等方面技术的提升,具有更多的摄像头和更好的成像质量将是胶囊内镜的主要发展方向。
图 16 (a)CapsoCam SV1示意图及 (b)SVI拍摄的图像
Figure 16. (a) Schematic diagram of CapsoCam SV1 capsule endoscope and (b) image captured by SV1
表 2 常用商用胶囊内镜
Table 2. Common commercial capsule endoscopes
产品 | 厂家 | 国家 | 帧率 | 摄像头 数量 | 视场角 |
PillCam SB3 | Medtronic | 美国 | 2~6 | 1 | 156° |
PillCam Crohn’s Capsule | Medtronic | 美国 | 4~35 | 2 | 336° |
EndoCapsule 10 | Olympus | 日本 | 2 | 1 | 160° |
MiroCam MC1600 | IntroMedic | 韩国 | 6 | 1 | 170° |
MiroCam MC2000 | IntroMedic | 韩国 | 3(per camera) | 2 | 340° |
OMOM RC100 | Jinshan | 中国 | 2~8 | 1 | 160° |
CapsoCam Plus | Capso Vision | 美国 | 12-20 | 4 | 360° |
下载: 导出CSV
| 显示表格
目前胶囊内镜有着大量应用,在诊断治疗OGIB[6]、克罗恩病[72]及复杂乳糜泻(Celiac Disease, CD)[8]等方面起到了重要的作用,图16(b)(彩图见期刊电子版)中显示了CapsoCam SV1在不同的疾病中拍摄的图像,包括CD、溃疡和活动性出血等常见病症。其中,在一项对比CapsoCam SV1和PillCam SB3的研究中,研究人员将两种胶囊随机给予了153例患有OGIB的患者,对比两种不同的胶囊在诊断和治疗方面的效果[7]。结果显示,提供全景视野的SV1可以观察到更加丰富的病变信息,检查到更多的出血病例。在医生满意度方面,95%的医生对胶囊系统和评估软件感到满意,同时治疗引起的不良时间/严重不良事件为17.9%/1.3%。整体上,病人对SV1的接受程度很高,在门诊环境中有着广泛的应用前景。在克罗恩病的诊治方面,医生让疑似克罗恩病的病人吞下使用CapsoCam SV1作为提供全景视野的胶囊[72],通过SV1获取的图像,医生在十二指肠末端到回肠末端观察到了大量的糜烂和溃疡,这说明SVI在病变分类和鉴别诊断的依据方面得到了切实改进。基于这些特征,该病人诊断为广泛性小肠克罗恩病,并基于特定的治疗使病人好转[10, 72]。在CD的治疗方面,使用SV1可以有效检测到小肠萎缩,与组织学相比,该方法具有良好的敏感性和特异性[8]。图17中使用SV1对CD病人的小肠区域成像,可以检查到4种粘膜萎缩内镜特征,对CD的确诊有着重要的指导意义。
图 17 全景胶囊内镜下CD粘膜萎缩内镜特征[8]
Figure 17. Typical signs of mucosal atrophy detected by panoramic capsule endoscope[8]
与胶囊内镜得到广泛应用类似的还有结直肠镜。
结直肠癌(Colorectal Cancer, CRC)是目前诊断率第三普遍的癌症,根据相关统计,60%的CRC来自于腺瘤,35%的CRC来自于无蒂锯齿状腺瘤/息肉[73-74]。结肠镜检查旨在早期发现和切除这些癌前息肉,但常规的结肠镜检查仍会遗漏大量的息肉。对于任何大小的息肉,综合漏诊率为22%。在结肠息肉的检查中,分别使用传统的结肠内镜和FUSE进行拍摄,得到的图像如图18(彩图见期刊电子版)所示,侧壁上的息肉在传统的内镜拍摄过程中被遗漏掉,但在使用FUSE进行拍摄时,可以在侧向视图中观察到明显的息肉,降低了漏诊率,同时减少了医生的工作时间,提高了工作效率。
图 18 传统结肠镜和FUSE拍摄的图像[73]
Figure 18. Images captured by traditional colonoscopy and FUSE[73]
最近的相关研究提出褶皱可视化技术(Behind Folds Visualizing Technologies and Techniques, BFT),旨在提高腺瘤检出率(Adenoma Detection Rate, ADR)[4]。由Endo-Choice公司开发的Full Spectrum Endoscopy (FUSE)系统中在单个前视镜头上添加了两个侧视镜头,使视野扩大到330°[75],其系统和工作时拍摄的图像如图19(彩图见期刊电子版)所示,每个摄像头投射到不同的屏幕上进行显示。由Olympus开发的EWAVE结肠镜也采用了类似的方案,其由一个标准的147°前视镜头和两个额外的42.5°横向后视镜头组成。但它将所有镜头的视图进行合成,并显示在显示器上作为单个内窥镜的图像。Avantis医疗公司开发的Third EyePanoramic设备是两个可以连接到标准结肠镜末端的侧视摄像头,可以获得3个可以投射到屏幕上的图像,将视角扩展到300°以上[76]。虽然该项研究显示使用这些技术相对于传统结肠镜对提高ADR没有明显的影响,然而使用BFT可以提高对非晚期息肉和病变的检测,很好地降低非晚期腺瘤漏诊的风险。同时,对于经验不足的结肠镜医师,使用BFT会带来更加丰富的视野,相较于经验丰富的医师使用时,效果会更为明显。
图 19 (a)FUSE结肠镜; ( b)FUSE拍摄的图像
Figure 19. (a) FUSE colonoscope; (b) image captured by FUSE
表3总结了近些年来的主流商用结肠内镜,目前其生产厂家主要来自于日本和美国,并且采用多个摄像头的方案逐渐成为主流,具体的实现方式主要有两种,多视角显示和多摄像头拼接。受限于拼接算法的性能,EWAVE仅实现了232°的视场角,而另外两种多摄系统实现了更大的视场角,提供了更加丰富的信息,同时降低了硬件需求。
表 3 商用结肠内镜
Table 3. Commercial colonoscopies
产品 | 厂家 | 国家 | 视场角 | 摄像头 个数 | 实现方式 |
CF-HQ290 | Olympus | 日本 | 170° | 1 | 超广角 |
FUSE | Endo Choice | 美国 | 330° | 3 | 多视角显示 |
EWAVE | Olympus | 日本 | 232° | 3 | 多摄像头拼接 |
Third Eye Panoromic | Avantis | 美国 | >300° | 3 | 多视角显示 |
下载: 导出CSV
| 显示表格
综上所述,随着图像处理算法、光学设计、光学加工等方面的进步,全景内窥成像技术正逐步成为未来内窥镜研究的重要发展方向之一。但全景内窥成像技术目前仍存在部分问题有待解决,阻碍全景内窥成像技术的实际应用。在未来,全景内窥成像技术工作可以在以下几个方面继续开展:
(1)更高效率的内窥全景图像拼接算法
图像拼接算法的优点显而易见,其本身对于内窥镜镜体的硬件要求低,无论单目双目、无论视场角大小,均能够找到其适应的算法,这就意味着目前多数的内窥镜均能满足基本要求。但其对计算量要求很高,在未来针对算法加速或者负责计算的硬件得到很大进步之后,其应用价值会进一步得到体现。
(2)更高性能的内窥全景成像镜头
通过光学设计实现全景内窥成像,从结果角度考虑是最为直接和快速的,省去了拼接算法的后处理,在实时性方面也得到了充分的保证,非常具有应用前景。但对于光学设计部分而言,其局限主要是对关键透镜的体积控制,即如何能够在现有内窥镜狭小的体积内实现透镜的部署是关键,因此对光学加工技术提出了更高的要求。
(3)更准确的内窥全景信息重建技术
通过对器官的全景重建,结合内窥镜对手术器械和器官内的实时成像及定位,可以帮助医生在进行微创手术时,实现病灶的精准定位和距离感知,有助于在手术导航中进一步精确规划路径,提高手术质量。
全景内窥成像技术的发展,对于微创手术和手术导航的发展有着重要的指导意义,有助于降低进行微创手术门槛,提高微创手术精度,提高整体的医疗质量,并且带动微创手术和手术导航技术向更多医院普及,使更多人能够享受到先进的医疗技术和手段,提高人类的生活质量。