HI,欢迎来到好期刊网!

计算机视觉论文

时间:2022-05-02 09:37:29

导语:在计算机视觉论文的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了一篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。

计算机视觉论文

计算机视觉论文:计算机视觉下食品工业论文

1计算机视觉技术概述

1.1自动化程度高

计算机视觉可以实现对农产品的多个外形和内在品质指标进行同时检测分析,可以进行整体识别、增强对目标识别的准确性。

1.2实现无损检测

由于计算机视觉技术对农产品的识别是通过扫描、摄像,而不需要直接接触,可以减少对所检测食品的伤害。

1.3稳定的检测精度

设计的运行程序确定后,计算机视觉技术的识别功能就会具有统一的识别标准,具有稳定的检测精度,避免了人工识别和检测时主观因素所造成的差异。

2计算机视觉技术在食品检测中的应用

20世纪70年代初,学者开始研究计算机视觉技术在食品工业中的应用,近几十年电子技术得到快速发展,计算机视觉技术也越来越成熟。国内外学者在研究计算机视觉技术在食品工业中的应用方面主要集中在该技术对果蔬的外部形态(如形状、重量、外观损伤、色泽等)的识别、内部无损检测等方面。国内有关计算机视觉技术在食品业中的应用研究起始于90年代,比国外发达国家晚20多年,但是发展很快。

2.1计算机视觉技术在果蔬分级中的应用研究

计算机视觉技术在食品检测中的应用研究相当广泛,从外部直径、成熟度的检测到内部腐烂程度的检测都有研究。韩伟等[4]采用分割水果的拍摄图像和新的计算机算法计算水果的半径,进而得出果蔬的最大直径。研究表明,该算法不仅降低了计算量而且提高了计算精度,此方法用于水果分级的误差不超过2mm,高于国际水果分级标准所规定的5mm分类标准差,可在工业生产中很好应用。李庆中[5]也利用图像的缺陷分割算法研究了计算机视觉技术在苹果检测与分级中的应用,结果表明此算法能快速、有效地分割出苹果的表面缺陷。孙洪胜等[6]以苹果色泽特征比率的变化规律为理论基础,结合模糊聚类知识利用计算机视觉技术来检测苹果缺陷域,检测不仅快速而且结果精确。刘禾等[7]通过研究认为苹果的表面缺陷可以利用计算机视觉技术进行检测,计算机视觉技术还可以将苹果按照检测结果进行分级,把检测过的苹果分成裂果、刺伤果、碰伤果和虫伤果等类别。梨的果梗是否存在是梨类分级的重要特征之一,应义斌等[8]通过计算机视觉技术、图象处理技术、傅立叶描述子的方法来描述和识别果形以及有无果柄,其识别率达到90%。杨秀坤等[9]综合运用计算机视觉技术、遗传算法、多层前馈神经网络系统,实现了具有精确度高、灵活性强和速度快等优点的苹果成熟度自动判别。陈育彦等[10]采用半导体激光技术、计算机视觉技术和图像分析技术相结合的方法检测苹果表面的机械损伤和果实内部的腐烂情况,初步验证了计算机视觉技术检测苹果表面的损伤和内部腐烂是可行的。冯斌等[11]通过计算机视觉技术对水果图像的边缘进行检测,然后确定水果的大小用以水果分级。试验表明,该方法比传统的检测方法速度快、准确率高,适用于计算机视觉的实时检测。朱伟[12]在模糊颜色的基础上,分析西红柿损伤部分和完好部分模糊颜色的差别,用分割方法对西红柿的缺陷进行分割,结果显示准确率高达96%。曹乐平等[13]人研究了温州蜜柑的果皮颜色与果实可滴定酸含量以及糖分含量之间的相关性,然而根据相关性,样品检测的正确识别率分别只有约74%和67%。刘刚等[14]从垂直和水平两个方向获取苹果的图像,并通过计算机自动分析图像数据,对苹果的外径、体积、以及圆形度等参数进行处理,与人工检测相比,计算机视觉技术具有检测效率高,检测标准统一性好等优点。Blasco.J[15]通过计算机视觉技术分析柑橘果皮的缺陷,进而对其在线分级,正确率约为95%。赵广华等[16]人综合计算机视觉识别系统、输送转换系统、输送翻转系统、差速匀果系统和分选系统,研制出一款适于实时监测、品质动态的智能分级系统,能够很好地实现苹果分级。王江枫等[17]建立了芒果重量与摄影图像的相互关系,应用计算机视觉技术检测桂香芒果和紫花芒果的重量和果面损伤,按重量分级其准确率均为92%,按果面损伤分级的准确率分别为76%和80%。

2.2计算机视觉技术在禽蛋检测中的应用研究

禽蛋企业在生产过程中,产品的分级、品质检测主要采用人工方法,不仅需要大量的物力人力,而且存在劳动强度大、人为误差大、工作效率低等缺点,计算机视觉技术可以很好的解决这类产品工业生产中存在的困扰。欧阳静怡等[18]利用计算机视觉技术来检测鸡蛋蛋壳裂纹,利用摄像机获取鸡蛋图像后,采用fisher、同态滤波和BET算法等优化后的图像处理技术,获得裂纹形状并判断,试验结果表明,计算机视觉技术对鸡蛋蛋壳裂纹的检测准确率高达98%。汪俊德等[19]以计算机视觉技术为基础,设计出一套双黄鸡蛋检测系统。该系统获取蛋黄指数、蛋黄特征和蛋形尺寸等特征,和设计的数学模型对比来实现双黄鸡蛋的检测和识别,检测准确率高达95%。郑丽敏等[20]人通过高分辨率的数字摄像头获取鸡蛋图像,根据图像特征建立数学模型来预测鸡蛋的新鲜度和贮藏期,结果表明,计算机视觉技术对鸡蛋的新鲜度、贮藏期进行预测的结果准确率为94%。潘磊庆等[21]通过计算机视觉技术和声学响应信息技术相结合的方法检测裂纹鸡蛋,其检测准确率达到98%。MertensK等[22]人基于计算机视觉技术研发了鸡蛋的分级检测系统,该系统识别带污渍鸡蛋的正确率高达99%。

2.3计算机视觉技术在检测食品中微生物含量的应用研究

计算机技术和图像处理技术在综合学科中的应用得到快速发展,在微生物快速检测中的应用也越来越多,主要是针对微生物微菌落的处理。食品工业中计算机视觉技术在微生物检测方面的研究和应用以研究单个细胞为主,并在个体细胞的研究上取得了一定的进展。殷涌光等[23]以颜色特征分辨技术为基础,设计了一套应用计算机视觉技术快速定量检测食品中大肠杆菌的系统,该系统检测结果与传统方法的检测结果具有很好的相关性,但与传统方法相比,可以节省5d时间,检测时间在18h以内,并且能够有效提高产品品质。Lawless等[24]人等时间段测定培养基上的细胞密度,然后通过计算机技术建立时间和细胞密度之间的动态关联,利用该关联可以预测和自动检测微生物的生长情况,如通过计算机控制自动定量采集检测对象,然后分析菌落的边缘形态,根据菌落的边缘形态计算机可以显示被检测菌落的具体位置,并且根据动态关联计算机视觉系统可以同时处理多个不同的样品。郭培源等[25]人对计算机视觉技术用于猪肉的分级进行了研究,结果显示计算机视觉技术在识别猪肉表面微生物数量上与国标方法检测的结果显著相关,该技术可以有效地计算微生物的数量。Bayraktar.B等[26]人采用计算机视觉技术、光散射技术(BARDOT)和模式识别技术相结合的方法来快速检测李斯特菌,在获取该菌菌落中的形态特征有,对图像进行分析处理达到对该菌的分类识别。殷涌光等[27]人综合利用计算机视觉、活体染色、人工神经网络、图像处理等技术,用分辨率为520万像素的数字摄像机拍摄细菌内部的染色效果,并结合新的图像处理算法,对细菌形态学的8个特征参数进行检测,检测结果与传统检测结果显著相关(相关系数R=0.9987),和传统检测方法相比该方法具有操作简单、快速、结果准确、适合现场快速检测等特点。鲁静[28]和刘侃[29]利用显微镜和图像采集仪器,获取乳制品的扫描图像,然后微生物的图像特征和微生物数量进行识别,并以此作为衡量乳制品质量是否达标的依据,并对产品进行分级。

2.4计算机视觉技术在其他食品产业中的应用研究

里红杰等[30]通过提取贝类和虾类等海产品的形状、尺寸、纹理、颜色等外形特征,对照数学模型,采用数字图像处理技术、计算机识别技术实现了对贝类和虾类等海产品的无损检测和自动化分类、分级和质量评估,并通过实例详细阐述了该技术的实现方法,证实了此项技术的有效性。计算机视觉技术还可以检验玉米粒形和玉米种子质量、识别玉米品种和玉米田间杂草[31]。晁德起等[32]通过x射线照射获取毛叶枣的透视图像后,运用计算机视觉技术对图像进行分析评估,毛叶枣可食率的评估结果与运用物理方法测得的结果平均误差仅为1.47%,因此得出结论:计算机视觉技术可以应用于毛叶枣的自动分级。GokmenV等[33-34]通过对薯片制作过程中图像像素的变化来研究薯片的褐变率,通过分析特色参数来研究薯片中丙烯酰胺的含量和褐变率的关系,结果显示两项参数相关性为0.989,从而可以应用计算机视觉技术来预测加热食品中丙烯酰胺的含量,该方法可以在加热食品行业中得到广泛应用。韩仲志等[35]人拍摄和扫描11类花生籽粒,每类100颗不同等级的花生籽粒的正反面图像,利用计算机视觉技术对花生内部和外部采集图像,并通过图像对其外在品质和内在品质进行分析,并建立相应的数学模型,该技术在对待检样品进行分级检测时的正确率高达92%。另外,郭培源等[36]人以国家标准为依据,通过数字摄像技术获取猪肉的细菌菌斑面积、脂肪细胞数、颜色特征值以及氨气等品质指标来实现猪肉新鲜程度的分级辨认。

3展望

新技术的研究与应用必然伴随着坎坷,从70年代初计算机视觉技术在食品工业中进行应用开始,就遇到了很多问题。计算机视觉技术在食品工业中的研究及应用主要存在以下几方面的问题。

3.1检测指标有限

计算机视觉技术在检测食品单一指标或者以一个指标作为分级标准进行分级时具有理想效果,但以同一食品的多个指标共同作为分级标准进行检测分级,则分级结果误差较大[37]。例如,Davenel等[38]通过计算机视觉对苹果的大小、重量、外观损伤进行分析,但研究结果显示,系统会把花萼和果梗标记为缺陷,还由于苹果表面碰压伤等缺陷情况复杂,造成分级误差很大,分级正确率只有69%。Nozer[39-40]等以计算机视觉为主要技术手段,获取水果的图像,进而通过分析图像来确定水果的形状、大小、颜色和重量,并进行分级,其正确率仅为85.1%。

3.2兼容性差

计算机视觉技术针对单一种类的果蔬分级检测效果显著,但是,同一套系统和设备很难用于其它种类的果蔬,甚至同一种类不同品种的农产品也很难公用一套计算机视觉设备。Reyerzwiggelaar等[41]利用计算机视觉检查杏和桃的损伤程度,发现其检测桃子的准确率显著高于杏的。Majumdar.S等[42]利用计算机视觉技术区分不同种类的麦粒,小麦、燕麦、大麦的识别正确率有明显差异。

3.3检测性能受环境制约

现阶段的计算机视觉技术和配套的数学模型适用于简单的环境,在复杂环境下工作时会产生较大的误差。Plebe等[43]利用计算机视觉技术对果树上的水果进行识别定位,但研究发现由于光照条件以及周边环境的影响,水果的识别和定位精度不高,不能满足实际生产的需要。综上所述,可看出国内外学者对计算机视觉技术在食品工业中的应用进行了大量的研究,有些研究从单一方面入手,有些研究综合了多个学科,在研究和应用的过程中,取得了较大的经济效益,也遇到了很多问题,在新的形势下,计算机视觉技术和数码拍摄、图像处理、人工神经网络,数学模型建设、微生物快速计量等高新技术相融合的综合技术逐渐成为了各个领域学者的研究热点,以计算机视觉为基础的综合技术也将在食品工业中发挥更加重要的作用。

作者:姚瑞玲 单位:四川工商职业技术学院

计算机视觉论文:基于计算机视觉的移动机器人导航

摘 要:针对跟随路径导引的移动机器人导航方式的灵活性较差、维护成本较高、功能单一的缺点,将计算机视觉用于移动机器人路径识别。首先对视觉传感器获得的视频图像进行处理,获得有用的特征目标,实现机器人对当前路径信息的理解。然后调用直行或转弯功能模块对机器人进行导航控制。实验结果表明,该导航方式具有较好的实时性和鲁棒性。

关键词:计算机视觉;移动机器人;路径识别;自主导航

现代机器人技术在人工智能、计算机技术和传感器技术的推动下获得了飞速发展,其中移动机器人因具有可移动性和自治能力,能适应环境变化被广泛用于物流、探测、服务等领域[14]。移动机器人的核心技术之一是导航技术,特别是自主导航技术。由于环境的动态变化和不可预测性、机器人感知手段的不完备等原因,使得移动机器人的导航难度较大,一直是人们研究的重点[5]。

目前常用的一种导航方式是“跟随路径导引”[6],即机器人通过对能感知到某些外部的连续路径参考信息做出相应的反应来导航。如在机器人运动路径上敷设金属导线或磁钉,通过检测金属导线或磁钉的特征信息来确定机器人的位置。从导航的角度看,这种方法的优点是可靠性较高,但功能单一,如不能在行进的同时对目标进行识别、避障,对环境的适应能力较弱、灵活性较差、维护成本较高,因此限制了其在移动机器人中的应用。

随着计算机技术、数字图像处理技术及图像处理硬件的发展,基于计算机视觉的导航方式在机器人导航中得到广泛关注[68]。在实际应用中,只需要在路面上画出路径引导线,如同在公共交通道路上画的引导线一样,机器人就可以通过视觉进行自主导航。相对于敷设金属导线、磁钉等方法,这种方法增强了系统的灵活性,降低了维护成本。视觉信息中包含有大量的数据,要从中提取有用的信息,需要复杂的算法及耗时的计算。如何保证视觉导航系统在正确理解路径信息的前提下仍具有较好的实时性和鲁棒性,是该方法要解决的核心问题。

1 视觉导航系统构成及工作过程

基于计算机视觉的移动机器人导航实验系统的硬件部分由计算机、USB接口的摄像头、LEGO实验用机器人组成。软件分为2部分,即图像处理和机器人运动控制。基于视觉导航的原始输入图像是连续的数字视频图像。系统工作时,图像预处理模块首先对原始的输入图像进行缩小、边缘检测、二值化等预处理。其次利用哈夫变换提取出对机器人有用的路径信息。最后,运动控制模块根据识别的路径信息,调用直行或转弯功能模块使机器人做相应的移动。整个工作流程如图1所示。

1.1 视觉导航的图像预处理

目前图像采集设备都具有较高的空间和灰度分辨率,精度高、数据量大。

实验中的原始输入图像是USB摄像头采集320×240像素的RGB格式图像,最大帧数30帧/s。

图像预处理的效果对后续哈夫变换检测路径信息的速度和准确性有很大影响。对整幅图像进行抽取时计算量过大、也无必要,故先将彩色图像转换为灰度图像,再将图像的大小依据最近邻域插值法原理[9]进行缩小以节约后续计算时间。在实验室环境下,经测试,将原始图像缩小到30%仍然能满足需要,处理时间缩短了72%。

由于图像传感器从时间和空间上对介质(光)采样,其图像质量对现场的非均匀光场和其他干扰因素非常敏感,二值化时,不同光照条件下阈值的确定是一件比较困难的工作。目前常用的阈值选取方法有双峰法、迭代法和 最大类间方差法[10]。从执行时间和处理效果2方面考虑,对3种方法比较后(结果如表1所示),在优先考虑实时性的前提下,选用双峰法来求取阈值。在实验室条件下,路径环境相对理想,黑色引导线与背景反差较大。在灰度直方图上,引导线和背景都形成高峰,对这2个峰值及谷底的求取也可简化,使用灰度级的最大值和最小值代替2个峰值,那么这2个峰值的中间值即可作为谷底用作图像的阈值。

地面的反光和阴影,以及不均匀的光照都会导致同一幅图像的二值化效果表现出很大差别,图2和图3是对同一幅图像在不同光照条件下二值化的结果,可以看到在光照条件2下会出现大量的黑点,这些黑点将严重影响提取路径信息的速度并且可能导致错误的路径信息。然而,相对于灰度、颜色特征,边缘特征受光照影响较小[11]。为此,对缩小后的图像先进行引导线的边缘检测,边缘检测后图像中引导线边缘像素灰度的对比度得到增强,通过实验确定合适的阈值,然后对图像进行二值化以提取路径信息。

1.2 引导线角度检测

2 视觉导航的机器人运动控制

机器人运动控制部分分为直行控制和转弯控制2部分。

2.1 直行控制

如果哈夫变换的检测结果表明是一条直线即机器人视野中只有1条主引导线时,则运行直行模块。实际中有2种情况需要考虑:一是机器人的初始位置不一定正对引导线,二是在机器人的机电配置中,左右轮子的马达运动不会绝对精确和对称。这些会使机器人在运动中出现侧偏。可采用下述方法进行直行控制:根据引导线在图像平面坐标中的位置来判断机器人的偏向。当引导线位于图像平面的左半边,说明摄像头的光轴与引导线不垂直且相对于引导线右偏,则命令机器人左转;当引导线位于图像平面的右半边,说明摄像头的光轴与引导线不垂直且相对于引导线左偏,则命令机器人右转;当引导线在图像平面两边均存在时,则命令机器人不偏转继续直行。机器人在前进过程中,根据图像平面中引导线位置不断调整方位,以一定的转动角度(转动角度尽量小,这样机器人的摆动幅度就会小)在直线路径上行走。

2.2 转弯控制

如果哈夫变换的检测结果表明是两条相互垂直的直线,即机器人的视野中出现转弯路口,则开始运行转弯模块。

机器人需要在距转角合适的距离处开始运行转弯模块,以保证机器人视野中始终具有引导线。如图4所示,AB段表示摄像头的纵向视野范围,C点为转角点,机器人需要知道自身在实际二维平面中相对于转角点C的距离即BC段距离。由图像信息获得现实世界坐标系中的参数,即所谓三维重建,这需要对基于计算机视觉的移动机器人导航系统进行摄像机标定。

鉴于移动机器人识别的引导线在地面上这一限制条件,并且摄像头固定在机器人上,可以选择机器人坐标系为世界坐标系,即世界坐标系与机器人同步移动。坐标原点为标定模板的左下角标定点的中心,Zw轴垂直地面,XwYw平面即为地面。在该坐标系下地面目标的坐标可以表示为(Xw,Yw,0),П甓模板由直径5 mm、相距10 mm共72个圆点构成,如图5所示。

3 实验结果及结论

实验中选用的LEGO移动机器人,其运动速度为8.57 cm/s(指令设定Power=25 RPM)。导航场地中画有宽1 cm的黑色引导线,实验要求中机器人完全根据引导线自主运动。实验中,识别1帧图像并且机器人根据识别的路径信息运行直行或转弯模块共需0.311 s,即机器人每处理1帧图像移动2.67 cm。实验室中的光照条件是机器人移动时的主要干扰,而锐利的引导线边缘受光照影响较小,对这些干扰有较好的滤除作用。经过在阴天白天、晴天白天以及开灯和不开灯的情况下、晚上开灯的情况下、遮盖物位于摄像头上方50 cm处形成阴影情况下,机器人能正确的沿引导线移动。同时,当摄像头视野范围内引导线消失即认为出现障碍物,机器人能发出前方有障碍物的报警信息。

可见上面所述方法有较好的实时性和鲁棒性有一定的通用性,使得该视觉导航方法具有一定的应用价值。只要光照条件变化不是非常剧烈,在工厂、医院、办公楼等环境中,机器人根据路径引导线可自主到达目的地。

当然,由于移动机器人活动场景的复杂性和动态特性,以及视觉处理的复杂性,视觉导航还有很多需要解决的问题,例如当导航场地出现较大面积的强烈反光、极暗的阴影时能否有效可靠的进行移动机器人的导航控制,这需要进一步研究。另外,如何将视觉系统与本系统机器人平台中的超声波传感器、光电传感器及声音传感器在空间、时间及数据上进行融合以提高系统的适应性和环境识别能力也是一个研究方向。

作者简介

赵 瑜 女,1983年出生,陕西西安人,硕士研究生。主要研究方向为非接触测量与可视化计算。

种兰祥 男,1960年出生,陕西合阳人,西北大学信息科学与技术学院副教授,中国科学院西安光学精密仪器研究所博士研究生。主要从事非接触测量、光电子技术和可视化计算方面的研究。

张万绪 男,1964年出生,山西运城人,西北大学信息科学与技术学院副教授。主要研究方向为智能仪器仪表。

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

计算机视觉论文:谈计算机视觉课程的教学创新

摘要:近年来,随着计算机视觉技术与应用的飞速发展,越来越多学生对这门课产生了浓厚的兴趣。文章是对我院计算机视觉课程教学经验的总结,讨论我们在教学过程中遇到的一些具体问题,主要包括教学内容和工程实例的选取、教学方法的几个注意事项,期待与同行们进行交流探讨。

关键词:计算机视觉;教学应用;教学改革

计算机视觉是人工智能学科中的一门重要课程。随着相关应用在多个领域中的出现,越来越多的学生开始对这门课产生了浓厚的兴趣。如何让学生能够在整个课程中保持盎然的兴趣,并为有志于深入研究计算机视觉的学生指明方向,成为我们教师首先应注重的问题。

在实际的教学工作中,通过不断摸索总结,我们认为,以实际应用引导学生的学习兴趣,既满足了学生想了解计算机视觉实际应用的需求,又加深了学生对于算法的理解,把算法放在一个实际应用中,学生可以理解怎么用,为什么这么用。在这样的目标导引下,我们从选择教材开始,准备教学内容(包括合理的应用实例的选择)、制作PPT、探索教学方法,形成了目前以实际应用为主导的创新教学体系,非常受学生欢迎。在此,我们对这期间遇到的问题,解决方法、心得体会做一个总结和思考,希望能对同行有些许参考作用。

1选择教材

在我们这个专业,每年的上研率基本都保持在50%左右。在本专业的研究生阶段,也开设了双语教学的计算机视觉课程。另外,毕业后选择参加工作的同学也基本都进入和本专业非常相关的一些单位,所从事的工作,都是和在学校学习的知识密切相关。

因此,如何让这门课程的教学既兼顾本科毕业就参加工作的那部分同学,又兼顾继续深造的学生的需求,也是在这门课程讲授的过程中,需要特别注意的一个问题。对于本科毕业就要参加工作的同学而言,需要“广度”,需要了解计算机视觉这门课在各个领域中的应用,在实际中接触到相关的项目或工作时,能够知道去哪里可以找到自己需要的参考资料;而对于要进一步深造的同学而言,则需要一定的“深度”,为研究生阶段的研究打下基础。

全盘考虑到这些学生毕业之后的去向,我们选择了两本教材。一本是贾云得教授编著,科学出版社于 2000年出版的《机器学习》[2],这是一部顺应了时代与教学发展要求的教材,对计算机视觉中的基本概念、基本算法、基本算法的应用、经典应用进行了由浅入深的介绍。内容涵盖了所有经典的数字图像处理与机器视觉方法,也对一些已经得到非常好实际应用的方法,如光流法等作了简要介绍。另外还选择了一本英文原版的计算机视觉的经典著作,Ramesh Jain 教授等所著的《Machine Vision》[3],机械工业出版社于2003年出版。这是国内外非常推崇的一本计算机视觉著作,该教材条理清晰,深入浅出,对计算机视觉的基本原理、算法、应用的介绍非常详尽。

在教学中,我们采用了英文的PPT,但主要用的教材是贾云得教授的《机器视觉》,这样中英文对照讲解,一方面加深学生对教学内容的理解,另一方面也为学生今后阅读专业的英文论文做了相应准备。

2教学内容和工程实例的选取

2.1选取教学内容

本课程之前,大学二年级的本科生已开设数字图像处理课程,但所讲的基本原理和算法都非常浅显,所以在教学内容的安排上,分为两大部分:数字图像处理部分和视觉部分。数字信号处理部分主要讲解在视觉部分会用到的一些基本算法,为后面进入计算机视觉部分打基础。这部分约占总课时的1/3。视觉部分的课时也分为两部分:算法讲解与实例讲解。在算法讲解部分,对计算机视觉的基本算法、经典算法都做了深入浅出的讲解。实例部分则选择了经典的工业应用,让学生能够对所学算法进一步加以理解。

2.2选取适当的工程实例

就计算机视觉的教学内容而言,各个孤立的算法和方法对本科生来讲,有些抽象不好理解。如果在教学上仅仅通过老师在课堂上的讲解,很难让学生深入地理解相关的教学内容,而选择一个触手可及且简单好理解的工程实例往往就会达到意想不到的教学结果,学生可以把课堂上所学的枯燥理论与现实中活生生的事物联系起来,从而加深对教学内容的理解。

通过反复比对、反复论证,我们选择了在讲解基本原理和算法之后,在课程结束前,专门留出课时讲解手机制造这个例子。手机现在是人手一部,是这些年青学子再熟悉不过的事物了,通过对手机主板、手机键盘的制造过程的讲解,把所学的算法都融合进来,学生在觉得有趣的同时,不知不觉就加深了对所学算法的理解。

另外,在教学的过程中,我们还不断穿插其他学生耳熟能详的实例,如数码相机原理中的一些算法的讲解,我们和学生一起探讨应该怎么选择数码相机。再有,滤波器算法、在课堂上对Photoshop功能的演示,与所学算法关联起来,学生都很容易理解接受。

3教学点滴

3.1点睛之笔

在第一节课的讲述中,我们的重点不在于Marr理论,而是告诉学生:

人工智能就是要让计算机像人一样,能够会听、会看……

我们这门课程就是要让计算机“会看”,要像人一样会看。进而展示给学生一些我们精心挑选的图片,让学生自己判断,是不是自己的眼睛“骗了”自己,人眼和计算机看到的到底有什么不一样。

每次讲到这里,学生都会进行热烈的讨论,每个人都有不同的看法,每个人都有自己的坚持,不知不觉中,对这门课就产生了浓厚的兴趣,有了继续深入学习下去的愿望。在课堂讨论的最后,比较人眼对图片的判断以及计算机的判断后,让学生自己总结归纳,我们这门课到底要研究些什么,都有可能应用在哪些方面,然后对争议比较大的提议一一探讨。每到这个时候,大家的积极性就都被激发出来,在不断的争论与思想碰撞中找出正确的结论。

3.2拿身边的事物说“事”

计算机视觉课程的前半部分,多涉及到图像处理的一些常见算法。在讲授各种各样的滤波器和算子时,并没有针对各个滤波器和算子摆出一堆示例图片,让学生比较滤波前后的差异,从而很生硬地理解滤波器与算子的功能。取而代之的,我们首先以现在人手一台的数码相机为例提出问题,你为什么要选择你手里的这台数码相机?当初选这个品牌和型号时,你的考虑是什么?历年学生的回答几乎都是看网上测评,或者在网上看别人怎么说。这时列出我们收集到的各个品牌相机的测评报告,列出它们的优缺点,然后引导学生去思考,例如这个品牌的相机的缺点是照片发灰,不是很鲜亮,而另一个品牌的相机则绿的特别绿,红的特别红,为什么?那么有可能是哪部分的算法不够完善,为什么?

通过如此简单的对比,学生的积极性被完全激发。原来,数码相机这个几乎人人都有,大家都熟悉的“玩具”竟然和自己在课堂上学到的知识这么密切相关。

再有,就是利用学生们都熟悉的PS(Photoshop),演示现在所谓的“完美证件照”是怎么来的。为什么可以把疙疙瘩瘩的脸部皮肤变得光滑?在PS中,你就是点了一下鼠标,其实在后台,是加入了一个滤波器进行了滤波。各种这样的演示,学生都非常喜闻乐见。因为他们突然发现,原来那些事物,和我自己接触到这些看似枯燥的理论之间,还有这么深刻的联系。

还有一个很受学生欢迎的例子就是对于“鼓形失真”的讲解。我们的老师每次讲到这里,都不会简单告诉学生“鼓形失真”发生的原因是什么,应该怎么解决?老师都会问学生,明星为什么都一窝蜂去减肥?现在的女明星为什么都要去弄个“锥子脸”?课堂上就会出现一个小高潮,男同学和女同学的看法各异,彼此之间开始争论不休。此时再趁热打铁地问学生,如果拿着相机,离自己的鼻子一公分,会拍出什么样的效果?有学生开始拿出手机对着自己和别人开拍,有的学生开始头头是道地分析。每到这种学生都开始热烈讨论的时候,就可以适时引导学生往正确的方向去,让他们自己找到正确的分析解决方法,往往这个时候,学生都会颇有成就感,对于问题的理解也会特别的深刻。

3.3选择合适的实际应用

在所有理论讲解结束后,我们会留出2~4次课讲述计算机视觉在工业上的应用。这些年来,对于手机制造这样一个工业应用,非常受学生欢迎。正如“数码相机”这个例子一样,现在学生都是人手一部手机,是大家再熟悉不过的东西。这个例子涉及到了在前面理论讲述中的大部分算法,如二值图像的处理、模板匹配、高斯滤波器等。学生通过对这个工业应用的理解,更进一步加深了对算法的理解。

以讲解手机键盘的制造过程为例,向学生提出和前面所讲内容相关的问题,引导学生自发思考,如为什么选择模板匹配法,而不是采用其他更复杂更精确的方法等等。每到这个时候,课堂气氛总是分外热烈,学生各抒己见,在不断争论中,更进一步加深对课本上枯燥理论的认识。

在这里需要注意的问题是一定要一步一步提出问题,循循善诱,引导学生一层一层地深入思考。如果问题的答案过于“深藏不露”,则有可能触发学生的抵触情绪,无法继续深入地思考。

4结语

通过多年的教学摸索,我们认为,在计算机视觉课程的讲述中,以实际应用引导学生这样的教学方法非常可取,而且也收到了很好的效果。另外,除了制定好的教学大纲,并选择合适的教材外,根据学校现在的时间情况,我们选择了多媒体手段辅助教学,充分利用Matlab和大屏幕投影等方方面面的优势,结合多种方法进行教学,对讲好计算机视觉这门课,非常有益。

计算机视觉论文:计算机视觉导航综述

摘要:导航技术是移动机器人核心技术,移动机器人又有多种导航方式,本文对各种导航方式进行了分析比较,提出由于计算机视觉理论及算法的发展,又由于和激光、雷达和超声在导航方面相比,视觉导航具有很多优点,因此视觉导航被大量地采用。根据移动机器人是在导航过程中对图像进行处理,实时性差始终是一个非常棘手的问题,提出解决该问题的关键在于设计一种快速图像处理方法。

关键词:视觉导航;移动机器人;图像处理

移动机器人是一种在复杂的环境下工作的具有自规划、自组织、自适应能力的机器人。移动机器人集人工智能、智能控制、信息处理、图像处理、模式识别、检测与转换等专业技术为一体,跨计算机、自动控制、模式识别、智能控制等多学科,成为当前智能机器人研究的热点之一。

在移动机器人的运动过程中始终要解决的是自身的导航与定位问题,相关技术研究中,导航技术可以说是其核心技术,也是其实现真正的智能化和完全的自主移动的关键技术。也就是DurrantWhyte提出的三个问题:(1)“我现在何处?”;(2)“我要往何处去?”;(3)“要如何到该处去?”[1] 其中问题(1)是移动机器人导航系统中的定位及跟踪问题,问题(2)、(3)是移动机器人导航系统中路径规划问题。导航研究的目标就是没有人的干预下使机器人有目的地移动并完成特定任务,进行特定操作。机器人通过装配的信息获取手段,获得外部环境信息,实现自我定位,判定自身状态,规划并执行下一步的动作。

移动机器人的导航方式分为:基于环境信息的地图模型匹配导航;基于各种导航信号的路标导航、视觉导航和味觉导航等[2]。

环境地图模型匹配导航是机器人通过自身的各种传感器,探测周围环境,利用感知到的局部环境信息进行局部地图构造,并与其内部事先存储的完整地图进行匹配。如两模型相互匹配,机器人可确定自身的位置,并根据预先规划的一条全局路线,采用路径跟踪和避障技术,实现导航。它涉及环境地图模型建造和模型匹配两大问题。

路标导航是事先将环境中的一些特殊景物作为路标,机器人在知道这些路标在环境中的坐标、形状等特征的前提下,通过对路标的探测来确定自身的位置。同时将全局路线分解成为路标与路标间的片段,不断地对路标探测来完成导航。根据路标的不同,可分为人工路标导航和自然路标导航。人工路标导航是机器人通过对人为放置的特殊标志的识别实现导航,虽然比较容易实现,但它人为地改变了机器人工作的环境。自然路标导航不改变工作环境,是机器人通过对工作环境中的自然特征的识别完成导航,但路标探测的稳定性和鲁棒性是研究的主要问题[3]。

视觉导航,计算机视觉具有信息量丰富,智能化水平高等优点,近年来广泛应用于移动机器人的自主导航。视觉导航方式具有信号探测范围广,获取信息完整等优点,是移动机器人导航的一个主要发展方向[4]。目前国内外主要采用在移动机器人上安装车载摄像机的基于局部视觉的导航方式,如文献[4]中所提及的:D.L.Boley等研制的移动机器人利用车载摄像机和较少的传感器通过识别路标进行导航;A.Ohya等利用车载摄像机和超声波传感器研究了基于视觉导航系统中的避碰问题等。视觉导航中边缘锐化、特征提取等图像处理方法计算量大且实时性较差,解决该问题的关键在于设计一种快速的图像处理方法或采取组合导航方式[4-5]。

味觉导航是通过机器人配备的化学传感器感知气味的浓度,根据气味的浓度和气流的方向来控制机器人的运动。由于气味传感器具有灵敏度高、响应速度快以及鲁棒性好等优点,近年来许多研究人员在气味导航技术上做了许多研究工作。但该项技术能够真正应用到实际环境中的却很少,仍处于试验研究阶段。Figaro Engineering Inc.公司研制的氧化锡气味传感器,被广泛用于气味导航试验。石英晶体微平衡气味传感器、导电聚合物气味传感器和一种模仿哺乳动物鼻子功能的电子鼻等用于移动机器人味觉导航的传感器都处于试验阶段。目前的味觉导航试验多采用将机器人起始点和目标点之间用特殊的化学药品,如酒精和樟脑丸等,引导出一条无碰气味路径,机器人根据不同的道路跟踪算法,用气味传感器感知气味的浓淡和气味源的方向进行机器人导航试验。味觉导航的研究具有很好的研究价值,该种移动机器人可用来寻找化学药品泄露源。

由于计算机视觉理论及算法的发展,又由于和激光、雷达和超声在导航方面相比,视觉导航具有以下几个优点:首先,即使在丢弃了绝大部分的视觉信息后,所剩下的关于周围环境的信息仍然比激光雷达和超声更多更精确;其次,激光雷达和超声的原理都是通过主动发射脉冲和接受反射脉冲来测距的,因此当多个机器人同时工作时,相互之间可能产生干扰,而视觉由于是被动测量,因此多个机器人相互之间的干扰可以减少到最小;最后,激光雷达和超声数据的采样周期一般比摄像机长,不能及时对高速运动的机器人提供信息并作出规划,因此视觉传感器被大量地采用。目前移动机器人的导航大都采用基于视觉或有视觉参与的导航技术。最近二十年来,在未知或部分未知环境中,基于自然路标导航与定位技术的研究;视觉导航中路标的识别以及图像处理的新型快速算法的研究成为了计算机视觉的主要研究方向。

视觉导航主要完成障碍物和路标的探测及识别。国内外应用最多的是在机器人上安装车载摄像机的基于局部视觉的导航方式。P.I.Corke等对有车载摄像机的移动机器人视觉闭环系统的研究表明,这种控制方法可以提高路径跟踪精度。从视觉图像中识别道路是影响移动机器人导航性能的一个最重要因素。对于一般的图像边沿抽取而言,已有了许多方法,例如,局部数据的梯度法和二阶微分法。Trahanias利用视觉探测路标来完成机器人的导航。其中路标不是预先定义的人工路标,而是在学习阶段自动提取的自然路标。在视觉导航中边缘锐化、特征提取等图像处理方法的计算量大,移动机器人是在运动中对图像进行处理,实时性差始终是一个非常棘手的问题。解决该问题的关键在于设计一种快速图像处理方法。为了满足速度的要求,基于统计计算的预值法被应用于机器人的导航,但在实际应用中发现,它抑制噪声的能力差,特别是预值的选取极大地依赖于环境,要想获得理想的结果,仅在一幅图像中的不同区域就要设置不同的预值。近些年,由于人工智能的发展,有很多好的算法被应用到移动机器人的视觉导航中去。比如,根据导航图像的特点采用边缘提取结合HOUGH变换的方法和带滤波窗的区域扫描的方法,经过检验,这两种算法都具有较好的实时性,对于直线形态的各类导航线以及对于已知半径的弧形导航线具有较高的可靠性,以上算法目前对于分支较多的直线形态的导航线以及未知半径的弧形导航线的效果不佳,这是今后努力的方向。

Stanley还提出了基于神经网络的机器人视觉导航技术。该技术中估算逆雅可比矩阵,并将图像特征的变化与机器人的位置变化对应起来,通过神经网络训练来近似特征雅可比矩阵的逆阵。该技术,通过提取几何特征、平均压缩、向量量化和主成分提取来简化图像处理,实现实时视觉导航。

综上所述,移动机器人是在运动中对图像进行处理,实时性差始终是一个非常棘手的问题。解决该问题的关键在于设计一种快速图像处理方法。将室内地面作为机器人视觉导航的路标。依据地面的颜色信息,将地面上没有障碍物的区域识别并分割出来,机器人在可行走区域内行走,这样就可以实现机器人的自主导航。利用环境中地面的颜色特征,采用比较简单的图像处理算法分割彩色图像,经实验证明可提高机器人导航的实时性、准确性和鲁棒性。

计算机视觉论文:基于计算机视觉的学生考试自动监考系统设计与实现

摘 要: 针对当前视频监控进行考试监考的丢包率大和智能化程度不高的问题,在计算机视觉下进行学生考试自动监控系统优化设计,提出一种基于视频帧循环纠错编码的计算机视觉自动监考系统设计方法。系统设计分为硬件和软件部分,包括A/D电路、时钟电路、视频帧循环纠错编码电路、程序加载电路和输出接口电路。实验测试结果表明,该系统能有效降低监考过程中的视频丢包,提高监考区域的视觉覆盖度,系统集成性和智能性较高。

关键词: 计算机视觉; 考试; 自动监考; 视频帧

0 引 言

随着视频图像处理技术的发展,采用计算机视频监测方法进行现场O控设计,提高对监控区域的自动化识别和管理能力[1]。学生考试自动监考系统是考试智能化管理系统的重要部分,采用计算机视觉分析方法进行自动监考,首先采用计算机视频监控方法进行考试现场的实时视觉画面采集,从而实现对考试现场的检验分析和指导。研究学生考试自动监考系统,在促进智能化考试管理和提高考场监考的管控能力方面具有积极重要意义[2],对学生考试自动监考系统是建立在视频图像分析基础上的,结合系统硬件设备设计和软件开发,采用计算机视觉分析方法进行监控现场的异常信息特征提取和分析,采用视频帧循环纠错编码避免监控过程中的丢包和误码失真。首先进行系统的总体构架分析,然后进行监考系统的硬件模块化设计,最后进行系统调试分析,得出有效性结论。

1 系统设计与实现

1.1 外围器件选择

根据上述设计思想和总体设计构架,进行基于计算机视觉的学生考试自动监考系统的硬件模块化设计,学生考试自动监考系统的数据采集系统是整个系统的基础。通过PCI桥接芯片与PC机进行数据通信,采用PCI9054的LOCAL 总线设计方法,进行数据特征采集,把学生考试监考现场的视频信息存储到PCI总线上,在嵌入式RAM中对监控视频信息进行收发转换和视频帧间编码,基于视频帧循环纠错编码方法进行视频纠错。硬件设计主要包括如下几个部分:学生考试监考现场的视频信息的DSP信号处理器、模拟信号预处理机、视频信息的逻辑控制设备、外部I/O设备以及A/D设备和电源供电设备,用DSP控制A/D转换FLASH寄存器寄存学生考试监考现场的视频视觉特征信息,同时DSP与PCI通信,DSP接收PCI总线的用户信息,输出多路视频编码到功率放大器。通过串行E2PROM进行配置校验,在C 模式下通过PCI总线送采样数据或处理结果到PC机进行监考现场的监控信息分析。

1.2 监考系统的电路设计

根据上述总体设计要求,结合选择的外围器件,采用可编程DSP芯片ADSP?BF537作为核心处理芯片,进行学生考试自动监考系统的电路设计,主要包括了A/D电路、时钟电路、视频帧循环纠错编码电路、程序加载电路和输出接口电路等,分别设计描述如下:

(1) A/D电路。学生考试监考系统的A/D电路是实现对输入视频采集信息的数/模转换,提供给计算机和DSP芯片可识别的原始计算机视觉信息,结合视频帧循环纠错编码方法进行可视化校对和视频编码。外部I/O设备包括A/D转换器AD7864两片,A/D电路的分辨率为12位,最大采样频率25 kHz,采用AD7864(以下简称7864)作为A/D芯片,它是4通道输入、转换速度1.65 μs的高性能AD芯片,自动监考系统的A/D输入电压满足:

采样通道数由DSP数据总线dspD[3:0]控制[3],A4~A0和译码,利用信号作读数标志信号,得到A/D电路的接口硬件设计图如图1所示。

考虑到系统处理视频传输信息的时间和读数匹配问题,在进行A/D设计中,需要考虑7864模拟输入/输出对应码表,见表1。

(2) 时钟电路。时钟电路执行学生考试自动监考系统的时钟中断控制功能[4],采用5409A 作为自动监考系统的时钟中断的核心控制芯片,5409A有3个多通道缓冲串口McBSPs,提供串行A/D、D/A 设备以及其他的串行器件直接接口,本地总线支持复用/非复用的 32 位地址/数据,包括 PCI 总线操作和LOCAL总线操作,PC9054 内部CI9054的LOCAL 总线与PCI总线通过异步操作实现两个 DMA数据的串行接口输入和输出。时钟电路的引脚设计如图2所示。

(3) 视频帧循环纠错编码电路。视频帧循环纠错编码电路是整个系统设计的核心模块,视频帧循环纠错编码通过Emulator由JTAG(Joint Test Action Group)口下载到DSP中运行,在IEEE 1149.1标准协议下进行 5409A芯片外围器件的操作测试,芯片采用4通道高性能运放,带宽为10 MHz。使用ADUM1201进行帧同步信号设计[5],选择Motorola 公司高性能 MPC850/86作为自动监考系统的三维特征分析模块,从外部16位存储器读取监测视频图像的编码特征,引出双排的14脚插针外接上拉或下拉电阻,选择引脚、时钟信号输入引脚,数据总线LD 9054与应用电路连接,以串行E2PROM的配置电路作为I/O 初始化控制寄存器模块单元,直接从地址0x20000000执行16位打包模式实现视频纠错编码,得到视频帧循环纠错编码电路设计如图3所示。

(4) 程序加载电路。选择Motorola 公司高性能 MPC850/86作为学生考试自动监考的可视化校验视觉分析的程序加载电路的核心处理芯片。在程序加载电路中,采用可编程逻辑芯片PLC进行图像信息分析,在程序加载中,从外部16位存储器直接执行16位打包模式,引导ROM配置异步存储器空间,通过连续读取0x00字节的个数来确定学生考试自动监考系统的SPI存储器的片选[6],程序加载电路设计如图4所示。

图4中,在VCC和地之间并联1个电容,满足程序加载电路的可编程的硬件写保护和片内的偶然性的写保护功能。

(5) 输出接口电路。输出接口电路设计中,通过JTAG接口访问CPU的内部寄存器,通过串行E2PROM进行配置校验。使用JTAG仿真器执行12通道DMA异步串行口设计,采用分立元件构成串口复位电路,降低DSP的能耗。开关频率也可在0~1间调节,内核电压在0.8~1.2 V间调整,内核电源通过10 和0.1 电容滤波,以减少电源噪声。实时时钟电源与I/O电源采取分别供电策略,综上分析,得到输出接口电路见图5。

在上述进行系统的硬件模块化设计的基础上,进行系统集成设计与软件开发。

2 实验测试分析

对上述学生考试自动监考系统进行软件开发和系统调试分析。件开发建立在CCS 2.20开发平台下,借助于 LabWindows/CVI,C/C++开发计算机视觉下的图像和视频信息处理程序。根据编写的PCI卡驱动程序进行视频信息采样和监考系统的原始数据采集,得到学生考试自动监考的视频采集分析界面如图6所示。

从图6可见,采用本文设计的考试自动监考系统,能有效实现计算机视觉下的监考视频信息传输。为了定量测试系统的性能,图7给出了不同方法进行监考视觉分析的视频丢包率对比结果,从图7得知,该系统能有效降低监考过程中的视频丢包,从而提高监考区域的视觉覆盖度。

3 结 语

本文提出一种基于视频帧循环纠错编码的计算机视觉自动监考系统设计方法。系统设计分为硬件和软件部分,首先进行了学生考试自动监考系统的总体设计构架分析和功能指标描述;然后以ADSP?BF537并行微处理芯片为核心进行监考系统的硬件设计,包括A/D电路、时钟电路、视频帧循环纠错编码电路、程序加载电路和输出接口电路;最后在Visual DSP++集成开发环境中进行自动监考系统的软件开发设计,结合视频帧循环纠错编码进行程序加载,实现计算机视觉下的自动监考。实验测试结果表明,该系统能有效降低监考过程中的视频丢包,提高了监考区域的视觉覆盖度,具有优越性能。

计算机视觉论文:基于计算机视觉的疲劳驾驶检测专利分析

摘 要 对基于计算机视觉的疲劳驾驶检测领域的专利申请趋势、专利申请产出国和申请人分布进行了统计分析,重点针对基于人眼、基于人脸、基于嘴巴的疲劳驾驶检测这三个技术分支的发展脉络进行了梳理,并对基于计算机视觉的疲劳驾驶检测的发展趋势进行了分析。

关键词 疲劳驾驶 人眼、人脸 嘴巴 专利

0引言

造成交通事故的原因25%-30%产生于疲劳驾驶,因此疲劳驾驶已成为诱发交通事故的重要因素。国内外专家和学者针对疲劳驾驶的检测开展了大量的研究工作,目前研究的重心主要集中在基于计算机视觉的疲劳驾驶检测,因此对基于计算机视觉的疲劳驾驶检测的相关专利进行分析尤为必要。

1基于计算机视觉的疲劳驾驶检测专利申请数据分析

1.1全球专利申请量趋势

从图1可以看出,基于计算机视觉的疲劳驾驶检测专利申请量从1990-2001年间处于技术研发初期,专利申请量相对较少。从2002年开始该领域的专利申请量逐渐呈现持续增长趋势,并在2014年达到最大值153件。由此可知,随着疲劳驾驶的增多,人们对疲劳驾驶的检测也越来越重视,相应的研究也正不断增加。基于此,在今后的一段时间内,相关的专利申请量有望继续保持。

1.2专利申请产出地区分布

目前各领域的专利申请量主要集中在中国、美国、韩国、日本和欧洲,通过对该领域在中国、美国、韩国、日本和欧洲的专利申请量进行统计分析发现,中国的申请量以48%的占比雄居第一,其他几个地区的申请量相差不大,具体如图2所示。

1.3在华专利申请量变化趋势

图3为1990年至2014年基于计算机视觉的疲劳驾驶检测在华的申请量变化趋势图,由该图可以看出,1990-2002年是技术的萌芽期,在2003年以后申请量才呈现逐年增长的趋势,并且在2012年-2014年将均维持在较高的申请量。因此,该领域国内虽然起步较晚,但是最近几年申请量相对其他地区却具有压制性的优势。

1.4在华主要申请人分析

图4展示了在华主要申请人的申请量份额,主要以科研院所和大型汽车企业为主,其中吉利汽车公司以领先优势排名第一。

2主要技术分支的专利申请分析

基于计算机视觉的疲劳驾驶检测的主要技术分支有:基于人眼的驾驶疲劳检测、基于人脸的驾驶疲劳检测、基于嘴巴的疲劳检测。下面从三个技术分支的发展概况、三个技术分支的主要工作原理及重点专利等方面进行分析。

2.1全球专利申请主要技术分支的申请量趋势图

由图6可知,近年来基于人眼和人脸的驾驶疲劳检测的申请量呈现较快增长,申请量也较基于嘴巴的疲劳检测的申请量大,体现了该领域近年来的发展趋势,并体现出基于人眼和人脸的驾驶疲劳检测的技术分支发展已较为成熟。三个技术分支在2006年之前,申请量的差别不大且数量均较小,显示出在2006年以前三个分支的区别并不明显,发展也较为缓慢,这说明基于计算机视觉的疲劳驾驶检测也是近10年才兴起的一项技术,它依赖于图像处理技术的发展水平。

2.2在华专利申请主要技术分支的申请量趋势图

由图7可知,三个技术分支在2006年以前均只有零星的申请量,这与该领域在全球的发展情况相符合,基于人眼的疲劳驾驶检测在华申请量自2006年以来呈现稳步增长,且近年来申请量最大。基于人脸的疲劳驾驶检测申请量虽小于基于人眼的疲劳驾驶检测,但近年来的申请量也呈现出稳步增长的势头。然而,基于嘴巴的疲劳驾驶检测虽有增长趋势,但申请量一直都较小。由此可知,在国内疲劳驾驶的检测主要是采用人眼检测和人脸检测,这两个分支是国内的研究的热门,也是今后国内在该领域的发展趋势。

3结语

通过对基于计算机视觉的疲劳驾驶检测专利的申请量的总体分析,以及基于人眼、基于人脸、基于嘴巴三个技术分支的申请量趋势分析可知,基于计算机视觉的疲劳驾驶检测在近10年取得了较快发展,这与计算机图像处理技术的发展密不可分;同时,科研院所作为该领域研究的主体,应加强与中小企业的合作。国内疲劳驾驶的检测研究主要集中在人眼检测和人脸检测,这两个分支是国内的研究的热门,同时,基于人眼的疲劳检测其发展方向明确,后续发展将集中在眼睛定位算法的研究上,并且定位精度将越来越高,越来越满足实际的要求。

计算机视觉论文:一种基于计算机视觉的手指特征识别算法研究及其FPGA实现

摘 要: 为了提高视频图像中手指特征识别的精度和速度,提出一种基于矩形模板的动态阈值算法。该算法采用矩形模板平滑图像,用灰度阈值法提取目标边缘,实现对手指特征的准确识别。Matlab仿真结果表明,该算法受环境噪声影响较小,能清晰准确地分割出手指边缘。在FPGA平台上设计了一套基于计算机视觉的手指特征识别系统,并对该系统的实时性、手指识别精度等性能进行了测试。测试结果表明,该系统的运行速度与摄像头摄取图像的速度基本同步,可满足系统对实时性要求。系统对手指位置识别的坐标偏差约为3个像素,基本满足系统对识别精度的要求。

关键词: 计算机视觉; 手指特征识别; 动态阈值算法; 矩形模版

S着科学技术的飞速发展,人与计算机之间的交互活动越来越密切,并逐渐成为人们日常生活的重要组成部分。传统触摸屏是现阶段一种最常见,也是最重要的人机交互方式,其是通过一种附加在显示器表面的透明介质,依赖使用者的手指触摸该介质来实现对计算机的输入控制[1?2]。目前,这种触摸屏技术已经相当成熟,但是,技术上不容易做到大尺寸,且成本相对较高,也易于破损。为了突破传统触摸屏这种人机交互方式的局限,把任何成像平面变成可用手指进行交互的系统,本文提出了一种基于计算机视觉的手指特征识别算法,并在FPGA平台上建立了一套基于计算机视觉的手指特征识别硬件系统。这种基于计算机视觉的手指特征识别方法可为基于视觉的人机互动提供一种新的技术解决途径。其与传统触摸屏的区别在于,不需要在成像屏幕上安装任何特殊介质,使用寿命得到大幅延长,应用范围有了很大扩展。

1 图像采集平台

本文所采用的图像采集平台如图1所示,在任何与计算机连接的显示设备(如投影屏幕、等离子电视等)的左上角、右上角安装两个摄像头,通过这两个摄像头便可确定手指在屏幕上的二维坐标信息(x1,x2)。然后,将此坐标点传至计算机,并与Windows系统的鼠标程序关联即可实现人机交互功能。图2是图像采集平台的侧视图。其中虚线框表示摄像头视野中系统需要处理的区域,即手指出现的区域。

2 手指特征识别算法及仿真

在系统实现过程中,如何从摄像头所拍摄的画面中准确地识别并提取出手指信息是其难点之一。在目前的图像处理技术中,用于识别背景图案中目标物体的算法很多,本文在分析基于色彩聚类的肤色识别算法的基础上,结合课题特殊需求,提出一种基于矩形模板的动态阈值算法,并在Matlab中对上述算法的处理效果进行了仿真。

从图像采集平台可以看出,本系统只关心距屏幕很近的小视野内是否出现区别于背景的目标物体。因此,只需从摄像头拍摄的图像当中截取一部分,如图3中的小矩形框所示。

2.1 基于色彩聚类的肤色识别算法

肤色是人体区别于其他物体的一个重要特征,人体肤色特征不受位置、角度、大小等因素影响,具有较强的稳定性。因此,本文首先选定基于色彩聚类的肤色提取识别算法进行研究。在色彩聚类方法中,Anil K.Jain的Cb,Cr椭圆聚类方法最为典型[3?4]。采用非线性分段肤色分割得到的肤色区域在Cb,Cr空间中近似于椭圆,如下:

由图5可知,利用该算法分割手指信息的效果尚可,能从比较友好的环境中迅速准确地识别出手指信息。图6为利用椭圆聚类肤色分割算法对从图像采集平台读取图像的手指识别效果。可见,该算法在普通环境下对手指的识别效果良好。但当屏幕上的颜色影响手指肤色时,该算法的识别能力就会有所降低。可见,该算法对皮肤颜色的纯度要求较高,适用范围受限。图7为屏幕出现大面积蓝色时对手指识别造成的影响效果。

2.2 基于正方形模板的动态阈值算法

基于正方形模板的动态阈值算法,即采用灰度阈值法,用正方形模板平滑图像[5?6]。图8(a)是3×3模板动态阈值算法平滑图像的过程。

应用基于3×3模板的动态阈值算法对原图4进行边缘提取的仿真效果如图9(a)所示。可见,应用3×3模板可以提取出目标物体的边缘,但不够清晰。虽然可以通过增大模板取得比较理想的效果(图9(b)为采用基于101×101模板的动态阈值算法的处理效果),但会使计算量剧增,同时也缩小了模板所能完全覆盖的范围,使图像边缘产生无效的白色区域。

2.3 基于矩形模板的动态阈值算法

根据课题实际需要,即所要处理的目标区域为长方形窄条区域(如图3所示),本文提出一种基于矩形模板的动态阈值算法。该算法与基于正方形模板算法的区别在于,平滑图像时所用的模板为窄条形,如3×5模板,3×15模板,3×41模板等。图8(b)是3×9模板动态阈值算法平滑图像的过程。

图10给出了采用基于3×9模板、3×14模板、3×81模板、3×101模板动态阈值算法对原图4进行手部边缘提取的仿真效果。由仿真效果可知,基于矩形模板的动态阈值算法在模板取值为3×9的情况下,便能够清晰提取出目标物体的边缘。而且,随着模板取值的增加,目标物体边缘的提取效果更加清晰准确。与基于正方形模板的动态阈值算法相比,基于矩形模板的动态阈值算法计算量较小,节约了系统的计算资源。

3 基于FPGA的手指特征识别算法的系统测试

为了验证本文所提出的基于矩形模板的动态阈值算法能否满足屏幕交互系统的整体要求,本文通过编写软件程序在FPGA开发板上对这种算法进行了硬件实现和系统测试。

3.1 硬件实现

本文所采用的硬件实现系统主要是基于美国Altera公司生产的型号为EFA?CY1C12的“红色飓风”(Red Cyclone)系列FPGA开发板,并另外集成了用Ommvison公司的型号为OV9655的CMOS数字摄像头,以及ISSI公司的型号为IS61LV25616AL的SRAM存储器[7?10]。最终搭建的硬件系统如图11所示。

3.2 系统测试

本文主要对系统的实时性、手指提取精度、资源占用情况等影响系统运行的重要技术指标进行了测试。

(1) 实时性

OV9655摄像头在1 280×1 024分辨率下,能提供15 f/s的图像采集速率,课题所设计的软件程序可以在一帧图像的处理时间内完成了数据的采集、手指边缘的识别等运算,实现了系统执行速度与摄像头拍摄速度的同步,达到了系统对实时性要求。

(2) 手指识别精度

由于课题在软件设计过程中编入了图像采集防抖动处理程序,提高了图像采集的稳定性,也提高了手指识别的精度。经过测试,本系统得到的手指位置信息的坐标偏差为3个像素,基本满足大屏幕交互系统对识别精度的需求。

(3) 资源占用情况

从Quartus Ⅱ的编译报告中可以看出,本系统的软件运行已占用FPGA的9 702个逻辑单元,占逻辑单元总数的80%。可见,该硬件系统的FPGA运算资源基本能满足系统的实际需要。

4 结 语

本文通过对基于矩形模板的动态阈值算法的研究和基于FPGA的手指特征识别硬件系统的实现,建立了一套基于计算机视觉的手指特征识别系统。该算法受环境噪声影响较小,能清晰准确地分割出手指边缘,且随着矩形模版取值的增大,算法的识别效果会更加良好。该系统的实时性、手指识别精度及资源占用情况均可满足系统要求。这种基于计算机视觉的手指识别方法成本低、灵活性好,为基于视觉的人机交互提供了一种新的技术途径。

计算机视觉论文:基于计算机视觉的运动目标跟踪算法

摘 要截至目前,运动目标跟踪已经历经了几十年的发展研究,其作为当前社会一项至关重要的先进技术,对于人们的日常工作生活以及社会经济、军事政治等其他各领域均有着积极的帮助作用。特别是在计算机视觉技术逐渐发展成熟的今天,运动目标跟踪与计算机视觉技术的融合程度也越来越高。基于此,本文将选择当前比较常见的一种目标跟踪算法即Kalman filter算法,并以运动的人脸作为跟踪目标,着重围绕基于计算机视觉的运动目标跟踪算法进行简要分析研究。

【关键词】计算机视觉 运动目标 跟踪算法

在计算机等现代科学技术尚未出现以前,人们在获取外界信息时往往主要依赖视觉,而在我国计算机技术水平不断发展提升的背景之下,计算机视觉技术的出现使得人类肉眼视觉得到了进一步的发展延伸,尤其是在各种传感器技术的帮助之下,使得人们能够对保持运动状态的目标进行实时跟踪,从而准确掌握目标的具体形态属性。在此背景之下,本文将运动目标设定为运动的人脸,通过探究基于计算机视觉的运动目标跟踪算法,希望能够为相关研究人员提供相关参考和帮助。

1 Kalman filter目标跟踪算法的简要概述

Kalman filter目标跟踪算法是当前众多跟踪算法当中使用范围较广、使用频率比较集中的一种跟踪算法,这一算法最早可以追溯至上个世纪六十年代,人们通过将滤波理论与状态空间模型相集合,从而得到的一种递推估计的算法也就是卡尔曼滤波理论。其通过利用上一时刻获取的预估值以及当下获取的实际观测值,在信号与噪声状态空间模型当中不断更新状态变量,进而顺利完成估计预测并获得当前时刻估计预测值。经过不断的发展,在计算机图像处理以及其他运动目标跟踪当中经常会使用Kalman filter算法。如果在k时刻系统下的状态向量用xk表示,那么在t0时刻下初始化的状态预测方程为;在tk时刻下更新系统状态的具体方程为

,其中Hk、Zk分别表示测量矩阵m×n维以及转移矩阵n×n维的状态向量。但在跟踪计算机视觉运动目标譬如说视频目标时,由于相邻的两帧视频图像本身时间间隔非常短,因此目标在这一时间内难以发生明显的运动状态变化,此时我们可以通过将此间隔时间设定为单位时间,同时目标在单位时间内一直保持匀速运动状态,这时我们可以得到一个状态转移矩阵且

,定义系统观测矩阵即为

,定义噪声Wk以及Vk协方差矩阵则可以分别用

和表示。

如果在滤波器在经过若干次卡尔曼滤波后仍然能够恢复至原始状态,则其具有较好的稳定性,但如果在进行运动目标跟踪实验的过程当中,对于处于运动状态的被跟踪目标,一旦出现遮挡行为则将在第一时间内暂停估计参数,并将这一参数估计值直接代入到状态方程当中,使得运动目标无论是否被遮挡均可以对其进行精确跟踪。

2 基于计算机视觉的运动目标跟踪算法

2.1 建立颜色概率模型

颜色囊括了诸多的信息量光柱点,尤其是在人类的视觉世界从本质上来说也是一种用过感知自然界色彩以及明暗变化的世界,因此人们可以通过使用三基色原理获得RGB颜色空间。考虑到颜色与计算机视觉场景当中各个场景和目标之间有着紧密的关系,同时不同于目标的大小、形态等其他视觉特征,颜色特征鲜少会受到包括观察视角等在内各因素的干扰影响,从某种角度上来说基于颜色特征的运动目标具有较好的稳定性。为了能够保障目标跟踪既稳定又迅速,需要选择合适的颜色特征,否则将极有可能导致出现跟踪失败。在这一环节当中人们通常使用的是RGB颜色空间以及HSI颜色空间,但由于二者均具有一定的局限性,因此本文在对人脸特征尤其是颜色特征进行选取时,选择了rgI颜色直方图的方法,在解决两N颜色空间自身缺陷的同时,尽量避免目标人脸运动位置以及尺寸等变化因素对目标追踪造成的干扰影响。在rgI颜色直方图当中其中R、G、B就是RGB颜色空间当中的三原色,r、g、I有着相同的取值范围即在0到1之间。保持间隔相等的情况下划分L值即可得到rgI颜色直方图。虽然rgI颜色直方图与物体相对应,但如果目标只是位置以及尺寸等出现变化,rgI颜色直方图并不会受到任何实质性影响,因此在理想情况下,利用rgI颜色直方图能够对视频图像中不同运动位置以及不同尺寸的人脸进行目标追踪。

2.2 跟踪算法

运动目标的不断变化将会使得模板图像随之发生相应变化,因此需要不断更新模板图像才能够有效完成对运动目标的连续跟踪,本文在对运动目标的实际运动范围进行预测过程中选择使用卡尔曼滤波,之后利用rgI颜色直方图在预测运动范围之内搜索和匹配相应目标,从而通过此举获得与目标模板有着最小欧式距离的区域,在此过程当中存在一个特定阈值T,如果两者的欧氏距离在进行相减时差值没有超过这个特定阈值,那么此时该区域就是运动目标所在的实际位置,利用在这一区域当中的rgI颜色直方图并将其充当下一帧运动目标的匹配模板,在不断重复的过程中模板能够实现不间断地更新。由于相邻的两帧视频图像之间,时间间隔并不长,因此目标人脸在极短的时间间隔当中基本上不会出现突然变化,此时我们可以认为运动目标人脸的运动连续性比较强,此时利用公式

可以进行欧式距离的计算并用以衡量匹配的模板。其中匹配区域和模板的rgI颜色直方图分别用l和l'表示,而rgI颜色直方图中的维数则用n进行表示。根据相关视频图像显示,通过不断更新模板确实可以对目标运动人脸进行实时跟踪显示。

3 结束语

总而言之,本文通过选择当前比较常见的目标跟踪算法即Kalman filter算法,利用卡尔曼滤波以及rgI颜色直方图完成对运动人脸的跟踪。事实证明,Kalman filter算法确实能够在对各目标之间的干扰进行明确区分的基础之上,准确描述运动人脸目标,从而较好地跟踪运动目标,但由于人脸之间本身存在一定的相似性,因此本文只是对理想状态下的运动人脸进行跟踪实验,日后还需要对计算机视觉技术和Kalman filter算法进行进一步优化以妥善解决多人脸目标以及相似性问题。

作者单位

重庆电子工程职业学院软件学院 重庆市 401331

计算机视觉论文:基于计算机视觉的室内自主移动机器人导航综述

摘要:计算机视觉在人工智能学科占据重要地位,为自主移动机器人视觉导航做了深厚的理论铺垫。基于计算机视觉的自主导航与路径规划是自主移动机器人研究的关键技术,计算机视觉室内导航技术主要分为3类:第一类是环境地图事先已知;第二类是同时定位与地图构建(simultaneouslocalization andmapping,SLAM);第三类是不依赖环境地图。详细阐述了每种导航模型和技术方法,探讨了基于计算机视觉导航的最新技术进展,总结了目前国内外计算机视觉导航的研究进展。

关键词:计算机视觉;地图匹配;SLAM;机器人导航;路径规划

1概述

计算机视觉在人工智能学科占据重要地位,为自主移动机器人视觉导航做了深厚的理论铺垫。目前,机器人导航技术有很多种,传感器导航技术如里程计、激光雷达、超声波、红外线、微波雷达、陀螺仪、指南针、速度、加速度计或触觉等得到了普遍应用,与上述非计算机视觉导航技术相比较,计算机视觉导航技术如人眼般具有灵敏度高且可捕获的信息量大以及成本低等优点。由于室内相对室外空间比较狭小且内部环境复杂,所以普通移动机器人在作业过程中,完成躲避眼前障碍物、自主导航以及为自身找出一条可行路径等一系列操作会相对比较困难。计算机视觉导航技术可利用本身的摄像头获得室内周围的环境信息,实时对其周身的场景进行快速反馈,对视野前方障碍物进行快速识别和检测,从而确定一条高效的可行的安全路径。本文对计算机视觉导航技术进行分类研究,主要分为3类:第一类是环境地图事先已知,提前对外界环境特征进行提取和处理,建立全局地图,并将地图信息存储在机器人内存数据库中,在导航的时候实时进行地图匹配;第二类是同时定位与地图构建,移动机器人在自身位置不确定的情况下根据自身的摄像头获取周围未知环境信息,在作业时逐步构建周围的环境地图,根据构建的增量式地图自主实时定位和导航;第三类是不依赖环境地图,自主移动机器人不需要依赖任何的环境地图,其在作业活动时的可行区域主要取决于摄像头实时识别和检测的环境相对信息。

2环境地图的表示方法

目前,计算机视觉导航技术多采用栅格地图、几何地图、拓扑地图和混合地图构建环境地图信息。

2.1栅格地图

栅格地图,将栅格图像考虑为一矩形,均分为一系列栅格单元,将每个栅格单元赋予一个平均概率值,并利用传感信息估计每个单元内部内存障碍物的概率。构建栅格地图的优点是其地图表达形式直观,创建和维护比较容易;但当划分的栅格单元数量不断增多时,实时性就会慢慢变差;当划分的栅格单元越大时,环境地图的分辨率越低。

2.2几何地图

几何地图利用几何特征如点、直线、平面等来构成环境主要框架,需要知道这些特征在环境中信息的具体位置,所以几何地图通常使用其对应的三维空间坐标来表示。几何地图构建过程相对简单,保留了室内环境的各种重要信息,是基于计算机视觉的定位与地图构建算法中最常用的一种表示方式。但是为了完成环境的建模需要标记大量的特征,从而计算量也非常的大,降低了实时性,其重建的地图也容易出现与全局不一致的情况。

2.3拓扑地图

拓扑地图用许多节点和连接这些节点的曲线来表示环境信息。其中,每个节点相对应真实环境中的特征点(如门角、窗户、椅子、桌子角及拐角等),而节点之间的曲线表示两个节点对应的地点是相联通的。拓扑地图把环境信息表上在一线图上,不需要精确表示不同节点间的地理位置关系,图像较为抽象,表示起来方便且简单。机器人首先识别这些节点进而根据识别的节点选择节点与节点间的曲线作为可作业的路径。

2.4混合地图

混合地图主要包括3种形式:栅格一几何地图、几何一拓扑地图以及栅格一拓扑地图。混合地图采用多种地图表示,可结合多种地图的优势,与单一的地图表示相比更具有灵活性、准确性和鲁棒性,但其不同类别的地图结合起来管理会比较复杂,难以协调,增加了地图构建的难度。文献针对室内环境所建立的模型分为全局拓扑和局部几何表述部分,整体环境通过拓扑节点串连起来,维护了整体环境表述的全局一致性;而以每个拓扑节点为核心所采用的几何表述则可确保局部精确定位的实现,这样建立的几何一拓扑混合环境模型可将二者的优势都表现出来,使得移动机器人定位和地图构建同时进行,实现容易。

3基于计算机视觉的室内导航

基于计算机视觉的室内导航技术可利用摄像头捕获机器人周围环境的全部信息,对其周身的场景进行反馈,对障碍物进行快速识别和检测,从而确定一条高效的可行的安全路径。本文将计算机视觉室内导航技术主要分为3类:第一类是环境地图事先已知;第二类是定位与地图构建同时进行;第三类是不依赖环境地图。

3.1环境地图事先已知

提前对外界环境特征进行提取和处理,建立全局地图,并将地图信息存储在机器人内存数据库中,在导航的时候实时进行地图匹配,即预存环境地图。在环境地图事先已知的导航中,路标信息保存在计算机内存的数据库中,视觉系统中心利用图像特征直接或间接向移动机器人提供一系列路标信息,一旦路标被确定后,通过匹配观察到的图像和所期望图像,机器人借助地图实现自身精确定位和导航。该导航技术过程可分为以下步骤:

a)图像获取:摄像头获取其周围的视频图像;

b)路标识别及检测:利用相关图像处理算法对图像进行一系列预处理如进行边缘检测和提取、平滑、滤波、区域分割;

c)路标匹配标志:在观察到的图像和所期望图像之间进行匹配,搜索现有的路标数据库进行标志路标;

d)位置计算:当有特征点进行匹配时,视觉系统会根据数据库中的路标位置进行自身精确定位和导航。

在基于计算机视觉的地图匹配定位过程中,主要有2种地图匹配较为典型。

①已知起点,已知地图。这种条件下的定位称为局部定位,采用的是一种相对定位的方法,如图1所示为其位姿估计过程,这种情况目前导航技术研究得最多。

②不知起点,已知地图。这种条件下的定位称为全局定位。当机器人需要重置时,通常使用这种定位方法来检索机器人的当前位置(即姿态初始化)。常用的辅助方法是在环境中添加一些人造信标,如无线收发器,几何信标,条码技术,红外或超声波接收系统进行位置识别,利用视觉系统识别自然标志,自主定位。

3.2定位与地图构建同时进行

不知起点,不知地图。SLAM技术最早由Smith等人于1986年提出,移动机器人在自身位置不确定的情况下根据自身的摄像头获取周围未知环境信息,在作业时逐步构建周围的环境地图,根据构建的增量式地图自主实时定位和导航。在日后的导航研究中,混合地图中的几何一拓扑混合环境模型被得到广泛应用,主要用来解决SLAM问题。

2003年,在解决SLAM技术难题上,Arras等人采用基于Kalman滤波器和最邻近(nearest neighbor)匹配策略的随机地图创建方法。下面是该算法步骤:

a)数据采集:首先初始化系统,从摄像头传感器采集距离数据;

b)状态预测:视觉系统预测机器人运动状态,实时返回新位姿信息和协方差矩阵,预测地图;

c)观测:从原始捕获的信息中提取主要特征信息并将此信息返回给局部地图;

d)测量预测:预测机器人当前位姿的全局地图;

e)位置匹配:应用最邻近滤波器匹配局部地图中的观测点和预测点;

f)估计:使用扩展Kalman滤波器更新地图;

g)创建:将非相关的观测点加入地图,对机器人返回增量式地图;

h)输出地图。

制约机器人视觉系统性能的重要因素是信息实时处理的计算复杂度和处理效率,SLAM算法需要在地图密度与计算效率之间取得权衡。

3.3无环境地图

在这类系统中,机器人不需要依赖任何的环境地图信息,机器人的活动取决于其当时识别和提取出来的环境信息,这些环境信息可能是桌子、椅子和门等,不需要知道这些环境元素的绝对位置。无环境地图的导航技术典型的技术有3大类:基于光流的导航技术、基于外观信息的导航技术、基于目标识别的导航技术和基于目标跟踪的导航技术。

3.3.1基于光流的导航技术

光流是三维空间运动物体在观测成像面上的像素运动的瞬时速度,也是图像亮度的运动信息描述。光流法计算最初是由Horn和Schunck于1981年提出的,其利用二维速度场与灰度,引入光流约束方程,得到光流计算的基本算法。光流计算基于物体移动的光学特性提出了2个假设:①运动物体的灰度在很短的间隔时间内保持不变;②给定邻域内的速度向量场变化是缓慢的。如Santos-Victor等人研发了一种基于光流的robee视觉系统,该系统模拟了蜜蜂的视觉行为。在robee视觉系统中,使用单独的双目视觉方法来模拟蜜蜂的中心反射(Centering Reflex):当机器人移动到走廊两侧的墙壁中心时,左眼捕获场景的瞬时速度与右眼捕获场景的瞬时速度是相同的,几乎没有差别,那么机器人就可以知道他们在走廊的中心。如果眼睛两侧的眼睛的瞬时变化速度不同,则机器人移动到较慢的速度。在自动机器人导航的实现中,基于这个想法是测量摄像机捕获图像场景瞬时速度差异。这种导航技术只能用于室内单通道直走道导航,不能引导机器人改变方向,具有一定的局限性。

3.3.2基于外观信息的导航技术

基于外观的机器人导航方法,不需要构建真实的地图导航,机器人通过自身所携带的摄像头和传感器感知周围目标的外观信息进行自主定位和导航。其中,所述的外观信息多为目标信息的颜色、亮度、形状、空间大小和物理纹路等。机器人在导航时存储连续视频帧的环境图像信息,并将连续视频帧与控制指令相关联,从而再执行指令规划有效路径到达目的地。

3.3.3基于目标识别导航技术

为了达到目标点或是识别目标,机器人很多时候只能获取少量的图像信息。Kim等人提出了一种用符号代替导航各个位置的赋值方法。该赋值方法中,机器人执行命令如“去窗边”“去你后面的椅子旁”等。这样,通过相关的符号命令,机器人自动识别并建立路标,通过符号指令到达目标点。例如“去你后面的椅子旁”,这样的命令就是告诉机器人路标是椅子、路径向后。该导航技术的难点在于目标是否可以准确实时识别路标。第一,识别大量不同类别的物体,室内环境有许多不同类别的物体,需要将它们组织到一个在给定的容易搜索图像数据结构中去,起到容易识别是用什么度量来区分物体;第二,识别大量不同背景下的物体,一个合适的物体表达式有助于将图像组织成片断,而这些片断来自于物体的种类且与物体无关的;第三,在抽象层次上识别物体,机器人可以不需要在看到一个具体的杯子之前便能知道它是一个杯子,相关程序能够类似的物体进行识别和区分。

3.3.4基于目标跟踪的导航技术

基于目标跟踪的导航技术,为机器人构造一个虚拟地图,机器人通过摄像头获取连续的视频序列确定一个跟踪的目标,为了达到对目标的精确定位和实时跟踪,可以利用粒子滤波算法对需要跟踪的目标进行建模。基于粒子滤波的目标跟踪主要包含四个阶段,分别是初始化目标区域,概率转移,目标区域权重计算,目标区域重采样。在机器人导航之前,通过视频序列的当前几帧标注机器人所需要跟踪的目标,在导航时,机器人通过连续的视频帧感知周围的待跟踪目标,同时对所需要跟踪的目标散播粒子,当获取的视频帧对目标区域重采样后足以让机器人确定所需要跟踪的目标时,机器人通过确定的目标为自己规划最有效的路径到达目的地。获取视频序列目标跟踪是算机视觉领域中的重要分支,它在工业生产、交通导航、国防建设、航空导航等各个领域有着广泛的应用。

4结论

本文对近三十年来基于计算机视觉的室内自主式移动机器人导航技术进行了详细的分类介绍,对于移动机器人是否需要地图匹配的导航系统进行了详细的综述。目前,在做导航和面向任务的决策时,自主机器人尚未能够准确地综合考虑真实环境空间中的各种不确定性,当路径前方突然出现动态场景变化、目标运动、遮档障碍物时便会显得一无所措,无法及时把握室内环境变化的动态信息进行实时导航,而这将是未来计算机视觉研究的一大难点和热点。所以,室内自主移动机器人仍在发展中,还有很多的问题值得研究和探索,现有的机器人大多数都需要人为定期去进行清理和维护,直到今天还没有产生一台真正意义上完全自主的移动机器人。

计算机视觉论文:探讨计算机视觉技术在图书馆工作中的应用

摘要:随着科技的不断发展,计算机视觉技术的发展越来越迅速,它的研究和应用范围不断的扩大,已经涉及到制造业、农业、医疗诊断以及军事领域。本文通过对计算机视觉技术在图书馆工作应用中的探讨,了解计算机视觉技术在图书馆实行的效果。

关键词:计算机;视觉技术;图书馆;应用探讨

引言

俗话说“书是人类进步的阶梯”,各大高校以及各大城市都建有图书馆,图书馆可以满足人们对各种知识的需求,因此对图书馆的管理工作也是十分重要。如今科技不断的发展,计算机视觉技术被运用到图书馆管理中。计算机视觉是用摄影机和电脑来代替人眼进行检测、监控、识别和测量等的机器视觉,它能够对收集来的图片和视频进行处理,然后获得相应的三维信息。计算机视觉是一门综合性的学科也是一个富有挑战性的领域,它已经被应用到各个领域中,它的重要性不言而喻。

一、计算机视觉技术的特点

(一)检测范围广泛

人眼的检测范围毕竟有限,有些细微的方面人眼是检测不到的,比如红外线、超声波等,但是计算机视觉技术却是可以检测到人眼所检测不到的范围。计算机视觉技术可以将红外线和超声波处理成图像呈现出来,它的检测范围十分广泛而且是不加选择的进行检测,可以说它的使用大大拓展了人眼的视野。

(二)检测安全可靠

我们都知道电子产品如果接触使用必然是会受到一定辐射的,但是计算机视觉与以往的检测机器不同,它是不需要与被测者进行接触的,观测者和被测者都是十分安全不会受到丝毫损伤的,而且它在使用的过程中并不会像人眼一样感到疲惫,它可以一直进行高效率的工作,因此对其检测结果也是十分的可靠的。

二、视觉技术在图书馆工作中的应用分析

(一)图书剔旧和修补

图书馆是人们知识的殿堂,是思想文化知识不断扩展的地方,因此图书馆的剔旧是一项十分重要的工作。图书馆的空间毕竟有限,一些相对陈旧而利用率较低的参考文献是需要不定期的进行筛选的,这些资料通常都是表面发黄、布满灰尘和封面破旧等,而图书馆的剔旧工作大多是由工作人员亲自到书库中进行挑选,这样不仅工作量大、耗时长还有可能会存在遗漏的现象,而且资料上的灰尘也会给工作人员的身体健康带来影响。

图书馆会收藏一些珍贵的古籍和字画,但是时间一长,受到温度、湿度等的影响会造成古籍和字画表面发黄、纸张变脆甚至会出现虫眼,这时候就需要对古籍字画进行修补工作。这项工作大多由工作人员亲力亲为,会给工作人员带来一定的健康影响,如果使用计算机视觉技术代替人们来进行工作,会大大减少工作人员的工作强度,同时也保证了工作效率。

(二)管理职工人员

图书馆中职工人员的正常有序的工作是保证图书馆正常运行的关键之处,在进行图书馆职工人员的管理上可以引用计算机视觉技术。以往的职工签到可能会出现代签现象,而计算机视觉技术可以采用图像视觉处理技术对职员进行磁卡、眼膜、人脸识别等进行签到,杜绝了以往签到工作所存在的弊端。同时,在图书馆工作处理中,计算机视觉技术也可以帮助职工人员处理一些难题,让图书馆工作能够有序高效的进行。

(三)监控检测系统

如今图书馆的书籍是完全向人们开放的,人们可以自由进行借阅,以往的人工检测会造成猜疑和尴尬,也会加大图书馆管理人员与读者之间的磨擦。计算机视觉技术的使用可以全自动化进行监控和检测,避免了以往人工监测所出现的问题。图书馆的书籍借阅管理工作异常重要,计算机视觉技术可以全程自动化进行高效工作,可以进行无人看管检测读者进出携带书籍文献和借阅空间的监控等,大大提高了工作效率,让图书馆的借阅工作顺利有序的进行。

三、视觉技术在图书馆工作中的应用问题的研究

(一)循序渐进的结合

计算机视觉作为一个新兴技术,虽然已经被运用到各个领域内,但是在引进入图书馆的管理中,如果想要快速的取代传统的管理模式,无论是工作人员还是工作理念都不可能及时接受这种改变的。新技术的融入必须要循序渐进,找到与传统的管理模式的结合点,然后进行慢慢磨合,达到与传统相结合的效果,这样人们才能够接受一种新技术的使用,不仅提高了工作效率减轻了工作人员的工作负担,也能够更好的发挥出计算机视觉技术的真正作用。

(二)提高专业人员的业务水平

新的技术需要新的业务水平来支持,如果没有相应的业务水平是没有办法发挥出新技术应有的作用。计算机视觉技术通过计算机成像系统来代替人类的视觉感官,能够自主适应环境、自主工作的能力。计算机视觉技术在不断的更新中,它的使用功能也是越来越多,操作方法越来越复杂,这时就需要图书馆的工作人员对计算机视觉技术有细的了解,能够熟练操作和运用计算机视觉技术。图书馆管理阶层应该组织工作人员进行培训工作,让他们接收新的知识掌握新的技术,不断的提高图书馆工作人员的业务水平,才能够保证图书馆工作高效进行。

(三)读者素质和应用手段的提高

现代化图书馆要想实现工作和服务的全面自动化,就需要有现代化技术的支持,计算机视觉技术的引用虽然是一个现代化技术的支持,但是如今仅停留在生物特征的识别领域。比如图书馆如今普遍有门禁系统,这也仅停留在计数功能和监控可冲消磁条的识别和认定上,如果有些读者素质不高故意去掉这些生物识别,图书馆的门禁系统就没有办法阻止这些读者的进入进出。因此,提高读者的素质和计算机视觉技术的应用手段,才能够保证计算机视觉技术在图书馆被广泛的进行使用。

结束语

计算机视觉技术作为新兴的综合性技术,被运用到工业、农业、医学、军事、体育等各个领域,它的出现代替了人类去完成不可能的工作,开拓了人类的视野,提高了工作效率和深度,让人类从不适应的工作环境中解放出来。计算机视觉被称为自动化的眼睛,对周围的空间物体有着传感、抽象、判断的能力,它能够从根本上改变人们的思维方式。

虽然如今计算机视觉技术在图书馆的应用中仅处于初始层面,但是每项新的技术的引用不都是循序渐进需要一个过渡时段吗?计算机视觉技术虽然进入了瓶颈时期,但是相信在不断的提高和完善下,一定会突破瓶颈期进入到迅猛发展的时期。计算机视觉技术的提高,能够让图书馆更好的发挥其作用,让人们能够更快更方便的利用图书馆汲取不同的知识,同时也能够加快学术的发展和社会的进步。

计算机视觉论文:计算机视觉图像精密测量下的关键技术

摘 要近代测量使用的方法基本上人工测量,但人工测量无法一次性达到设计要求的精度,就需要进行多次的测量再进行手工计算,求取接近设计要求的数值。这样做的弊端在于:需要大量的人力且无法精准的达到设计要求精度,对于这种问题在现代测量中出现了计算机视觉精密测量,这种方法集快速、精准、智能等优势于一体,在测量中受到了更多的追捧及广泛的使用。

【关键词】精密测量 计算机视觉图像 关键技术

在现代城市的建设中离不开测量的运用,对于测量而言需要精确的数值来表达建筑物、地形地貌等特征及高度。在以往的测量中无法精准的进行计算及在施工中无法精准的达到设计要求。本文就计算机视觉图像精密测量进行分析,并对其关键技术做以简析。

1 概论

1.1 什么是计算机视觉图像精密测量

计算机视觉精密测量从定义上来讲是一种新型的、非接触性测量。它是集计算机视觉技术、图像处理技术及测量技术于一体的高精度测量技术,且将光学测量的技术融入当中。这样让它具备了快速、精准、智能等方面的优势及特性。这种测量方法在现代测量中被广泛使用。

1.2 计算机视觉图像精密测量的工作原理

计算机视觉图像精密测量的工作原理类似于测量仪器中的全站仪。它们具有相同的特点及特性,主要还是通过微电脑进行快速的计算处理得到使用者需要的测量数据。其原理简单分为以下几步:

(1)对被测量物体进行图像扫描,在对图像进行扫描时需注意外借环境及光线因素,特别注意光线对于仪器扫描的影响。

(2)形成比例的原始图,在对于物体进行扫描后得到与现实原状相同的图像,在个步骤与相机的拍照原理几乎相同。

(3)提取特征,通过微电子计算机对扫描形成的原始图进行特征的提取,在设置程序后,仪器会自动进行相应特征部分的关键提取。

(4)分类整理,对图像特征进行有效的分类整理,主要对于操作人员所需求的数据进行整理分类。

(5)形成数据文件,在完成以上四个步骤后微计算机会对于整理分类出的特征进行数据分析存储。对于计算机视觉图像精密测量的工作原理就进行以上分析。

1.3 主要影响

从施工测量及测绘角度分析,对于计算机视觉图像精密测量的影响在于环境的影响。其主要分为地形影响和气候影响。地形影响对于计算机视觉图像精密测量是有限的,基本对于计算机视觉图像精密测量的影响不是很大,但还是存在一定的影响。主要体现在遮挡物对于扫描成像的影响,如果扫描成像质量较差,会直接影响到对于特征物的提取及数据的准确性。还存在气候影响,气候影响的因素主要在于大风及光线影响。大风对于扫描仪器的稳定性具有一定的考验,如有稍微抖动就会出现误差不能准确的进行精密测量。光线的影响在于光照的强度上,主要还是表现在基础的成像,成像结果会直接导致数据结果的准确性。

2 计算机视觉图像精密测量下的关键技术

计算机视觉图像精密测量下的关键技术主要分为以下几种:

2.1 自动进行数据存储

在对计算机视觉图像精密测量的原理分析,参照计算机视觉图像精密测量的工作原理,对设备的质量要求很高,计算机视觉图像精密测量仪器主要还是通过计算机来进行数据的计算处理,如果遇到计算机系统老旧或处理数据量较大,会导致计算机系统崩溃,导致计算结果无法进行正常的存储。为了避免这种情况的发生,需要对于测量成果技术进行有效的存储。将测量数据成果存储在固定、安全的存储媒介中,保证数据的安全性。如果遇到计算机系统崩溃等无法正常运行的情况时,应及时将数据进行备份存储,快速还原数据。在对于前期测量数据再次进行测量或多次测量,系统会对于这些数据进行统一对比,如果出现多次测量结果有所出入,系统会进行提示。这样就可以避免数据存在较大的误差。

2.2 减小误差概率

在进行计算机视觉图像精密测量时往往会出现误差,而导致这些误差的原因主要存在于操作人员与机器系统故障,在进行操作前操作员应对于仪器进行系统性的检查,再次使用仪器中的自检系统,保证仪器的硬件与软件的正常运行,如果硬软件出现问题会导致测量精度的误差,从而影响工作的进度。人员操作也会导致误差,人员操作的误差在某些方面来说是不可避免的。这主要是对操作人员工作的熟练程度的一种考验,主要是对于仪器的架设及观测的方式。减少人员操作中的误差,就要做好人员的技术技能培训工作。让操作人员有过硬过强的操作技术,在这些基础上再建立完善的体制制度。利用多方面进行全面控制误差。

2.3 方便便携

在科学技术发展的今天我们在生活当中运用到东西逐渐在形状、外观上发生巨大的变大。近年来,对于各种仪器设备的便携性提出了很高的要求,在计算机视觉图像精密测量中对设备的外形体积要求、系统要求更为重要,其主要在于人员方便携带可在大范围及野外进行测量,不受环境等特殊情况的限制。

3 计算机视觉图像精密测量发展趋势

目前我国国民经济快速发展,我们对于精密测量的要求越来越来高,特别是近年我国科技技术的快速发展及需要,很多工程及工业方面已经超出我们所能测试的范围。在这样的前景下,我们对于计算机视觉图像精密测量的发展趋势进行一个预估,其主要发展趋势有以下几方面:

3.1 测量精度

在我们日常生活中,我们常用的长度单位基本在毫米级别,但在现在生活中,毫米级别已经不能满足工业方面的要求,如航天航空方面。所以提高测量精度也是计算机视觉图像精密测量发展趋势的重要方向,主要在于提高测量精度,在向微米级及纳米级别发展,同时提高成像图像方面的分辨率,进而达到我们预测的目的。

3.2 图像技术

计算机的普遍对于各行各业的发展都具有时代性的意义,在计算机视觉图像精密测量中运用图像技术也是非常重要的,在提高图像处理技术做以提高。同时工程方面遥感测量的技术也是对于精密测量的一种推广。

4 结束语

在科技发展的现在,测量是生活中不可缺少的一部分,测量同时也影响着我们的衣食住行,在测量技术中加入计算机视觉图像技术是对测量技术的一种革新。在融入这种技术后,我相信在未来的工业及航天事业中计算机视觉图像技g能发挥出最大限度的作用,为改变人们的生活做出杰出的贡献。

作者单位

常州信息职业技术学院 江苏省常州市 213164

计算机视觉论文:基于计算机视觉的人脸检测与识别技术初探

随着计算机技术和网络技术的飞速发展,计算机已深入到社会的各个领域,并深刻的改变人们的工作、学习和生活方式。信息的获取、分析、处理、、应用能力已经成为社会中人们的一个必备的技能。多媒体技术也在发生着日新月异的变化,包括这多媒体技术的基本概念、图像、音频、视频、动画的常用处理工具等。其中人脸检测与识别技术在计算机视觉方面也是尤为重要的,人脸检测与识别技术主要是用于身份信息的识别,也可以用来对个人的隐私信息通过识别来进行保护。

诞生于20世纪40年代的电子计算机是人类最伟大的发明之一。并且一直以飞快的速度发展着。进入21世纪的现代社会,计算机已经进入各个行业,并成为各行业必不可少的工具。如今的计算机发展的更加智能化,就如今来说,人们最什么事情都非常重视信息,人类和社会的发展,时刻都离不开信息。计算机如今重视的方面就是对信息的阅读和控制,人脸检测与识别技术也是应运而生。

人脸识别的论述

人脸识别是人类视觉中的一大特色,因为能对身边的人进行识别,才不会对身边的信息进行混淆,简单来说,根据人脸可以对人的年龄,性别进行初步判断。随着计算机技术的智能化,计算机业已经通过视觉能进行人脸的识别。其中在对人脸识别的同时进行有关信息的收集、识别、提取、变换、存储、传递、处理、检索、检测、分析和利用等技术。如今人脸识别已经应用于很多的领域,但是要人脸检测与识别是需要基于本来已经收集和整理的信息本库才能进行。再加上现在计算机技术虽然已经接近成熟,然而在人脸识别方面的表情传达出什么信息还是无从下手进行编程和设计。所以,基于计算机视觉的人脸检测与识别技术还是会有很广的发展空间,再加上人脸识别还可以维护人们的财产安全和隐私保护,必然会引起社会各界人士的广泛关注。

从19世纪末开始就已经有人对人脸识别进行了研究,因为当时没有先进的科学技术做后盾,所以经过了数百年的研究仍然没有什么显著的进展和成果。直到20世纪90年代人脸识别才成立了自己的学科,在加上当时的科技发展水平已经达到了不错的水平,人脸识别这个学科得到了快速的发展。如今,我国的计算机技术也已经居于世界的前列,我国也已经拥有比较完善的一套东方面孔的人脸数据库。

人脸识别在发展过程中大概经历了三个阶段:第一阶段就是对人脸特征进行整理,整理出所需要的数据库,并且应用当时的计算机技术做出一套质量不错的人脸灰度模型,这个阶段的识别工作全部由操作人员来完成;第二阶段比第一阶段要先进,有了基础人机互交,将人脸的特征经过多维度的矢量在模型上表示出来,并也可以设计出一套人脸识别的系统,这个阶段的识别不再是仅仅依靠操作人员,而是操作者和计算机一起完成;第三个阶段是计算机智能识别的最高峰,一切操作和识别都依靠机器全自动化进行,在人脸识别过程中也不再是每台计算机都需要完成一整套的工作,也实现了计算机与计算机之间的互联,多台计算机一起完成人脸识别的过程,都人力也是一种解放。

积极践行人脸检测识别技术

人脸检测识别技术是计算机实现智能化特征后的又一重要发展方向之一,它已经在世界范围内得到了广泛的普及与应用。人们可以通过人脸识别来进行定位,来起到保护人们财产安全的作用,通过人脸识别来抵制社会中的造假率,之前曾经有一些不法分子利用假身份来做损害公共利益和侵犯人们隐私权的事情,有了人脸识别让不法分子没有可乘之机,也应用人脸识别来对财务密码进行联系,起到对人们的财产有绝对的保护作用,对社会的安定何尝不是一项有意义的发明。

人脸识别一直是计算机智能化发展过程中的一个重要领域,因为人脸的识别与检测是一个很难做到完善的项目,由于人类的面部表情丰富,要对人类的面部表情做出判断和分析会存在一定的困难。再加上人脸识别的过程中,每个独立存在的个体都有一张专属于自己的脸。它的轮廓没有明显的特征界限,同时对眼、鼻子、嘴等器官在脸上的分布情况也没有明确的界限,这就使得对人脸识别来进行算法设计有一定的困难,所以只有通过轮廓特征来进行初步的判断,分辩出各种器官,再根据器官来完成人脸的分布情况设计灰度模型的完成工作。

随着红外光的可利用率提高,也应用到了人脸识别的领域,在人脸识别过程中也加入不同光的效果来识别人脸,使得如今的人脸识别的准确度有了明显的提高。但是光的效果是不可控的,在环境不适宜和用户不配合的情况下,利用红外光技术来进行人脸识别又会将准确度拉到很低的成度。因此,在人脸检测与识别方面仍然有一些尚未解决的问题,值得人们关注和探索。

科学的进步、时代的进步,必将给发展赋予新的内容。这个社会已经成为了一个信息化社会,信息化代表了一种信息技术被高度重视,信息资源被高度共享,从而使得人的智力和潜力以及社会物质资源潜力被充分发挥。在这个信息化社会中最重要的就是信息。个人信息已经成为在社会中必备的物质。如此看来信息的保护也成为了发展的头等大事,基于计算机视觉的人脸检测与识别技术也有了发展的独特性,它的独特性由这个时代所决定。

计算机视觉论文:计算机视觉创新研究的探索者

人类正在进入后信息时代,计算机越来越广泛地进入到几乎所有的科技和生活领域。现代计算机具有强大的功能和运行速度,但与人脑相比,其智能化程度仍有待提高。如何让计算机具有类人脑的学习与分析能力,拥有“视觉”“听觉”,并可通过“思考”与人类沟通交流,是当今世界计算机视觉研究领域各国科学家不断追求和探索的目标。

计算机视觉是人工智能领域的核心之一,其研究的终极目标是让机器具有人一样的视觉功能。西安交通大学电子与信息工程学院杨国安教授在计算机视觉领域沉心研究多年,为计算机视觉的发展提供了丰富的理论基础。

“西安交通大学郑南宁院士是图像处理、计算机视觉和模式识别领域的国际知名专家,是他2001年把我从日本引进回来的。”这是杨国安选择计算机视觉和图像处理领域的契机。在该领域,杨国安主要研究新型的小波变换、多尺度几何分析和压缩感知理论,对这些最前沿的理论进一步地改进,以提高图像分析与理解的能力、计算机视觉模型的精度、大数据的模式分类的效率以及互联网图像检索的正确识别率。

留学回国后,杨国安在郑南宁院士团队参与完成了多项国家项目,包括国家自然科学基金创新研究群体项目“智能化视觉信息处理理论与实现技术”,国家自然科学基金重点项目“高效可伸缩视频编解码基础理论与方法研究”,国家重点基础研究发展计划项目“视觉信息环境感知与识别关键技术”,国家科技支撑计划项目“数字媒体内容互通共用关键技术”,国家高技术研究发展计划项目“基于离散小波变换的JPEG2000图像处理及场景数据实时传输”等。其中,在国家科技支撑计划项目中,杨国安取得国家发明专利“一种分布式多格式数字视频转码结构设计方法”的正式授权。该项专利开发出了一种分布式多格式数字视频转码结构设计新方法:对源视频文件解复用后将视频进行快速无缝分割,通过动态调度程序,将视频片段以及音频文件发送到各个转码计算机上进行快速多格式转码,在输入某一种格式的视频后只需解码一次,便能输出多种格式的码流,并且能对输出码流进行很好的码率控制,最后收集转码后的视频片段进行无缝拼接并与转码后的音频文件复用。该项专利不仅改善了像素域级联转码器的转码效率,也增强了视频转码后的质量,并在我国相关电视厂家得到实际应用,取得了良好的社会和经济效益。

目前,罟安正在主持国家自然科学基金项目“基于生物视觉稀疏编码特性和显著性特征的多尺度几何分析纹理模型研究”。他介绍说,今后的研究重点将是进一步研究基于多尺度几何分析和脉冲耦合神经网络的生物视觉模型,并将其应用到大数据的模式识别以及互联网图像检索上。

学术方面,杨国安有木哿Γ砥砺前行。他长期兼任IEEE Transactionson Signal ProcessingENeural Networks等世界顶级期刊的通信评审专家,并在IEEE,Elsevier和springer等知名期刊和国际会议上发表SCI和EI收录论文30余篇,其中SCI收录8篇,EI收录21篇,取得国家专利2项,出版“十一五”至“十三五”规划教材各1部,为硕士和博士研究生开设课程,培养硕士研究生和博士研究生30余名,2016年2月又培养出交通大学历史上第一位日本博士留学生。

在科研的世界里,只有脚踏实地,持续奋斗与攀登,才可能收获点点星光。在20余年的研究工作中,杨国安亦是如此勉励自己,不断创新,突破传统。相信在未来,他一定能收获一片属于他的星空。