计算机视觉的研究方向范例(12篇)

daniel 0 2024-03-28

计算机视觉的研究方向范文1篇1

浅川智惠子博士,现任IBM研究中心东京研究实验室无障碍研究中心高级研究员,同时也是日本电子信息通讯工程师学院、日本信息处理协会、计算机器协会以及IBM技术学院的成员。虽然在14岁时失明,但她凭借顽强的毅力和过人的才智发表了大量的技术论文和著作,获得13项发明专利,并取得东京大学计算机博士学位。2007年被授予“IBM杰出工程师”称号。工程师”称

盲人,女性,博士,计算机专家,这就是对浅川智惠子最为贴切的描述。而这几者的叠加,本身就充满了传奇色彩。

在近日举行的“对话智者,IBM大师走进校园”的启动仪式上,浅川智惠子博士向记者透露了她的非凡成长经历。

可以说,生活对于浅川智惠子曾经两次归零。14岁之前,“痛恨学习”的她,是个有前途的运动员,曾经梦想进入奥运比赛。一次意外事故使她失明,人生道路也因此而改变。“虽然我是一个盲人,可我还是可以做些与众不同的事情。”她以这样积极乐观的人生态度重新开始。

然而,就在1983年,她获得Ottemonn大学英国文学学士学位,踌躇满志地准备开始职业生涯的时候,命运再次将她推入谷底:毕业后的她很难在日本找到工作,文学甚至不能让她养活自己……

这一打击让浅川智惠子几乎丧失了挑战精神,但命运的另一扇大门此时也向她敞开。1985年,浅川智惠子在经历了盲人职业学校的计算机培训和IBM东京研究实验室的实习后,正式加入IBM公司,从此“弃文学武”的她再也离不开计算机事业。这被她称为职业生涯中的误打误撞,却让她迎来了全新的生活,甚至可以说让她在黑暗中迎来了光明。

“除了专门为盲人设计的工作之外,当时要找到其他工作非常困难。所以我为自己能找到IBM而感到幸运。”要知道,直到1981年,IBM才在美国首次推出个人计算机。但由于一直关注残障人士的需求,时隔3年,IBM就发明了能够发音的终端。正是有这样的机遇,浅川智惠子才能进入IBM工作,并成为IBM第一个使用这种特殊计算机的人。

她参与的第一个项目就是让计算机自动地把数字数据翻译成盲文。从此,浅川智惠子进入了无障碍研发领域,职业生涯也屡攀高峰。

无障碍研究到底是一项什么样的工作呢?在20年前,除了盲文和盲文打字机以外,盲人几乎没有任何辅助工作的工具。而盲文书籍比一般书籍要厚20倍到30倍,当时制作盲文书籍是非常艰巨的一件工作。

1987年,IBM日本公司开始在日本全国范围内推广盲文网络,浅川智惠子参与了这个项目并负责盲文编辑系统。该系统本质上就是盲文的文字处理系统,盲人可以通过系统直接向工作站输入文本。而IBM特殊机器的显示器可以显示出盲文的凸点,庞大书籍的内容也可以在很小的显示器上全部显示出来。

同时,通过这个系统,全国各地的图书馆就可以联在一起,各种读者都能够及时地得到最新的畅销书内容,盲人也因此受益。浅川智惠子开发了这种数字盲文系统及其三个主要应用。其中,盲文编辑系统能够使用户轻松通过鼠标和显示器来输入并编辑盲文,盲文词典系统及IBM盲文论坛已成为日本盲文书籍的标准系统。

1997年,随着互联网的兴起,浅川智惠子的创新任务也随即而至。那时,经常有人谈到互联网的使用体验,而她也意识到对视觉有障碍的人来说,有必要像视觉正常的人一样充分利用互联网,享受新技术带来的便利。怎样让盲人也能使用互联网?一种能够发声的网络浏览器系统――主页阅读器因此诞生。由于盲人可以首次利用其使用互联网,这项发明在社会上引起轰动。目前,IBM主页浏览器以11种语言在世界范围内发行,通过它,人们可以用数字键盘上网,还可以把互联网及其他网络资源由文字、图像转换成语音。

计算机视觉的研究方向范文篇2

关键词:协同模式识别;主动视觉;视觉选择性注意机制;尺度空间

中图分类号:TP391

0引言

目前主动视觉是机器视觉研究的热点和发展方向。其核心内容是为了完成给定的视觉任务,如何主动、智能、有选择地获取视觉信息;从计算的观点来说,就是要建立视觉选择性注意机制的计算模型,对图像数据进行显著性度量。

机器视觉要完成从2D图像出发对场景进行理解,而2D图像本身作为对应3D场景的一个不可逆透射变换,它对场景的描述形式表现为数值矩阵形式,所有的信息都隐藏在里面,为此机器视觉算法的基本要求就是要能从这种原始以矩阵形式表示的2D图像数据中提取“有意义”的描述。其中的关键问题是:到底什么是“有意义”的,以及其描述的形式或模型是什么。显然这两个问题都跟具体的视觉任务有关,最基本的任务就是视觉物体识别,为了识别,一个前提是要能从图像中分离出物体出来,即前景/背景分离,前景构成对图像的一种“有意义”描述,而视觉选择性注意机制的计算模型是实现得到这种描述的一种有效模型,为此要对图像进行显著性度量;同时所得前景以及其各种特征只在一定的有限的尺度范围内才是“有意义”的,即尺度也是描述的┮桓霆重要参数,所以尺度、显著性和物体识别对一个描述模型来说是密不可分。

1视觉中的尺度空间的表示

图像中的尺度问题可以理解为成像所使用的孔径/光圈的大小,以及成像设备和物体之间的距离的综合作用在透射投影下赋予物体的像的一个固有属性。一幅自然场景的2D图像中包括各种不同大小的物体的像,预先并不知道有哪些尺度,为了从图像出发去理解场景,必须要在各个尺度上对图像进行表示和分析处理,即多尺度表示和分析[7,8]。将尺度作为一个自由参量引入图像中。多尺度表示方法由来已久,主要有两种:四叉树和金字塔。

尺度空间表示的一般方法是:将尺度作为一个自由参量引入到原始N维信号(如2D图像)中,得到一个┆N+1维的信号,所得信号在尺度维上满足一个扩散方程,该扩散方程是一个以原始信号为初始状态的偏微分方程(PDE),称所得信号为原始信号的尺度空间表示;根据扩散方程的线性和非线性可以将尺度空间表示区分为线性尺度空间和非线性尺度空间;在尺度维上,信号表现出一种由细到粗的过程,一个基本要求就是在粗的尺度上,信号中不能出现新的结构[1,3]。记原始图像为I(x,y)∈[WTHZ]R[WTBX],(x,y)∈[WTHZ]Z[WTBX],尺度记为t∈[WTHZ]R[WTBX]+,图像尺度空间表示为:

式中:T为尺度空间变换,尺度t的初始值为原始图像中的尺度,为了数学上分析方便一般可认为为0。┩1(a)为尺度空间表示示意图;图1(b)为Lena图像的尺度空间表示。T满足的扩散方程为:

式中:[WTHX]J[WTBX]=-[WTHX]D[WTBX]T是Flick法则,表示扩散的平衡特性;[WTHX]D[WTBX]是一个正定对称矩阵表示扩散张量。如果[WTHX]J[WTBX]和T平行,则表示扩散是各向同性的,这时[WTHX]D[WTBX]可用一个正常数g来代替,反之为各向异性。若[WTHX]D[WTBX]是一个正常数(如常取1),则相应的尺度空间为线性尺度空间;若[WTHX]D[WTBX]是一个与图像结构相关的标量或向量函数,则为非线性各向同性尺度空间或非线性各向异性尺度空间。И

尺度空间表示提供了一种对图像进行多尺度分析的基础。但是在尺度空间中,想要得到“有意义”的描述还隐含于图像数据中,所以重要的是如何利用尺度空间表示来产生更好、更有意义的描述,或者如何利用尺度来引导注意,计算图像数据中自下而上的显著性。

显著性度量是实现引导视觉注意的最常用的方法。在数学形式上,显著性度量函数其实就是从各种早期视觉特征图到显著图的一个映射,它计算的核心在于如何进行对比度计算,而不依赖于其具体的某种输入。目前,显著性度量共有七种方法,文中结合使用两种方法:基于空间和特征整合的显著性度量和基于尺度空间表示和信息论的显著性度量。

2视觉选择性注意机制计算模型框架

视觉注意计算模型框架如图2所示。针对隐式注意建立自下而上的结合尺度与特征共同引导的视觉注意计算模型,选择使用强度、颜色和方向图作为自下而上引导视觉注意的早期视觉特征,根据主尺度估计的结果建立它们的尺度空间表示,形成度量显著性的高维空间。通过在所得高维空间中进行显著性度量来引导视觉注意,特征和尺度共同作用形成显著图,所得的显著图包括两个部分:图像中区域/物体的显著性大小和它们的最佳尺度。オ[KH-1]

2.1颜色特征图提取

记r(t),g(t)和b(t)为原始图像中的红、绿和蓝色通道。其中t表示尺度,可设原始图像的尺度为0,则强度图为I(t)=\[r(t)+g(t)+b(t)\]/3。首先,为了除去色调(Hue)的影响,使用I(t)对r(t),g(t)和b(t)通道进行归一化,然后可以得到如式(3)计算的广义上的红、绿、蓝和黄四个通道。图3所示分别为Lena图像的各个颜色特征分量。

2.2方向特征图提取

V1区是视觉信息处理的前端,它的数学模型通常用Gabor滤波器表示。Gabor函数是高斯函数调制的正弦和余弦函数,相应地构成其偶小波和奇小波,它是能够取得空域和频域联合测不准原理下限的惟一函数,且有很好的方向选择性。二维Gabor滤波器的数学表达式如下

式中:(x0,y0)是空域中感受野中心;(ξ0,υ0)是滤波器在频域上的最优空间频率。σ和β分别是x和y轴方向上高斯函数的标准差。通常取4个或8个方向的Gabor滤波器输出作为方向特征图:(i/N)π,N=4或8;i=0,1,2,3或i=0,1,2,…,7。图

4是Lena图像的┧母霆方向特征图和相应的Gabor函数。

2.3显著性度量函数

在经过主特征图提取以后,尺度为t的图像中每个像素可以用一个含10个元素的张量来表示图像描述模型。显著性度量结果应该包含两个部分:一是,要得到图像中哪些区域/物

式中:F用来度量这里所使用的描述descrip([WTHX]s[WTBX])表示图像信号的符合性如何;显著性与descrip([WTHX]s[WTBX])表示图像信号的符合性成反比。显著性度量的难度在于如何去设计F,使得其结果有一定的认知符合性和有效性。И

3主尺度估计与注视点最佳尺度选择

建立尺度空间表示,首先要确定当前图像中的主尺度,所谓主尺度是指图像中前景物体的尺度。根据主尺度再确定建立尺度空间表示的所用的尺度范围,同时根据尺度空间表示来对注视点的最佳尺度进行选择。

3.1主尺度估计

在图像中引人尺度维以后,这时图像在尺度维上由细到粗的变化,总体上表现为一种信息丢失的过程,那么如何去度量其丢失量[3,8]。通过前面对尺度空间表示的讨论,可以知道这种由细到粗的过程是通过让图像在尺度维上按某个PDE扩散方程,为了度量相邻尺度图像I(x,y;ti)和I(x,y;ti+1)之间中的信息丢失量,先对I归一化,即使得I(x,y;t)dxdy=1,然后通过计算它们之间的Kullback[CD*2]Leibler距离来度量:

通过在尺度维上计算这种相邻尺度图像间的g(x)值,所有g(x)е抵凶畲笾邓对应的尺度即为图像中的主尺度,如图5所示。原始图像有黑白交替的方块,尺度大约为100个像素,通过度量其KL信息在尺度空间的分布,主尺度的估计值与实际情况相符合。

3.2注视点最佳尺度选择

尺度空间表示提供了多尺度表示和分析的基础,其中尺度作为一个自由参量,选择最佳尺度也就意味着要建立一个测度。这个测度是关于尺度的一个凸函数,其极大值所对应的尺度即为最佳尺度,如何设计这个测度函数是关键所在。由前面的讨论知道尺度空间表示的一个基本要求就是在粗尺度上图像中不能形成新的结构,也就是说原始图像中的极大值和极小值都要被抑制,从而在图像由细到粗过程中表现出一种平滑作用,最常用的线性尺度空间:

对其求关于x和y的一阶或二阶偏导可得:Ix,Iy,Ixx,Iyy,Ixy,这些偏导数的的组合可以得到十分有用的算子,如用于边缘检测的梯度算子sqrt(Ix2+Iy2),ИLaplace算子等,但这些偏导数本身是关于尺度的递减函数,这是因为随着尺度增大,图像不断被平滑,而实际中通常希望这些算子具备尺度不变性,所以要使用尺度去对其进行规范化,对x和y进行变量代换:

[HJ1]И[HJ]u=x/t,v=y/t[JY](8)[HJ1]И[HJ]

则可得:Iu=tIx,Iv=tIy,其他的类推可得,从而使得规范后的偏导是凸函数,可以用来进行最佳尺度选择,文中使用规范拉普拉斯函数,如式(8)所示,求其极大值所对应的尺度为最佳尺度,实验图像如图6所示。

4结合尺度和特征的显著性度量仿真实验

有了上面的讨论后,现在可以给出结合尺度与特征引导的视觉注意计算的仿真实验。算法流程:

(1)获取输入图像,提取主特征图:I,RG,BY┧母霆方向图;

(2)使用强度图I,建立其尺度空间表示,按第3.1节中方法估计图像的主尺度tp,并保留I的尺度空间表示;

(3)根据主尺度tp确定尺度空间表示的相邻尺度间隔大小tstep,在此采用四层尺度空间表示,则tstep=max\[Int(tp/4),tmin\],Int为取整操作,tmin为间隔阈值,本文中tmin=2。也可以采用八层或其他;

(4)根据tstep建立RG,BY四个方向图的四层尺度空间表示。

(5)进行中央-外周计算,中央层为center=[1,2],外周层[WTHX]s[WTBZ]=[3,4],从而形成1[CD*2]2,1[CD*2]3,2[CD*2]3,2[CD*2]4四层,所以可得7×4=28个特征;

(6)对得到的28幅特征图,按式(5)进行迭代产生特征显著图,迭代次数为5;

(7)对所得特征显著图归一化后线性组合,得到最终显著图。组合系数取为1;

(8)选取注视点,在获得每个注视点后,根据第3.2节中的方法进行最佳尺度选择;根据注视点及其最佳尺度产生图像前景的一个模板(Mask)。

图7为结合尺度与特征引导的注意仿真实验结果。[LL]从图中可以看出,无论是对尺度范围变化较大的图像还是尺度变化范围不大的图像,模型基本上能将图像中大部分感兴趣的区域/物体注意到,且能对注视点进行最佳尺度选择。

5结语

在此讨论了结合尺度、显著性和物体识别的必要性和可行性;着重讨论了尺度空间表示,并给出了尺度空间中一种多尺度表示的方法。在以上的分析基础上给出了一种结合尺度与特征引导的视觉注意计算模型和具体实现,以及仿真实验结果。

参考文献

[1]NavalpakkamV,IttiL.ModelingtheInfluenceofTaskonAttention\[J\].VisionResearch,2005,45(2):205[CD*2]231.

[2]SotoD,BlancoMJ.SpatialAttentionandObject[CD*2]basedAttention:AComparisonwithinaSingleTask\[J\].VisionResearch,2004,44:69[CD*2]81.

[3]DuitsR,FlorackL,GraafJD,etal.OntheAxiomsofScaleSpaceTheory\[J\].JournalofMathematicalImagingandVision,2004,20:267[CD*2]298.

[4]DudaRO.PatternClassification\[M\].2ndEdition.Wiley[CD*2]Interscience,2000.

[5]LoweDG.DistinctiveImageFeaturesfromScaleInvariantKeypoints\[J\].InternationalJournalofComputerVision,2004,2(60):91[CD*2]110.

[6]MikolajczykK,TuytelaarsT,SchmidC,etal.AComparisonofAffineRegionDetectors\[J\].InternationalJournalofComputerVision,2004.

[7]FlorackL,KuijperA.TheTopologicalStructureofScale[CD*2]SpaceImages\[J\].JournalofMathematicalImagingandVision,2000,12:65[CD*2]79.

[8]KuijperA.MutualInformationAspectsofScaleSpaceImages\[J\].PatternRecognition,2004,37(12):2361[CD*2]2373.

[9]IttiL,KochputationalModelingofVisualAttention\[J\].NatureNeuroscience,2001,2:194[CD*2]203.

计算机视觉的研究方向范文篇3

关键词:计算机视觉;智能交通;监控系统

中图分类号:TP277

近些年来,随着我国人民生活水平提高,使私家车辆的数目急剧增长,并且车辆的增长速度远远超出市政建设的力度。这样的事实导致城市交通拥堵、违规通车、车祸增加,所以迫切的要求加快市政建设,实施高效率的交通监控措施,基于计算机视觉的智能交通监控系统也由此得到了相应的广泛的发展和应用。那么,计算机视觉技术下的智能交通监管系统究竟应该如何设计与实现呢?

1计算机视觉下的智能交通监控系统

1.1计算机视觉技术

计算机视觉技术即利用各种图像摄录设备将通过对视觉目标进行识别、跟踪、测量并将由此获取的视觉信息传输至计算机并进而利用图像技术进行视觉信息处理以达到进一步进行智能化处理的视觉处理技术。

1.2智能交通系统(ITS)

智能交通系统(ITS)是指通过现代化的网络信息技术、自动控制技术等有效综合手段在一定范围内建立的全方位发挥作用的交通运输综合管理和控制系统。作为交通运输管理体系的一场新的革命,近年来,由此技术进一步开发形成的监控系统已经在各个道路的关键路口、路段和其他交通繁忙地域普遍建立,为交通运输管理提供了自动化、智能化的信息收集和处理等多方面的服务。但是,随着城市建设的迅猛发展和人流、车流量的猛增,更加智能化的交通管理系统的开发和利用显然也成为了当务之急。

2计算机视觉下的智能交通监管系统的建立

正是基于新的发展需要,我们有必要把计算机视觉和智能交通监控系统进一步结合起来,首先通过计算机视觉分别对各个道路的关键路口、路段和其他交通繁忙地域等相应位置实时进行交通信息采集,然后,通过信息传输系统、或者进行处理后存入服务器并将处理过的实时交通信息及时传输到监控指挥系统,以实现对于各个道路的关键路口、路段和其他交通繁忙地域的实时监控和管理。由此,显然就需要设计以下各个子系统并共同构建为一个完整的体系。

计算机视觉下的智能交通监管系统

实时交通信息收集系统

监控指挥系统

高质量信息存储传输系统

图1计算机视觉下的智能交通监管系统工作程序示意图

3智能交通监控系统的实现

计算机视觉下的智能交通监管系统实现的第一步是通过实时交通信息收集系统实时进行交通信息采集,即通过对于运动物体的分割,在图像找出有意义的部分,抽出运动目标的特征,进而通过连续画面间的变化判断目标的运动状况。在这一系统运行中,首先可以“摄像头读入”的初始视频,使用相应的算法提取“背景”,然后通过原图与背景运算形成相应的“前景”,由此即可进一步通过矩形框的使用来达到“运动目标检测”与信息采录的目的。

图2视觉监控系统原理图

3.1系统功能实现

对运动物体的检测主要有光流法以及差分法两种方法,由于光流法比较复杂和耗时,实时检测很难实现,因而,现有实时交通信息收集系统一般通过差分法的应用来进行开发和实现。

3.1.1帧间差分法

帧间差分法对运动目标进行分割处理过程中使用较多也最为简单实用的一种方法,其基本原理就是通过在连续的图像序列中两个或三个相邻帧间采用基于像素的帧间差分并且阈值化来提取图像的运动区域,进而通过逐象素比较获取前后两帧图像之间的差别来判断运动物体的移动状况。在实际操作中,一般可以假设用于获取序列图像的视频设备为静止物体,设视频中连续两帧的图像为It(x,y)和It+1(x,y),然后通过对连续两帧的图像相应的像素进行比较,利用Dt(x,y)=It+1(x,y)-It(x,y)这一方程求出相应的阈值来检测出运动物体的移动状况:

Mt(x,y)=

当然,必须注意的是,由于帧间差分法所得到的差分图像在现实中并非由理想封闭的轮廓区域组成的,因而,运动目标的轮廓自然也就往往是局部的、不连续的,且其误差往往随着运动物体速度的增大而增大,因而,这一方法并不适于对于高速运动目标的有效检测。

3.1.2背景差分法

与帧间差分法不同,背景差分法则是利用当前图像与背景图像的差分来检测物体运动状况一种方法。其基本原理是在可控制环境下,通过对于运动背景的固定假设,设待检测运动物体的图像为I(x,y),背景图像为B(x,y),通过输入图像与背景模型进行比较,利用D(x,y)=I(x,y)-B(x,y)这一方程求得到图像中的各像素的变化信息,进而检测运动物体的移动状况:

Mt(x,y)=

当然,在实际运用中,背景差分法的关键,是要建立一个背景模型,并更新模型。

3.2程序功能的实现

本程序功能实现所主要使用的是OpenCV函数。OpenCV能够实现对图像数据的操作,包括分配、释放、复制、设置和转换数据,以及对摄像头的定标、对运动的分析等。在函数实现上,用到了Cv图像处理的连接部件函数,运动分析与对象跟踪中的背景统计量的累积相关函数等相关的函数。本系统就是运用图3介绍使用到的函数名及其功能和使用格式等来实现对视频流的运动车辆的轮廓检测的。

图3寻找轮廓程序主要算法流程

实验证明,本系统能够较好地实现对视频流的运动目标的轮廓检测和对象跟踪,并能实时更新背景,车辆跟踪正确率在95%以上,虽然存在着轮廓检测正确率稍差的缺点,但其主要原因是由于摄像头所处的角度和运动目标靠近程度的影响,从根本上并不影响对于运动目标的实际检测。

4结束语

加快城镇化进程是我国发展的大趋势,在这一趋势下,城市病的治理当然可以离不开现代化的科学技术。但是,必须注意的是,无论多么先进的管理系统,最终都只有通过人的行为才能够发挥有效的作用,在这个意义上,设计与使用先进的交通监控系统固然是解决交通问题的技术条件,但是,交通问题的解决,最终还必须依赖于人的素质的全面提高。

参考文献:

[1]戴俊乔.城市道路交通视频监控系统架构和性能的研究[J].科技与创新,2014(06).

[2]张伟龙,李刚,王雨翔.基于计算机视觉的智能交通监控系统[J].小型微型计算机系统,2014(07).

[3]庞其富.浅谈城市轨道交通视频监控系统设计方案[J].通讯世界,2014(01).

计算机视觉的研究方向范文篇4

关键词:Web;Web碎片信息;CSS;信息抽取

中图分类号:TP391

随着网络技术的发展,互联网的信息呈现方式正在发生日新月异的变化,微博的出现使人们随时随地都可以分享自己的信息。同时,微博的出现也正在改变着人们关注信息的习惯,网民们获取信息的方式越来越“碎片化”,从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。也就是说,在信息碎片化的时代,每个人都是信息的制造者,也是信息的获取者。由于每个人均可以通过碎片信息平台(如新浪微博、腾讯微博)信息,使得碎片信息出现了很大的随意性,信息的构成不再像传统方式的规范化,而出现了多元化、异构化及碎片化。在进行碎片信息抽取的时候,由于其本身可能只是“只言片语”,就有可能被当成信息“噪声”过滤了,因此给信息的抽取与整合带来了一定的困难,针对碎片信息所固有的特点,考虑到信息的分享者是“人”,而非浏览器本身,对信息的抽取应该从浏览器给人的视觉分块出发,提出了一种基于CSS视觉分块的Web碎片信息抽取算法。首先对Web信息抽取的技术进行分析,其次基于CSS视觉分块的Web碎片信息抽取算法,然后通过实验对提出的算法进行验证与分析,最后对算法进行总结。

1Web信息抽取技术

Web信息抽取的目的就是便于检索或者数据挖掘,从松散的、半结构化的Html网页中抽取出有价值的、隐含的数据信息,并将其结构化存入数据库中。这一概念最早是由Gwiederhold提出的[1]。相应地,Web碎片信息抽取就可以引申为:从无结构或半结构的Web碎片信息网页制取出用户关心的、有价值的信息片段,并形成结构化数据的过程[2]。

目前,有很多研究者在研究Web信息抽取的技术,力求达到准确、高效的效果。纵观目前关于Web信息抽取的研究成果,不难发现,抽取的效果取决于是否能准确找出Web页面中的抽取规则,即抽取规则的生成。通常有基于统计理论的抽取技术、基于DOM树的抽取技术及基于归纳的抽取技术。

基于统计理论的抽取技术是一种传统的抽取方法,主要思想是通过统计网页标签所包含的信息量或链接文本与普通文本的比值来获取网页的主题信息。如孙承杰等人提出的通过获取网页中的标签的源码信息,去掉所有的HTML标签,对文本的长短进行统计,长度较大的就是主题信息[3]。如Gupta等人提出利用链接文本与普通文本的比值来确定页面中的正文分块,如果普通文本比例较大,则认为是所要抽取的目标文本,否则认为是噪声(如广告信息)[4]。可针对Web信息碎片的抽取,这种方法有其局限性,因为Web信息碎片所占的比重小,有可能会被当作噪声去掉,会直接影响抽取算法的召回率。

基于DOM树的抽取技术是通过DOM解析器将Web页面解析为Dom语法树[5],Dom语法树的本质就是在内存中构建XML语法树,它主要包括根元素(DocumentElement)与节点(Node),其中Node能反映出所有Web页面的所有结构信息,包括文本信息与属性信息,方便了对各节点的操作。基于DOM树的Web信息抽取算法在抽取时先获取HTML源码,再经过预处理,构造XML语法树,然后去噪,最后根据需求抽取信息。如刘军等人提出的基于DOM的网页主题信息的提取技术[6],那赫提出的基于DOM的Web主题信息提取系统的设计与实现[7]。

基于归纳的抽取技术是基于样本训练的模式,假设某网站具有信息公用模板,并且此模板下生成了大量的页面,然后对这些页面进行样本训练,寻找出网页的结构及文本特征的变化规律,从而获得页面之间相对稳定的相似结构特征,发生变化的只有文本特征。以此来归纳内网页的统一公用模板,并利用公用模板抽取出页面的信息。如石倩等人提出的基于规则归纳的信息抽取系统实现[8]。但基于归纳的抽取技术需要大量的相似页面作为训练的对象,不适应一些页面较少的网站。

2基于CSS视觉分块的Web碎片信息抽取算法

众所周知,HTML页面的编写具有很强的灵活性与随意性,不同的网页设计者可以按自己的方式设计页面,就导致了页面呈现出异构性,给信息的抽取带来了困难。但网页开发的目标是在浏览器上显示所设计的内容,把设计的视觉效果通过浏览器根据设计的CSS样式将其展现给用户,网页设计的目的给“人”看的,浏览器只是一种显示的手段。因此,在进行Web碎片信息抽取时,将CSS视觉分块引入信息抽取是必要的,因为CSS视觉分块是从“人”的角度出发的,不仅仅是浏览器。2003年微软亚洲研究院首先提出了将VIPS(aVision-basedPageSegmentationAlgorithm)[9]将视觉分块引入到了网页信息的分块之中,VIPS主要依靠计算分块的背景颜色、内容字体的大小及空白区域等视觉特征,根据HTML标签特征及相关规则计算Web页面的视觉分块。VIPS算法在某种程度上达到了Web页面视觉分块的要求,但算法本身所采用的启发式规则是基于HTML标签结构的。如果能将CSS视觉特征引入页面分块中,会更加符合网页设计的意图。

定义1CSS视觉块构成Web页面的基本单位,也是一个CSS盒子,如图1所示。其是一个矩形的视觉区域,由CSS盒子模型的高(height)、宽(width)、外边距(margin)、内边距(padding)、边框(border)及内容(content)构成。即:

CSS-V={height,width,margin,padding,border,content}

其中,content可以是CSS视觉块,也可以是文本内容,也可以为空。

定义2CSS页面视觉块BWeb页面本身就是一个CSS视觉块,由若干其他的CSS视觉块所构成。

定义3CSS普通文本视觉块T内容为文本信息的CSS视觉块。

定义4CSS链接文本视觉块A内容为文本信息且含有链接指向的CSS视觉块。

定义5空块N内容为空的CSS视觉块。

算法主要思想:对于Web碎片信息的抽取往往中关心上述几种视觉块信息,对于其他的块可以作为干扰噪声去掉。由此根据Web页面的DOM树(DocumentObjectModelTree),计算出CSS所有的CSS视觉块,去掉不属于{B,T,A}的视觉块,生成视觉块描述文件。如腾讯微博http:///xiangchengguan的视觉块描述文件如图2。常言道“物以类聚”,对于Web碎片信息所在块的识别,尽管信息较短,但它们是以“聚集”的方式出现的,所占用块的面积在整个页面视觉块中占有比率应不小于30%,同时它们的个数在整个页面中也是最多的。因此,需要对所有的CSS视觉块进行分类,分类采用统计的方法进行,即根据CSS-V中的height、width、margin、padding、border及content进行相似度计算,如果结果相同就可视为同一类CSS视觉块,如对图2所示的视觉块描述文件进行分类可得到表1所示的分类结果。

由表1可以计算出,视觉块个数最多为20,它占用的面积在整个页面中的比率最大,因此其必为Web碎片信息的视觉块。

抽取算法分为四步进行:

Step1计算出CSS所有的CSS视觉块;

Step2删除不属于{B,T,A}的视觉块,并生成描述视觉块的XML文件;

Step3统计分类结果,找出Web信息所在的CSS视觉块,并删除其他视觉块;

Step4对Web信息所在的CSS视觉块进行信息抽取,并将结果格式化后写入数据库。

3实验

为了验证算法的有效性,实验以随机选取的1000个Web碎片信息站点作为测试的数据集,分别对基于统计理论的抽取算法(Ext-ST)、基于DOM树的抽取算法(Ext-DOM)、基于归纳的抽取算法(Ext-I)与基于CSS视觉分块的Web碎片信息抽取算法(EXT-CSSV)进行对比测试。算法均采用C#语言实现,实现过程中通过微软的VisualStudio2008提供的WebBrowser控件调用IE内核,从而生成CSS视觉分块。实验中运行的硬件环境为Intel?Rentium?IIIXeonprocessor(2CPUS),2.6GHz。160G硬盘,内存为1GB。存储数据的数据库为Microsoftsqlserver2000,操作系统为MicrosoftWindowsXP。

实验中主要检测查准率与查全率两个指标。查准率为算法抽取到的Web碎片信息中准确的信息数与实际Web碎片信息数的比值。查全率为算法抽取的Web碎片信息数与应抽取的Web碎片信息数的比值。实验结果如表2所示。

为了进一步验证算法的效率,实验中分别采用随机选取500、1000、1500、2000、2500、3000、3500、4000、4500、5000个页面作为输入页面,各算法运行的对比结果以图3所示。

从表2可以看出,基于CSS视觉分块的Web碎片信息抽取算法的查准率为97.14%,查全率为96.87%,均比基于统计理论的抽取算法、基于DOM树的抽取算法及基于归纳的抽取算法要好。在时间效率上,从图3可以看出,随着输入页面数量的增多,基于CSS视觉分块的Web碎片信息抽取算法越占优势。

4结束语

从半结构化的Web页面中抽取出相关的Web碎片信息,可以作为相关研究工作获取数据的重要前提,可以为研究人员获取相关的Web碎片信息,例如对于Web舆论导向研究具有十分重要的意义。基于CSS视觉分块的Web碎片信息抽取算法从CSS视觉效果出发,不仅考虑到浏览器的因素,更重要的是考虑了网页设计的对象是“人”的因素,从用户所见的视觉效果的角度对Web页面进行分块,可以快速地寻找出碎片信息所在的块,方便了信息的抽取,在一定程序上提高了碎片信息抽取的准确性与效率。目前,基于CSS视觉分块的Web碎片信息抽取算法已经被用于贵州省优秀科技教育人才省长专项资金项目——基于信息碎片与移动网络的信息传播与舆论导向研究中,作为前期获取信息碎片的主要工具之一,并体现出了较强的实用价值。

参考文献:

[1]王贤.基于树结构的DeepWeb数据抽取研究[D].昆明,昆明理工大学,2007.

[2]詹沐清,朱颖.基于Web的信息抽取技术探讨[J].中国科技信息,2013(4):69-70.

[3]王贤.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.

[4]GUPTAS,KAISERG.DOM-basedcontentextractionofHTMLdocuments[C]//Procofthe12thWorldWideWebConference.NewYork:ACMPresses,2003:207-214.

[5]李文,郑邦习,邓武.基于XML和DOM技术的Web信息抽取模型[J].大连交通大学学报.2013,34(3):96-99.

[6]刘军,张净.基于DOM的网页主题信息的抽取[J].计算机应用与软件,2010,27(5):188-190.

[7]那赫.基于DOM的Web主题信息提取系统的设计与实现[J].计算机与网络,2010(7):30-31.

[8]石倩,陈荣,鲁明羽.提出的基于规则归纳的信息抽取系统实现[J].计算机工程与应用,2008,44(21):166-170.

计算机视觉的研究方向范文篇5

关键词:视觉技术;太阳视位置;算法

DOI:10.16640/ki.37-1222/t.2017.06.204

1引言

基于太阳能利用涉及的太阳位置算法的研究源于20世纪60年代。1969年的Copper算法、年的Spencer算法、1988年Michalsky提出的基于天文算法的太阳位置算法,以及2004年Reda提出的精度较高的SPA算法。这些算法均需计算出太阳视赤纬、当地太阳时角,并以此为变量,利用球面三角公式或矢量法计算太阳视位置的地平坐标(高度角、方位角)[1],算法复杂、计算量大,影响太阳位置时时准确地获取,不利于实现自动化跟踪控制。基于视觉技术的太阳视位置算法是借助视觉技术代替人眼通过采集地平坐标系下的影子图像,经图像处理分析后,建立太阳方位角和高度角的算法,从而确定太阳视位置。这样的研究是基于机器视觉技术的新的尝试,也是目前太阳能跟踪众多方法中尚未涉及的新领域。

2图像处理

视觉系统采集的图像,在形成、传输、接受和处理的整个过程中,由于受到噪声和图像特征衰减等方面的影响,会降低图像的质量。因此,对图像进行分析之前,必须先对图像进行处理,以便为后续图像分析处理等高层操作提供基础[2]。处理技术主要是对被处理图像进行灰度变换、平滑滤波、图像增强、几何变换、灰度均衡化处理[3],目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改善图像数据,提高特征抽取、图像分割、匹配和识别的可靠性。

2.1图像翻转

图像翻转是一种几何变换,可以将原图像绕着中心点翻转180度,只改变坐标不改变图像像素值。采集到的影子图像如图1(a)所示,处于倒置状态,不利于获取影子坐标系,因此在预处理前应当将图像翻转,如图1(b)所示。

2.2阀值分割

阈值分割就是确定一个阀值,把图像中每个像素点的灰度值与阀值进行比较,根据比较结果将像素分为前景和背景[4]。经过图像分割后,图像变成了二值图像,使后续图像轮廓的提取和分析就变得非常简单[5]。

研究中采集到的图像是灰度图像,图中的影子边界和坐标标量边界与背景有些模糊,但图像和背景的对比度比较高,产生的假边缘点少,因此通过阀值分割就能将图像与背景分割(见图2)。

图像阀值分割的关键技术是阀值的选取,常用的阈值选取方法有直方图谷底阀值法、迭代选择阀值法、最大熵法、最大类间方差法以及其它一些方法。用以上方法依次对图1(b)图像进行分割,所得结果如表1所示。经过数据和分割效果对比,迭代选择阀值法获取的阀值为最佳阀值。

2.3边缘检测

要想准确获取太阳高度角和方位角就需要准确检测出影子的像素长度、图像标准长度像素值和坐标方向。为了获取这些参数,采用了边缘检测算子。

检测步骤如下:

(1)对坐标方块的坐标位置(左方格的左上方坐标和右下方坐标、右方格的右上方坐标和左下方坐标)进行初始化;

(2)通过双重循环逐行逐列的扫描搜索获取四个坐标位置的真实坐标值;

(3)设计算法,构建东西方向向量,计算标准长度的像素值,并标出影子图像所在区域;

(4)在区域下方扫描搜索影子图像标出边缘点;

(5)设计算法,构建影子的方向向量,计算影子的像素长度。

3太阳方位角和高度角计算

经边缘检测,获取了坐标标量方块的四个坐标点和影子图像的两端边缘点,并已通过算法确定了东西方向向量、影子方向向量、标准长度的像素值和影子的像素长度值。通过GUI界面输入直杆的长度和坐标标定单位长度就可准确地计算出太阳方位角和高度角。

将基于视觉技术检测到太阳高度角和方位角与精度较高的SPA算法计算[6,7,8]的太阳高度角和方位角进行对比。

实验数据采集地点为北纬N39°37′2.67″、东经E109°48′50.29″;采集日期为2016年3月5日。

4结论

基于觉技术检测获取的太阳视位置精度高,采集原理可行性高,影子图像轮廓易于提取,图像前期处理所需步骤少,大大提高了算法处理速度,消除了以往太阳跟踪时间滞后和实时性低的不利影响[9]。

参考文献:

[1]杜春旭,王普,马重芳等.一种高精度太阳位置算法[J].新能源及工艺,2010(02):41-48.

[2]张春雪.图像的边缘检测方法研究[D].无锡:江南大学,2011.

[3]王东江,刘亚军.太阳自动跟踪控制系统的设计[J].数字技术与应用,2010(07):19-25.

[4]张铮,王艳平,薛桂香等.数字图像处理与机器视觉――VisualC++与Matlab实现[M].北京:人民邮电出版社,2010:361.

[5]徐平,邵定宏,魏楹等.最佳阀值分割和轮廓提取技术及其应用[J].计算机工程与设计.2009,30(02):437-439.

[6]张菲菲.关于日出日落方位的浅析[J].城市地理,2015:76.

[7]金卫东.揭开太阳方位角的神秘面纱[J].求学,2015(05):53-54.

[8]王国安,米鸿涛,邓天宏等.太阳高度角和日出日落时刻太阳方位角一年变化范围的计算[J].气象与环境科学,2007(30):161-164.

[9]李平阳.基于图像处理的太阳质心位置检测算法研究[D].太阳科技大学,2013.

计算机视觉的研究方向范文篇6

关键词:智能视频监控;目标跟踪;运动分割;图像标定

中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)35-8499-03

1概述

在人类的活动所涉及的各种信息中,以视觉信息所占是比重最大。人类主要依靠视觉系统来形成记忆。计算机视觉系统便是模拟人类视觉系统的某些功能,用摄像机和电脑代替人眼对目标进行识别、跟踪、测量,实现计算机对三维景物世界的理解。计算机视觉是计算机科学和人工智能的一个分支,目前既是工程领域也是科学领域里一个极富有挑战性的研究项目,它的实现,将给相关重要应用领域,如制造业、医疗诊断、检验以及军事领域中的智能、自主系统等,带来质的改变。近三十年来,计算机视觉技术已经取得了突飞猛进的进展,它的巨大应用前景将使得这种发展势头继续保持相当长的时期。

计算机视觉是通过运用各种成像系统代替人的视觉器官实现成像输入的,再由计算机来代替大脑完成对视频图像的分析和处理。目前有两种技术途径可以实现计算机的智能视觉效果,一个是仿生学方法,另一个是工程方法。仿生学是从分析人类视觉入手,通过对人类视觉成因原理的了解,参考人类视觉建立一个计算模型,用计算机系统将所有的过程和结果一一重现。由于这种技术方法目前还有许多难题需要破解,进展十分缓慢,因此更多的考虑采用工程方法。工程方法脱离了人类视觉系统的种种条框,从另一个角度寻找各种可行的技术方法实现计算机的视觉功能。

对于人类来讲,视觉系统虽然是获取信息的途径中占比最大的,但是,其他获取信息的通道也是必不可少的。在人类的智能系统中,感知行为是通过各个通道分别获取信息,然后汇集起来,使人类获得一个全面的感知。每个通道所获取的信息对于事物的理解或许是不全面的,但是,将所有的信息通道所获取的信息进行总和后却是可以得到一个相对完整的认识的。以前所研究的比较初级的人工智能系统就犯了以偏概全的毛病,希望通过独立运行一个完美的功能子系统就能获取所有的信息。为了达到这样一个目的,不得不去人为施加种种约束条件,或者造一些脱离实际的理想数据,结果可想而知。我们在研究计算机视觉系统的可行性方法的时候,也要认识到计算机视觉只是人工智能的一部分,它的功能是不能够孤立实现的,必须结合不同的应用背景,与不同的感知通道相互配合,综合达到智能视觉监控系统的目的。例如,计算机视觉系统运用在通信中,应与语言通道想配合;在发现和跟踪目标的应用中就要注意和激光和超声波等非视觉技术配合等。目前,关于计算机视觉的理论还不是太完善,但是相关的应用已经先行一步,该文对计算机视觉系统方面的实际运用方面进行了研究。

2计算机智能视频健康概述

2.1计算机智能视频监控研究现状

计算机视频监控是通过计算机视觉和图像处理来完成对目标的一系列监控目的,比如运动检测、运动目标跟踪、目标分类以及目标行为的描述与理解等。将这些监控目的进一步划分,其中运动目标的类与跟踪、运动检测是近年来视频监控领域里研究较多的项目,也是属于视觉处理中低级和中级的部分;而高级部分是行为的描述和理解,这也是业内近年来较多受到关注的研究热点,它代表了监控行业未来的发展方向,也是信息产业的未来发展趋势。由于它巨大的应用前景,产业界、学术界和各级管理部门都对它给予了高度重视,其中蕴藏着的巨大商机和所带来的经济效益更为人们津津乐道。

人们可以运用计算机智能视频监控系统对拍录到的图像序列进行自动分析,它特有的计算机视觉和视频分析技术可以自动完成这个过程,不需要人为进行过多干预。这样,就可以在很大程度上解决“他们正在做什么”、“他们将会做什么”的问题,而后,人们通过进一步的决策推理过程对“我们可以采取什么问题”的疑问给出答案。目前,社会上发起的平安城市等大型项目已经给智能视觉系统的应用提供了可供借鉴的方向,同时,还可以扩展到人流量统计、监控偷油行为、入侵行为等,这些需要用到智能识别系统的项目都使得人们逐渐对计算机智能视频监控系统重视起来。

2.2计算机智能视频监控系统与运动目标检测技术

目标的运动检测是一项相当困难的工作,这是因为背景图像中往往还存在一些动态变化的影响,如影子、光照、遮挡、混乱干扰以及天气等。这些因素的干扰使得人们很难将运动变化的区域从背景图像中提取出来。直接影响了对目标的分类、跟踪和行为理解等后期处理。目前,常用了运动目标检测技术有背景减除、时间差分、Rosenblum等。

2.3计算机智能视频监控与运动目标跟踪技术

2.3.1运动分割

动态环境中捕捉到的运动目标图像大多受到各种不确定因素的影响,如影子、物体之间或者与环境之间的遮挡、摄像机的运动、光照条件的变化等,这些都给准确有效的运动分割带来困难。但是,快速准确的运动分割是一个相当重要的环节。就拿影子的干扰来说,若是影子与与检测目标分离,容易引起误会,将影子误认为是场景中的目标;若是影子与目标相连,则会扭曲了目标的形状,使得基于形状的目标识别方法不再可靠。目前主要采用的是背景减除法,这种方法的适用范围有限。人们目前还没有找到对于任何复杂环境中的动态变化均有适应性的处理模型。研究者们试着运用时空统计的方法构建自适应的背景模型,也许对于那些不受限于环境的运动分割而言是个好方法。

2.3.2目标跟踪的分类

2.3.2.1根据目标跟踪与目标检测的时间关系可分为三类

一是先检测后跟踪,而是先跟踪后检测,三是边检测边跟踪。

2.3.2.2根据目标跟踪的所采取的策略来分,有3D和2D两种

3D的方法是在一个由基于坐标系构筑的三维立体世界内进目标进行跟踪,2D则是在一个二维平面内对目标进行锁定跟踪。2D的方法所需处理的数据较少,跟踪操作速度较快,但是,对于遮挡问题无能为力。

2.3.3跟踪方法细分

2.3.3.1基于特征的跟踪方法

不管是刚体运动还是非刚体运动,在一序列图像中,相邻的两帧图像中,由于采样时间间隔十分短,在视觉上差别微小,可以认为是这些个体特征在形式上具有平滑性。

2.3.3.2基于主动轮廓的跟踪方法

用参数表示轮廓线,运用目标的边缘特征提供运动方式、物体形状之外的其他目标信息。

2.3.3.3基于运动估计的跟踪方法

运用运动估计技术对目标进行分割和跟踪是一种常用的做法。

2.4图像标定

由目标在图像坐标系下的坐标来求得在世界坐标系下的坐标,称之为图像标定。通常是根据摄像机的内外参数来实现的,简称为摄像机标定。这种方法中,需要注意的是摄像机所得到的图像投影容易受到几何形变的影响,这样在建模的时候,导致精度不够。像平面与所拍摄的物平面上的两条平行线,在图像上就可能是两条相交的直线。一个匀速运动人,想要在图像坐标系下计算出其速度。但是,在近距离拍摄时,测得的速度快,远距离拍摄的时候,测出的速度慢。在进行目标跟踪之前,对目标进行良好的图像标定,可以使目标的动态特性建模效果更加精确。

2.5计算机智能视频监控技术难点

数字化、智能化是视频监控系统的未来发展趋势。目前,视频监控系统系统智能化还需面对许多问题,这些问题大多源于计算机视觉技术方面。

2.5.1从实际情况来看

视频监控系统需要面对一个十分复杂且不断变化的应用环境,这给计算机视觉技术的应用带来了更高的要求,要求能够自动、连续地工作,才能将目标从复杂环境下的分离、结构出来,从而进一步完成其他分析工作。

2.5.2其次,运动目标本身具有多样性的特征

如何使这些目标摆脱客观环境的限制,将目标的变化区域从背景图像中提取出来,从而目标进行运动分析、分类,尤其是对非刚性目标运动进行跟踪、行为理解还是相当困难的,这也是智能视频监控系统领域里近年来研究的重点。

2.5.3若是监控的范围扩大,就需要大量的摄像机进行协同工作

但是,实现多台摄像机对运动目标连续、一致的视觉分析还非容易之事。

2.5.4目前该领域内还产生了建立视频数据库的想法

系统通过这样的方法实现海量视频信息的存储、检索和查询,这方面也是近年来研究的热点,目前还处于起步阶段。距离视频监控系统的智能化目标还有相当长的路要走。

2.6计算机智能视频监控应用前景展望

2.6.1人数统计

在许多人流量大的地方都有人流量统计的需求,如火车站、广场等。这时候目标以人头为基本计算单位,对人头的检测和跟踪是主要技术要求。实际上这种检测轮廓非常重要。

2.6.2车流量统计

在许多路口,交通部门对车流量也需要有个大概统计,许多地方的车流量可以通过其他检测手段检测,视频图像是最快和较为准确的一种方式。

2.6.3遗留物检测

自911事件发生以来,全球对于公共安全的意识日益重视,各国纷纷采取多种措施防范恐怖主义袭击,例如加强出入口管制、随身行李检查、增加警备人员数目、追踪可疑人士的行径等。其中,监控系统扮演了非常重要的角色,特别是在车站、机场、大型商场等人口密集的地区,一旦发生炸弹引爆等恶意袭击事件,后果不堪设想。为了及早防范,监控系统需要采用具备遗留物侦测的智能分析系统,对可疑滞留物品实行及时通报和处理。另外,遗留物侦测也可以用来解决自动提款机(ATM)的安全问题。部份不法份子会在ATM加设卡片阅读机或贴上误导性信息,达到骗取钱财的目的,设置遗留物侦测系统可以及时发现这些非法架设的物品。遗留物侦测还可以用于侦测遗规泊车的情形,结合车牌辨识系统更可达到全自动的智能化执法。一旦发现禁止停车区域有车辆停留,便会触发遗留物警报讯号,并启动车牌辨识器记录违规停泊车辆的车牌号码,大大降低交通执法人员的工作量和运作成本。

2.6.4遗失物检测

在博物馆或公共展览厅贵重物品失窃的情形时有发生,单纯依靠录像做事后处理的消极性做法往往不能解决问题,如果在物品遭窃的瞬间就能马上发现对于防范事件有相当重要的作用。遗失物侦测的作用是可以侦测到画面上物品被移走或是偷走的情形,及时发出警报,同时也能自动分辨出对象属于遗留物还是遗失物。但这类检测对同色物体的分辨分析运算能力有很高的要求,同时对硬件的配套布置也有很严格的要求。

当摄影机被移动或是画面被遮蔽时会造成场景变化,侦测器便可以根据这种情况判断摄影机异常并发出警报。这种应用更加广泛。通产的移动检测都属于此范畴。

在实际应用场景中,日光对监控的影响较大,一般要避免逆光。

3结束语

综上所述,目标跟踪有非常广泛的应用市场需求,我国还处于起步阶段,研发出具有自主知识产权的、稳定可靠、技术先进、节约成本等特点的智能监控系统,可以有效填补国内空白。随着技术的成熟,硬件的推陈出新,应用产品的大幅降价,使得应用范围不断扩大,将来这方面会有更好的前景,使之成为一个能带动相关产业集体发展的一个新型产业。

3.1对经济发展的作用

良好的市场前景会促进企业在该产业的科技力量投入,有力促进了智能监控技术革新,使得企业进入了经济发展的快车道,同时带动了电子产业及相关企业的技术革新及经济发展。形成技术革新与资金的一个良性循环。

3.2对社会发展的作用

增加了对地方经济和就业需求的拉动。产业链的形成,强化实施企业之间的横向经济联合和技术协作,通过企业间技术平台上的横向协作,在特色产业基地内形成合力,打造一条新型的产业链。

3.3对人才培养推动作用

企业的相关类技术人员之间不断的合作交流,大大提高了企业相关类技术人才一个质的飞跃。达到技术推介和人才培养的目的,为国内,特别是经济发达地区今后在电子科研技术领域的进一步发展奠定人才技术的基础。

参考文献:

计算机视觉的研究方向范文1篇7

关键词:计算机视觉分析;微小尺寸;精密校正;阈值;图像分割

中图分类号:TP274.4

计算机视觉分析理论是基于精密模式识别和人工智能程序化校验技能进行综合整编的方法,利用光学信息对真实物理结构的实时反映,配合人机协调手段进行二维图像的呈现。在工件表面进行质量检测和图片制备要素分析的系统环节中,阐述物体在空间环境之间的关系样式,争取三维场景的科学搭建。集合要素内容包括边缘、线条和曲面的配备,建立以工业部件为中心的坐标体系,并适当运用不同符号表现模式实现必要三维结构和空间关系的调整,促进精密仪器细节检验工作质量的不断提高。

1计算机视觉检测技术的相关理论研究

1.1技术原理分析

渗透性计算机辅助支持结构的视觉鉴定技术在被测实体中的图像显示支持功能基础形势上进行质量状况的把控,这其实就是根据既定的偏差标准实现规模物件的逐个排查。细致的检测工作在深度零件的诱导性特征和完整性配件的支持下,对整体完好效果的几何制备模型进行测量[1]。近阶段的视觉规范系统利用电耦合器件和摄像机进行主题元素的捕捉,并利用计算机内部程序的数字信号转化工具实现图像的并行处理。采用目标图像的特殊坐标记录,利用灰度分布图内的多种综合功能处理系统改善的要务。常规视觉下的检测过程相对比较繁琐,主要是将被检测物体放置于照明效果相对均匀的可控制背景环境中,联结CCD技术和图像卡实现被测部件和数字图像的共性要素融合,保证计算机自动化处理程序的录入。当然,这类研究系统是需要利用相关软体进行放大的,其主要必备功能就是进行图像的预处理、识别和有效分析,将整个过程内部的实际结果数值,包括被测部件的自身缺陷、尺寸等进行整理。

1.2计算机视觉微小尺寸精密检测工业应用技术的现状

在科学设计信息内容和工业加工制备要领集成化对待的环节中,通常不会直接进行部件表面的接触,一般运用计算机程序下的扫描认知和图像即时呈现功能进行快速的比对检测,整体信号抗干扰能力较强,因此在现代工业生产技术领域内部广受好评。电子工业是在建立计算机视觉分析工艺之后表现最为活跃的行业类型,在此基础上衍生的印刷电板路和集成电路芯片就是利用标准模型的整改,实现规模工序的紧密排列。目前,时下流行的汽车生产、纺织、商品包装等也逐渐向这类手段靠拢,全面改善了现代化工业制备的应用效果。

2应用视觉微小尺寸分析技术内部拓展机能的补充

灰度图像的主要分割方法包括灰度阈值校正、边缘检测制备等手段。

2.1灰度阈值校正

这是区域分割方法中一种常见的手段,主要配合多个或单个阈值将图像自身的灰度级别划分为几个项目组,对相同像素的单位数据进行整编。根据实效范围进行分类,包括局部和全局阈值探究两种手段,全局规模下的阈值分析方法就是利用整幅图的灰度直方分布图进行内部最优阈值分割,包括单阈值和多阈值两种形式;同时还可以将初始分析的图像进行子元素的拆解,之后利用单个子图像的既定阈值范围进行最优化分割[2]。分割的基本原理公式为:

其中,合理阈值的选取是非常重要的,目前阈值确定的手段主要包括直方图双峰对照法和最大类间方差累积法等。这种利用灰度阈值实现精准质量的划分手段,计算执行工作相对比较简单,并且实际工作效率水平较高,即便是实际需要分割的物体与图像背景对比深度较强也可以收放自如,但唯一的缺点就是缺少对空间信息的掌控,涉及亮度不足的图像问题,这种阈值分割技术的施工质量往往不会太高。

2.2边缘检测制备工序

图像内部元素的分割其实就是进行部件边界效益的提取,而边缘检测制备工序则是利用像元及邻域的整体状态进行物体边界相关结构的搭建。边缘检测分割制备技术具体包括并行和串行两种模式,并行手法是运用梯度信息的提取实现不同类别算子的整理;串行边界分割原理则是根据适当强度标准和相似走向的两个边缘端点位置实现连接,主要代表算法包括启发式智能搜索手段等。这种串行算法较并行边界积累统计原则来说具有更强的抗干扰能力,但实际的边缘检测同样不能完好地维持连续效果,需要利用其余技术内容进行边缘制备技巧的修复。

(1)原始图像(2)Robert算子边缘检测(3)Sobel算子边缘检测

(4)Prewitt算子边缘检测(5)Kirsch算子边缘检测(6)Gauss-Laplace算子检测

图1微小双联齿轮边缘检测

3视觉检测系统的创新性改进

根据以上现状问题,创新式视觉整改校验系统利用照明光源、摄像机和图像采集卡等结构实现计算机输出结果质量的补充。其主要运行过程如下:利用被测部件在均匀照明背景的全面优化控制基础,实现物体结构的全面清晰呈现,使用摄像机对相关图像信号进行梳理并转化为电荷信号,配合相关的图像资源采集卡进行部件数字化图像的格式转化;计算机内部软体操作程序将得到的数字图像进行处理和识别,并将最终结果数据输出,实现现代工业技术整体质量规模控制的既定要求。

系统硬件在实现部件转化图像信息的环节中,连接检测机理下的连续软件规划和照明光源等相关设备进行图像适当分辨率的调整,维持图像较为清晰的对比效果。全面控制获取数字图像的时间,抵抗不良因素的干扰影响,维持内部成本经济规模的合理控制,促进科技应用和可持续发展经济战略双重价值标准的同步进展。其中,光源设备的选择必须落实到部件既定的几何形状条件下,利用相关性能参数进行实际工作要求的提供,包括光源位置、亮度、寿命特性等因素的堆积,常用的可见光源包括水银灯、荧光灯等,但这类光源使用寿命有限,因此现下多配用LED光源进行快捷反应、小功耗标准的补充,并且长期使用后的照明效果比较稳定[3]。而摄像机等结构主要还是校正参数的表达方式,进行图像合理分辨率的整改,促进图像采集数字化协调功能的发展,提高系统工作速度等。

4结束语

计算机视觉检测系统在进行一定部件性能评比的活动中有着很高的贡献,不仅配合硬件的照明、参数制备要领制备功能,同时促进数字化图像对比的速度,使得工业生产环节中的部件检查工序得到大范围整改,满足可持续发展战略规模的视觉意义,促进现代智能化分析处理技术的全面覆盖。

参考文献:

[1]陆春梅.基于数字图像处理技术的接杆激光环焊焊缝视觉检测系统研究[D].上海交通大学,2008.

[2]罗敏.基于机器视觉的黑片缺陷检测图像边缘提取算法研究[D].沈阳理工大学,2010.

计算机视觉的研究方向范文篇8

关键词:全景视觉图像拼接折反射全景成像

中图分类号:G264文献标识码:A文章编号:1674-098X(2014)08(b)-0247-02

全景视觉是指一次获得大于半球视场(360°×180°)的三维空间的全部视觉信息[1]。与视场不够的传统的视觉环境感知系统明显不同,全景视觉可获得更大的视场、更全面的信息,在军用领域,与模式识别技术相结合,能够提供全局多目标信息以进行精准打击,提供丰富的视频图像信息以支持战场指挥决策;在民用领域,与计算机视觉技术相结合,能够为公安视频监控、智能交通和自然环境监测等起到积极作用。

1全景成像的主要方法

在民用和军事领域的很多场合,需要同时观察大范围视场,以全面掌握环境信息。为高效获取全局信息,对监控场景中的运动目标进行定位、跟踪和识别,学者们提出了许多方法来获取全方位的视觉信息,主要应用的有以下几种。

(1)复眼技术+图像拼接。

使用多部摄像机同时从不同角度拍摄(即复眼技术),将捕获的图像进行拼接,组成一幅全局的图像。多摄像机的精确安装,以及多幅图像的无缝拼接是实现复眼技术的瓶颈。因此,一般应用在景物较少的场合,如视频会议和电视转播等。

(2)普通视觉传感器+旋转云台。

在云台上固定一个普通摄像机,通过云台的旋转获得实际场景旋转方向的全方位视觉信息,这种方法虽然安装简单、成本低、易于实现,但受到云台旋转速度的限制,所获得的图像存在延时,不适于快速移动目标的视觉信息获取。

(3)“鱼眼”成像技术。

按照鱼眼成像原理制造的鱼眼镜头视角很大,在170~230°,但画面边缘的直线都被弯曲,只有通过中心部分的直线能够保持原来的直线状态。鱼眼镜头的多重透镜组合结构以及鱼眼成像的畸变。由于成像原理复杂,价格也非常昂贵,因此目前应用多限于艺术摄影。

(4)利用凸面反射镜+普通视觉传感器。

采用特殊加工的反射镜将周围景物反射至摄像机一次成像,瞬间获取整个场景信息。这种成像方式可提供大视场成像,虽然图像也存在畸变,但由于成像原理相对简单,价格低廉,易于变换为人眼视觉成像,目前是全景视觉信息获取的最佳方式。

2基于图像拼接的全景视觉

图像拼接是指将两幅或两幅以上相邻图像间具有相同部分景物的图像进行无缝拼合,得到大视角的、高分辨图像或全景图像。图像拼接一般流程为:图像采集、图像预处理、图像变换、图像配准和图像融合。首先,待拼接图像要有30%~50%的重叠区域。然后,对图像的失真和变形等状况进行预处理,提高图像质量以保证拼接顺利。待拼接图像是在不同角度下拍摄,为保持实际景物的空间约束关系,须将图像统一投影到同一坐标系上。最后,提取特征信息,利用特征信息进行图像配准,将两幅图像变换到同一坐标系,对图像重叠区域进行融合,得到拼接图。图像配准和融合是图像拼接的两个关键技术[2]。

2.1图像配准

图像配准是根据两幅图像间重叠区域的信息,寻找一种或一系列空间变换,根据找到的变换参数将两幅图像变换到相同的坐标系中,通过配准使得两幅图像对应点达到空间位置上的完全一致。图像配准算法可分成如下几类。

(1)直接处理图像像素。

一般用于卫星拍摄的固定视角图像上,由于卫星的特殊运行方式,使所捕获图像尺寸都相同,且各图像之间不存在旋转,一般只有朝某一个方向的位移,因此可根据各图像之间的拍摄时间差,来确定图像的位移,从而将全部的图像拼接成一幅全景图。

(2)对频域进行操作。

一般用于存在旋转、位移和缩放的两幅相关图像之间的配准。对两幅图像进行傅里叶变换,再用两幅图像的互相关系数作傅立叶逆变换,从而获得其绝对值,并在某个点的邻域内获得相类似脉冲的极值,而在其它的区域均为零值。

(3)运用高级特征。

首先,用角点检测算子提取特征点;然后,用特征点邻域灰度互相关法,对特征点进行匹配,得到伪匹配集合,用随机样本一致(Ransac)算法,将该集合划分为内点和外点;接着,运用L-M算法,在内点域估算图像之间的点变换关系。

国内外都有相应图像配准算法的研究。杜威等提出一种应用于动态场景的全景图表示方法[3],将视频纹理和全景图结合起来构造动态全景图。侯舒维等为提高图像拼接的精度和速度,提出一种图像快速自动拼接算法[4],采用简单的边缘信息闭值法提取基准特征块,采用金字塔式分层搜索策略搜索。Shmuel等提出自适应的图像拼接模型[5],根据相机的不同运动,自适应选择拼接模型,把图像分成狭条进行多重投影来完成图像拼接。

2.2图像融合

图像融合是用函数对两幅图像重叠区域的像素进行融合,使得重叠区域灰度过渡自然,没有明显的接缝,按融合的流程可以分为三个类别:

(1)像素级图像融合。Achalakul提出一种谱屏蔽比例萎缩相结合(PCT)算法来融合超谱图像,并用PCT算法实现对CCD成像装置的图像分布式实时融合[6];Tseng提出一种用整数Wavelets变换和主成分分析(PCA)算法,将低分辨的多谱图像与全彩色的图像进行融合,以生成高分辨、多光谱图像。

(2)特征级图像融合。主要包括聚类分析法、信息熵法、加权平均法、NeuralNetworks法、Dempster-Shafer推理法、表决法和Bayes估计法等。

(3)决策级图像融合。常用方法包括Bayes估计法、NeuralNetworks法、模糊聚类法和专家系统等。由于输入为各种特征信息,而结果为决策描述,因此决策级图像融合的数据量最小,抗干扰能力强。

3折反射全景视觉

根据反射镜的类型,分为凸面反射和凹面反射。为获得更大的视场信息,通常采用凸面反射镜。折反射全景成像系统利用折射和反射光学元件扩大视场,主要由三部分组成:(1)光敏元件,如CCD器件;(2)成像透镜,如常规成像透镜或远心透镜;(3)凸面反射镜,其面形为二次曲面,如球面、圆锥面、双曲面和抛物面,或高次旋转对称非球面,如图1所示。

折反射全景成像系统具有大于半球空间的视场、系统设计的柔性好、成本较低等优点,近来年发展较快,已应用于如监控、视频会议、机器人导航等需要大视场的场合。根据是否满足单视点成像约束,折反射全景成像系统分为单视点成像系统和非单视点成像系统。

3.1单视点折反射全景视觉

单视点成像指光线在进入成像系统时交于一点。监控场景的3D重构应用要求获得透视图像,需根据单视点约束来设计系统,以确保其成像符合单视点模型。Nayar等设计了抛物面折反射全景成像系统,这是首个比较理想的、符合针孔模型的折反射全景成像系统,由抛物面反射镜和远心透镜构成[7]。这个系统成像质量较好,且结构紧凑,但远心透镜成本较高。还有学者设计了双曲面折反射全景成像系统,使用了透视投影成像模型,由双曲面反射镜和成像透镜组成。因为透视成像透镜成本低,使得双曲面折反射全景成像系统更加的实用。

3.2非单视点折反射全景视觉

单视点折反射全景视觉必须对所采集的图像进行逆投影,来获得透视全景图像,因此计算量非常大。为满足实时应用需求,非单视点折反射全景成像直接获取近似透视全景图像[8],使场景中的物点坐标与成像平面内像点坐标成线性关系,实现全景成像的水平场景和柱面场景空间无畸变。也出现了角放大率不变和分辨率不变的折反射全景成像系统。要确保水平场景无畸变,就要使场景中物点的水平坐标与相应像点的坐标成线性关系,而场景中物点的垂直方向坐标与相应像点的坐标成线性关系就能确保柱面场景无畸变。

4全景视觉技术的研究方向

全景视觉技术作为光学、计算机视觉、电子、模式识别等的交叉学科,要将目前的理论研究的成果应用到实践中去,时机还不成熟,还要解决很多基础理论问题和关键技术问题,比如实时图像拼接、自动图像拼接、彩色图像拼接、3-D立体图像拼接、全景图像的无损解算理论算法、全景视觉目标探测与识别理论与方法等。

5结语

全景视觉技术具有广阔的应用前景,越来越受到了国内外的广泛关注,其研究主要集中在基于图像拼接和折反射的全景视觉。该文介绍了图像拼接的特点,对图像配准和融合算法作了概述,分析图像拼接算法的研究动向。对单视点和非单视点折反射全景视觉技术的优缺点进行了详细分析,概述近年来全景视觉技术的研究状况,最后分析全景视觉技术的研究动向。折反射全景成像系统由于没有扫描部件,无拼接直接获得360°的大视场,越来越受到重视,将会得到更为广泛的应用。

参考文献

[1]S.K.NayarandA.Karmarkar.360×360mosaics.Proc.IEEEConf.ComputerVisionandPatternRecognition,June2000:388-395.

[2]余宏生,金伟其.数字图像拼接方法研究进展[J].红外技术,2009,31(6):348-353.

[3]杜威,李华.一种用于动态场景的全景表示方法[J].计算机学报,2002,25(9):968-975.

[4]侯舒维,郭宝龙.一种图像自动拼接的快速算法[J].计算机工程,2005,31(24):70-72.

[5]S.Peleg,B.Rousso,A.Rav-Acha,A.Zomet.Mosaicingonadaptivemanifolds[J].IEEETransactionsonPatternAnalysisandMachineIntelligence.2000,22(10):1144-1154.

[6]T.Achalakul,P.Haaland,S.Taylor.MathWeb:aconcurrentimageanalysistoolsuiteformulti-spectraldatafusion.Proc.SensorFusion:Architectures,Algorithms,andApplicationsIII,April1999:351-358.

计算机视觉的研究方向范文篇9

关键词:视觉导航;移动机器人;图像处理

中图分类号:TP242文献标识码:A文章编号:1009-3044(2008)09-11705-01

RobotVisionNavigation'sSummarize

WULin

(LiaoningFinaceVocationalCollegeInformationTechnologyDepartment,Shenyang110122,China)

Abstract:Navigation'stechniqueisthecoreofmobilerobot.Mobilerobothasmanynavigationmethods.Thisthesismakeaanalysisandcontrastamongallkindsofnavigationmethods,itgivesthatbecauseofthedevelopmentofvisiontheoryandmethod,andcomparetolaser,radarandultrasonic,visionnavigationhasmanyadvantages,sovisionnavigationareadoptedinmanyfields.Mobilerobotprocessesthepictureintheprocessofnavigation,thebadofreal-timealwaysisaverytoughproblem.Thekeyofsolvingthisproblembasedondesigningakindoffastpicturetreatmentmethod.

Keywords:visionnavigation;mobilerobot;picturetreatment

移动机器人是一种在复杂的环境下工作的具有自规划、自组织、自适应能力的机器人。移动机器人集人工智能、智能控制、信息处理、图像处理、模式识别、检测与转换等专业技术为一体,跨计算机、自动控制、模式识别、智能控制等多学科,成为当前智能机器人研究的热点之一。

在移动机器人的运动过程中始终要解决的是自身的导航与定位问题,相关技术研究中,导航技术可以说是其核心技术,也是其实现真正的智能化和完全的自主移动的关键技术。也就是DurrantWhyte提出的三个问题:(1)“我现在何处?”;(2)“我要往何处去?”;(3)“要如何到该处去?”[1]其中问题(1)是移动机器人导航系统中的定位及跟踪问题,问题(2)、(3)是移动机器人导航系统中路径规划问题。导航研究的目标就是没有人的干预下使机器人有目的地移动并完成特定任务,进行特定操作。机器人通过装配的信息获取手段,获得外部环境信息,实现自我定位,判定自身状态,规划并执行下一步的动作。

移动机器人的导航方式分为:基于环境信息的地图模型匹配导航;基于各种导航信号的路标导航、视觉导航和味觉导航等[2]。

环境地图模型匹配导航是机器人通过自身的各种传感器,探测周围环境,利用感知到的局部环境信息进行局部地图构造,并与其内部事先存储的完整地图进行匹配。如两模型相互匹配,机器人可确定自身的位置,并根据预先规划的一条全局路线,采用路径跟踪和避障技术,实现导航。它涉及环境地图模型建造和模型匹配两大问题。

路标导航是事先将环境中的一些特殊景物作为路标,机器人在知道这些路标在环境中的坐标、形状等特征的前提下,通过对路标的探测来确定自身的位置。同时将全局路线分解成为路标与路标间的片段,不断地对路标探测来完成导航。根据路标的不同,可分为人工路标导航和自然路标导航。人工路标导航是机器人通过对人为放置的特殊标志的识别实现导航,虽然比较容易实现,但它人为地改变了机器人工作的环境。自然路标导航不改变工作环境,是机器人通过对工作环境中的自然特征的识别完成导航,但路标探测的稳定性和鲁棒性是研究的主要问题[3]。

视觉导航,计算机视觉具有信息量丰富,智能化水平高等优点,近年来广泛应用于移动机器人的自主导航。视觉导航方式具有信号探测范围广,获取信息完整等优点,是移动机器人导航的一个主要发展方向[4]。目前国内外主要采用在移动机器人上安装车载摄像机的基于局部视觉的导航方式,如文献[4]中所提及的:D.L.Boley等研制的移动机器人利用车载摄像机和较少的传感器通过识别路标进行导航;A.Ohya等利用车载摄像机和超声波传感器研究了基于视觉导航系统中的避碰问题等。视觉导航中边缘锐化、特征提取等图像处理方法计算量大且实时性较差,解决该问题的关键在于设计一种快速的图像处理方法或采取组合导航方式[4-5]。

味觉导航是通过机器人配备的化学传感器感知气味的浓度,根据气味的浓度和气流的方向来控制机器人的运动。由于气味传感器具有灵敏度高、响应速度快以及鲁棒性好等优点,近年来许多研究人员在气味导航技术上做了许多研究工作。但该项技术能够真正应用到实际环境中的却很少,仍处于试验研究阶段。FigaroEngineeringInc.公司研制的氧化锡气味传感器,被广泛用于气味导航试验。石英晶体微平衡气味传感器、导电聚合物气味传感器和一种模仿哺乳动物鼻子功能的电子鼻等用于移动机器人味觉导航的传感器都处于试验阶段。目前的味觉导航试验多采用将机器人起始点和目标点之间用特殊的化学药品,如酒精和樟脑丸等,引导出一条无碰气味路径,机器人根据不同的道路跟踪算法,用气味传感器感知气味的浓淡和气味源的方向进行机器人导航试验。味觉导航的研究具有很好的研究价值,该种移动机器人可用来寻找化学药品泄露源。

由于计算机视觉理论及算法的发展,又由于和激光、雷达和超声在导航方面相比,视觉导航具有以下几个优点:首先,即使在丢弃了绝大部分的视觉信息后,所剩下的关于周围环境的信息仍然比激光雷达和超声更多更精确;其次,激光雷达和超声的原理都是通过主动发射脉冲和接受反射脉冲来测距的,因此当多个机器人同时工作时,相互之间可能产生干扰,而视觉由于是被动测量,因此多个机器人相互之间的干扰可以减少到最小;最后,激光雷达和超声数据的采样周期一般比摄像机长,不能及时对高速运动的机器人提供信息并作出规划,因此视觉传感器被大量地采用。目前移动机器人的导航大都采用基于视觉或有视觉参与的导航技术。最近二十年来,在未知或部分未知环境中,基于自然路标导航与定位技术的研究;视觉导航中路标的识别以及图像处理的新型快速算法的研究成为了计算机视觉的主要研究方向。

视觉导航主要完成障碍物和路标的探测及识别。国内外应用最多的是在机器人上安装车载摄像机的基于局部视觉的导航方式。P.I.Corke等对有车载摄像机的移动机器人视觉闭环系统的研究表明,这种控制方法可以提高路径跟踪精度。从视觉图像中识别道路是影响移动机器人导航性能的一个最重要因素。对于一般的图像边沿抽取而言,已有了许多方法,例如,局部数据的梯度法和二阶微分法。Trahanias利用视觉探测路标来完成机器人的导航。其中路标不是预先定义的人工路标,而是在学习阶段自动提取的自然路标。在视觉导航中边缘锐化、特征提取等图像处理方法的计算量大,移动机器人是在运动中对图像进行处理,实时性差始终是一个非常棘手的问题。解决该问题的关键在于设计一种快速图像处理方法。为了满足速度的要求,基于统计计算的预值法被应用于机器人的导航,但在实际应用中发现,它抑制噪声的能力差,特别是预值的选取极大地依赖于环境,要想获得理想的结果,仅在一幅图像中的不同区域就要设置不同的预值。近些年,由于人工智能的发展,有很多好的算法被应用到移动机器人的视觉导航中去。比如,根据导航图像的特点采用边缘提取结合HOUGH变换的方法和带滤波窗的区域扫描的方法,经过检验,这两种算法都具有较好的实时性,对于直线形态的各类导航线以及对于已知半径的弧形导航线具有较高的可靠性,以上算法目前对于分支较多的直线形态的导航线以及未知半径的弧形导航线的效果不佳,这是今后努力的方向。

Stanley还提出了基于神经网络的机器人视觉导航技术。该技术中估算逆雅可比矩阵,并将图像特征的变化与机器人的位置变化对应起来,通过神经网络训练来近似特征雅可比矩阵的逆阵。该技术,通过提取几何特征、平均压缩、向量量化和主成分提取来简化图像处理,实现实时视觉导航。

综上所述,移动机器人是在运动中对图像进行处理,实时性差始终是一个非常棘手的问题。解决该问题的关键在于设计一种快速图像处理方法。将室内地面作为机器人视觉导航的路标。依据地面的颜色信息,将地面上没有障碍物的区域识别并分割出来,机器人在可行走区域内行走,这样就可以实现机器人的自主导航。利用环境中地面的颜色特征,采用比较简单的图像处理算法分割彩色图像,经实验证明可提高机器人导航的实时性、准确性和鲁棒性。

参考文献:

[1]郭戈,胡征峰,董江辉.移动机器人导航与定位技术[J].微计算机信息,2003,19(8):10-11.

[2]吕永刚,谢存禧.移动机器人的导航与路径规划的研究[J].机电工程技术,2004,33(1):19-21.

[3]KennethDHarrisa.Absolutelocalizationforamobilerobotusingplacecells[J].RoboticsandAutonomousSystem,1997,(22):393-406.

计算机视觉的研究方向范文篇10

关键词:计算机图形图像设计;视觉传达设计;关系研究

中图分类号:TP391.41

将计算机技术应用到图形图像设计领域发起于上世纪80年代的欧美国家,并且随着计算机科技的快速发展,电脑制图对许多人来说不再是一件新鲜事,计算机制图技术得到广泛普及与应用[1]。正所谓“过犹不及”,长时间以来人们过度关注计算机制图技术,甚至完全将其当做一种工具,从而导致图形图像设计基本原则被忽视,致使计算机设计的图形图像缺乏艺术创新型,难以满足人类的视觉要求[2]。对此,相关学者开始尝试将计算机图形设计与视觉传达设计结合起来,并取得显著成效。本文即在此背景下展开研究,具体结果如下:

1基本概念分析

要想了解计算机图像图形设计与视觉传达设计之间的关系,我们需要了解两者的基本概念,具体如下:

1.1计算机图形图像设计的概念

所谓计算机图形图像设计,顾名思义,是指利用计算机技术设计制作图形图像的过程。计算机图形图像技术是随计算机技术发展而兴起的新技术,相比于传统的图形图像设计工作,它极大的解放了设计家的双手,有效减少了设计家双手的劳动,促使其有更多的时间和精力思考新的创意灵感。

另外,相比于手工制图,计算机软件更为精密,同时设计软件所提供的色彩、线条更为丰富,从而使制图者有更多选择余地。同时,相比于传统制图,计算机制图不需要长时间的美术基础训练,并且随着技术的发展,操作更加简单,适合初学者使用。

1.2视觉传达设计

1.2.1传达。在分析视觉传达设计前,我们需要先搞清楚什么是传达?传达是事物之间的一种共通现象,广泛存在于人类、自然界生物、机械等事物之间[3]。相比于其他事物之间的传达,人类之间的传达需要借助各种符号,因此我们可以将人类传达分为语言传达与非语言传达[4]。

语言传达,顾名思义,是指人类通过语言符号传递信息的现象,由于语言是人类最开始也是最常用的沟通方式,因此常被人类用来传达抽象概念。非语言传达是指语言传达之外的人类所采用的传达信息的方式,非语言传达主要通过视觉与听觉传递信息,而其中涉及范围最广的是视觉传达。

1.2.2视觉传达设计。视觉传达设计是指需要通过视觉传达各种信息的设计。例如:人们通过视觉观察绘画作品的大小、形状、色泽等可以得到作者想要表达的信息,并且画家通过改变以上因素就可以传达出不同的信息。视觉传达设计的内容为:各种标志、文字、图形以及符号等;传达媒体为:电视、广播、杂志、报纸以及网络平台等;传达面向的群体为:社会中不同身份的受众。

2计算机图形图像设计与视觉传达设计的异同点分析

2.1两者不同点分析

虽然有关计算机图形图像设计与视觉传达设计结合的研究方兴未艾,但是从根本上来说,两者之间存在较多的不同点。我们只有准确把握两者的差距,才能够更好的将两者融合起来。总结来看,两者之间的不同点主要存在于历史背景、设计任务、培训方法、创作方法等几个方面。

2.1.1两者的历史背景不同。如前文所说,计算机图形图像设计是随着计算机技术的发展而兴起的,因此该技术形成并兴起于上世纪末与本世纪初。而且进入新世纪后,随着计算机运行速度、存储容量、结构以及网络通信的完善,计算机图形图形设计进入了全新的发展时期,基本实现了与打印机、多媒体、绘图仪等设备的组合使用,从而使得计算机图形图像设计的范围得到拓展,逐渐从二维领域进入到三维领域。

相比于计算机图形图像设计,视觉传达设计的出现较早,其形成于上世纪40年代,第二次世界大战之后。此时人类社会迎来一个发展的新高峰,商品经济流通速度越来越快、流通范围越来越广。尤其是广告业的快速发展使得绘画与广告紧密的结合在一起,从而改变了传统的传达方法,使得视觉传达方式在人类社会中的地位越来越重要。此时,人类对视觉传达的需要促使了视觉传达设计的兴起与发展。

2.1.2两者设计任务不同。从设计作品的特性来看,计算机图形图像设计的作品主要是立体的、三维的以及动态的,因此其设计任务就是将原本的平面、二维、静止等作品转变成为立体、三维、动态作品。

而视觉传达设计的作品主要是通过视觉传达向受众传递作者想要表达的信息,因此作品的形式并不固定,只要能准确表达信息即可。因此,视觉传达设计的任务主要是树立形象、传递思想、说服受众,同时视觉传达设计还肩负着传递艺术美感的任务。

2.1.3两者培训方法不同。计算机图形图像设计是依靠计算机技术进行的工作,因此初学者掌握相关的计算机软件技术十分必要。因此,图形图像设计的培训方法主要是训练初学者了解并熟练使用计算机平面图形软件、三维软件,掌握排版印刷、视频编辑等技术。另外,训练初学者掌握一定的作品设计知识也是图形图像设计的主要任务。

由于世界传达设计的主要任务是向受众传达信息、传递美感,因此视觉传达设计工作需要用到广告学、美术学、传播学、设计学等多种知识。因此,在对初学者进行视觉传达设计培训时,要想初学者灌输工艺美术史、广告通论、设计史等学科的理论知识[5];同时,还要训练出初学者掌握广告设计、产品包装、装帧等必要技能。

2.1.4两者创作方法不同。计算机图形图像设计的创作主要依赖于各种设计软件,因此设计师在创作时只要能够熟练掌握各种软件技术,合理搭配形体与色彩、装饰与视觉美、静与动、立体与空间,就能创作出一幅比较完美的作品。

视觉传达设计的创作还比较倾向于美术作品创作,因此在创作时设计师首先要从绘画技法的角度调整点、线、面、色彩、光线、形体等方面的关系,从而准确将自身思想融入到作品中,进而实现形和意、象征与象的结合。

2.2两者的相同点分析

计算机图形图像设计与视觉传达设计最主要的共同点是:两者都属于艺术作品。因此,从这一角度来说,两者之间存在重叠的共同领域,例如:两者的教育培训都设计到了平面设计、色彩、素面等专业知识。

同时,两者都是运用文化符号与受众进行沟通并传递信息;并且,两种作品的设计都需要设计师进行创新思考,都必须要充满创意;另外,两者在进行创作时都需要考虑美术作品创作的各种要素以及创作原则。

3结束语

计算机图形图像设计与视觉传达设计的结合是未来的发展潮流,符合21实际的发展要求,能够充分体现计算机技术与艺术的完美结合[6]。而在分析两者基本概念的基础上,对两者的异同点进行探讨,可以为两者的应用结合提供理论参考,进而更好的推动二者的发展。

参考文献:

[1]张金龙.计算机图形图像设计与视觉传达设计研究[J].吉林广播电视大学学报,2013(01):117-118.

[2]袁志翔.计算机图形图像设计与视觉传达设计探微[J].现代装饰(理论),2013(02):173.

[3]邵玉兰,赵昕.关于计算机图形图像设计与视觉传达设计的分析[J].信息与电脑(理论版),2013(03):45-46.

[4]范丽萍.计算机图形图像设计与视觉传达设计[J].电脑编程技巧与维护,2012(04):83-84.

[5]龚良彩.计算机图形图像设计与视觉传达设计[J].计算机光盘软件与应用,2012(10):181.

计算机视觉的研究方向范文

关键词计算机视觉;摄像机定标方法;应用特点;线性关系;参照物

中图分类号:TP391文献标识码:A文章编号:1671—7597(2013)022-067-3

计算机视觉中的摄像机定标方法总得来说可以分为两类——传统的摄像机定标法和摄像机自定标法。为了能够使所获取的场景更加自然,计算机视觉系统可以通过运用摄像机定标方法,加之合理安排摄像机和计算机这两种成像装置,来对二维的图像信息进行虚拟空间的三维建模,进而控制整个摄像效果。这其中摄像及内部的一些参数起到了很大的作用,最初在计算机视觉中都是采用的传统摄像机定标方法,但是这种方法存在着一定的局限性。这种定标方法在摄像机随意运动和未知场景的安排下很难进行有效的标定。随着计算机视觉中的摄像机定标方法的不断进步和发展,以及摄像机自定标方法的诞生,使得这项技术逐渐获得了相对广泛的应用。

1计算机视觉中与摄像机定标解析

计算机视觉的基本任务是采集一定数量的图片或视频资料并进行处理,以此来获得相应场景环境下的的三维信息。而这些三维信息与图像、视频对应点的相互关系需要通过摄像机的几何模型来决定,经过计算分析得出这些几何模型参数的过程即为摄像机定标。如此看来,计算机视觉与摄像机定标的关系密不可分,目前可知,计算机视觉与摄像机定标的结合已经运用到相关领域,如高速公路上的车辆自主导航,部分医学图像的处理,电脑中脸孔或指纹识别等。但是由于所使用的目标人群相对较窄,以及摄像机定标方法的相对局限,使得计算机视觉的摄像机定标无法广泛的运用到各个行业领域。正因如此,才加大了对计算机中摄像机定标方法的研究的必要性。下面就来对摄像机定标的两种方法进行简要的探讨。

2传统的摄影机定标方法及应用特点

传统的摄像机定标方法主要是在相应的摄像机模型下面,通过对一系列的数学公式进行变换计算和改进优化,然后对标定的具体参照物进行科学的图像处理,最终来获取摄像机模型的主要外部参数和内部参数。但是,由于不同的标的参照物与不同的算法思路的限制,传统的摄像机定标方法也各不相同,其大致可分为以下三种:三维型——3D立体靶标定标法、平面型——2D平面靶标定标法以及以径向约束为基准的定标法。

2.1基于3D立体靶标的摄像机定标

这种基于3D立体靶标的摄像机定标方法就是在摄像机的前面安置一个具有3D效果的立体靶标装置,然后将靶标上面的任何一个点都拿出来作为i这个参照物的特征点。在计算机视觉系统的作用下,将每一个靶标上面的特征点在整个三维坐标系中进行精确的制作测定。与此同时,摄像机首先在拍摄过程中获取靶标上面的特征点影像信息,然后对平面图像坐标系和立体空间坐标系二者的内外部数据参数排列出非线性方程,找出方程中系数矩阵的非线性关系,最后通过数学算法中的线性变换法来对整个透视系数矩阵中的每一个元素进行求解。通常在这种定标方法的应用过程中,计算机视觉系统都会忽略摄相机镜头在拍摄时的非线性畸变,将透视变幻矩阵中的相关元素定义为未知数,继而在整个定标过程确定有效的三维控制点和相应的图像点。在装置3D立体靶标后,整个摄像机定标就能够根据靶标上特征点的图像坐标和世界坐标,在数学变幻算法的应用下,计算出摄像机的内部参数和外部参数。

这种3D立体靶标的摄像机定标方法不仅能够优化定标物的获取方法,而且能够适应程序功能的改进,并且较高的精度,因而得到了广泛的应用,但是这种定标方法通常比较繁琐。

2.2基于2D平面靶标的摄像机定标

基于2D平面靶标的摄像机定标方法在传统摄像机定标方法分类中属于一种新型的定标方法,又名张正友定标法。这种定标法具有灵活适用的特点,也是对传统摄像机定标方法的一种简化。在定标过程中首先是要在两个以上的不同方位对一个平面靶标进行摄相机拍摄,整个拍摄过程中2D平面靶标和摄相机镜头都能够自由地进行移动,而且要保持整个摄像机的内部参数一直固定。通常在基于2D平面靶标的摄像机定标法的应用中,我们都需要先假定这个靶标在三维空间坐标系中的竖轴为0,然后为了求出摄像机内外参数的优化解,要建立相应的线性模型,通过对线性模型的线性分析来计算出优化解,最后,运用最大似然法排列参数之间的非线性关系来求出其非线性解。在整个定标流程中,必须对摄像机的镜头畸变的目标函数进行综合考虑,才能够计算出摄像机的外部和内部参数。

这种方法既具有较高的精确性,又不需要很昂贵的定标成本,因此在计算机视觉系统中很为实用。但是,这种方法在进行整个摄像机内外参数的线性分析时,因为特征图像上面的直线在透视之后依然是直线,在进行图像处理的过程中,会引入一定的误差。因此,在很多具有广角镜头的摄像机定标上会出现因为镜头畸变而引起的较大误差。

2.3基于径向约束的摄像机定标

基于径向约束的摄像机定标就是通常所说的两步法标定方法。这种方法通常是先利用径向一致约束对超定性的线性方程进行最小二乘法求解,这样就能够将除了摄像机光轴方向平移外的其他的摄像机参数,然后对摄相机镜头存在和不存在透镜畸变的情况下分别进行其他摄像机参数的求解。这种方法的计算量较为适中,而且精度也比较高,适用于摄像机的精密测量。然而,两步法对于整个定标设备的要求也高,对于简单的摄像机标定而言不易采用。

总的来说,基于径向约束的摄像机定标的精准是通过设备的复杂和精确来获得的,因此具有针对性的应用特点。

3摄像机自定标方法及其应用特点

摄像机自定标方法是指在摄像机在移动时,周围环境中的图像会形成一定的对应关系,通过这种对应关系来对摄像机进行定标的方法,这种方法无需依赖参照物。摄像机自定标方法主要有以下四种:基于主动视觉的自定标法、基于Kruppa方程的自定标方法、分层逐步定标法以及基于二次曲面的自定标方法等。这些方法相较于传统的摄像机定标方法来说有了很大的改进和提高,下面就进行简要的探讨。

3.1基于主动视觉的自定标法

目前,在摄像机自定标方法中的应用最为普遍的方法便是基于主动视觉的自定标法。这种方法主要是能够通过对摄像机在移动过程中的对环境中的多幅图像进行标定,进而建立对应关系来求出标定参数,由此可见,整个标定过程不需要精密的标定物,如此一来就能够使得标定问题简单化。主动视觉系统是这种标定方法的核心技术,就是摄像机在拍摄过程中被固定在了一个能够得到精确控制的移动平台上,并且这个平台的相关参数能够通过计算机进行精确的读出,在整个拍摄过程中摄像机只需要通过一定的特殊运动来获取多幅图像信息,然后在结合摄像机运动的具体参数和图像的参数来确定整个摄像机的内部和外部参数,达到摄像机定标的效果。其中基于主动视觉的自定标法的代表方法就是马颂德提出的控制摄像机的两组三正交平移运动的标定方法。后来,李华、杨长江等人对这种方法进行了改进和优化,提出了基于四组平面正交和五组平面正交运动的标定方法,并能够利用获取图像中的机电信息来对摄像机的参数进行线性表定。

这种方法算法简便,能够获得整个参数的线性解,但是这种方法对整个摄像机的运动平台要求很高,因此要求必须具有精确控制的能力。

3.2基于Kruppa方程的自定标方法

基于Kruppa方程的自定标方法主要是在整个摄像机自定标过程中导入了Kruppa方程,并对该方程进行直接求解,从而得到整个摄像机的具体参数的方法。基于Kruppa方程的自定标方法在应用时利用了极线变幻和二次曲线像的概念对Kruppa进行推导,直接进行求解。

这种标定方法不需要对整个图像的序列进行射影重建,通常是对两个图像之间的信息建立一个方程,相较于逐步分层标定方法而言,基于Kruppa方程的自定标方法能够将某些很难做到所有图像整合到一个统一的射影框架中的情况更加具有优势,但是这种方法还是存在着一定的局限性,它无法保证在无穷远处的平面能够保持所有图像在确定的摄影平面中还具有一致性的效果。当整个摄像机拍摄的图像的序列较长的时候,基于Kruppa方程的自定标方法就显得很不稳定,继而不能够很好地算出整个摄像机的内外参数,对定标造成了一定的影响。

3.3分层逐步定标法

分层逐步定标法是摄像机自定标方法中的一个研究热点,在摄像机自定标的实际应用中以及逐步取代了可以直接求解的基于Kruppa方程的自定标方法。分层逐步定标法在应用过程中首先需要对整个拍摄的图像序列进行摄影重建,这点和基于Kruppa方程的自定标方法一样,然后利用绝对二次曲面加以约束,最后在确定出无穷远处平面方程中的仿射参数以及摄像机内部的参数。分层逐步定标法的应用特点是必须建立在射影定标的基础之上,利用某一幅图形作为特征基准点进行射影对其,将整个摄像机自定标的未知数的数量减少,再运用数学算法中的非线性优化算法来进行未知数的求解。

这种方法的不知自出就是在进行非线性优化算法时,初值是通过事前的预估得到的,不能够保证这个方程的收敛性。由于在射影重建时,选择的基准图像不同,整个摄像机自定标的结果也会存在差异。

3.4基于二次曲面的自定标方法

基于二次曲面的自定标方法和基于Kruppa方程的自定标方法在本质上答题一致,这两种方法都是利用了绝对二次曲面在欧式变幻算法的计算下维持的不变性进行的。最早将二次曲面的概念引入到计算机视觉系统中摄像机自定标方法的是Triggs,他在这种定标方法上作出了可行性的研究,最后形成了基于二次曲面的自定标方法。

在输入了多幅的图像并且在进行统一的射影重建的状态下,基于二次曲面的自定标方法会比基于Kruppa方程的自定标方法更加适用一些,原因就是基于二次曲面的自定标方法包含了绝对二次曲面和无穷远处平面的所有信息,进而能够办证整个图像在无穷远处平面的一致性。

4传统摄像机定标方法与自定标方法优缺点分析

从上文可知,对于传统摄像机定标方法应该取其精华,去其糟粕;对于摄像机自定标方法,在吸取传统摄像机定标方法的优点的同时,应该加强自身的精度要求。总而言之,两种摄像机定标方法各自存在利弊,如何改进才是正确的研究方向。

4.1传统的摄像机定标方法弊端

传统的摄像机定标方法通过实践证明,在理论上和实际运用上十分有用的,但仍有不少地方需要进一步改进,以下为它目前存在的问题所在:1)摄像机所拍摄的图像或视频存在一定噪声。在实际数据计算分析中,这种噪音无论大小,都会对内部参数的实际解造成大的干扰,并且使实际解与由约束关系所求得的解之间有着相当大的差异。因此,怎样才能够提高解的鲁棒性、减少解之间的差异性成为了传统摄像机定标亟待解决的1问题;2)线性模型所得的优化解并非全局的。由上可知,摄像机定标的实际过程便是获得实际参数的过程,即使用各种不同的优化计算方法,来获得相应的非线性方程的一组解,但实际上,以此所获得的优化解并非全局的。因此,如何变化或者提高线性方程的解答方法也很重要;3)摄像机定标参数的不确定性。一般来讲,摄像机定标参数的不确定性决定着计算参数的可信程度,同时,其对三维重建有着影响,进一步来讲,摄像机定标的不确定性也决定着约束关系的不确定性传播。因此,这个问题也需要深入进一步研究。

总之,传统摄像机的定标方法依然存在着许多无法忽视的弊端和需要解决的问题,深入研究并尽快解决这些问题,应该是传统摄像机的定标方法今后的大的研究方向。

4.2摄像机自定标方法相关问题

目前普遍认为,摄像机自定标方法实现随时随地的校准摄像机模型参数,与传统的摄像机定标方法相比显得更为灵活先进。摄像机自定标方法无需参照物,仅仅从图像或视频的相关点中得到它们之间的约束关系,从而通过相应的分析,计算出摄像机模型的参数.这种定标方法看似毫无缺点,但自定标的精度与传统的摄像机定标方法相比,还是存在者一定的缺点,以下便是对其缺点的归纳总结:部分摄像机自定标方法所求得的解不够稳定。例如:在图像或视频存在一定噪声的情况下,实际的解与理论的解有着相当差异,或者所求得的解并不唯一。因此,解的不稳定性和精度不够的情况,不仅是传统摄像机定标方法的缺点,也是自定标方法的一个问题,提高解的精度及稳定性,是自定标研究的一个重要方向。实际上,在现在的解决方案中,各种优化算法是最常用最普遍的方法,但是,在多解的情况下,优化算法也无法能够保证得出全局的最优解。由此看来,这个问题是计算机是绝种摄像机定标方法普遍存在的关键性问题。

5结束语

随着计算机视觉系统的不断发展,摄像机定标技术也呈现了进步的状态。综上所述,计算机视觉中的摄像机定标方法主要有传统的摄像机定标法和摄像机自定标法,对这两类的定标方法进行深入的研究能够为全面认识和了解摄像机定标方法起到很好的帮助作用。计算机视觉中的摄像机定标方法在今后的发展过程中应该得到更多的研究,但其所存在的不足和弊端也理应得到研究人员的重视。在这个多元化信息化的世界里,计算机视觉中的摄像机定标技术若能够根据现有的条件,适应如今的环境,选择合适的方法,对一些还存在局限性的环节取得更好地突破,则能够将整个定标技术提升一个高度。相信随着未来计算机视觉系统的不断扩展和不断完善,摄像机定标技术的应用范围也会越来越广阔。

参考文献

[1]宋雪峰,杨明,王宏.用于摄像机标定的网格状纹理的检测方法[A].2001年中国智能自动化会议论文集(下册)[C].2001.

[2]谭跃钢,吴正平.一种新的基于双目视模型的三维重建方法[A].中国仪器仪表学会第三届青年学术会议论文集(上)[C].2001.

[3]刘健勤,鲍光淑.面向数据采掘的自适应图象分割技术[A].中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C].1998.

[4]洪俊田,陶剑锋,李刚,桂预风,徐晓英.基于灰色关联的数字图像去噪研究[J].武汉理工大学学报(交通科学与工程版),2006,04.

[5]赵江涛,周仁斌,刘宝源.基于线结构激光三维扫描系统的摄像机标定方法研究[A].2010振动与噪声测试峰会论文集[C].2010.

[6]王鹏,王红平.基于网格图像的双线性插值畸变校正的方法研究[A].科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C].2008.

[7]程建璞,项辉宇,于修洪.基于OpenCV的视觉测量技术中摄像机标定方法[J].北京工商大学学报(自然科学版),2010,01.

[8]赵越,江南.一种基于3D矩形靶标的摄像机标定算法及其实现[A].第九届全国信息获取与处理学术会议论文集Ⅰ[C].2011.

计算机视觉的研究方向范文

关键词:视觉伺服;分类;分析

1视觉伺服系统的分类介绍

视觉伺服系统一般可以根据反馈、摄像头位置、视觉控制方式和摄像头数量的差异进行分类:

(1)与工业控制系统一样根据有无反馈可分为两类:开环体系和闭环体系。闭环体系这种视觉伺服系统的主要优点是,摄像头对机器人的标定不必非常精确,系统就可以控制机器人按照预先的规划进行运动。

(2)根据摄像头位置的不同来分类:一般摄像头在视觉伺服系统中被称为机器人的“眼睛”,而执行体系如机械卡爪等被称为机器人的“手”。另一种是摄像头安装在执行系统之外,通常叫为“眼在手外”。

(3)当使用闭环控制体系来控制机器人的运动状态时按照视觉控制方式的差异可以分为两类:一种为基于位置的视觉伺服系统,第二种为基于图像的视觉伺服系统:在该种视觉伺服体系中偏差的主要来源为图像,它是直接利用图像的特征来进行系统反馈的。图2为这种视觉伺服体系的工作原理图。

(4)按摄像头数目分类:不同的视觉伺服体系中安放的摄像头数量不同,所以对视觉伺服体系可以按照摄像头数量进行分类,当具有一个摄像头时称为单目系统,具有两个摄像头时称为双目系统,摄像头数量在两个以上时称为多目系统。

2视觉系统的研究现状

视觉系统的研究现状主要包括摄像头标定技术的研究现状,边缘检测技术的研究现状,特征提取算法的研究现状。

2.1摄像头标定技术研究现状

一般情况下,系统需要通过建立摄像头成像的几何模型来确定空间物体表面某点的笛卡尔空间坐标与其在图像中对应点之间的几何关系,这些几何模型的参数就是摄像头参数,而这些参数大多数是通^多次实验与计算才能够得到,这个求解参数的过程就称之为摄像头标定(或摄像机标定)。摄像头标定技术一般有以下三种方法:(1)一般标定方法。(2)主动视觉标定方法(3)自标定方法。

2.2边缘检测算法研究现状

边缘检测是视觉系统中数字图像处理与分析的基础内容,在图像处理中起着非常重要的作用,边缘检测算法的好坏直接影响图像处理的结果进而影响系统的精度与稳定性。综合已有的边缘检测技术,其算法主要有分为三类,第一种为微分算子方法。第二种方法为基于局部图像的方法。第三种方法为基于全局的边缘检测方法

现在,边缘检测的主要研究重点是寻找灰度值强度的非连续性、抑制噪声和保持边缘定位精度等三个内容。因此要求不同,采取的边缘检测方法也不相同,甚至会采用几种方法相互结合的手段进行检测。

2.3特征提取算法研究现状

图像的特征检测最基本的有直线检测、圆检测和椭圆检测等。

(1)直线检测研究现状。当前在直线检测领域,使用最为广泛的为霍夫算法和Randon算法。霍夫算法是霍夫在1962年提出的一种在直角坐标系下检测直线的方法通常称为霍夫变换,随后在1972年Duda改进了霍夫变换,通过极坐标系解决了图像的90度死角问题。

(2)圆检测算法研究现状。上述的这些直线检测算法主要针对的直线为直线的变量数减少的情况,但是对直线的变量数增加的情况,其检测效果就不是很明显。因此,在对圆进行检测时,就需要对霍夫算法进行改进,使其能够对变量增多的圆进行检测。

(3)椭圆检测算法研究现状。在检测椭圆图像的算法中,有两种算法应用最为广泛,一种为霍夫变换的改进算法聚类算法,这种算法主要是根据椭圆的几何性质,使其降维,再通过霍夫算法进行检测。屈稳太提出的基于弦中点霍夫变换,就是此类算法。首先是计算出对椭圆的切点方向,然后计算出椭圆的切线方程,最后确定椭圆的方程。另一种算法为最优化算法,例如最小二乘法以及遗传算法等。这些算法都是由下向上的检测算法,都是直接对图像数据进行检查。

3结束语

本文主要论述了视觉伺服系统分类和研究现状。首先介绍了视觉伺服系统的分类包括四种不同的分类方法,详细叙述了摄像头现阶段主流的的三种标定技术,边缘检测主流的三种检测算法,最后论述了直线、圆、椭圆等三种特征的提取算法。

参考文献

[1]杨楠.PUMA560机械臂视觉伺服系统设计[D].哈尔滨工业大学,2013.

[2]王鹏飞.基于RM-501机械臂视觉伺服系统的研究[D].哈尔滨工业大学,2009.

[3]王麟琨,徐德,谭民.机器人视觉伺服研究进展[J].机器人,2004,03:277-282.

  • 下一篇:学生参与的支部委员会议记录(整理13篇)
    上一篇:物业公司总经理年会发言稿(整理11篇)
    相关文章
    1. 三年个人工作总结范例(3篇)

      三年个人工作总结范文一、取得的成绩(一)学习方面。我坚持学无止境的人生信条,把学习放在首位,坚持从书本上学习,在工作实践中学习,向身边的领导、同事以及广大人民群众学习。1...

      daniel 0 2024-03-28 15:04:13

    2. 市场营销营销方案范例(12篇)

      市场营销营销方案范文关键词:产品市场营销方案功能设计1.市场营销的概念与作用市场营销就是在变化的市场环境中,旨在满足消费需要、实现企业目标的商务活动过程,包括市场调..

      daniel 0 2024-03-28 14:32:13

    3. 如何学好职高数学范例(12篇)

      如何学好职高数学范文关键词:职高学生职高数学分层教学合作学习就业导向职业高中与普通高中在数学课教学中有很大的区别。数学课在普通高中作为一门主科,学生基础较好,学习兴..

      daniel 0 2024-03-28 14:00:13

    4. 建筑施工企业质量管理体系范例(12

      建筑施工企业质量管理体系范文篇11建筑施工技术管理的重要性建筑施工技术管理在建筑施工的过程中发挥着重要的作用,保证建筑工程的质量就要做好建筑施工技术的管理工作,建筑..

      daniel 0 2024-03-28 13:28:13

    5. 高分子材料专业导论范例(12篇)

      高分子材料专业导论范文篇1关键词固体物理材料物理电子科学与技术教学改革中图分类号:G424文献标识码:ADOI:10.16400/ki.kjdks.2015.12.060CombiningwiththeProfessionalChara..

      daniel 0 2024-03-28 12:56:13

    6. 证券市场研究范例(12篇)

      证券市场研究范文篇1引言证券市场是经济发展到一定阶段的产物。它为企业拓展了融资渠道,为投资者提供投资场所,有利于实现社会资本高效利用,对我国经济发展起到重要作用。..

      daniel 0 2024-03-28 12:24:13

    7. 智慧课堂的目的和意义范例(12篇)

      智慧课堂的目的和意义范文篇1关键词:课堂教学;教学方法;教学智慧中图分类号:G622文献标识码:B文章编号:1002-7661(2014)12-207-01在新课程背景下,课堂情景是极为复杂的。教师在生成..

      daniel 0 2024-03-28 11:52:13

    8. 运动会作文范例(4篇)

      运动会作文范文篇1运动会正式开始,运动员个个摩拳擦掌,准备大显身手。你看,1500米运动员已经站在起跑线上,做着轻松的准备动作,随着发令枪响,运动员们像一支支离弦的箭飞驰在跑道..

      daniel 0 2024-03-28 11:20:13