学生文化基本特征(6篇)
学生文化基本特征篇1
真实网络流量包括大量特征属性,现有基于特征分析的异常流量检测方法无法满足高维特征分析要求。提出一种基于主成分分析和禁忌搜索(PCATS)的流量特征选择算法结合决策树分类的异常流量检测方法,通过PCATS对高维特征进行特征约减和近优特征子集选择,为决策树分类方法提供有效的低维特征属性,结合决策树分类精度和处理效率高的优点,采用半监督学习方式进行异常流量实时检测。实验表明,与传统异常检测方法相比,此方法具有更高的检测精度和更低的误检率,其检测性能受样本规模影响较小,且对未知异常可以进行有效检测。
关键词:异常检测;决策树;特征选择;主成分分析;禁忌搜索
0引言
随着网络技术的不断发展和普遍应用,互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生,严重威胁着网络的正常使用。因此如何及时有效地检测网络异常,保证安全的网络环境具有重要的意义。
网络流量异常检测方法主要包括两种:统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性,而检测精度较低,尤其对许多隐蔽攻击无法检测;机器学习方法基于流量特征进行分析检测,由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]:聚类方法具有无需事先样本的优点,但聚类误差导致检测精度较低;分类方法需要事先进行训练,通过训练模型进行检测,这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中,特征属性选择对分类精度具有重要影响[7],实际网络流量维数较高,高维数据无法应用于传统分类算法中,文献[8-10]分别采用支持向量机(SupportVectorMachine,SVM)、K最近邻(KNearestNeighbor,KNN)和C4.5算法进行分类检测时都采用低维特征,由于其对特征属性的选择不能较好表征网络流量,造成分类精度较低,影响了检测效果。文献[8]采用SVM方法进行异常分类检测,但SVM适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度,但基于“离线训练,在线检测”的机制下,由于KNN方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测,但C4.5根据信息增益率进行节点划分,由于增益值的不稳定导致分类误差较大。
基于此,本文提出了一种基于主成分分析和禁忌搜索(PrincipalComponentAnalysisandTabuSearch,PCATS)结合基于最短距离划分决策树(MinDistanceDecisionTree,MDDT)分类的异常流量检测方法,通过PCATS方法来减少高维特征空间冗余和选择最优特征子集,为分类检测提供低维和有效的流量属性,结合决策树检测实时性高的特点,该方法可以有效地进行网络流量异常实时检测。
1相关研究
1.1基于PCATS的特征选择方法
1.1.1主成分分析算法
主成分分析(PrincipalComponentAnalysis,PCA)是统计学中分析数据的一种有效方法,主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换,将一个数据维数较高且互相关联的数据集进行降维。通过PCA降维后,将原始空间转换为新的主成分空间,且各主成分互不相关。
假设含有N个样本的网络流量数据集X={x1,x2,…,xm}∈Rn,其中:Rn为特征空间,m为特征维数。求得变量空间Z={z1,z2,…,zk},满足k
在使用PCA进行分析时,由于数据中不同的变量往往有不同的量纲,会引起各变量取值的分散程度差异较大,从而影响计算精度。为了消除由于量纲的不同可能带来的影响,首先需要对变量进行标准化处理,然后利用PCA进行降维。
0引言
随着网络技术的不断发展和普遍应用,互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生,严重威胁着网络的正常使用。因此如何及时有效地检测网络异常,保证安全的网络环境具有重要的意义。
网络流量异常检测方法主要包括两种:统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性,而检测精度较低,尤其对许多隐蔽攻击无法检测;机器学习方法基于流量特征进行分析检测,由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]:聚类方法具有无需事先样本的优点,但聚类误差导致检测精度较低;分类方法需要事先进行训练,通过训练模型进行检测,这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中,特征属性选择对分类精度具有重要影响[7],实际网络流量维数较高,高维数据无法应用于传统分类算法中,文献[8-10]分别采用支持向量机(SupportVectorMachine,SVM)、K最近邻(KNearestNeighbor,KNN)和C4.5算法进行分类检测时都采用低维特征,由于其对特征属性的选择不能较好表征网络流量,造成分类精度较低,影响了检测效果。文献[8]采用SVM方法进行异常分类检测,但SVM适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度,但基于“离线训练,在线检测”的机制下,由于KNN方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测,但C4.5根据信息增益率进行节点划分,由于增益值的不稳定导致分类误差较大。
基于此,本文提出了一种基于主成分分析和禁忌搜索(PrincipalComponentAnalysisandTabuSearch,PCATS)结合基于最短距离划分决策树(MinDistanceDecisionTree,MDDT)分类的异常流量检测方法,通过PCATS方法来减少高维特征空间冗余和选择最优特征子集,为分类检测提供低维和有效的流量属性,结合决策树检测实时性高的特点,该方法可以有效地进行网络流量异常实时检测。
1相关研究
1.1基于PCATS的特征选择方法
1.1.1主成分分析算法
主成分分析(PrincipalComponentAnalysis,PCA)是统计学中分析数据的一种有效方法,主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换,将一个数据维数较高且互相关联的数据集进行降维。通过PCA降维后,将原始空间转换为新的主成分空间,且各主成分互不相关。
假设含有N个样本的网络流量数据集X={x1,x2,…,xm}∈Rn,其中:Rn为特征空间,m为特征维数。求得变量空间Z={z1,z2,…,zk},满足k
主成分分析通过选择贡献率较大的几个特征值λi对应的特征向量P作为主成分,达到降维的目的。特征贡献率如下式计算:
1.1.2禁忌搜索算法
禁忌搜索(TabuSearch,TS)算法是一种启发式全局寻优搜索方法,其通过标记已搜索局部最优解和避免迭代计算中重复搜索来获得全局最优解[11]。TS主要思想是:首先确定一个初始有效解z,对每个解z定义一个邻域Y(z),从当前解的邻域中确定若干的候选解,从中选出最佳候选解。选择最佳候选解是一个搜索过程,为了避免搜索过程限于循环,TS算法通过构造禁忌表和定义停止规则避免了搜索算法的局部最优。其中禁忌表存入前n次禁忌长度,避免了回到原先的解,从而提高了解空间的搜索能力;停止规则定义在若干迭代次数内最优解无法改进时,算法停止。另外禁忌搜索算法中涉及邻域、禁忌表、禁忌长度、特赦规则和初始解等都会直接影响搜索优化结果[12]。
基于禁忌搜索的特征选择是通过目标函数进行约束的最优化问题,合适的目标函数提高了搜索和最优特征选择的质量。一个好的特征解应在最少的特征数量上保证尽可能多的分类信息。在信息论理论中,一个属性的信息增益越大,其包含的信息量也越大,基于信息增益可以有效评估特征向量的分类信息,因此本文选择信息增益作为目标函数。定义目标函数如下:
禁忌搜索中初始解的选择对禁忌搜索的效果影响很大,在基于网络流量特征的最优特征选择中,由于实际网络流量特征维数较大,会影响禁忌搜索算法的效率,同时网络流量特征的冗余也对最优特征集的选择产生影响。因此禁忌搜索的初始解对搜索效率和质量具有重要影响。
1.1.3PCATS特征选择算法
特征选择是从特征集CT={c1,c2,…,cn}中选择一个子集CT′={c′1,c′2,…,c′n},c′≤c。其中:c为原始特征空间大小,c′为特性选择后新特征空间大小。即:通过从原始特征空间中选择部分有效特征组成新的低维特征空间,其本质为一个寻优过程。
网络流量特征属性空间的“维数灾难”严重降低了基于特征分析方法的效率,而这些特征中存在大量的冗余和弱特征属性,需要通过特征约减来去除冗余和弱属性,得到精简特征属性向量。PCATS方法通过PCA对高维特征向量进行有效降维,为禁忌搜索提供了低冗余和低维数的特征向量。结合禁忌搜索寻找近优特征子集的特点,提高了禁忌搜索的效率和精度。因此通过PCATS可以在高维特征空间中寻找最优特征子集。PCATS方法具体步骤如下:
步骤1禁忌表置空,设置初始化参数:禁忌长度LJ=13,最大迭代次数Dmax=600,最大改进次数max=100。
步骤2使用PCA对原始网络流量特征进行约减,得到约减特征集T={T1,T2,…,Tp},p为约减后特征集数量。
步骤3对特征集T进行二进制编码,得到初始解RinitN。
步骤4设置终止条件,当达到Dmax时,搜索停止;当通过max寻找最优解无改进时,停止搜索。
步骤5判断是否满足终止条件,如果满足终止条件,结束运算,输出最优特征子集;否则转到下一步。
步骤6初始解RinitN代入邻域结构计算邻域解,通过目标函数选择最佳候选解。
步骤7判断候选解是否满足特赦规则,如果满足,则更新禁忌表中最优解,转入步骤4;否则转到下一步。
步骤8计算候选解的禁忌属性,选择非禁忌对象的最优值替换禁忌表的最初值,转入步骤4。
步骤9结束,输出最优特征子集。
1.2C4.5决策树方法
决策树方法作为一种机器学习方法中的预测模型,代表对象属性和对象值之间的映射关系,它能从无规则的实例集合中归纳出一组采用树形结构表征的分类规则。常用的决策树方法包括:ID3算法、CART算法和C4.5算法等。与其他算法相比,C4.5决策树方法由于具有较高的处理效率和分类稳定性,适用于网络流量的实时分类[13]而在网络流量分类中广泛使用。
决策树创建中内部节点分枝的选择是关键,对于不同划分得到的决策树的性能不同,传统C4.5算法利用信息熵原理,选择信息增益最大的属性作为分类属性。定义样本集S的理想划分S={s1,s2,…,sn},则信息增益率为
C4.5方法采用信息增益率来确定节点的分枝,文献[14]分析了采用这种方法带来的问题:划分产生的分割信息很小时,增益的值不稳定。这种不稳定可能导致信息增益率很大或者为0,带来较大分类误差。本文采用最短距离划分方法来构建决策树,定义Mantaras范氏距离[15]为两个划分间的距离,采用与理想划分距离最近的属性作为当前节点的测试条件。
定义特征属性pi作为测试条件p得到的划分S′={s′1,s′2,…,s′m},则理想划分S和划分S′的Mantaras范氏距离为:
决策树训练中可能存在过度拟合,这会对新的数据集分类效果产生影响,因此要对初始决策树进行剪枝,从而得到一般的分类规则。本文利用训练数据集中剩余样本,采用悲观错误剪枝(PessimisticErrorPruning,PEP)算法对生产初始决策树进行剪枝,PEP算法对每棵子树只进行一次检查,具有较快的处理速度。且本方法不需要额外数据集,结合PEP算法可使本方法适用于样本较多数据集。
2基于特征分类的检测模型
基于特征分类的检测模型如图1所示。首先对网络流量进行提取特征和数据预处理,得到待检测特征向量。离线训练阶段首先需要对高维特征空间通过特征选择进行降维,得到最优特征子集形成训练集,分类训练利用分类算法MDDT得到正常和异常类别,分类训练结果对检测规则库更新实现异常检测。
图片
图1基于特征分类的检测模型
2.1数据预处理
网络流量提取的特征中,包含不同数据类型:名词型和数值型等,且不同特征量纲也不同,这种差异会影响分类精度,所以需要将样本的属性值转换为标准的取值空间。本文对于数值型样本属性进行归一化处理,而对于如协议类型、服务类型等名词型属性根据其每个取值在取值空间的出现频次进行标准化处理。归一化方法为:
首先计算样本中每个特征属性的均值和方差:
2.2特征选择
网络流量的统计特征指的是在报文(packet)和流(flow)的属性中,抽取和端口及协议无关的特征,如报文长度、报文到达间隔时间、报文数量、流的持续时间和流中报文个数等,这些统计特征用特征矢量来表示。如一条网络流F,基于该流的特征描述可表示为F={y1,y2,…,yn},其中yi代表特征的取值。流的特征集合可能包含多达几百个特征,通过特征选择寻找少量最优特征子集来近似描述流量对提高学习效率等具有重要意义。
在基于网络流量特征的流量分析中,一般情况下,特征数量越大,会产生更高的分析精度。但实际中,过大的特征空间会产生两个问题:1)巨大的特征空间不仅需占用更多的存储空间,而且增加了测量时间,难以应用于实时流量分析中;2)网络流量特征存在大量冗余和弱属性,这些属性不仅降低了分析精度,而且增加了算法处理的复杂度。本文采用PCATS算法,对网络流量初始特征经过PCA进行降维,大大减少了特征冗余和弱属性,给禁忌搜索算法提供了更优的初始解,通过禁忌搜索得到全局最优特征子集,为后续分类算法处理降低了处理时间。
基于特征选择的分类中,不同研究人员选取不同维度的特征向量,典型的选择维度包括37[7]、36[16]和22[17]等。这些特征主要包括流信息(时间、包个数、字节数),包内部时间信息,TCP/IP控制域信息,ACK数量,负载大小,五元组信息等。这些选取方案都是根据表征流量的常用特征如时间,长度信息进行选择,未考虑特征的贡献度及存在的冗余。
本文根据PCATS方法对高维流量特征向量进行最优特征子集选择,提取了22种网络流量特征作为分类训练集的特征库,与传统特征选择方法相比,去除了TCP/IP控制信息、ACK信息等对网络流量表征贡献度较低的特征信息。然而在网络流量表征中,五元组信息表征存在冗余[18],而基于信息熵的源/目的IP地址对异常流量的表征具有较大贡献度,因此本文采用22个特征属性结合归一化熵的源/目的IP作为最终24个特征属性。选择的特征属性向量如图2所示,其中横坐标为提取的特征属性,纵坐标为Moore数据集中每个特征属性在数据集中所占的比例。
图片
图2最优特征子集选择
2.3分类训练
分类方法按照其对标记数据的依赖关系可以分为完全监督学习、无监督学习和半监督学习。完全监督学习分类准确性相对较高,但其完全依赖标记数据样本,这种方法代价昂贵无法应用于实际分类中;无监督学习一般采用聚类算法,无需标记数据进行训练,但其分类准确性较低;而半监督学习通过引入少量标记样本进行训练,不仅提高了训练器性能,而且可以对未知类型进行分类,因此本文采用半监督学习进行分类。
分类算法的选择要求具有较高分类准确性,针对网络流量大样本数据特性能有效实现分类,并且对于分类算法的实时性具有较高要求。文献[5]比较了C4.5和贝叶斯分类器的性能,发现C4.5决策树算法测试时间最短,更适合实时流量识别。本文选择基于C4.5的改进算法进行异常检测分类基于两点考虑:1)与SVM算法对于小样本的机器学习相比,C4.5对任何样本规模都具有较好分类精度;2)C4.5的结构可以建立方便的规则库。
利用MDDT算法处理分类问题通常分为两步:首先通过训练集进行学习,得到分类模型,然后通过生成的分类模型对流量进行分类。为了满足实时流量分类要求,采用“离线训练,在线识别”机制,在离线构建分类模型中,根据网络流量动态变化进行主动学习,提高分类模型的寿命和分类算法的泛化能力。
3实验结果及分析
为了验证本文方法的有效性和可靠性,本章采用研究领域普遍使用并认可的数据集Moore和KDDCUP1999进行实验分析。在基于特征分类的异常检测中,分类的性能对检测效果有直接影响。采用Moore_Set对基于PCATS的分类方法性能进行验证,通过KDDCUP1999数据集对本文提出的异常检测方法性能进行分析。
3.1实验数据和环境
3.1.1KDDCUP1999数据集
为了评价本文算法对于异常检测的效果,选用Lincoln实验室的KDDCUP1999网络数据集进行实验。该数据集包括多种网络环境下的攻击异常,主要包括DoS、R2L、U2R和Probing四类。KDDCUP1999数据集包括大约4900000条记录,4种异常类别和正常类别(Normal)分别通过41个特征属性表征。
为了验证本方法的检测效果,将KDDCUP1999数据集进行提取,构建三个数据集进行测试。数据集1包括205684个正常流量数据和2648个攻击异常数据;数据集2对数据集1正常数据进行提取,包括120000个正常流量数据和2648个攻击异常数据;数据集3对数据集1正常数据进行少量抽取,包括10000个正常流量数据和2648个攻击异常数据。三种数据集具体介绍如表1所示。
其中R为特征贡献率阈值,特征维数m选择根据R来确定,一般选择R为85%~95%。
3.1.2实验环境及工具
本文采用的实验仿真硬件平台为普通PC,该主机配备操作系统为WindowsXPProfessionalSP3,具体配置:CPU为IntelCore21.86GHz;内存2GB。实验仿真软件工具采用Matlab2008和Weka3.6.8。
本文采用异常检测方法中通用检测指标:检测率(TruePositive,TP)和误报率(FalsePositive,FP)作为检测本方法的评价指标。其中分类算法通过准确率(precision)来表征,定义如下:
其中:Ntp表示类型为A的网络流量样本被分类模型正确分类的数量;Nfp为类型为非A的网络流量样本被分类模型分类为类型A的数量。
3.2实验结果及分析
3.2.1特征选择分析
学生文化基本特征篇2
行人再识别指的是在非重叠监控视频中,检索某个监控视频中出现的目标是否出现在其它的监控视频中.最近几年,行人再识别问题引起了广大科研人员的兴趣与研究.监控视频中的目标图像分辨率低、场景中存在着光照变化、视角变化、行人姿态变化以及摄像机自身属性的问题,导致同一目标在不同的监控视频中外观区别很大,使得行人再识别问题遇到了很大的挑战。为了有效的解决这些挑战,广大的研究者提出了很多解决方法.目前的行人再识别算法可以简单概括为四种:直接法、基于深度学习的方法、显著性学习的方法和间接法.
直接法利用视觉特征对行人建立一个鲁棒性和区分性的表示,不需要通过学习直接利用行人特征然后根据传统的相似性度量算法(欧式距离、巴氏距离等等)来度量行人之间的相似度.文献[1]首次提出了利用直方图特征来表征目标并通过度量直方图的相似度来识别不同的目标.文献[2]将行人图像粗略分为头部、上半身和下半身3部分,然后串联每一部分的颜色直方图对行人描述.文献[3]采用分割的技术提取人的前景,并利用行人区域的对称性和非对称性将人的前景划分成不同的区域.对于每个区域,提取带权重的颜色直方图特征、极大稳定颜色区域(maximallystablecolorregions)特征和重复度高的结构区域(recurrenthighlystructuredpatches)特征描述它们.文献[4]提出了一种结合gabor特征和协方差矩阵描述的BiCov描述子来对行人描述.文献[5]采用图案结构(pictorialstruc-ture)算法定位图像中人的各个部件所在的区域.对于每个部件的区域,提取与文献[3]类似的颜色直方图特征、极大稳定颜色区域特征来描述它们.文献[6]利用lbp特征和21个滤波器特征(8个gabor滤波器和13个schmid滤波器)来描述图像中的行人.文献[7]通过共生矩阵对行人的形状和外形特征进行描述.虽然直接法的算法模型简单,但由于在光照变化、视角变化以及姿态变化等情况下,同一个人的外观变化往往很大,很难提取出鲁棒性和区分性的特征描述.因此在光照变化、视角变化以及姿态变化等情况下,直接法的效果很差.
深度学来在计算机视觉中得到了广泛的应用,因此不少学者研究并提出了基于深度学习的行人再识别算法.文献[8]LiWei等人提出了一种六层的FPNN神经网络,它能有效解决行人再识别中出现的光照变化、姿态变化、遮挡和背景粘连等问题,从而提高了识别率.文献[9]Ahmed等人提出了一种深层卷积结构能够同时自动学习特征和相应的相似性测度函数.但基于深度学习的行人再识别算法需要非常大的训练数据库,导致训练时间长,此外还需要针对特定问题搭建相应的模型,因此不利于方法的推广.同时,深度学习方法中还存在调置参数缺乏理论性指导,具有较大主观性的问题.基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣.人们可以通过行人的一些显著信息来识别行人,但传统的方法在比较两张图片的相似性的时候,往往忽略了行人身上的显著性特征.对此,文献[10]赵瑞等人提出了一种通过学习行人图像的显著性信息来度量两张行人图像的相似性的方法.但显著性学习的行人再识别算法在行人姿态变化的情况下,显著性区域会出现偏移或者消失,导致识别效果较差.间接法主要是学习得到一个分类器或一个排序模型.间接法代表性的算法有距离测度学习、支持向量机、迁移学习和流形排序算法.距离测度学习算法作为间接法中的一种,最近几年在行人再识别中得到了广泛的应用.本文提出的算法也是基于距离测度学习,所以下面着重介绍基于距离测度学习的行人再识别算法.
与手动设计特征的直接法不同,距离测度学习方法是一种利用机器学习的算法得出两张行人图像的相似度度量函数,使相关的行人图像对的相似度尽可能高,不相关的行人图像对的相似度尽可能低的方法.代表性的测度学习算法有文献[11]郑伟诗等人把行人再识别问题当成距离学习问题,提出了一种基于概率相对距离的行人匹配模型,文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量两张行人图像的相似度,以及文献中提出的相应测度学习算法.距离测度算法是将原始特征空间投影到另一个更具区分性的特征空间.与其它的算法相比,距离测度学习算法具有更好的效果.距离测度学习算法即使只使用简单的颜色直方图作为特征,算法的性能往往优于其它算法.文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量行人对的相似度,但作者直接在原始特征空间训练得到测度矩阵,进而得到样本之间的相似性函数.原始特征空间的线性不可分性导致通过原始特征空间直接训练得到的测度矩阵不能很好的表征样本之间的相似性和差异性.本文提出基于核学习的方法,首先通过相应的核函数将原始特征空间投影到非线性空间,然后在非线性空间中学习得到相应的测度矩阵.投影后的非线性特征空间具有很好的可分性,这样学习得到的测度矩阵能准确的表征样本之间的相似性和差异性.另外,基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法,学习得到一个测度矩阵.然而这种特征融合往往忽略了不同属性特征之间的差别,这样学习得到的测度矩阵不能准确的表征样本之间的相似性与差异性.对此,本文提出在不同的特征空间中学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表征样本之间的相似性.本文算法在公共实验数据集上的实验效果优于目前主流的行人再识别算法,尤其是第一匹配率(Rank1).本文其余章节的组织安排如下.第1节介绍本文提出的行人再识别算法.第2节介绍本文算法在公共数据集上的实验.第三节总结全文以及展望.
1基于多特征子空间与核学习的行人再识别算法
1.1基于核学习的相似度量函数的学习文献[12]中提出了一种KISSME的算法,文中指出,从统计学角度考虑,一对有序行人对(i,j)的相似度可以表示为式。文献[12]中提出的算法是直接在原始线性特征空间中训练得到测度矩阵,进而得到表示样本之间相似性的相似度函数.由于原始特征空间的线性不可分,上述方法得到的测度矩阵不能准确表达样本之间的相似性和差异性,导致识别效果差.本文提出基于核学习的算法首先通过相应的核函数将原始特征空间投影到更易区分的非线性空间,然后在非线性空间中训练得到测度矩阵M.这样得到的测度矩阵具M有很好的区分性,能使同类样本之间的距离尽可能小,异类样本之间的距离尽可能大.核学习的主要思想是将原始线性特征空间投影到区分性好的非线性空间.原始特征空间中的特征xxi通过函数Φ投影到非线性空间,则非线性空间的特征表示为Φ(xxi).非线性映射函数一般是隐性函数,则很难得到显示表达式,可以利用核函数求解特征空间中样本点的内积来解决。
1.2基于多特征子空间的测度学习基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法得到测度矩阵.这种方法忽略了不同属性特征之间的差别,导致学习得到的测度矩阵不能准确的体现样本之间的相似性与差异性.对此,本文提出对于不同的特征空间单独学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表示样本之间的相似性.
1.3行人图像的特征表示本文采用颜色特征和LBP特征对行人目标进行描述,生成两种特征子空间.颜色空间有很多种,用不同的色彩空间描述一图片的效果是不同的.依据文献[20]和文献[21],本文采用的颜色特征从RGS、HSV、YCbCr和CIELab4种颜色空间中提取.RGS空间的定义为R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.为了获取具有鲁棒性和区分性的颜色特征表示,本文将上述四种颜色特征空间融合.融合后的颜色特征描述对于光照变化的场景具有良好的鲁棒性.图1给出了一张被平均分成6个水平条带的行人图像,对于每个水平条带的每种颜色空间的每个通道,提取16维的颜色直方图特征,将所有的颜色直方图特征串联形成行人图像的颜色特征,从而得到行人图像颜色特征的维数为1152维(4*6*3*16).原始特征空间的1152维特征经过核函数投影后的特征维度较高且大部分信息都是冗余的.因此实验中利用PCA将核空间中的特征维数降到保持大于90%的能量。为了更好的描述图像的局部信息,本文中提取的局部特征来自于LBP等价模式中邻域点数为8半径为1和邻域点数为16半径为2两种模式的特征.上面两种LBP等价模式的维度分别为59维和243维.类似于颜色特征的提取,一张行人图像被平均分成6个水平条带,对于每个水平条带提取LBP两种模式的特征,将所有的LBP特征串联形成行人图像的局部特征,从而得到行人图像局部特征的维数为1812维((59+243)*6).同理,原始特征空间的1812维特征经过核函数投影后的特征维度同样较高并且大部分信息也都是冗余的.因此实验中同样利用PCA将核空间的特征维度降到保持90%以上的能量.
1.4本文算法的具体操作步骤利用步骤3得到不同核空间中的测度矩阵计算样本在不同核空间的相似度,然后将样本在不同核空间中的相似度按照一定的权值结合来表示样本之间的相似性.
2实验测试与结果
本节首先介绍实验中所使用的测试数据和算法性能的评测准则,其次介绍本文算法在不同公共实验集上与已有的行人再识别算法的性能比较,然后在不同公共实验集上对比核映射前后的算法性能,最后在不同公共实验集上分析权值不同时对算法性能的影响.文中所有的实验是基于vs2010+opencv2.4.9实现的,实验平台是24G内存的Intel(R)Xeon(R)CPUE5506@2.13GHz(2处理器)PC台式机.
2.1测试数据和算法性能的评测准则为了与已有算法公正比较,实验中,采用先前工作普遍采用的评价框架.如文献[22]所述,随机选择p对行人图像对作为测试集,余下的行人图像对作为训练集.测试集由查询集和行人图像库两部分组成.每对行人图像,随机选择一张图像并入查询集,另一张则并入行人图像库.当给定一个行人再识别算法,衡量该算法在行人图像库中搜索待查询行人的能力来评测此算法的性能.为了测试算法在只有少量的训练样本时的性能,p分别取316,432,532进行实验.p取值越大,则测试样本越多(匹配越困难),训练样本越少(训练越困难).对于每组实验,以上产生测试集和训练集的过程重复10次,10次实验结果的平均值作为本组实验的结果.已有的行人再识别算法大部分采用累积匹配特性(CumulativeMatchCharacteristic,CMC)曲线评价算法性能.给定一个查询集和行人图像库,累积匹配特征曲线描述的是在行人图像库中搜索待查询的行人,前r个搜索结果中找到待查询人的比率.第1匹配率(r=1)很重要,因为它表示的是真正的识别能力.但是当r取值很小时,第r匹配率也很有现实意义.因为在实际应用中,反馈的前r个搜索结果中,可以通过人眼判断找到查询目标.
2.2不同公共实验集上实验对比本文算法选择在VIPeR[23]数据集、iLIDS[24]数据集、ETHZ[25]数据集和CUHK01[26]数据集上进行实验.VIPeR数据集中相关行人对来自两个不同的摄像机.相关行人对的外观由于姿态、视角、光照和背景的变化而差异大.iLIDS数据集包含119个行人的476张图像,每个行人的图像从两张到八张不等.iLIDS数据集是从机场收集的,数据集有严重遮挡和光照变化的问题.ETHZ数据集包含146个行人的8555张图像.数据集中的图像来自移动摄像机拍摄的三个视频序列.ETHZ数据集中的图像由同一摄像机拍摄,则数据集中行人姿态变化和视角变化的程度没有VIPeR数据集那么明显.为了使ETHZ数据集具有挑战性,实验中相关行人提取两张图像,一张近景和一张远景.远景图像含有大量无用的背景信息,使选用的数据集有明显的遮挡情况和光照变化.CUHK01数据集是由两个摄像机在校园环境中拍摄得到,包含971个行人的3884张图像.每个行人包含四张图像,前两张图像是摄像机拍摄的行人前后景图像,两张图像是摄像机拍摄的行人侧面图像.每个行人的前两张图像只是姿态上有稍许的变化,前两张图像与后两张图像在视角上、姿态上差异较大以及有明显的光照变化.实验中,每个行人前后景图像随机选择一张,侧面图像随机选择一张,这样得到的实验集具有显著的视角变化、姿态变化和光照变化.
2.2.1VIPeR数据集VIPeR数据集是由632对相关行人对图像组成.如图2所示,同一列中的行人图像为同一个人,为了对比本文算法基于不同核函数的实验效果,下表1给出了该算法基于不同核函数的实验对比.实验中测试样本集和训练样本集均为316对相关行人图像.VIPeR数据集上的其它实验,如果没明确表明测试样本集和训练样本集的个数,都默认有316对相关行人图像.从表1可知,本文算法基于RBF-χ2核函数的效果最优.为了充分体现算法的效果,在后面的实验效果对比中都是基于RBF-χ2核函数.下表2给出了该算法与当前主流算法的效果对比.从表2可知,该算法性能有较大的提升,尤其是Rank1,Rank1比表中最好的结果提高了约8(%).此外,该算法与表中的PCCA、rPCCA、kLFDA和MFA等算法都是基于RBF-χ2核函数;但该算法整体效果明显优于它们.值得一提的是,对于Rank1,该算法的效果相对主流的行人再识别算法有了显著的提高.第1匹配率很重要,因为它表示的是真正的识别能力.行人再识别技术一个典型的应用是刑事侦查;若Rank1越高,则在刑事侦查中,搜集与嫌疑人有关的线索的效率就会提高.为了充分说明本文算法的优越性,表3给出该算法在仅用HSV特征情况下与其它算法效果对比.由表3可知,该算法虽然只使用了HSV特征,但是效果比采用多特征的算法(SDALF、PS、RDC和KISSME)更好.KISSME融合了HSV、LAB和LBP等特征,Rank1仅有20(%);该算法只用HSV特征,Rank1就达到了28.4(%).另外,该算法与同样只使用HSV特征的算法(如ITML、Euclidean、NRDV和KRMCA等)相比,仍然优于它们.其中,ITML和Euclidean算法整体效果都比该算法差.NRDV算法虽然Rank1与该算法相近,但是Rank10和Rank20较低,且NRDV算法模型比该算法复杂得多.KRMCA算法效果总体上都不如该算法且KRMCA的代价函数收敛很慢,算法训练时间很长.当测试集规模为P=432和P=532时,该算法与已有行人再识别算法的性能比较如表4和表5.从表中可知,在只有少量的训练样本情况下,该算法性能同样优于已有算法.由此可见,该算法有效解决了学习相似度度量函数中出现的过拟合问题.
2.2.2iLIDS数据集iLIDS数据集中每个行人包含两张到八张照片不等.实验中,从每个行人所包含的图像中随机取两张作为实验集,最后得到的实验集为119对相关行人图像.最终实验效果是多次随机取得的实验集效果的平均值.数据集中的图像尺寸是不尽相同的,实验中统一把图像的尺寸设置为高128宽48.实验中训练集为59对行人图像,测试集为60对行人图像.本文算法在iLIDS数据集上与其它算法的效果对比如下。该算法与表中基于测度学习的算法PCCA、rPCCA、MFA和kLFDA都是基于RBF-χ2核函数.但从表6可知,该算法整体性能优于PCCA、rPCCA和MFA等算法;该算法虽然与kLFDA算法性能接近,但总体上还是优于kLFDA算法.由此可见,该算法比使用相同核函数的其它算法效果更好.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.
2.2.3ETHZ数据集数据集中的图像尺寸是不相同的,实验中统一把图像尺寸设置为高128宽48.实验中训练集为76对行人图片,测试集为70对行人图片.表7分析了本文算法在ETHZ数据集上与其它算法的效果对比.从表7可知,该算法在ETHZ数据集上的整体性能优于同样基于RBF-χ2核函数的PCCA、rPCCA、MFA和kLFDA等算法.在ETHZ数据集上,同样证明了该算法比使用相同核函数的其它算法效果更好.值得一提的是,该算法的rank1较于其它算法显著提升了.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.
2.2.4CUHK01数据集数据集中的图片的尺寸是不相同的,实验中统一把图片的尺寸设置为高128宽48大小.实验中训练集为486对行人图片,测试集为485对行人图片.本文算法在CUHK01数据集上与其它算法的效果对比如下表8:从表8可知,该算法在CUHK01数据集上的整体性能同样优于KISSME和SVMML算法以及基于测度学习的算法PCCA、LFDA、rPCCA、MFA和kLFDA.该算法与MidLevel算法效果接近,但MidLevel算法模型复杂.该算法与其它算法效果对比可知,该算法可以学习得到具有良好区分性的相似性度量函数.通过在CUHK01数据集上的效果对比,进一步说明该算法与使用相同核函数的其它算法相比效果更好.
2.3特征核映射前后算法性能的比较为了分析特征经过核映射后对算法的影响,表9、表10、表11和表12分别给出在四种数据集上特征经过核映射前后算法效果的对比实验.通过在四个公共数据集上实验对比可知,特征经过核映射后算法效果在VIPeR、iLIDS和CUHK01数据集上整体上都得到了显著的提升,在ETHZ数据集上虽然提高不明显,但还是优于已有算法.总的来说,该算法在特征经过核映射后,学习得到的相似度度量函数更具有区分性,能够得到较好的识别效果.
2.4权值a取值不同时算法的性能比较为了分析权值a对算法性能的影响,图3、图4、图5和图6分别给出在四种数据集上不同的权值a下,本文算法性能的对比实验.其中SC为颜色特征子空间的相似度函数,ST为LBP特征子空间的相似度函数.权值a越大,代表相似度函数中颜色特征子空间的相似度函数比重越大.通过在四种数据集上不同的权值a下算法性能的对比实验可知,a取值对算法效果的影响较大.当a取值很小时,算法效果不是很理想,当a增大时,算法性得到一定程度的提升,当a在0.5到0.7范围内取相应的值时,算法性能能达到最优,当a继续增大后,算法性能有一定程度的下降.
3结论
学生文化基本特征篇3
关键词:业务流程感知;软件架构;柔性成本;产生机制
组织间业务流程感知的软件架构(cross-organizationalbusinessprocess-awaresoftwarearchitecture,简称cpasa)由于具备很强的柔性已逐步应用到商业管理、医疗保健、民航旅游、股票证券和金融保险等许多领域。组织面临组织间业务流程(cross-organizationalbusinessprocesses,简称cbp)变化的不断增加,cpasa生命周期总成本需要降低的问题。然而,组织通过配置cpasa满足cbp变化需求,同时降低因变化过程产生的成本。但是,为了实现具备柔性的变化,组织需要在设计时期和运行时期为cpasa柔性付出成本。因此,正确把握cpasa柔性成本产生机制,是组织应该掌握的一种关键能力,组织需要用柔性成本产生机制来帮助做投资决策,从而避免产生昂贵的成本和减少错误决策。
一、组织间业务流程感知的软件架构及其柔性成本研究综述
cpasa是基于组织内业务流程感知的软件架构(businessprocess-awaresoftwarearchitecture,简称pasa)逐步发展起来,组织内pasa丰富的理论基础与实践经验为后来的cpasa研究打下了坚实的理论基础。chen和liu(2012)指出基于业务流程感知模式的研究继承pasa的研究工作,运用业务流程感知模式应对变化能降低因业务流程变化产生的软件架构在设计时期与运行时期的成本,大多数pasa以业务流程感知模式来支持业务流程的变化,类似于软件架构设计中的设计模式理念。模式提供不同层面的指导,模式关注的重点是通过经验提取的“指导方案或准则”在软件架构设计中的应用,模式就是把共通问题中的变化部分和不变部分和变化部分分离出来,不变的部分就构成了模式。业务流程感知模式可以作为研究cbp变化的研究基础,并依此研究cpasa的模型。
为了帮助组织通过信息技术在一定程度上缓解和适应需求和环境的变化,软件架构需要具备柔性,柔性体现cpasa能适应业务流程的不断变化与不间断的需求的能力上。软件架构柔性的获取需要增加投资和额外的管理成本,软件架构柔性越高所需的成本越高,过多的柔性也会增加组织间业务流程的复杂度,降低组织间业务流程的应变时间,最终削弱组织间关系的竞争优势(liu&chen,2012)。liu和chen(2012)定义cpasa柔性成本是发生在软件架构整个生命周期中组织为建立cpasa的动态柔性所付出的全部成本之和。dreyfus和wyner(2011)在软件架构的柔性成本度量问题上提供了研究思路。由于软件架构可以通过不同的组件及依赖关系描述,baldwin和clark(2000)、darcu等(2005)分别研究组件复杂度对软件架构柔性成本的影响,进而度量软件架构柔性成本。dreyfus和wyner(2011)从软件架构与组件两个维度度量,通过软件架构和组件复杂度对软件架构柔性成本的影响,进而度量软件架构柔性成本。在上述文献回顾中,业务流程变化不断增加,软件架构生命周期中所花费的总成本需要降低的情况下,软件架构柔性成本对cpasa成本产生积极影响。本研究将以软件架构柔性成本作为本文的切入点。在综合现有文献中有关信息系统柔性成本及软件架构柔性成本定义的基础上,liu和chen(2012)给出有关cpasa柔性成本的定义。为此,本文把cpasa柔性成本定义为:cpasa柔性成本是发生在cpasa整个生命周期中组织为建立cpasa的动态柔性所付出的全部成本之和,在不考虑cpasa动态柔性的总成本和考虑cpasa动态柔性的总成本的差额来计算出cpasa的产生柔性成本。
在以往研究的理论基础上,本文提出组织间业务流程感知的软件架构柔性成本的产生机制按照“cpasa柔性成本的前因cpasa柔性策略cpasa柔性成本cpasa软件架构成本”这一主线进行研究,一方面将cpasa柔性成本的前因性研究与机制性研究相结合,按照特征机制对cpasa柔性成本的产生进行研究,提出cpasa柔性成本产生的机制。
二、组织间业务流程感知的软件架构柔性成本产生的前因性研究
当选择cpasa柔性策略的目标是为了以最少的投资成本尽快响应cbp变化时,组织应该按
“cpasa柔性成本的前因cpasa柔性策略cpasa柔性成本cpasa软件架构成本”这一主线进行分析,首先探索cpasa的前因,然后了解各种cpasa柔性策略的特点,然后详细分析组织各种影响cpasa柔性成本的因素。本文认为cpasa柔性成本产生的研究,主要包括“前因性”研究和“机制性”研究两种方法。前因性研究主要是探索有哪些具体因素会影响cpasa柔性成本。
1.组织间业务流程变化特征。随着市场需求和环境的变化,cbp的运行环境比组织内部流程的运行环境更加复杂,在设计时期和运行时期均面临更多不确定性因素的影响,cbp结构的调整和成员组织的变动是经常发生的,导致原先的流程定义可能不再适应组织需求和新的流程运行条件,需要对建立之初构建的任务逻辑关系和流程组成结构等进行调整。添加新的活动或删除已有的活动、修改流程资源依赖关系、修改活动之间的执行依赖关系以及增加或删除成员组织等,导致软件架构不得不进行调整。
因此本文认为cbp变化特征是cpasa柔性成本的原因和来源,业务流程变化的特征会影响cpasa柔性成本的产生。cpasa柔性主要体现在软件架构的可修改性,因为可修改性使pasa能够适配业务流程变化(weberetal.,2008)。roser等(2011)提出从可修改程度、私有化程度、可重用程度、协作程度等四个方面来评估软件架构的可修改性。本文进一步定义出cbp变化特征:(1)可重用程度(重用组织间业务流程;重用服务元素);(2)可修改程度(修改组织间业务流程;变化执行组织间业务流程的成员;增加组织间业务流程开发;变化服务元素;开发组织间业务流程类型);(3)协作程度(变化组织间业务流程协议规格;变化执行流程接口);(4)私有化程度(私有化组织内执行流程数据;私有化组织间业务流程实现)。2.组织间业务流程变化特征与柔性成本之间的关系
针对cpasa柔性成本的产生机制,本文认为cbp变化特征是cpasa柔性成本的原因和来源,cbp变化特征会影响cpasa柔性成本的产生。本文提出cbp变化特征的11种类型,通过saam结合质量属性场景描述cbp变化特征的质量场景属性,见表1,质量场景实例方法最有利于对软件架构的柔性进行分析。nico(1999)通过该方法捕捉软件架构支持业务流程变化,并且通过评价这些质量场景实例的效果来评估软件架构的柔性。本文通过saam方法评估一个质量场景实例影响软件架构组件的状况,业务流程变化影响软件架构结构复杂度,进而影响软件架构柔性及柔性成本。
场景修改组织间业务流程(可修改性):由于业务不断又快速的变化,cbp需要适配新的业务模式,如何有效实现修改组织间业务流程?在cpasa设计时期和运行时期的环境下,cpasa通过合理配置满足业务流程变化需求产生。cpasa柔性成本的产生是为了制定新的cbp需要对原本存在的业务流程模型进行必要的变更,变更尽量不要对其它业务流程产生负面影响。cpasa柔性成本的度量需要考虑cpasa的类型,无模式所有成员组织的es均受到影响;中央模式中央控制器受影响;分散模式各个成员组织的vp受影响。
从上述11种cbp变化特征与cpasa柔性成本之间的关系分析可以发现,从结构复杂度的角度,为了适应变化,业务流程感知模式决定组件特征,决定是静态演化组件、动态演化组件还是动态细化组件(weberetal.2008),进而影响基础组件、信息共享与隐蔽组件、静态演化组件、动态演化组件、动态细化组件、拓扑架构组件本身和依赖关系,cbp变化特征基于业务流程感知模式,因此本文认为,从结构复杂度的角度,组件特征在一定程度上可以表示cbp变化特征。上述的每一种质量场景属性中cbp特征影响cpasa柔性成本的产生。从面向cbp变化特征的角度,不同的业务流程感知模式决定业务流程变化率的不同(liu&chen,2012),即不同的cbp变化特征类型决定业务流程变化率的不确定性,任务差异性,时间紧迫性,负荷伸缩性,它们都会影响cpasa柔性成本的产生。本文认为,从面向cbp变化特征的角度,业务流程变化率在一定程度上可以表示cbp变化特征。
3.组织间业务流程变化特征与软件架构的关系特征。支持不同类型的cbp变化,需要有相应的cpasa组件支持,bass等(2003)在软件架构战术和模式分析中指出不同类型业务流程变化中需要有对应的功能逻辑实现、战术和架构模式去支持这种变化。chen和liu(2012)指出cpasa可以通过
配置实现柔性,从而降低cpasa总成本。cbp变化可解析为业务流程感知的18种模式,其中可修改程度、私有化程度、可重用程度、协作程度等对cpasa起决定作用(chen&liu,2012),与之相应,cpasa保护加入cbp的成员组织的内部数据、接口、业务流程的私有性,cpasa对协作的数据进行隐蔽,cpasa实现与cbp相关的协作。
因此,本文对影响cpasa柔性成本产生的因素进行分析发现,cbp变化特征与cpasa及cpasa柔性成本产生机制存在映射关系。本文认为cpasa与cbp的关系特征不是柔性成本产生的直接因素,但cpasa与cbp变化的关系特征会影响cpasa柔性成本的产生。本文进一步定义出cbp变化特征与cpasa的关系特征,包括功能逻辑实现、战术和架构模式等特征。
4.关系特征与柔性成本之间的关系。本文用可修改性战术描述组织间业务流程变化特征与软件架构的关系,cpasa的设计理念是以可修改性为中心设计展开,cbp变化特征体现可修改性,分析组织间业务流程变化特征与软件架构的关系主要是分析可修改性的战术,bass等(2003)指出可修改性目标是控制软件架构实现、测试和部署变更的成本,可修改性战术根据其目标主要有局部化修改和防止连锁反应。这两组战术之间的差别是由直接受变更影响的模块(那些调整其责任来完成变更的模块)和间接受变更影响的模块(那些其责任保持不变,但必须改变其实现来适应直接受影响的模块)。
三、组织间业务流程感知的软件架构柔性成本产生的机制性研究
1.分析外部影响的过程机制。分析外部影响的过程机制,需要从组织间的相互依赖关系与组织间信息共享与隐蔽分析着手,进而分析出cbp变化特征需求。
2.确定关键质量的过程机制。cpasa柔性主要体现在软件架构的可修改性,具体表现在具备自主演化能力的动态演化及动态细化。因为可修改性使cpasa能够适配业务流程变化。cpasa的设计理念是以可修改性为中心设计展开。因此本文认为cpasa自身特征是cpasa柔性成本的原因和来源,cpasa自身特征会影响cpasa柔性成本的产生。本文进一步定义出cpasa自身特征:软件架构宏观上支持架构的不同类型(点对点拓扑结构、分层拓扑结构、混合制拓扑结构),微观上组件及依赖关系实现具备柔性的变化,包含流程编制和流程编排、信息共享与隐蔽、业务流程模型显式化、自主演化能力。
3.确定关键功能的过程机制。cbp变化特征与软件架构的关系特征体现关键功能的过程机制的要求。cpasa的设计理念是以可修改性为中心设计展开,cbp变化特征体现可修改性。上文已定义cbp变化特征与软件架构的关系特征:功能逻辑实现、战术和架构模式等特征。
4.组织间业务流程感知的软件架构特征与柔性成本之间的关系。本文的理论分析的结果显示cbp变化特征影响cpasa柔性成本的产生,例如,可修改程度、私有化程度、可重用程度、协作程度会对cpasa柔性成本产生影响。另一方面cpasa与cbp变化特征的关系影响cpasa柔性成本,例如:cbp变化特征影响软件架构的功能逻辑实现、战术和架构模式,进而影响cpasa柔性成本。同时,cpasa柔性成本的产生又会受到cpasa一些特征的影响,例如,软件架构宏观上支持架构的不同类型(点对点拓扑结构、分层拓扑结构、混合制拓扑结构),微观上组件及依赖关系实现具备柔性的变化,包括流程编制和流程编排、信息共享与隐蔽、业务流程模型显式化、自主演化能力,因为cpasa自身特征会使柔性成本的建立过程会有不同,对cbp变化特征的要求及对cpasa与cbp变化特征的关系特征的要求也会有所不同。四、组织间业务流程感知的软件架构柔性成本的产生机制
本文将cpasa柔性成本的前因性研究与机制性研究相结合,按照特征机制对cpasa柔性成本的产生进行研究。本文将cpasa柔性成本产生机制分为三类:(1)来源于cbp变化的cpasa柔性成本,即cpasa柔性成本来源于cbp变化;(2)来源于cpasa特征的软件架构柔性成本,即cpasa柔性成本建立在实现cpasa设计理念的基础之上;(3)来源于cbp变化与cpasa特征的cpasa柔性成本,即cbp变化与cpasa适配变化紧密相联,进而影响软件架构柔性成本。然而在cpasa柔性成本产生机制研究基础上,需要进一步探讨软件架构柔性成本与软件架构生命周期总成本的关系。因此,通过上述的分析归纳,可以对cpasa柔性成本的产生形成图中的思路,如图1所示,得到研究模型的雏形。
五、
总结与展望
本文将软件架构柔性成本的影响因素研究与机制性研究相结合,把影响cpasa柔性成本产生的因素分为三个方面:①cbp变化特征,包括:修改组织间业务流程、变化执行组织间业务流程的成员、增加组织间业务流程开发、变化服务元素、开发组织间业务流程类型、私有化组织内执行流程数据、私有化组织间业务流程实现、重用组织间业务流程、重用服务元素、变化组织间业务流程协议规格、变化执行流程接口;②cpasa与业务流程变化的关系特征,包括:维持语意一致性、预期期望的变更、泛化模块、限制可能选择、信息隐藏、维持现有接口、限制通信路径、仲裁者使用;③cpasa自身特征。宏观的软件架构,微观的软件架构(包括组件及依赖关系)。指出cpasa柔性成本主要来源于cbp变化特征机制、cpasa特征机制、cpasa与业务流程变化的关系特征机制等三个机制,并对每种机制的特征与软件架构柔性成本的关系进行分析。
针对cpasa柔性成本产生机制,未来研究需要对每种机制的特征与cpasa柔性成本的关系进行论述,并通过应用研究进行验证,包括:cpasa特征与cpasa柔性成本之间的关系;cbp变化特征与cpasa成本之间的关系;关系特征与cpasa柔性成本之间的关系;cpasa柔性成本与cpasa生命周期总成本的关系四个部分进行探讨,前三个组成部分是cpasa柔性成本的产生机制,第四个是cpasa柔性成本的计算模型。本文只是简单分析了cpasa柔性成本产生机制,理论分析的结果还需要进一步深入分析,同时对cpasa柔性成本与cpasa生命周期总成本的关系进行深入分析,进一步的研究cpasa柔性成本如何计算,组织如何用柔性成本产生机制来做投资决策。
参考文献:
1.sienchen,zhenyuliu.changesupportincross-organizationaldynamicprocess-awaresoftw-arearchitecture-apattern-basedanalysis.theeleventhwuhaninternationalconferenceone-bu-siness,2012.
2.zhenyuliu,sienchen.process-awareviewoftherelationshipbetweensoftwarearchitectureandflexibilitycosts.productionandoperationsmanagementsociety(poms)23ndannualconference,2012.
3.dreyfusdavid,wyner,george.digitalcem-ent:softwareportfolioarchitecture,complexity,andflexibility.amcis2011proceedings,2011.
4.baldwinc.y,clarkk.b.designrules:thepowerofmodularity.cambridge,ma:mitpress,2000.
5.张耕.组织际流程柔性的评价与选择策略研究.厦门大学,2007.
学生文化基本特征篇4
〔关键词〕地域特征环境艺术设计内在联系应用
随着社会经济的快速发展,文化之间的交流更加顺畅,各地域的文化逐渐交融,丧失了其本身的独特性。当地域文化失去了其原本的特征,完全沦为融合文化的附属物,文化的多元性以及由此带来的丰富的文明也就消失。究竟如何看待地域特征与地域文化,是摆在我们面前的一个难题和重点。笔者结合自身的经验,对地域特征的内涵进行了阐释,明确了地域特征与环境艺术设计的关系,分析了地域特征对环境艺术设计的影响,在此基础上提出了地域特征在环境艺术设计中的应用对策。
一、地域特征的内涵
地域是一定时空范围内人类活动客观载体,不论是人类与自然的和谐发展,还是人类的社会活动,都建立在这个载体的基础上。总的来说,地域主要存在如下几个方面的特征:其一,区域性。当我们要界定一个地方的时候,我们就会用到地域的区域性特征。无论是自然生态、还是人文事件,都存在于一定的时空内。其二,人文性。主要指的就是地域文化特色,其建立在人类活动的基础上,是人类独特智慧在区域地域在全体上创造而生成的一种内在属性。其三,综合性。提及地域人们会联系到很多事物,单一的要素难以构成整个地域空间。为此,我们在看待地域的时候,应该考虑到其综合性特征。
本文所指的“地域特征”并不是指一个地域的具体特征,地域保罗广泛,不可能全然作为研究对象。本文的地域特征是在对地域前两个特征把握的基础上提出的,也就是指一定区域内的独特的地域文化。将这种独特的地域文化称为地域特征,不但具有地域的典型性特征,也将研究的范围缩小,使本文具备了研究的条件。下文所设计的地域特征也为“独特地域文化”的内涵。
二、地域特征与环境艺术设计的内在联系
地域特征与地域文化紧密相联,相互影响。地域文化是在地域开发、创造、适应的基础上产生的,本身就带有卓越的人类智慧,将其应用于环境艺术设计,不但符合当地的文化土壤、精神追求,也能够使设计方案更具可行性。通过对区域内地域文化的整合所产生的设计方案能够更好地满足地域发展的需求。可以说,只有从地域文化的角度进行环境艺术设计,才能真正符合地域发展的核心需求。而环境艺术设计活动,本身包括了对地域文化的发觉、总结、升华,并直接作用到地域,使其成为地域文化的一部分,对地域文化的繁荣起到了重要的推动作用。环境艺术不但是人们美化环境的措施,也是区域的人文审美、艺术发展的催化剂。总的来说,两者是相互促进、相辅相成的,地域特色文化是环境艺术设计灵感产生的源泉,环境艺术设计也丰富了地域文化。总的来说,环境艺术设计本身也是地域文化的一部分,因为有了环境艺术设计这个形式,地域文化将得到更好的发展和传承。
三、地域特征对环境艺术设计的影响
地域特征凝聚了区域的特色文化,是一个区域区别于其他区域的标志。地域特征对环境艺术设计的影响主要体现在如下几个方面:
1、实现地域文化与环境艺术设计的融合。建立在地域特征基础上的环境艺术设计,不但具有深厚的物质文化底蕴,也具有独具特色的精神文化内涵。而将这两者融汇一炉的环境艺术设计,不但具有更深厚的审美底蕴,还具有更为多元的艺术表现形式。赋予环境艺术设计相应的社会属性,能够使其更好地与地域特色想合,这对环境艺术的深层次、个性化发展有着重要的意义。
2、优化环境艺术设计的表现形式。环境艺术设计形式指的是环境的行装、色彩等内容。将地域特征引入到环境艺术设计中,能够将地域性文化内涵、表征融入到环境艺术设计中去。当这种直观的地域性环境艺术表达被人们接受之后,必然会加深其对地域文化的认识,增强环境艺术的表现力。总的来说,地域特征不但可以对环境艺术设计的氛围产生影响,还可以将情感融入设计中,提高环境艺术设计的审美价值与艺术表现力。
3、丰富环境艺术设计的设计内涵。环境艺术设计内涵,除了设计构成的要素外,还包括设计的结构。通过地域特征的引入,环境艺术设计的内涵可以得到进一步丰富。所谓的内涵就是设计的深层次印象。设计者在对地域文化的吸收和转化过程中,本身就接受着地域文化所包括的内涵。这种内涵不但包括物质的内涵,还包括精神的内涵。将这些地域特征所包括的内涵,引入到设计中来,不但可以影响设计的形态、含义,还可以影响设计的框架结构。站在环境艺术角度来看,为了取得更好的环境艺术设计效果,加强地域文化的挖掘是必不可少的。也只有深入地挖掘地域文化的特色,才能更好地丰富环境艺术设计的内涵。
四地域特征在环境艺术设计中的应用对策
通过上述分析,我们对地域特征的内涵、与环境艺术设计的关系、对环境艺术设计的影响等有了详实的了解。在实际的环境艺术设计中,要应用地域特征,需要采取如下对策:
1、搜集和把握地域特征。在实际的环境艺术设计中,素材的搜集和整理是基础。为了对这些素材进行有效的研究,就需要对地域特征予以搜集和把握。具体来说,也就是将地域的特色文化充分挖掘出来,去粗取精,将有用的地域文化元素归集,丰富设计的素材库。在确定了素材库后,设计者还需要对区域性的独特文化进行提炼,只有经过提炼的素材,才能在确保其地域性的基础上,更具艺术价值,对当地的文化起到传承和弘扬的意义。总的来说,搜集和把握地域特征,对地域性文化的保护有着重要的作用;同时根据地域文化素材设计的方案,也能够将地域特色、艺术内核表现出来,提升自身的艺术审美价值。
2、生成环境艺术设计元素。在对地域特征素材的提炼中,要不断加深对地域文化的理解,结合当地的历史背景、环境特色,将地域文化素材进行抽象、浓缩,使其成为设计元素。当设计元素形成后,设计者要将这些元素符号化,依托环境艺术设计理论、形式,使其应用到具体的环境艺术设计中。只有经过这样的认识和转化过程,地域特征才能与环境艺术设计交融。部分地域文化素材是较为抽象的,为了更好地对其进行加工,设计者应该将其具象化,并结合当地的历史文化事件、精神思想等,将其独特的地域文化元素凸显出来。
3、创新环境艺术设计形式。为了更好地将地域特征与设计融合,设计者就不能拘泥于刻板环境符号的利用,而应该深入把握地域文化,搜集更多的可用符号和文化。设计者要加强对地域文化现象的把握,深化地域文化的内涵,挖掘地域文化的本质。应用地域文化符号,并不是直观的模仿,而是设计理念和内涵的渗透。而要实现这样的目标,就需要我们对传统的环境符号予以创新,并站在现代环境艺术设计的角度,促进地域文化的符号化,使其更好地与现代环境艺术设计融合。通过环境符号的创新,不但可以促进传统环境符号理论的发展,还能加强对地域文化的开发,对区域文化的发展有着重要的意义。具体来说,设计者要加强对地域文化特征、本质的把握,对环境艺术设计的形式予以创新,引入更多符合地域文化符号的设计理念、形式,将地域文化的特色表现出来。
总结
本文主要阐述了地域特征的内涵,在此基础上对地域特征和环境艺术设计的关系进行了剖析,分析了地域特征对环境艺术设计的影响,并提出了地域特征应用于环境艺术设计中的应用对策,以期有效地丰富环境艺术设计经验,提高环境艺术设计水平。
参考文献:
[1]钱丽竹.符号学在环境艺术设计中的文化表征解析[J].美术教育研究,2014(14).
[2]何礼.论环境艺术设计及其个性化[J].艺术科技,2014(01).
[3]孙天骐.论环境艺术专业人才的美学素养[J].哈尔滨职业技术学院学报,2015(05).
学生文化基本特征篇5
一、问题的提出
随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它Web站点上千差万别的信息。
面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。
二、文本分类技术的基本原理
数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。
文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。
从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:
f:AB其中,A为待分类的文本集合,B为分类体系中的类别集合
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:
系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。
三、文本分类技术在数字图书馆中的应用分析
为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。
(一)文本特征项
文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。
概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。
(二)特征项选择
不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。
文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。
信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。
(三)特征值的提取
在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。
学生文化基本特征篇6
Abstract:Therearemanyadvantagesforthebiologicalcharacteristicsofotheridentificationintermsofpalmprint,soithasbeenwidelyusedinvariousfields.Inthispaper,thecharacteristicsofpalmprint,proposedonekindbasedontheGaborwaveletandenhancedFisherlineardiscriminantmodel(EFM)PalmprintFeatureExtractionalgorithm.Thefirsttreatmentofthepalmprint,onthepalmgrayimagebyGaborwavelettransformbasedalgorithm,getthepalmprintfeaturevectorGabor.Then,throughtheprincipalcomponentanalysistransformhigh-dimensionalfeaturevectorsintoalowdimensionalspace,thenthespacebyEFMtransformmatrixtoextractthepalmprintfeatures.DuetotheGaborfunctionintheaspectoffeatureextractionwithexcellentperformance,dimensionalityreductionofhighdimensionalfeaturecanbesolvedeffectively,atthesametime,thealgorithmcanimprovetheFisherlineardiscriminant(FLD)generalizationability,canbetterachievethePalmprintFeatureextraction.
关键词:Gabor小波;增强Fisher线性判别模型(EFM);主成分分析(PCA);掌纹;特征提取
Keywords:GaborWavelet;EnhancedFisherDiscriminantModel(EFM);PrincipalComponentAnalysis(PCA);palmprint;featureextraction
中图分类号:TP391.4文献标识码:A文章编号:1006-4311(2013)12-0185-03
0引言
生物识别技术是利用人体生物特征进行身份识别的一种技术,掌纹识别[1]是生物特征识别中又一新兴技术,它利用人的掌部纹理作为生物特征了来进行身份的自动确认,掌纹识别具有“人人不同,终生不变,随身携带”的特点,其研究始于1998年,与常见的指纹、人脸、虹膜等生物特征识别技术相比,掌纹识别[2]主要具有以下优势:1)指纹具有很强的稳定性:胎儿六个月就会形成完整的指纹,一直到人死腐烂之前,虽然随着年龄的增长,纹理会有一些变化,但是总体上同一个手指的指纹类型以及细节特征的总体布局等始终没有明显的变化。即使手指受伤只要不伤到真皮,等伤口愈合后纹理仍旧恢复原状;如果伤到真皮愈合后形成伤疤破坏了原来的纹理,但是伤疤本身也增加了新的稳定特征。2)指纹的唯一性,指纹具有很明显的特定性。根据指纹学理论,两枚指纹匹配上12个特征的几率为10-50。至今即使是孪生兄弟姐妹也没有两个指纹完全相同的人,不仅是人与人就算是一个人的十指之间,指纹也有明显的区别。由于指纹具有这样的特点,因此应用指纹进行身份鉴定提供了客观的依据。
因此,掌纹同其他应用于身份识别的生物特征相比,具有诸多先天优势,其应用领域非常广阔。在掌纹识别中,有两个基本问题要解决好,一个是特征的提取,另一个是相似度的测量。所以一个掌纹识别算法要解决这两个问题:一是掌纹特征的提取和选择,二是特征分类器的设计。其中第一个问题是至关重要的,因为它会强烈地影响到第二个问题的解决,乃至最终的识别性能。
现有文献中涉及的掌纹特征提取算法大致可以分为4大类:第一大类是基于结构的特征提取[3,4];第二大类是基于空域-频域变换的特征提取[5,6];第三大类是基于统计的特征提取[7];第四大类是基于子空间的特征提取[8]。本文将第二大类基于时频变换和第四大类子空间的特征提取算法结合起来,提出了一种利用Gabor小波和增强Fisher线性判别模型(EFM)来实现掌纹特征提取的新方法。
4结论
本文主要对掌纹特征提取和特征分类进行了深入的探讨和研究,在Gabor小波技术结合EFM判别模型的基础上,提出了一种基于上述方式实现的掌纹特征提取方法。该方法利用Gabor小波捕获对应一定频率(尺度)、空间位置和方向选择性的局部结构,便于实现无对应的识别,而且使得掌纹的Gabor表示对光照的变化具有一定的鲁棒性,实现方法同时利用PCA变换和EFM判别模型提取信息量中的主要成分作为新的特征,与Fisher线性判别式(FLD)相比,EFM判别模型通过同时对角化类内与类间离散度矩阵提高了FLD的推广能力。因而,该算法具有一定理论和现实意义。
参考文献:
[1]WeiShu,ZhangD.Palmprintverification:animplementationofbiometrictechnology[C].PatternRecognitionProceedingsofFourteenthInternationalConference,1998,Vol.1,219-221.
[2]吴介,裘正定.掌纹识别中的特征提取算法综述[J].北京电子科技学院学报,2005,13(6):86-92.
[3]LiWenxin,ZhangDavid,XuZhuoqun.ImageAlignmentBasedonInvariantFeaturesforPalmprintIdentification[J].SignalProcessingImageCommunication,2003(18):373-379.
[4]DutaN,JainAK,MardiaKV.MatchingofPalmprint[J].PatternRecognitionLetters,2001,23(4):477-485.
[5]LiWenxin,ZhangDavid.PalmprintIdentificationbyFourierTransform[J].InternationalJournalofPatternRecognitionandArtificialIntelligence,2002,16(4):417-432.
[6]苏晓生,林喜荣,丁天怀.基于小波变换的掌纹的特征捉取[J].清华大学学报,2003,43(8):1049-1051.
[7]Ying-HanPang,ConnieT,JinA,etal.PalmprintAuthenticationwithZernikeMomentInvariants[C]∥SignalProcessingandInformationTechnology,Proceedingsofthe3rdIEEEInternationalSymposium.2003:199-202.
[8]LuGuangming,ZhangDavid,WangKuanquan.PalmprintRecognitionUsingEigenpalmFeatures[J].PatternRecognitionLetters,2003(24):1463-1467.
[9]孙冬梅.手形和掌纹识别算法的研究[D].北京:北方交通大学博士论文,2003.
-
初中班主任工作总结范文(3篇)
初中班主任工作总结范文篇1在这担任初一50班班主任的这几个月里,我班校领导的统一组织下,在任课教师的大力支持和配合下,各项工作顺利开展,学习、生活等方面都很顺利。现将这段..
-
护士节活动总结范文
有这样一个群体,她们用无微不至的护理换来了患者的康复,她们的工作平凡、枯燥、劳累,却无比神圣——她们被称为;白衣天使。以下是小编为大家整理的《护士节活动总结..
-
支教实习工作总结优选范文
听课学习、参与教研活动、看自习、批改作业等,真正感受如何作为一名一线教师。下面是由小编为大家整理的;支教实习工作总结优选范例,仅供参考,欢迎大家阅读。支教实习工作总结..
-
幼儿园食品安全工作总结范文大全
食品是维系生命健康持续的首需物资,食品安全是幼儿园安全工作的重中之重!七彩阳光幼儿园为了让孩子和家长朋友们更加了解和重视食品安全,在本周食品安全主题活动中,各教研组根据..
-
小学英语老师工作总结优选范文
英语老师坚持良好的阅读习惯,读有所思,思有所得,让我们一起走进他们的书香世界吧!下面是由小编为大家整理的;小学英语老师工作总结优选范例,仅供参考,欢迎大家阅读。小学英语老师..
-
医护人员医德医风工作总结优选范文
为深入贯彻落实;不忘初心、牢记使命主题教育,进一步改善医疗服务,加强行业作风整治,改善患者就医感受,提高患者满意度。下面是由小编为大家整理的;医护人员医德医风工作总结优选..
-
数学教师考核工作总结优选范文
为了及时了解新教师课堂的真实状态,帮助新教师更好的规范教学,尽快提高教学水平和技能。下面是由小编为大家整理的;数学教师考核工作总结优选范例,仅供参考,欢迎大家阅读。数学..
-
小学科学教学工作总结优选范文
以落实学共体理念、营造自主、合作、探究的课堂为抓手,以学教评一致性教学设计理论为依据,深入推进深度学习的高效课堂建设。下面是由小编为大家整理的;小学科学教学工作总结..
-
大学生贫困生补助标准(6篇)
大学生贫困生补助标准篇1“1份关爱”:疾病是导致群众贫困的一个主要原因。据调查,南丰县因病致贫的贫困户有5950人,几乎达到建档立卡
-
农村文化建设调研(6篇)
农村文化建设调研篇1一、农村文化发展基本情况农村文化建设包括农村文明建设、农民思想道德素质提高、农村文化基础设施建设、文
