地理数据的特征(6篇)
地理数据的特征篇1
关键词:GIS;城市测绘;应用
Abstract:ThispaperanalyzesthedemandofthecitysurveyingandmappingtoGIS,andintroducestheGISapplicationinthecitysurveyingandmapping.
Keywords:GIS;citysurveyingandmapping;application
中图分类号:P407文献标识码:A文章编号:2095-2104(2012)
当前地理信息系统(GIS)已经广泛应用于城市规划、工程设计、天气预报、投资项目评估、社会统计、防灾减灾等方面。GIS既是一门较为成熟的技术科学,也是一门新兴的产业,在测绘、地质矿产、环境监测、农林水利、气象海洋、城市规划土地管理、区域开发与国防建设等各个领域发挥着重要的作用。采用GIS、数据库、扫描矢量化及全数字摄影测量等技术,不仅为专业信息系统提供及时、准确、标准化、数字化的基础空间信息,从而建立各类专业信息系统,还能实现管理的标准化、科学化、信息化,使其成为多学科集成并应用于各领域的基础平台和地学空间信息显示的基本手段与工具。
目前,随着改革开放和经济建设的快速发展,社会对测绘业的需求结构有了更高层次的要求,不仅对传统的测绘产品有所需求,而且还需要具有多样化的测绘信息产品和高新技术服务。所以,在80年代初期,测绘业进行了对传统测绘手段和生产工艺的技术改造,开展了数字化测图、机助地图制图、GIS(GIS)、人卫激光测距(SLR)、全球卫星定位系统(GPS)、遥感(RS)等方面的基础研究和应用研究。其中最为突出的是GPS、GIS和RS技术的结合,发挥各自的优势,相互渗透,形成一个自然的发展趋势。GPS与RS能为GIS提供区域信息及空间定位信息,而GIS可以从GPS和RS提供的批量数据中提取有用的信息进行相应的空间分析,并将其有用数据进行综合集成,最终成为科学的决策依据。
1GIS在城市测绘中的需求分析
1.1GIS
简单地讲,GIS是处理地理信息的系统,是关于采集、存储、管理、处理、分析和表达地理空间数据的计算机系统,是分析和处理海量地理数据的通用技术。将GIS应用于城市测绘中,将会使城市测绘数据十分的详尽和准确,同时也大大提高了城市测绘工作的科学性。
1.2必要性分析
测绘工作是一项十分艰巨,且用途极为重要的任务。传统上,城市规划的设计是基于测绘人员提供的测绘图件和资料的,因为城市测绘的主要目的是用来进行城市规划的,但是因为测绘与规划设计存在脱节的情况,使得测绘人员完全不能认识测绘的目标,以至于对规划设计起不到很好的配合作用,因而不利于整体设计工作质量和工作效率的提高。基于数字地图基础上的GIS的出现和发展,能够很好地解决这个问题,因为GIS主要是按照数字地图的形式来进行输入和输出的,使得测绘工作变得易于查询和分析,也变得直观且易于看懂和理解。
2GIS在城市测绘中的应用
本文采用ArcInfo来探讨GIS在城市测绘中的具体应用。
2.1数据处理
地理数据一般具有三个基本特征:属性特征(非定位数据)、空间特征(地位数据)和时间特征(时间尺度)。在城市测绘中,涉及到的主要设施有城市建筑物、城市道路、管线等,其信息包括了这些设施的空间数据和属性数据,属性数据又可以分为客观和主观两类,客观属性数据如城市道路的名称、交叉口的形状等,主观属性数据如城市道路与交叉口的交通量等。
ArcInfo提供叠合层(Coverage)将多种数据组织在一起,叠合层中包含多种类型的要素(Feature),比如弧段(Arcs)、节点(Nodes)、标记点(LabelPoints)、配准点(Tics)、多边形(Polygon)等。
ArcInfo中用如下方法实现地物特征的空间信息与专题属性信息的联系:每个地理对象都存储一个标志码,对象的标志码在对象的空间特征(描述它的坐标信息)产生时一同产生,它唯一地代表这个地理对象,这个标志存储在一张记录有对象几何特征(线的长度、多边形地面积等)的属性表中,这个属性表称为特征属性表(FeatureAttributeTable,FAT)。地理特征的专题属性信息可以直接存储于FAT表中,也可以存储在其他数据表中,后者通过对象标志码与FAT产生联系。从空间信息检索专题属性信息,或从专题属性信息检索空间信息的实现就依赖于GIS所建立起来的这种联系。
2.2数据管理
ArcInfo中图形是以点(Point)、线(Polyline)、多边形(Polygon)来表达实物信息的,在城市测绘中,主要涉及到用点来表示的实物信息有城市道路路段上的桥、城市道路交叉口等;主要涉及到用线来表示的实物信息有城市道路中线、城市道路边线、通讯线的走向等;主要涉及到用面来表示问候的实物信息有道路周边的建筑物(比如企事业单位、学校、医院、公园等)。可以把上述所有关于点、线、多边形相关的实物合理地分层组织如下:首先建立一个地理数据库,在地理数据库中建立城市测绘要素集,其中包括的特征类有城市道路中线、城市道路交叉口、桥、城市道路周边建筑物等;同样在相同的地理数据库中建立一个管线要素集,其中包括的特征类有路边线、电力设备、电力线、通讯线等。
2.3数据显示
ArcInfo中的ArcMap提供了一个易于使用的用户界面,使得对ArcMap的操作变得简单方便。ArcInfo支持广泛的数据源,在ArcMap中用来显示的地图格式主要有Shapefile和Coverage。一般来说,地图特征的图形表达有以下几种方式:单一的符号、单一值地图、用类似于人口的字段属性来表达数量(颜色分级、符号分级和密集度分级)、相关多种属性的表达。用单一的符号展示数据于地图可以从图形上得知特征分布的密集程度,从而可以清晰地表达出分布情况。在城市测绘中,可以用点表示城市不同区的居民居住情况,这样就可以用点的密集程度来直观表达居民居住的分布密集程度;同样,道路可以用线的特征来表示在区域内道路网密集程度。对于上述每个区的居民密集程度的表示,也可以先统计每个区的居民人数,然后按照一定的标准划分,用不同的颜色来表示每个区的居民居住情况,并且还可以用符号本身的大小来表示居民分布情况。同样地,城市道路交通也可以通过交通量的统计之后,依据交通量的范围分类对城市道路进行等级颜色分类。
3结语
随着计算机软硬件技术、测绘技术的飞速发展,以空间数据及其属性数据为特征的GIS技术的应用日益成熟,大大提高了信息管理的效率与质量。当前,城市建设突飞猛进,同时也对城市工程的规划、设计、建设、管理等方面提出了更高的标准与要求,由于GIS具有反映地理空间关系、统计各种空间和属性信息能力的特性,为城市规划、建设、测绘提供了非常好的先进技术手段。本文从数据的角度探讨了GIS在城市测绘中的具体应用,通过GIS的使用,可以使得城市测绘工作更加准确,更加科学。同时,对于测绘学来讲,GIS、全球定位系统、遥感系统的结合使用,将使测绘由原来单纯提供信息的服务性变为决策管理的重要组成部分,将有力地推动管理的严格性、决策的科学性、规划的合理性和设计的高效性。
参考文献:
[1]万邦旭.城市规划与测绘中的GIS[J].建设工程理论与实践,2005:348~350.
地理数据的特征篇2
关键词:房、地基础数据,数据标准,要素描述
中图分类号:F293
文章编号:1001-9138-(2012)06-0053-61收稿日期:2012-04-28
1引言
目前,我国关于房、地基础数据的标准比较多(涉及房产测量规范、各种比例尺地形图图式、基础地理信息要素标准、土地利用数据库及城镇地籍数据库标准等),现有标准都是单一定义且均为纸质描述,不能被计算机自动识别,无法进行快速阅读与检索,更难以满足当前基于数据库管理的房、地基础数据库的建设。
深入研究现有相关技术规范、图式、标准,结合地理信息系统(GIS)技术和数据库管理技术,建立一个可被计算机自动识别的房、地基础数据标准,对于开展房产测绘、土地调查、地籍测绘、建立房、地基础数据库等工作都有非常重要的实用价值。从信息管理角度分析,建立数据标准可实现纸质标准的计算机自动识别,为房、地基础数据的制作、检查、转换提供可执行的标准,从而有效提高信息处理软件的开放性和独立性,同时提高房、地基础信息的开放性和利用效率。
2数据标准特征及定义
2.1数据标准特征
房、地基础数据不同于一般管理数据,既包括对要素图形特征的表述,这在现有的标准中属于图式的范畴,包括对要素图形信息如:位置、线宽、字体、形状、符号大小等要求;还包括对要素纯属性特征的描述,这在现有标准中属于数据库标准的范畴,包括对要素纯属性,如房屋结构、楼层、产权人名称、房屋编号、宗地编号等的要求。
“地理信息系统(GIS)是地理学的第三代语言”,在管理空间数据和属性数据方面发挥着不可替代的作用,房、地基础数据可通过GIS进行表现和管理。建立房、地基础数据标准,必须符合GIS数据特征的表述和管理。GIS数据特征主要有空间特征和属性特征两个方面。空间特征主要通过点、线、面、文字等实体(文字也可作为一种点实体)表达,可以涵盖房、地基础要素的图形表达。GIS属性特征主要通过关系型数据库表格进行管理,可以涵盖房、地基础要素的属性表达。
2.2数据标准定义
考虑GIS数据特征,我们把房、地基础数据标准分为要素图形定义和要素属性定义。要使标准能被计算机自动识别,还需要将数据标准进行“翻译”。目前,房屋基础数据表达执行的是测量规范和相关图式,而土地基础数据表达执行的是地形图图式、土地利用数据库标准等图式、标准,房、地合起来需要表达的基础要素多,同时表达涉及标准也多。综合考虑房、地图形,属性数据标准定义,可以采用关系型数据库管理技术建立管理房、地基础数据标准的数据库;而关系型数据库管理中,我们采用可管理多个表格的MDB数据库格式。
我们通过对所有房、地基础要素分类进行分析和研究,将房、地基础数据标准定义具体分解为要素描述表定义、图层表定义、属性表定义、属性值表定义等4类表格定义。
要素描述表是结合要素代码定义,用于描述要素的空间特征信息,是要素绘制的依据。要素描述表定义主要包括YSBM——要素编码、YSMC——要素名称、YSLX——要素类型、TCDM——图层代码、YS-颜色、XX——线型、XXBL——线型比例、XK——线宽、ZT——字体、ZG——字高、CKB——长宽比、FHMC——符号名称、FHBL——符号比例、BZ——备注等定义。
图层表是结合GIS点、线、面、文本特征要求,用于描述要素分层属性并记录对应属性的表格名称。图层表定义主要包括TCDM——图层代码、TCMC——图层名称、YS——颜色、XX——线型、YJFL——一级分类、EJFL——二级分类、JHTZ——几何特征、SXBM——属性表明、YSTJ——要素条件、BZ——备注等定义。
属性表是结合要素属性分类,用于描述要素的属性信息。属性表定义主要包括NO——序号、ZDMC——字段名称、ZDDM——字段代码、ZDLX——字段类型、ZDCD——字段长度、XSWS——小数位数、ZY——值域、YSTJ——约束条件、DMB——代码表、BZ——备注等定义。
属性值表即为枚举型属性字段代码表,主要描述要素属性表中的枚举型属性值范围和定义。属性值表定义主要包括DM——代码、FL——属性值等定义。
若以上4类表格不能完全满足要素定义需求,还可根据实际增加要素表格或约束条件,建立的房、地基础数据标准数据库内容如图1所示。
2.3表间关系描述
结合关系型数据库管理关键字技术,建立各类标准定义的关联和融合,减少标准定义的冗余,实现数据标准计算机的可自动识别和有效管理。要素描述表中,要素编码是数据空间属性的索引值,通过要素编码可从要素描述表中获得该要素的颜色、注记、符号等信息,同时可获得该要素的图层定义即图层代码;通过读取图层表定义中该图层代码所对应的属性表名,可获取该要素属性表的具体信息;如果该属性表记录的代码表有属性值表名,则可读取相应的属性值表。经过严密的数据读取流程,可以获得该要素的所有图形信息和属性信息,从而用于数据的转换、绘制、检查等。四大类表的关系描述如图2所示。
3基础数据要素分类
地理数据的特征篇3
关键词:文本数据挖掘;系统;原型方案
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)18-20ppp-0c
TheStudyonTextDataMiningAntetypeSolution
DIANShi-mei
(YunnanMedicalCollege,Yunnan650031,China)
Abstract:Basedontheanalysisoftextdataminingtechnology,thepapermakesdeepstudyabouttextdataminingsystemdesign.Thenthepaperputsforwardanddesignsatextminerantetypesolution,whichcombinestextanalysis,databaseandtextdataminingtechnologyandrealizessuchfunctionsastexteigenvalueextraction,associationruleminingandsoon.
Keywords:textdatamining;system;antetypesolution
1引言
文本数据挖掘是近几年才引起大家的关注并发展起来的一个数据挖掘领域的新兴分支,与机器学习、统计、模式识别等前缘理论方法密切相关。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力,成为数据库研究的一个新领域。文本数据挖掘是通过自动提取文本信息在大量文本数据中发现未知的知识的过程,与自然语言密切相关,其关键是把提取的信息组合起来发现未知知识。文本数据挖掘不同于Web搜索,Web搜索是人们事先己知要查找什么,而文本数据挖掘是发现未知知识,事先可能并不存在。文本数据挖掘也不同于常规意义上的数据挖掘,常规数据挖掘是在数据库中发现感兴趣的模式,而文本数据挖掘是从自然语言文本中发现模式。
2文本数据挖掘技术发展研究
文本数据挖掘可分为基于单文档的数据挖掘和基于文档集的数据挖掘阁。单文档数据挖掘对文档的分析不涉及其它文档,主要挖掘方向有文本自动摘要、文档知识总结发现、信息提取。信息提取又包括名字提取、短语提取和关系提取等,涉及到较深的语言学的知识。文档集数据挖掘对大规模的文档数据进行模式抽取,既可以文本自动摘要、文档总结,又可以进行文本分类、文本聚类、相似性分析、个性化文本过滤和信息检索。文本数据挖掘目前主要运用特征信息提取、聚类分析方法对文本进行分类,主要应用在信息学和图书信息检索方面提高信息检索效率,有少部分运用语言学的语法结构知识来分析文本内容,但进展缓慢不大。
传统数据挖掘所处理的数据是结构化的,如关系的、事务的数据库和数据仓库的数据,其特征项数目相对较少且结构单一;而文本数据没有结构,转换为特征矢量后特征项数目达到几万甚至十几万个。随着信息技术的发展,需要处理的文本信息也日益增加,传统的信息检索和处理技术已经不能满足大数据量文本处理的需要。文本数据挖掘既融合了很多传统数据挖掘的技术,如挖掘算法思想、挖掘流程构架等,又有自己独特的处理方法,表现在数据抽取、清洗及巨量数据挖掘算法的改进等方面。
文本可分为纯文本和超文本,超文本不仅有纯文本的性质,还含有各种标记和链接引入的结构对象(如声音、图片甚至应用程序等)。对纯文本和超文本中纯文本部分都可以进行内容挖掘。文本内容挖掘又可分为有背景知识挖掘和无背景知识挖掘。有背景知识挖掘是通过分析文本的语法特征和少量语义特征来进行挖掘,使用的背景知识主要是自然语言知识,如主谓宾及修饰性词句语法分析、通过辅助词进行语义分析等,主要挖掘结果是文本的语法结构性和语义性特征。无背景知识挖掘则主要是通过统计方法提取文本特征数据,再对这些提取出的数据进行挖掘,挖掘的数据主要是文本的描述性特征,挖掘的结果根据业务需求千差万别,如可以通过比较提取出的特征数据的相似程度对文本进行分类,可以在文件检索中提供给检索者相关特征词的文件,还可以对文本进行自动文档摘要处理等。
文本数据挖掘与目前数据挖掘热点Web数据挖掘也有较大的差别。Web数据挖掘属于点击流数据挖掘,主要关注网页的链接,如Google用“PageRank”来度量网页重要(兴趣)程度,还对网页使用者的个人信息、使用习性等进行挖掘,以更好的检索信息、改进Web内容结构等,从理论上讲还包括文本数据挖掘,但在目前应用中还对文本数据内容本身关注较少。文本数据挖掘主要关注于文本内容本身,先对文本信息进行结构化处理,再利用挖掘算法发现文本中的未知知识或找出文本之间的关联信息等。文本数据挖掘也与Web搜索不同,Web搜索是查找事先已知的内容,而文本数据挖掘则是发现文本中的相关知识,这些相关知识是事先未知的。
3文本数据挖掘系统设计分析
文本数据是一种仅具有有限结构甚至是根本没有结构的数据体,文本的格式可能存在着段落、缩进以及正文与图形表格等形式的差别,但对内容而言是完全不同的。对一个纯文本进行无背景知识关联规则数据挖掘第一步是通过完全统计文本中二字词、三字词、……、n字短语出现的频率提取文本中的特征数据。所谓“特征数据”在中文文本中主要指按字数分词处理后得到的词汇。其前提依据是出现的频率越高,这些特征词就对该文本越具有文本语义上的特征描述性,这些高频率的词就在一定程度上代表全文的主题思想。通过分析还发现文本数据的存储结构方面,每个汉字和标点符号等文本数据占两个字节,而文本中的英文字符则占一个字节:汉字和标点符号文本数据之间没有间隔符,而每个英文单词的文本数据之间则有间隔符来分隔。由于文本数据之间的这些特性造成了对中文文本文件数据进行无背景知识统计分析容易引入一些乱码,这些乱码一方面可以通过频率值门限值清除,另一方面还要通过数据清理清除。文本数据挖掘的第二步就是要对统计出的数据进行清理,把乱码数据和一些达到统计频率门限值的特征数据清除掉,保证提取出的特征数据既能表达文本的特征信息,又能保证数据挖掘数据正确性的要求,最后把提取出的特征数据加入到数据库中。
文本特征值提取是文本关联挖掘系统中的一个关键步骤,而文本关联挖掘系统的困难之一便是特征值空间的维数过高,特征值的维数对应着文本中不同词汇的个数。数量巨大的特征值维数一方面导致挖掘算法的代价过高,另一方面导致无法准确地提取文档的特征信息,造成挖掘效果不佳。需要在不牺牲提取特征质量的前提下尽可能地降低特征项空间的维数。“特征选取”的任务就是要将信息量小、“不重要”的词汇从特征项空间中删除,从而减少特征项的个数。特征值提取是一个维数归约的过程,即删除不重要的特征值从而减少特征空间的维数。文本特征值提取中,不同的词在文本文件中出现的次数是不相等的,对文本内容的贡献也就有大有小,因此还要考虑词在文本中的权重。把文本特征数据提取出来并加载到数据库以后,就要对这些特征数据进行数据挖掘以发现这些特征数据之间的关联规则。关联规则数据挖掘是通过以每个文件名作为标识号,以文本的特征数据及其权重值作为文件名标识号下的数据项,对这些数据项进行关联分析可以发现文本中隐含的信息和这一组文本文件之间的一些关系。关联分析算法通过统计交易数据库中每项交易记录中每个候选集出现的次数作为该项集的支持计数,然后比较支持计数和其支持度期望,得到频繁项集,最后生成关联规则。本系统原型采用加权关联规则算法。这些挖掘结果既可以用于单文档的自动关键字提取:还可用于信息关联检索,提供给用户信息检索时更广阔的密切相关的信息,帮助人们提高处理大量文本数据的效率;以及发现隐藏在文本文件之间的语义内容知识。
4文本数据挖掘系统原型方案
本文在对分析文本数据挖掘相关理论算法基础之上,设计实现文本数据挖掘系统原型TextMiner方案。TextMiner将文本分析、数据库和文本数据挖掘技术有机地结合起来,实现了文本特征值提取、特征值清理入库和关联规则挖掘等功能。TextMiner主要由数据抽取、特征值清理、特征值入库、关联规则数据挖掘和规则应用几部分构成。
(1)确定目标样本:由用户选择确定挖掘目标的文本样本,用于数据抽取模块进行文本特征值的提取。
(2)数据抽取:对用户指定的纯文本文档集,按照用户指定的特征值最低统计计数提取文本中的特征值。特征值抽取是采用无背景知识的抽取方法,对文本的二字词组、三字词组、……、n字词组出现的次数进行统计,若出现次数超过指定的最低计数则把这个词组作为该文本的一个特征值。
(3)特征值清理:对数据抽取得到的特征值进行清洗。文本文件的抽取是在文本中按位置读出,一些位置上出现一些无自然语义的控制符也被读入形成无意义的乱码,若这些乱码超过最低统计计数,则也被加入到特征值中,所以有必要对特征值中这些无意义的乱码进行清洗,以保证数据库中数据的一致性和准确性。
(4)特征值入库:把数据清理后的特征值加入到数据库中,同时入库的还有文本文件的相关属性值,如文件名、文件路径、创建时间、最后修改日期、入库时间等。
(5)关联规则挖掘:特征值装载入数据库后,每一个文本文件对应一个特征值向量,与商品交易数据库中交易标识号和交易记录类似。运用加权关联规则算法对这些特征值向量进行关联挖掘,得到关联规则。
(6)应用:TextMiner主要考虑把系统挖掘出的关联规则用于未知知识发现、文本内容检索,其它扩展应用还有文本聚类、自动文本关键字提取、自动文本摘要等。
图1文本数据挖掘系统原型方案
5结束语
文本内容挖掘才刚刚起步,其前景十分广阔,将成为信息检索和情报分析中的一个重要课题,同时把文本内容挖掘的研究成果应用到搜索技术中将为人们提供更准确的有价值的搜索结果。
参考文献:
[1]钟艳花,余伟红,余永权.web文本挖掘系统及其关键技术研究[J].计算机工程与应用,2006(34):167.
[2]湛燕,陈昊,袁方.文本挖掘研究进展[J].河北大学学报(白然科学版).2005,23(2):221.
[3]薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报(自然科学版),2005,19(4).
[4]范亚芹,刘颖,李兴男.web数据挖掘原理及实现[J].吉林大学学报,2004(21).
地理数据的特征篇4
关键字:学生画像;标签;特征矩阵
中图分类号:G641文献标志码:A文章编号:1673-8454(2015)19-0046-04
一、引言
当今大学生成长在以互联网和手机通信为代表的现代传媒手段蓬勃兴起的时代,虽然可以开拓国际视野,但也缺乏自制力,容易迷失方向,无法自拔;还有部分学生由于其人生观、价值观在成长过程中发生偏差,崇尚享乐主义,主要精力不放在学习上,学生的自主能力差,不能正确的处理学习和交友,学习与休息,学习与娱乐等的关系。自我控制能力差,纪律松懈,作风散漫。从而导致了多门课程重修,学习进入了恶性循环。2012年中国社会科学院在国内教育发展研究报告中指出,目前国内每年平均有50万大学生选择了退学,其达到了大学招生的0.75%左右。其中主要原因是由于成绩差,对个人学业或是对学校教学环境丧失信心[1]。大学生选择退学的结果给社会、学校、家庭带来了很大负面影响。
从学校的管理角度出发,若能建立动态的预警教育机制,对大学生的不良思想、行为做到事先警示教育、事后跟踪管理,对学生可以起到“扬鞭奋起”的警示与鞭策作用。学籍异常都是逐渐产生的,怎样在产生恶果之前及时介入干预和帮扶,怎样才能做到“防微杜渐”、是急待解决的问题[2][3]。
二、当前学籍预警体系的现状
目前,高校学籍管理一般分为校院两级管理模式,学校级别的管理主要靠建立规章制度和执行规章制度,而学院对学生的管理主要靠学籍监控及预警指导为主。教务工作与学生思想政治工作在学生管理方面相对独立,主要是事后预警。
(1)成绩预警:根据教学管理系统,统计学生完成的学分及学分绩点和教学计划要求的进程比对,评估学生学习情况,并预测学生完成培养方案的趋势,将可能无法完成培养方案的学生整理汇总,并将其交给学院辅导员。辅导员针对学生的具体情况进行干预并对其预警。
(2)日常预警:可以借助教师定期对学生考勤记录、作业是否按时完成、以及课堂学习状态等进行分析,学院教学管理者收集到相关信息后进行整理及筛选后反馈给辅导员,由辅导员进行预警处理。
由此可见,目前的预警主要是单方向的,孤立的事后预警,具有迟滞性。只有出现严重的学籍异常后,才采取相应的对策解决问题,但是对于一些潜在的问题,学生不能发现,比如对处于网瘾状态而上学期表现良好的学生不能及时发现。现有的学籍预警系统无法做到对学生的学习和生活状况的实时监管,对问题的根源无法追踪。要以“学生为本”构建全方位预警方式的构架,将大数据挖掘技术和传统的人力管理相结合,做到“防微杜渐”,减少产生恶劣的后果。
三、基于学生画像的学籍预警系统
随着大数据时代的到来,学生的所有行为在高校面前几乎全是“可视化”的。许多高校开始研究如何有效的利用大数据技术为人才培养服务,挖掘学校海量数据潜在的巨大价值,进而提出“学生画像”的概念。学生画像即学生特征进行标签化处理,是高校利用采集到学生的各方面数据,构建一个学生数据抽取模型。通过分析其个人基本属性、学籍信息、考勤信息、上网行为、借阅图书信息、校内消费行为及个人兴趣爱好等重要特征,进而抽象出学生的在校画像,该画像可以作为是学校教学管理的重要依据。学生画像可以为学校提供了充足的学生数据,对学生特征数据进行降维及聚类分析,能够帮助学校快速准确的了解各个学生的学籍状态,依据评价结果,有针对性的对相关学校有关部门、教师、家长和学生传递预警信号,必要时采取干预措施,对学籍状态出现异常的学生给予有针对性的引导,避免因各种原因导致学生无法完成学业或产生其他不良结果的事情发生。
1.构建学生画像的意义
随着信息化建设的不断推进,高校在各种管理系统中采集并保存了有关学生信息的海量数据,并逐步形成了一个从学生基本信息、学籍信息、校内消费、图书借阅到上网行为的多维度数据存储体系。如果能够根据学校管理决策的需要构建一个数据仓库,对该存储体系统的数据进行抽取、清洗、转换并载入数据仓库中,进而形成一个高质量的数据中心,学生画像是在学校数据仓库中进行数据挖掘,通过其中多维度的数据信息,分析学生的有关信息,还原学生的基本属性、学习成绩、上课考勤、图书借阅行为、上网行为以及校内消费行为等属性。了解学生的各种特征及需求,精准描述学生群体特征,针对特定场景进行学生不同维度的聚类分析,将杂乱无章的海量数据转变为栩栩如生的学生画象,进而监控学生的学籍状态,并预测学生学业走向,必要时管理者可以干预学籍异常学生行为,对其进行有效的管理。
2.学生画像的构建
学生画像的主要任务是给学生贴“标签”,标签是指可以准确精炼的描述学生的特征标识,比如性别、年龄、民族、兴趣爱好等,将学生的所有标签综合在一起,就可以构成学生的“画像”了。本文主要从学生的基本属性、学习成绩、上课考勤、图书借阅行为、上网行为以及校内消费行为对学生特征进行研究。学生画像主要分三步:①采集学生数据;②统计分析,生成学生特征标签;③生成学生画像。流程如图1所示。
首先,对学校各个数据源进行数据抽取、清洗、转换、装载入学生数据仓库中,采集到的学生数据分为静态特征数据和动态特征数据,所谓静态特征数据是学生相对固定不变的特征信息,如姓名、性别出生日期、民族等特征,动态特征数据就是学生随时间的推移不断变化的行为特征,如学习成绩、上课考勤、图书借阅行为、校内消费行为及上网行为等。
其次,利用收集到的学生特征属性信息,通过统计分析为学生在不同纬度特征上贴上标签。其中,对于学生静态属性,例如学号、姓名、性别、出生日期、民族籍贯等,通过对采集到的特征数据进行抽取、清洗及转换,可以直接为学生贴上标签。对学生动态属性贴标签时,需要根据具体需求进行统计分析。比如对学生学习状况分析时,需要对学生学年学期不同课程性质课程获取的成绩标准化处理,然后进行统计分析,生成学生学期不同课程性质获取的平均成绩,从而为该生贴上学习状况标签。依据同样方式为学生贴上上课出勤特征、上网特征及借阅图书特征等。
最后,根据学生的所有标签为学生画像,通过画像可以直观地呈现学生特征属性。
3.学生画像分析
高校为学生特征生成画像后,通过分析学生画像可以实时准确了解学生的各方面特征,掌握其基本学籍状态。考虑到学生画像中不同特征间具有某种相关性,而相关性会增加统计分析的复杂程度,采用主成分分析法对学生画像进行分析,将最初具有关系的属性用新的相互独立的属性来替代。选取尽可能少的属性来反映学生的所有特征。分析学生画像主要包括以下步骤:
(1)将n个学生画像数据按列生成矩阵S,如公式(1),该矩阵由n行m列组成
(5)选择主成分
根据标准化的学生特征数据,根据特征贡献率将学生特征值按降序排列,根据统计需求取前若干行(特征),形成降维后的学生特征矩阵S。
四、实验验证
通过对北京信息科技大学31个专业2个年级5367名学生静态数据及动态特征数据采集、整理、过滤分析,形成学生画像。其中包括静态特征(基本属性)24个,动态特征5个,总计29个特征信息。针对学生的特征数据生成学生特征矩阵,进而对学生特征矩阵进行主成分分析法进行降维处理,动态提取学生关键特征值,从而生成新的学生特征矩阵,然后利用基于距离的聚类分析法,将学生进行聚类,将严重偏离中心点的学生特征信息提取出来,如图3所示,离群点的学生信息有可能为学籍状态异常,进而生成学籍异常学生信息,通过将模型提取的学籍异常学生信息与学院核对,结果发现95%的学生确实存在学籍异常特征。
在分析过程中产生了一些急待解决的新问题,为进一步动态地监控学生学籍的状态,需要教务处、学生处、学院、任课教师、辅导员及学生多方形成合力,缺少任何一方的积极推进,都无法顺利完成预警工作并取得实效。必须在以下几方面进行加强建设:①及时上报课堂考勤数据。任课教师考勤是考勤预警的最准确、全面的数据来源,数据汇总要及时,以免错失最佳干预期。②各个信息系统数据充分共享。各个应用系统之间的信息避免出现孤岛现状,实行实时的共享和同步。
五、结束语
采用学生画像的方法监控学籍状态,构造学生特征矩阵,并经过降维处理,简化特征,能够实时掌握学生学籍的动态生特征信息,及时的发现问题,未雨绸缪的采用预警措施,利于学校的学风建设,对于学籍信息不稳定的学生,采取实时预警措施。在有大量信息的教育领域,将基于学生特征画像方法应用于学籍状态监测,在高校学生管理中加以推广应实验结果表明,所得出的结论对高校教学和人才培养具有一定的指导意义。
参考文献:
[1]杨东平.中国教育发展报告2012[M].北京:社会科学文献出版社,2012.
[2]张红云.高校学习预警机制探索[J].科技信息,2010(1):801.
[3]章东飞.大学生学籍预警机制探索[J].教育学术月刊,2010(5):75-76.
[4]袁安府,张娜,沈海霞.大学生学业预警评价指标体系的构建与应用研究[J].黑龙江高教研究,2014(3):79-83.
[5]吴青芳,胡欣敏.高校学籍管理与学风建设关系研究[J].化工高等教育,2010(4):21-24.
[6]李爱凤,刘葵,唐连章等.数据挖掘技术在数字化校园共享数据中心的应用[J].实验室研究与探索,2013(11):232-236.
[7]黄晓霞,程论.综合评价与数据挖掘的比较[J].上海海市大学学报,2007(12):54-58.
[8]刘昕,郑莆燕,刘莉.学分制下二级学院学生预警机制的探索与实践[J].教育与职业,2013(1中):174-175.
[9]林静,陶爱萍.我国近二十年高校学籍管理制度理论研究综述[J].江苏高教,2012(1):60-62.
[10]曾丽.学分制条件下学籍管理的完善[J].鞍山科技大学学报,2006(6).
[11]张波,耿在丹,杜保强.基于数据仓库的学生信息管理决策系统[J].实验室研究与探索,2009,28(12):60-62.
[12]华金秋.台湾高校学习预警制度及其借鉴[J].江苏高教,2007(5):136-137.
[13]赵力,王涛,金代志等.高等院校学籍管理系统功能设计,2009(8):107-108.
[14]别红桂.高校学籍管理工作的改革与探索[J].教育探索,2011(1):88-89.
[15]赵雄辉,聂娟.高等学校学籍管理制度建设原则探讨[J].高等教育研究学报,2006(3):78-80.
地理数据的特征篇5
一、大数据技术在税收征管中的作用阐释
基于现代信息技术的“大数据”技术,不仅可以完成多种类型数据的高效收集和快速传播,还可以在极短的时间内完成对数据的系统分析。在税收征管过程中充分利用大数据技术,可以及时解决我国税务征管中的诸多问题,有效预防税收征管中的诸多漏洞。同时,经过系统分析、精確处理的税务信息,也可以为相关部门制定经济决策提供科学依据。具体来讲,“大数据”技术在税收征管中的作用,可以概括为以下几个方面:
首先,“大数据”技术有利于促进税收征管现代化,提高税收征管的效率。随着市场经济的深入推进,特别是“双创”政策的激励,我国中小企业数量不断增加,税务登记户数日趋庞大,这在一定程度上加重了税务机关的工作任务,税收征管能力欠缺的矛盾日渐突出。以现代信息技术为基础的“大数据”技术的广泛运用,提升了税务部门征管能力,在降低税务机关工作任务的同时,也降低了税务管理的成本,最终促进了税收征管的现代化进程,提升了税收征管的工作效率。
其次,“大数据”技术有利于强化税务风险管理,减少税收流失。风险管理是包括风险预测、风险评估、风险规避在内的一系列管理策略。受各方面因素的影响,税收管理中存在的诸多不确定性因素,增加了税收流失风险。税务机关可以运用“大数据”技术,强化对税务信息的收集、整理和分析,有效避免因税源监控不力而产生的偷税漏税现象,有效避免国家税收流失。与此同时,基于大数据技术的更加科学、透明,及时的信息传播、政策宣传,也有利于纳税人更加理解、配合税收征管工作。作为税务机关,可以主动利用大数据平台中的信息资源,加强税收政策的宣传,及时消除征纳双方的误解,强化纳税人主动申报、缴纳税款的意识。
再次,“大数据”技术有利于强化税务信息预测,提高税务决策效率。任何税务政策的出台、管理体制的完善、具体工作的部署、工作绩效的反馈,都是建立在深入的市场调查,以及对海量数据的系统分析之下得出的科学结论。基于现代信息技术的大数据平台,同时也是税务信息交流、税务信息分享的重要平台:大数据技术对信息资源的整合,在实现不同部门之间涉税信息共享的同时,通过对不同主体、不同时点、不同阶段税收情况的系统分析,及时发现、修订税收征管漏洞,并据以完善税务管理体制,提高税务决策效率。
最后,“大数据”技术有利于改进税收征管理念,改善税收服务质量。大数据的典型特征,是“数据体量大、数据种类多”,但“价值密度低”。面对海量数据,任何个体(即使是经验和资历最为丰富的税务干部)的知识储备都显得微不足道。大数据的开放、共享性,不仅对税务机关满足纳税人知情权、参与权等大有裨益,还会对推进涉税信息共享、建立透明政策体系等形成倒逼,进而对税收征管工作理念、工作方式、执法思维、组织体系的变革形成巨大推力。
总之,“大数据”理念是转变税收征管理念的突破口:“大数据”为税收征管由传统的“管户”、“管事”转向“管数”提供了技术支撑,促进了税收征管模式的转型。与此同时,税务机关也可以通过大数据技术,深入分析税收对经济社会发展的成就,并据此测算出更加科学、合理的综合税收负担率,不仅为深化财税制度改革提供了科学依据,也为税务机关提高税收服务质量、改进税收征管效提供了技术保障。另一方面,在税收征管实践中,针对纳税人可能采取欺骗、隐瞒等手段进行虚假纳税申报或不申报等违法行为,造成国家税款损失的问题,税收征管部门可以基于大数据技术,构建有效的纳税人监管网络体系,将纳税人收入、财产、资金等数据纳入国家诚信管理体系,以此督促纳税人“诚信纳税”。而基于大数据技术的税务稽查分析,也可以及时揭露纳税人偷税、漏税等违法行为的环节和手段,从而更好地做到“依法治税、应收尽收”。可以说,税收征管充分利用大数据技术,是提高税收征管效率、消除税收征管信息不对称、加强税收征管风险管理、改善税收征管服务质量的必然选择。
二、大数据时代我国税收征管面临的挑战
大数据技术对改进税收征管工作有着重要的促进作用,但也对我国当前的税收征管工作形成了一定的挑战:
首先,从涉税信息采集的角度来讲,我国目前的涉税信息采集,仍然存在信息来源渠道单一、信息采集缺乏全面性和准确性、征纳双方信息不对称等问题。税务部门涉税信息主要来源于纳税人申报的信息,税务部门缺乏与银行、工商等相关部门的信息沟通与数据共享,由于缺乏大数据技术分析和运用,难免造成信息不全面、不准确。特别是在当前知识经济、数字经济时代,纳税人信息越来越复杂化、多样化,纳税人信息采集难度不断增加,税务机关缺乏对大数据技术的充分运用,势必影响涉税信息的采集和利用效率,进而造成征纳双方的信息不对称,影响税务工作效率和服务改进。
其次,从涉税信息处理的角度来讲,目前对涉税信息的分析,大多是基于税收目的而展开,多局限于对某些具体数据的纵向比较。近年来,基于风险管理导向的税收征管工作改革深入推进,涉税信息、数据建模的重要性越来越明显,尽管涉税信息分析已经初见成效,但却缺乏与财务数据、市场波动、宏观经济数据的联动分析,必须影响对数据、信息的利用。另一方面,由于软、硬件平台建设滞后,标准不统一、数据结构不一致,且存在功能交叉等现象,也在一定程度上影响了数据、信息的利用效率。
再次,从人才队伍建设的角度来讲,大数据技术在使部分工作岗位技能趋于普通化的同时,也对部分特殊岗位(如软件维护人员、数据开发与分析人员)提出了更高的要求。目前,税务机关(尤其是基层税务机关)既懂税收业务又懂数据分析技术的复合型人才较少,难以适应大数据时代税收人才队伍建设的需要。特别是一些税务干部年龄结构偏大、信息技术水平不高,许多新的软件上线,给部分税务干部带来了新的挑战,带来了学习和运用新软件的压力。同时,将大数据技术融入税收征管工作体系之中,也会对税务干部的信息保密、网络安全、风险管理等提出新的要求。
最后,从税收征管模式的角度来讲,目前的税收征管仍然是“管户”与“管事”的结合,主要的涉税信息、涉税数据均由纳税人自行申报、填写,在纳税人税收违法成本较低的情况下,纳税人自行填报的信息和数据,其真实性和可信度可能受到影响。作为税务部门,必须强化对纳税人信息的管理,税收征管也就难以真正完成向“管数”的转型,税收征管服务质量也就难以得到有效提高。
三、大数据时代我国税收征管工作的改进策略
针对大数据技术对税收征管的影响,应从以下方面促进税收征管工作的改进:
首先,强化信息管理体系建设,加强税务数据的整合。具体来讲,一是要有效整合金融、工商等相关部门的数据,建立跨部门、跨区域的数据共享机制,从而为税务机关提供更加便捷的信息获取平台;二是要建立健全涉税信息利用机制,在明确信息获取权限的同时,强加数据质量管理,彻底改变数据散乱、数据更新不及时、数据运用各自为政的局面,为税务机关获取涉税信息营造良好的外部环境;三是要加强数据分析利用,主要是建立科学的数据分析流程,涉税信息既要有宏观分析、区域分析,又有行业分析、纳税人个体分析。要通过对数据及时、准备、全面的分析,找准税收管理的风险点,进而明确不同岗位、不同环节的税收征管重点、管理难点、征管风险点,提高对涉税信息的系统分析和综合利用,将大数据技术、大数据思维真正贯彻、运用到税收征管和服务体系之中。
其次,强化税收征管体系建设,提高税务管理水平。一是建立以大数据技术为基础的现代化纳税申报体系,主要是建立健全以自然人、企业法人等为完全责任主体的纳税申报体系;二是要同步推进纳税申报体系建设与社会信用体系建设,将税收责任落实到每个企业、落实到具体的个人,从而形成“自主纳税、自愿纳税”的良好税收氛围;三是逐步建立以政府为主导,以税务机关为主体,多部门密切配合的社会化税收征管体系,强化对涉税违法行为的惩处力度,从而真正发挥税收的集合力和威慑力;四是要改进税收征管手段,通过构建强大的涉税信息处理平台,整合多方面的涉税信息和数据,提高税收征管的集约化程度,以此降低稅收征管成本,提高税收征管效率;五是要强化税收征管反馈机制和跟踪服务机制,在强化对纳税人个性化服务的同时,推进税收征管工作的动态改进,使大数据技术更好地服务于税收管理和科学决策。
再次,强化税收人才队伍建设,提高内部管理效率。一是要在强化外部人才引进的同时,加强对广大税务干部职工的教育培训,结合定期举办专业技术培训、专业技术交流等活动,提高税务工作者的信息化素养,打造出一支既懂财税知识、又懂法律知识,既懂信息处理、又懂数据分析的综合型人才队伍;二是要强化税务部门内部组织机构和管理体系建设。传统的金字塔式的管理,指令传递层次多、管理成本和效率低下。因此,应该结合大数据时代特征,构建组织结构更加扁平、职能划分更加灵活的管理体系,在转变职能、理顺关系的基础上,提高税收征管工作效率,改进税收征管服务质量。
最后,强化税务服务平台建设,提高涉税服务质量。一是税务管理要实现由“控制导向”向“服务导向”的转型,税务工作人员要实现由“单纯执法者”向“执法与服务并重”的转型;二是在涉税信息、涉税数据公告方面,要通过现代信息手段,实现税收政策、税收法律、管理措施、服务流程的在线化、透明化,要充分利用微博、微信、QQ等传播媒介,及时税收工作动态和税务政策调整信息,并为纳税人提供便捷的服务平台,使纳税人不受时间、空间的限制,随时随地都可以办理申报纳税;三是要建立健全相关法律法规体系,以更好地界定数据归属和使用权限,在满足税务机关信息采集、运用的同时,避免对企业、个人正当权益的侵犯;四是要结合大数据时代特色,强化数据处理技术规范,从国家层面统一数据采集和运用标准体系,提高数据的可用性。
地理数据的特征篇6
电子文件管理元数据宏观结构分面化的基本概念
电子文件管理元数据结构分为宏观结构和微观结构,所谓宏观结构就是电子文件管理元数据顶层框架的架构,而微观结构是指电子文件管理元数据元素的构成。本文主要研究的是电子文件管理元数据宏观结构的分面化问题。
所谓“分面”,是指可以表征一类事物某一方面属性的一组简单概念元素。对于同一类事物,可以用多种属性作为划分标准,形成多个面——分解[1]。在所形成的多个分面之间,是相互独立并行的,因此各分面内的元素就可以进行组合——组配。这种组配由于有“多个面”参与,所以可以多维地、全面地揭示事物的属性;由于参与的“多个面”是组配的,所以又可以灵活地、方便地揭示事物的属性。
而所谓的“分面化”,则是指从系统角度出发,运用分解和组配的方法建立电子文件管理元数据宏观结构的架构过程。分面化往往是相对于单一线型化而言的。由于在电子文件管理元数据的宏观结构的架构上存在着多维分面化架构与单一线型化的架构,而且,在时间上,单一线型化的架构产生于多维分面化的架构之前,所以,研究电子文件管理元数据宏观结构的多维分面化,首先应该研究电子文件管理元数据单一线型化的架构。
电子文件管理元数据单一线型化架构的分析
所谓的电子文件管理元数据单一线型化架构,就是指在架构电子文件管理元数据的宏观结构时,将电子文件作为一个固定的实体,然后,按照文件管理流程一维地将电子文件划分为不同的类型的元数据,然后再依次对所划分出的不同类型元数据再进行细分,由此所形成的单一线型的结构。这种单一线型化的架构方式,典型的是以澳大利亚维多利亚州《电子文件管理元数据标准》为代表,该标准首先是将电子文件依据文件管理流程划分成几个不同类型的元数据,即划分为“文稿、文件、文件组合、文件集”等类型的元数据,然后在这基础上,再进一步对“文稿、文件、文件组合”进行细分,从而在“文稿”下再列出文稿的特征元数据、在“文件”下再列出文件的特征元数据、在“文件组合”下再列出文件组合的特征元数据及在“文件集”下再列出文件集的特征元数据,由此便形成了单一逐级划分的线型框架架构。
具体来看,该标准对“文稿”细分出了“责任者”、“描述”、“语种”、“题名”、“主题”、“来源”、“功能”、“日期”、“关系”、“权限管理”、“内容范围”十一个特征元数据,这些特征元数据,都是描述“文稿”所应有的;对“文件”的细分,也是分出了与“文稿”相同的十一个特征元数据,这是因为文件与文稿都是具有相同性质的电子文件,所以,描述它们特征的元数据也就必然是相同的,同样,“文件组合”、“文件集”也是与“文稿”、“文件”具有相同性质的电子文件,其差别仅仅是文稿、文件、文件组合和文件集是电子文件表现的不同形式和级次而已。所以,在对“文件组合”、“文件集”的细分,其细分出来的特征元数据也与文稿和文件的相同。
由此可看出这种单一线型化宏观结构中隐含着大量的相同的元数据元素,即元数据元素的冗余度很大,这种冗余度而且会随着对元数据不断细分,会呈几倍或几十倍的倍率增加,其结果相同元数据元素的数量极其庞大。
再对电子文件的文稿中的“责任者”进行细分,又分出10个描述文稿“责任者”的特征元数据元素,分别为“责任者类型”、“个人ID号”、“个人姓名”、“部门名称”、“职务名称”、“联系方式”、“电子邮箱”、“数字化签名”、“机构标识符”、“机构名称”,同样对文件、文件组合、文件集中“责任者”进行细分,分出来的特征元数据元素与文稿中的“责任者”下的特征元数据元素也完全相同。由此可见,电子文件管理元数据单一线型化的宏观架构会导致元数据严重冗余,数量庞大,十分不科学。
为了降低冗余度,澳大利亚维多利亚州《电子文件管理元数据标准》采用了减少对元数据元素细分的方式来减少相同的元数据元素,其具体做法是对“文稿”下特征元数据元素都没有进一步细分,仅有如“责任者”、“题名”、“权限管理”、“主题”等特征元数据,而对“文件”、“文件组合”和“文件集”下的特征元数据都进行了进一步的细分。采用这种方式,可以减少“文稿”下特征元数据元素的冗余。但也有其局限性,就是降低了元数据元素的专指度,仍以“文稿”的“责任者”为例,如不对其进行细分,那么这个“责任者”元素就很不专指,就很难确切地表达责任者的类型,是机构团体责任者还是个人责任者,以及责任者的部门名称、职务、联系方式、数字签名等具体含义。
由此可见,单一线型化宏观架构局限性是:
(1)因其对电子文件是按照单一线型的逐级划分方式进行的,使得元数据冗余呈倍数上升,冗余度十分大;
(2)为降低冗余度,减少细分级次,又降低了电子文件管理元数据元素的专指度,表达语义不具体;
(3)因其是一维展开的,难以多维、灵活地揭示电子文件的特征。
正因电子文件管理元数据单一线型化架构存在以上的缺点,才促使人们努力完善电子文件管理元数据宏观架构,因而才有分面架构的出现。
电子文件管理元数据多维分面化架构的分析
所谓的电子文件管理元数据多维分面化架构,就是指在架构电子文件管理元数据的宏观结构时,利用分面的方法,将电子文件划分成多个分面,各个分面内的元数据元素可互相进行组配,从而形成满足各种需求的电子文件管理元数据,电子文件管理元数据的多维分面化架构典型的是以《澳大利亚文件管理元数据方案》[2]标准为代表,该标准采用分面的方法,将电子文件实体分为“文件”面、“责任者”面、“业务处置”等面,其中,每一个分面之下,再细分成亚面——类型面和依附于类型面的亚面—特征描述面,这样面和面之间可以组配,亚面和亚面之间也可以组配,便形成电子文件管理元数据多维分面化架构。如以这样的结构同样表示“文稿”、“文件”、“文件组合”和“文件集”的责任者特征,就可以将文件分面与责任者分面进行组配来表达,见图1所示。
图1电子文件管理元数据的文件分面与责任者分面的组配
从图1可以看出,文件分面下的“文稿、文件、文件组合、文件集”它们分别可与责任者分面进行组配,从而可以形成多种责任者类型——如文稿责任者类型(内部责任者和外部责任者)、文件责任者类型(内部责任者和外部责任者)、文件组合责任者类型(内部责任者和外部责任者)、文件集责任者类型(内部责任者和外部责任者),也就是说采用多维分面化架构可以达到同样的单一线型架构细分的效果,但是其结构却更简洁明了,元数据元素的冗余度也大大减少。由于多维分面化结构是可以多维组配的,因此,除了分面与分面之间的组配外,还可以在各分面内进行亚面与亚面的组配,也就是各分面下的子分面与子分面进行组配,如图2所示。
从图2可以看出,当责任者的“内部责任者”亚面与责任者的“特征”亚面组配时,就可以形成“人员责任者的ID,人员责任者名称、人员责任者时间、人员责任者授权、人员责任者联系方式、人员责任者关系、人员责任者概况”等一系列表示人员责任者的元数据元素,同样,将单位责任者、机构责任者、组织责任者分别与责任者的特征亚面组配,也可以形成单位责任者、机构责任者和组织责任者一系列表示责任者特征的元数据元素,其达到的效果也如前电子文件管理元数据单一线型架构细分所列举出的责任者特征效果一样,同样,采用这种多维分面化架构,不仅元数据元素的冗余度大大减少,而且也使元数据的宏观结构的安排更合理。
图2电子文件管理元数据的责任者亚面之间的组配
电子文件管理元数据多维分面化架构的本质
从上面对电子文件管理元数据多维分面化架构的分析,似乎“组配”是多维分面化架构的本质,其实“组配”仅仅是其的表面现象,而其本质却是对电子文件管理元数据系统的分解。
从系统论的角度看,电子文件管理元数据也是一个系统,而多维分面化则正是通过对该系统科学分解而架构起来的,即通过对电子文件管理元数据综合分析,通过分解,建立起多维分面,而分面组配仅仅是对电子文件管理元数据系统的分解在结构上所进行的还原。由此可见,“组配”现象下隐含着“分解”。
因此,多维分面的分解必须科学,必须具有理论的指导,否则为分解而分解。
缺少目的性。目前在国际电子文件管理领域,电子文件管理元数据多维分面化架构其分解都是基于电子文件管理连续体理论来进行的。如前所述,将电子文件元数据系统,分解为文件面、责任者面和业务处置面,其理论根据主要是依据电子文件管理连续体理论的三个实体来划分的,即依据文件管理连续体理论的文件实体轴形成文件面、责任者实体轴形成责任者面、业务处置实体轴形成业务处置面,所以,将电子文件管理元数据分解为文件面、责任者面和业务处置面是具有其内在的科学性的。不仅如此,由于多维分面化架构的科学性,因而其形成的分面架构又被国际电子文件元数据管理领域所共同认可,并进而被国际标准化组织(ISO)所制定的国际标准《ISO23081-1信息与文件—文件管理过程—文件元数据—第一部分:原则》所采纳,从而成为国际标准的多维分面架构。
由此可见,电子文件管理元数据多维分面化架构具有很明显的优势:
(1)依据电子文件管理连续体的基本理论进行面的多维分解,符合电子文件管理的规律,具有科学性与理论基础。
(2)采用面的多维组配,可灵活地组配形成所需的各种电子文件管理元数据,从而可多维地、全面地反映电子文件特征,因而功能更加强大。
(3)采用多维分面架构,优化了电子文件管理元数据的宏观架构,促进了电子文件管理元数据的宏观架构的标准化,因而十分有益于电子文件真实性、可靠性、完整性和可利用性及法律凭证价值的实现。
综上所述,通过以上对电子文件管理元数据单一线型结构和多维分面结构的比较分析可看出,单一线型结构存在数据冗余、体系庞大、专指度不高等缺陷,还需要进一步完善,而多维分面架构却有显著的优点,其采用分面的方法,使得电子文件管理元数据能更加灵活地运用,能更加多维地全面地揭示电子文件的属性,能更加完整地反映电子文件之间的关系,因此,在电子文件领域,多维分面方法是值得充分重视与研究的,同样,在我国电子文件管理元数据宏观架构的制定过程中,也应积极采用多维分面化架构,从而提高我国电子文件管理元数据标准化程度,提高对电子文件资源开发与利用的效率.
【参考文献】
-
年教师个人工作总结范文(整理6篇)
教师个人工作总结范文我来到幼儿园工作已经有一年时间了,作为一名新教师,我学到了很多。能够来到幼儿园工作,我感到很幸运。这段时间,其他老师给了我很多的帮助,让我能够迅速的..
-
中秋节作文范文(整理6篇)
中秋节作文范文今天,就是一年一度的中秋节。我刚走到商场入口时,只见人山人海,热闹非凡。我好不容易挤了进去,我左碰碰右撞撞,才好不容易地跟着人群挤了超市。果然不出我所料,商..
-
五年级读后感字范文(整理6篇)
五年级读后感500字范文“读书破万卷,下笔如有神”。读书可以让我们增长知识,读书会开阔我们的眼界,丰富我们的内涵,变得更有素养,也能让我们更有情趣,还能提高我们的沟通交流和写..
-
一年级小学生日记范文(整理16篇)
19.一年级小学生日记范文九今天是周五,老师带我们去了光明农场春游。我玩了手摇船,抓鱼,喂奶牛,还做了泥陶。看到一群群红的黄的花的小金鱼在水池里游来游去,我就急忙挽起裤脚,跳..
-
信息技术教学个人计划范文(整理6篇
信息技术教学个人计划范文2024一、指导思想:1、让学生初步掌握计算机的基础知识,掌握基本的WINDOWS操作技能。2、让学生进一步了解电脑的广泛用途,并从小树立学科学、爱科学、..
-
部门经理个人工作计划范文(整理6篇
2024部门经理个人工作计划范文一、行政人事制度、流程、手续、表格类:在日常工作中行政人事类的制度、流程、手续、表格没有统一规整,些许制度、表格只是遇到时在临时制作,通..
-
年财务经理个人工作总结范文(整理2
财务经理个人工作总结范文作为xx集团子公司的xx公司,财务部是xx公司的关键部门之一,对内财务管理水平的要求应不断提升,对外要应对税务、审计及财政等机关的各项检查、掌握税..
-
小学生英语作文范文十(整理6篇)
小学生英语作文范文通用Ihaveahappyfamily.Therearethreepeopleinmyfamily:mymom,mydad,andme.Mymomisateacher.Sheisverykind.Shecooksdeliciousfoodforuseveryday.Mydadi..
-
幼儿园大班幼儿毕业评语(整理10
12.2023幼儿园大班幼儿毕业评语二 你是个聪明大方又可爱的小女孩。这学期你的表现很能干,能主动和老师说一些自己发生的事。你上课
-
部队班级年终工作总结(收集6篇)
部队班级年终工作总结篇1今年来,在支队党委的正确领导和业务部门的有力指导下,我们班始终以“”重要思想为指针,以政治合格、军事过