语言服务业概念(6篇)
语言服务业概念篇1
随着云计算研究与应用的逐步展开和迅速普及,服务的数量增长速度也不断加快。在这样一个海量的集合上,通过服务发现和组合来满足用户的服务需求,其难度在不断增加。一方面由于服务具有分布、自治的特征,且数量急剧增长,在海量的服务资源中选择可互操作的服务候选者存在巨大困难;另一方面云计算环境中用户需求多变,业务流程日益复杂,服务资源无法即时适应其变化。计算要求面向用户需求,以服务为基本单位,通过服务的协同和交互快速构建软件系统,已经成为构建大规模分布式系统的主流计算方式,这就迫切需要发展一种新的服务发现框架。
传统的服务发现机制通常关注服务本身的属性和内在特征,而忽略了服务发现的宗旨是来尽可能满足用户的需求,这必然成为按需服务发现的瓶颈。要提高服务资源发现的效率和质量,需要以需求为引导,为需求者提供一种更好的服务表现形式,将需求者最关心的内容呈现给他们,而将服务实现的技术细节尽可能的隐藏起来,减少服务提供者和服务需求者对于服务理解上存在的鸿沟,让用户快速定位到自己真正需要的服务资源。
本体(Ontology)是用于描述或表达某一领域知识的一组概念或术语,它可以用来组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识,利用本体知识规则集的表现方式,聚类分析Web信息在语义层次上的共享和交换,可以大大加强Web的功能,使其成为自然语言处理,Web信息检索,数据库和知识库的管理,异构数据集成,Web页面语义研究,快速揭示海量信息资源中用户在语义、语用和知识上的需求。在越来越多的研究中开始利用本体解决特定环境下的语义搜索和标签聚类的需求,发现用户共同关心的需求等核心问题。
从现有知识源(如文本、词典、遗留知识库或本体、数据库模式等)获取领域知识、以(半)自动方式构造或改编本体,即所谓的本体学习(OntologyLearning),是开发本体的有效途径。人们已进行了许多有关语义Web基础架构如本体语言OWL、编辑器、推理引擎等方面的工作,在聚类搜索引擎的理论研究中,O.Zamir提出Web信息聚类的STC(SharedTermClustering)方法,依靠共同词组进行聚类,以后缀树的层次结构作为类的层次结构,其中关键词组的发现没有考虑词组的稳定性和完整性,没有考虑语义的问题,不能适用于中文等语言,D.Cutting等人提出Web信息聚类的Scatter/Gather系统,由于是采用传统的启发式聚类算法进行聚类,难以避免启发式聚类算法的种种缺点。Y.Wang等人提出基于超链接(hyperlink)进行万维网信息聚类,这种方法需要下载并分析实际的网页,因此不可能做到在线聚类。
本文提出一种基于本体的Web页面聚类系统,综合聚类方法和领域知识的优点,将用户提交的查询与领域本体匹配,提取背景知识来提供聚类的参数确定同时也增强了聚类结果的可解释性,通过将其应用到搜索引擎的背景下,大大方便了用户需求信息的查找,同时聚类用户需求,实现查询集合的优化。
二、本体的应用
Internet上的信息资源具有海量、分布、动态、复杂、开放等特点,需求本体信息的发现,用户如何从这些海量的数据中查找自己所需要的有用的信息,自动地从Web上发现、抽取和过滤信息,同时满足用户在特殊环境下的语义、语用和知识上的需求成为自动文本信息抽取的一个重要环节。文本信息抽取(textinformationextraction)是指从文本中自动抽取相关的或特定类型的信息。目前文本信息抽取模型主要有三种:基于词典的抽取模型,基于规则的抽取模型和基于隐马尔可夫模型(HiddenMarkovModel,HMM)的抽取模型。采用HMM存在的主要问题是没有考虑文本的上下文特征信息和文本词汇本身包含的特征信息,而这些信息对于实现正确的文本信息抽取是非常有用的。
面对快速增长的Web信息,很多基于Web的应用面临着相关领域本体缺乏的问题,因为许多的本体构建严重依赖于以专家为中心的方式实现的,这种以手工为主的构建不仅代价很高,无法进行大规模扩展,同时要促使大量的用户和领域专家为语义Web来构建本体也存在相当的困难,因此研究自动的,通用的领域本体构建方法是解决这一问题的关键。
本体是共享概念模型的明确的形式化规范说明,它一方面可以帮助用户明确其信息需求,把未意识到的、未清晰表达的客观信息需求进一步显性化;同时让系统确定检索词在本体中的确定位置,从而帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息。Web上的搜索引擎部分地解决了资源发现的问题,但由于它的策略是基于关键字的匹配,缺乏对Web文档内容的全面把握和深层语义的正确理解,因此返回的结果远不能使用户满意。搜索结果中包括大量与用户需求无关的信息,从而使用户需要花费大量的时间去找到自己真正需要的信息,因此找到一种有效的方法解决这些问题具有重要意义。随着语义识别技术的发展,出现了多种基于Web的本体描述语言,如RDF(ResourceDescriptionFramework),DAML+OIL,OWL(OntologyWebLanguage,参考Http://w3.org)等。OWL作为W3C的推荐标准,是其所倡导的语义万维网(SemanticWeb)的核心技术之一,意在提供一种语言,能够用于描述Web文档和应用中因有的类和类之间的关系。它通过定义类和类的属性来形式化一个领域,声明和定义对象和对象的属性,以及在OWL形式化语义允许的程度上对类(Class)和个体(Individual)进行推进。在这些方法中,主要分为两大类:一类是脱机的聚类,主要是通过网络蜘蛛(Spider)采用一定的爬行策略从各网站收集网页,然后再对其聚类,比较典型的有根据包法来给出一种相似度量;另一类是联机的方法,这种方法主要通过对查询结果聚类,主要是以主体为依据进行聚类。比较著名的Vivisimo就是采用的这种方法,还有相关的如Grouper与Carrot等。这些方法都在一定的程度上取得了好的效果。但在本质上没有对用户查询的意图很好现解,在聚类的时候决定聚类的个数时不能很好地确定,从而使得最后的聚类结果的可解释性方面比较差。
三、基于本体的Web页面聚类的具体实现过程
基于本体的Web页面聚类系统,主要分为四个部分,如图1所示:页面采集与预处理,本体的应用,页面的特征表示,聚类。
图1模型结构
具体的系统模型结构和处理过程为:在模型中根据用户提交的查询返回一个结果集,同时解析用户提交的查询后将其匹配到一个领域本体,得到一个分类的背景知识,然后对结果集体进行分类区分为XML或HTML,然后分别对页面进行解析,再根据领域本体对解析后产生的特征向量进行降维,从而为下一步的聚类做好准备,然后在分类背景知识的启发下对页面的特征表示向量进行聚类,并用用户提交的查询与领域本体匹配得到的信息作为聚类结果的表示依据,这样的有效加快聚类的收敛速度,同时提高了结果的可解释性。
1.页面的收集与预处理
页面的收集主要采用网络蜘蛛根据一定的策略从网站上采集相关的网页,然后对这些页页进行预处理。
Web数量预处理就是去掉Web页面中与需要信息无关的其他内容,提取对分类和过滤有用的信息。主要分为两个过程:一个是对页面中控制符的分析,然后是怎样处理这些控制符。页面中控制符主要包括标题,即网页源代码中用(<title>和[</title>标记的文字;关键字;页面描述,跟关键字类似的,在网页的头部说明中可以使用<metaname=
"description"content="..."/>的形式来描述页面内容;链接,链接元素用来描述两个文档或者文档和URL之间的关系;网页的正文部分:除了少数的专业网站外,大部分网站都是主要用自然语言书写。对于在HTML文档中出现的各种控制符号没必要把所有的都考虑进去,在实际训练的过程中,为了简化分析处理过程,仅考虑下面的控制符:TITLE(标题),META(置标),HREF(链接)等。
在本文中挖掘时用到的本体侧重于一个较小的主题,对应于一个较小的领域应用。因此在此描述的是现实中的一个较小的领域应用,同时在应用中采用OWL来描述。下面是一个计算机媒体OWL本体,其中的一个类层次如图2所示。
图2类层次
其中一个类的OWL语言描述如下:
<owl:Classrdf:ID=人工智能”>
<rdfs:subClassOfrdf:resource=#媒体”/>
</owl:Class>
2.本体的匹配
将一个词汇的集合映射到一个领域本体时,希望得到一个公认的概念集,开始我们有一个集合O={O1,O2,…,On},通过将集合O与领域本体匹配后我们得到一个概念集C={C1,C2,…,Cm},这个领域本体用OWL表示的本体有三种对象,制定四种不同的映射,具体如下:
(1)当集合O中Oi(i=1,2,…,n)与本体中类可以直接匹配时,将匹配到的概念Cj(j=1,2…m)直接加入集合C中。
(2)当集合O中Oi(i=1,2,…,n)与本体中类属性可以直接匹配时,如果还和别的类匹配或那个类的实例匹配时,则遵循类的优先性最高,实例次之,属性最低,则将该类或实例所属的类作为匹配的概念输出,否则,则将该属性属于的类加入到集合C中。
(3)当集合O中Oi(i=1,2,…,n)与本体中某个个体匹配时,当不与其它的类或属性匹配时,则直接将其所属的类加入集合C中,否则根据优先级将其类名作为概念加入集合C中。
(4)当集合O中的元素与任何一个对象匹配不上时,则将其丢弃。
在语义相似度的计算中,在本文定义了一个新的计算概念之间的模型,具体的定义如下:一个概念C1和一个概念C2,它们各自在本体中定义的属性为C1={C11,C12,...,C1n}:C2={C21,C22,...,C2m},当{C11,C12,...,C1n}*C22,...,C2m}={P1,P2,…,Pk},同时定义其中集合P={P1,P2,…,Pk}中每个概念的权重分别为{w1,w2,…,wk},则可以得到两概念之间的相似性为:
Sim(C1,C2)=(w1+w2+…+wk)/k
通过将两个概念的属性的集合相交,得到一个集合,然后根据每个集合中每个元素的权重相加后求平均值,这样把这个值作为两个概念之间的相似度。
3.基于本体的VSM表示模型
通过对文本集进行一定的特征提取后,得到每个文档的一个特征向量,得到特征向量后,通过将每个特征项与领域本体匹配,然后得到一个与本体匹配的新的特征向量。
通过分词后,每个文档表示成di(t1,t2,…tn)(其中i=1,2,…m),将tj(j=1,2,…n)与领域本体匹配后得到一个新的向量Ont_d1=(c1,c2,…cn)。在传统的VSM模型中,文本空间被看作是一个有一组正交词条表示的向量空间,每个文本表示为其中一个规范化特征向量V(d)=((t1,w1(d);t2,w2(d)…tn,wn(d)),其中t1为词条项,w1(d)为t1在d中的权重。TF-IDF是一种常用的词条权重确定方法。由于ti在文本中既可以重复出现又应该有先后次序关系,分析起来有一定难度,为了简化分析,可以暂不考虑ti在文本中的先后次序并要求ti互异(即没有重复)。这时可以把t1,t2,…tn看成一个n维的坐标系,而w1,w2…wn为相应的坐标值,因此一个文本就表示为n维空间的一个向量,我们称V(d=(w1,w2…wn)为文本d的向量表示或向量空间模型。其中每个词条的权重计算如下:
tfidf(d,t):=tf(d,t)×log(■)
其中D为文档集,d为任意文档,t为一个文档中的词,tf(d,t)为t在文档d中出现的频率,|D|为文档集的总数,tf(t)为词t在文档集中出现的次数,那么tfidf(d,t)就为词t在文档d中的权重。
由于现在的词条都是通过把以前的词匹配到领域本体上得到的一个概念向量,因此会得到新的一个计算权重的公式:
cwi■ptwk
其中cwi为概念c在表示文档di时的权重,twk为匹配前的词根据TF-IDF计算得到的权重,其中p为:
p=1twk与概念cwi匹配0twk与概念cwi不匹配
通过将所有的与概念匹配的词条的权重相加,那么得到一个新的表示一个文本的词义表示模型,每一个文本可以表示成V(d)=(cw1,cw2,…cwm)。
4.基于本体的K-Means聚类算法
以此初步构建的本体结构复杂,冗余数据较多,运用K-中心点聚类算法对其调整,完成用户兴趣本体构建。选用该聚类算法,是因为其考虑了概念间关系,避免了文本聚类带来的语义信息丢失。在K-Means中需要初始的聚类参数,也就是确定聚类点的数目,这对用户来说是很难确定的,在这里通过将用户的查询匹配到领域本体上确定一个聚类点的数目Ont_k,然后再聚类完成后结果的展示也以匹配的概念来表示,这样很好地解决了传统方法中聚类的结果可解释性不强的问题。算法的描述如下:
(1)根据用户提交的查询的关键字匹配到一个领域本体上得到一个概念分类数Ont_k,作为要生成的聚簇数目k;
(2)按某种原则选取k个初始聚簇中心,C(c1,c2,…ck),采用随机选取原则,设置初始迭代次数为r=1;
(3)对文本集合中没有分好类的每个文本di,依次计算它与各个聚簇中心cj的相似度sim(di,cj),这里将欧风里德距离作为相似度计算公式;
(4)计算新的聚簇中心,新的聚簇中心为这一轮迭代中分到该聚簇中的所有文本特征向量的均值,即
cj=■■d
其中Fi为聚簇cj的文本集合,nj为Fj中的文本数,d为文本特征向量;
(5)如果所有聚簇中心均达到稳定或者说准则函数收敛,结束;否则,r=r+1,goto(4);
(6)通过将中心点与概念类匹配,确定其对应的表示方式。
由此可知,该算法是基于迭代的过程。通常,初始点不同,聚类结果也不同。该算法运行速度快,时间复杂性为o(knr),其中n为总文本数,k为聚簇数,r为迭代次数。算法的缺点是必须事先确定k值,而在许多情况下,无法事先知道文本集合中的主题类别数目,在这里通过与领域本体匹配,确定了k的数目,大大提高了收敛速度。
四、多用户需求发现本体构建
多用户兴趣本体构建通过聚类调整得到更直观的用户兴趣本体,该本体概念由高频特征词组成,打破领域本体局限,实现多领域用户兴趣的挖掘。如果将有关联用户的兴趣本体合并,构建多用户兴趣本体,可发现用户潜在兴趣,其过程分为用户聚类和本体合并两步。
(1)用户聚类。从后台数据库中提取用户信息,包括性别、年龄、受教育程度、从事行业等维度。选用K-means算法对其聚类,找出关联客户。
(2)用户兴趣本体合并。将关联客户的兴趣本体用数据模型表示并按如下公式逐一合并,可得到多用户兴趣本体。用Ca,Cb分别表示A,B用户兴趣概念,Ra,Rb分别表示用户的分类关系集合,合并公式如下:
(Ca∪Cb)∩(Ra∪Rb)∩((Ca*Ra)∪(Ca*Rb))∩((Cb*Ra)∪(Cb*Rb))
由此,完成多用户本体的构建。
该本体由多个用户兴趣本体合并而成,合并后概念和关系数量迅速增加,可对其再进行一次无尺度图K-Means聚类调整。
五、结束语
本文通过将领域本体与文本的聚类方法结合,在搜索数据返回的结果的背景下,对页面集进行聚类,根据用户提交的查询与领域本体的匹配,得到聚类参数和最后可解释的概念表述方式,在特征向量模型的构建方面通过将页面分词后的词语与本体匹配得到一个概念的向量模型,这样有效地提高了聚类的速度和增加了聚类结果的可解释性,并在一个引擎的环境下实现。
语言服务业概念篇2
关键词:译者;信息素养;信息全球化时代;信息需求
一、引言
翻译是一门学科,也是一门科学。翻译作为信息交换和信息共享的重要手段之一,为信息全球化发展搭建了桥梁。在信息全球化的时代背景下,翻译市场规模迅速膨胀,翻译行业表现出前所未有的社会可见度和发展势头。翻译业务范围不断扩大,以翻译服务为核心,涵盖本地化服务、语言咨询、语言培训和其他业务形式,促使传统的翻译行业逐步向语言服务行业转型(王少爽,2017:55)。我们身处信息社会,而在这个社会中的信息量是呈几何级数增长的,信息产业早已成为社会核心产业之一,这不仅意味着翻译需求量的增加,也代表着翻译的复杂程度有所提升。在这一环境下,翻译从业者的工作模式发生了巨大的变化。这不仅体现在从业人员数量、翻译服务内容、应用范围等方面,在翻译的实现方式、翻译工具、翻译材料交付等方面也发生了重要变化。在向语言服务行业转型的过程中,翻译行业对译者提出了新的要求——信息素养的形成,国家迫切需要具备优秀信息素养且熟练运用现代化信息技术的译者,而他们也更能适应时代的需求。信息素养的本质是译者在信息全球化时代所需要的基本能力。传统的信息素养研究主要局限于图书馆领域,其概念的阐述始于图书检索技能的发展。美国信息产业协会主席PaulG.Zurkowshi于1974年首次提出了信息素养的概念,并将其解释为:利用大量的信息工具及主要信息源使问题得到解答的技能(Zurkowski,1974)。信息素养的概念一旦被提出,便得到了广泛传播和应用。世界各地的研究机构对如何提高信息素养进行了广泛的探索和深入研究,并对信息素养概念的定义,内涵和评价标准提出了一系列新的见解。1989年,美国图书馆协会的信息素养总统委员会在其年度报告中对信息素养概念的定义得到普遍认可:一个具有信息素养的人须能识别信息需求,还应具备定位、评价并有效使用所需信息的能力(ALA,1989)。20世纪90年代初期,Doyle在信息素养论坛的最终报告中重新引入了信息素养的概念。一个具有信息素养的人只有在确认了准确和完整的信息之后,才能在此基础上做出进一步的合理判断。依据信息需求形成问题并确定潜在的信息来源,开发成功的搜索程序,包括基于计算机和其他信息源获取信息、评估信息、实际应用组织信息。将新信息与原有的知识体系进行融合,并在批判性思考和解决问题的过程中使用信息(Doyle,1992)。信息的全球化发展为翻译提供了极大的便利,译者可以利用网络资源来解决翻译实践中遇到的各种翻译难题,甚至可以直接找到相应的已有译文作为参考以验证翻译的真实性,从而大大提高翻译的效率和准确性。从广义上讲,信息技术是指以网络通信技术为代表的多媒体(数字、图形、图像、声音和其他的媒体组合)和数字通信技术。今天的社会是一个信息高度发达的社会,信息技术发挥着越来越重要的作用。本文从信息全球化这个大背景出发,通过分析译者的信息需求,认为译者需要从语言基本功、广博知识和信息素养这三个方面全面提升自身综合素养,只有这样才能够真正成为国家需要的优秀翻译人才。
二、译者在信息全球化时代背景下的信息需求
信息需求是人们的基本需求,是人们为了解决从事各种实践活动过程中遇到的各种问题而缺乏信息和立足感。用户的信息需求不是一个形而上学,而是一个等级化的有机整体。娄策群(1999)将用户的信息需求分为三个层次:表面的信息需求,中间信息需求和深层的信息需求;岳剑波(1999)将其分为信息需求,感知信息需求,表达信息需求以及信息服务供给需求。这些理论具有鲜明的时代特征,无疑促进了对当代用户理论的深入研究。在信息全球化时代背景下,翻译过程涉及到多方主体和要素,致使译者受到诸多的繁琐问题的干扰,进而产生了多样化的信息需求。根据问题属性,可将译者的信息需求划分为五个主要层次:语言信息需求,这主要体现在译者自身的语言基础与翻译任务所需的语言知识不匹配,也可理解为前者理解导向的信息需求和后者表达导向的信息需求;专题信息需求,源于学科知识的细分使得翻译服务的交付需要译者具备一定的专业知识;技术信息需求,计算机辅助翻译工具的使用使得译者会更多的关注技术层面的问题;项目信息需求,翻译项目的委托方在提供项目信息时,由于各种因素的影响,可能会有误差,这就要求译者通过适当的方式填补信息差额来保证翻译项目的有序开展和顺利交付;行业信息需求,译者应密切关注行业动态,由于翻译与语言服务行业的相关制度、规范的尚不完善,多参与行业内交流活动才能不断提升职业认知与素养,做好职业规划和促进自身发展。译者的信息需求特点表现如下:第一,需求的信息范围之广、内容之多都是前所未有的;第二,需求的信息不再是单一语种,常常是要用两三种语言甚至更多去检索信息;第三,过多的信息需要译者对内容进行甄别以保证质量;第四,为保证翻译任务的顺利交付,获取信息的速度和效率要快;第五,不再局限于单一途径获取信息,更多的是互联网与实体相结合的方式。
三、译者在信息全球化时代背景下的信息素养
当今世界是信息全球化的时代,无论政治、经济、军事、文化、教育,均和信息息息相关,在对全球二十四个经济体和五个国际组织的21世纪核心素养框架进行详细分析以后,世界教育创新峰会(WISE)与北京师范大学中国教育创新研究院共同的研究报告,结果表明信息素养被列为核心素养,排名第二。信息素养是一个综合的概念,不仅包括有效获取信息资源的能力和信息工具的使用,还包括信息的获取和筛选。处理、解释、传递、创造信息的同时,更重要的是保持独立自主学习的态度和掌握高效的方法﹑批判精神以及强烈的社会责任感和参与意识,并在解决实际问题的过程中充分运用它们。从理论上讲,信息素养应包括三个方面:信息意识、信息技能和信息伦理。具体而言,信息素养的要素应该包括信息知识、信息意识、信息能力和信息伦理。它是一种理解,收集,评估和使用信息的知识结构,其特点是能够高效,高效地获取信息,并能够熟练和批判地评估信息,准确和创造性地使用信息,追求与个人兴趣相关的信息,欣赏创造性地表达信息的作品和其他内容,努力做好信息查询和知识创新。翻译是一种不断产生信息需求的专业活动,译者如果想做好翻译工作,学会运用恰当的方式去理解、组织和管理繁复的信息是必不可少的。由此可见,信息素养与翻译能力对于任何一个翻译从业者都是不可或缺的。在翻译的过程中,译者在自身原有翻译知识和经验的基础上,为了解决实践过程中出现的问题就产生了对信息的需求,接下来就要使用各类检索工具在众多信息中搜集对自己有帮助的信息,有效获取、筛选信息,处理、解释和评估、使用信息。这一系列过程使得译者自身原有知识与检索得来的外部信息交互集成,有助于技术创新与知识共享,为日后解决其他翻译相关问题提供了有益支持,对个人和整个翻译行业的发展都是大有裨益的。要想成为一名具有良好信息素养的译者,在面对实际翻译问题的时候仅能够提出信息需求是远远不够的,在检索到信息之后,还要进行筛选、比较、评价等过程,最终选取最有利的信息进行整合与使用来解决在翻译过程中遇到的问题。当然,还需要有独立的自学态度和方法,树立终身学习的意识,不断更新完善自己的知识体系,这样才能提高作为译者的综合实力与竞争力,促进自身可持续发展和实现人生价值。翻译工作被认为是一项极为复杂的人类活动,著名的英国文学理论评论家Reciaz曾指出,“语际交流可能是迄今为止整个宇宙演变中最复杂的活动。”(张保红,2011:5)。在信息全球化时代背景下,译者需要获取、处理和使用海量与实际问题解决方案相关联的信息,翻译工作无疑是一种复杂的信息实践活动,因而译者需要从语言基本功、广博知识和信息素养这三个方面全面提升自身综合信息素养,只有这样才能够真正成为国家需要的优秀翻译人才。(一)译者扎实的语言功底。翻译是一种复杂的语言活动,需要翻译人员掌握至少两种语言,这是翻译的基本前提,否则翻译是不可能的。译者的翻译水平首先取决于阅读和理解原创作品的能力。作者认为,译者有必要阅读大量的书籍,阅读大量的双语语言材料,甚至背诵经典的双语章节,以锻炼其敏感而准确的语感。此外,译者还需要大量的翻译培训,以不断提高灵活处理双语语言材料的能力。(二)译者广博的杂学知识。译者需对杂学知识有广泛的了解,这是一个永恒的话题。在信息全球化的时代背景下,翻译不可能孤立存在,必然会与人文、经济和美学等各个领域的知识密不可分。只有积累了充足的杂学知识,译者才能在翻译的道路上走得更远。(三)顺应时代要求的信息素养为了应对信息全球化带来的信息需求,译者需要具备良好的信息素养。(1)文献检索能力是译者信息挖掘能力的重要体现,例如PB报告、AD报告、NASA报告等可提供专业主题知识,为科学和工程以及高科技领域提供信息支持。译者需要在长期翻译实践中以科学有针对性的方式寻求合适的专业检索工具,并合理使用。(2)利用搜索引擎获取识别译者所需的信息,如若合理使用,则可以帮助译者提高翻译效率并提供可以参考的有效信息。然而由于精度较低,译者的批判能力尤为重要。(3)计算机辅助翻译(CAT)软件系统的应用提高了译者的翻译速度,译者在同一平台上运作并生成翻译,以确保术语和内容的一致性。因此,译者在信息全球化的背景下必须掌握计算机辅助翻译软件,以便根据自己的工作最大限度地利用信息技术产品。
四、结论
语言服务业概念篇3
摘要:词性作为划分词类的依据一直是信息处理中一项重要的知识属性。但是,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,语言信息处理需要更有效、更细致的词语分类。为此,本文引入概念类别的信息,并且展示其在汉英机器翻译中的应用。通过具体描述给出概念类别及其与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。
关键词:词性概念类别机器翻译
一、引言
词性作为划分词类的依据一直是信息处理中一项重要的知识属性。在词语处理乃至句类结构分析中占有重要的地位。不过,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,并且词类划分的标准过于粗略,未能从细节上对词语进行描述和区分。在语言信息处理中,对语言现象的分析和研究需要更有效更细致的区分,为此,HNC引入了词语的概念类别的信息。在概念类别中,不仅包含了词类的信息,同时还融入了语义的分类信息,并且构建了汉语词语知识库,对概念类别信息进行了标注。
在汉英及其翻译中,我们对概念类别与词类进行了对照,在源语言(汉语)分析阶段采用词类信息,并将词类信息中的关键类型LV概念作为句子分析的激活点,辅以相应的分析规则,完成目标语的分析。在目标语(英语)生成阶段,由于英语的形态特征比较明显,我们使用词性作为生成的依据,辅以相应的转换生成规则,完成目标语的转换与生成。
本文的工作已经应用于汉英专利文献机器语义翻译引擎中,作为语义翻译引擎的重要基础,发挥着支撑作用。经过测试,语义翻译引擎在小句转换、Eg识别、格式转换、辅块识别、并列结构识别中都有很好的应用效果,使得这些部分分析处理的正确率能够达到80%以上。
二、相关工作
概念层次网络理论[1]是一种服务于语言信息处理的关于语言的语义处理理论,自该理论产生之初,就已经提出了概念类别的划分方法,用以丰富单纯以词性作为划分词语的标准。
《HNC理论(导论)》[2]中,列出了概念类别划分的具体类型,并配以实例说明。但是概念类别的表述过于繁琐,且未对概念类别进行广义和狭义的区分。
长期以来,基于HNC理论的研究一直将概念类别作为重要的知识属性加以利用,在句类分析系统中,LV概念已经作为句类分析的激活点服务于句子结构的判断和语义块边界的辨识[3]。例:但这些信息未能直接在应用系统中进行检验。
概念关联知识是指概念节点、概念集群、概念类别之间关联性的各级类别表现。这是一张非常烦琐而脉络分明的关系网,其内容构成了概念关联知识库。
这些研究和应用都是在一种语言范围之内,尚未涉及到两种语言之间的对应问题。
张克亮[4]基于HNC理论开展了面向机器翻译的汉英句类及句式转换研究,探讨汉英句类及句式转换的一般性规律。李颖[5]研究了HNC机器翻译中语义块构成变换问题。
这些研究也仅停留在理论研究和构想阶段,对概念类别的描述仅是理论层面的,而且是片面的。对概念类别和词性之间的关系并未做具体的考察和对应,也未能对概念类别和词性两种信息在实际应用中的表现做出清晰的比较和判断。
本文集中于语义知识库中概念类别知识属性的研究,目前语义知识库已经包含了5万常用词语的知识,覆盖了500篇专利文献。另有30万专利领域词库,共计35万条词语。知识库服务的对象主要是汉英专利机器翻译系统。文本为说明概念类别而举的例子也都来自专利文献。
三、广义概念类别与狭义概念类别
本文的研究是建立在汉英机器翻译应用的基础上,所得的研究成果直接应用于汉英专利机器翻译的实际中。概念类别作为知识库中一项重要的知识属性,对其的标注直接得到翻译系统的检验,根据调试过程中反馈的结果对知识库进行修改和调整,做到知识库和翻译系统同步更新,极大地提高了翻译系统的性能。
概念类别是表述概念的语义类别特征的符号。概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识,是进一步调用其他知识的激活信息。
我们根据词语在汉英机器翻译具体应用中的表现,对概念类别进行了重新的调整和分类。首先,我们把概念类别划分为广义和狭义两大类,以服务于不同层面的语义分类需要。
(一)广义概念类别
广义概念类别是对词语语义信息的广义概括,可以看作是对词语语义的一级分类。分为人(P)、物(W)、静态概念(G)、动态概念、属性概念和逻辑概念六大类型。
概念是思维的基本形式之一,是人类在认识过程中把所感觉到的事物的共同特点抽取出来,加以概括而形成的。HNC首先把概念分为抽象概念和具体概念。抽象概念和具体概念是概念的两大分野,这一划分对知识表示具有非常重要的意义。具体概念可以分为人和物两大类(对应于名词),抽象概念可以分为动态概念(对应于动词)、静态概念(对应于名词)、属性概念(对应于形容词和副词)和逻辑概念(对应于虚词)四类。这些概念类型共同构成了广义概念类别的整体。见表1。
在知识库中,语义知识属性表示为Feature[Value]的形式,Feature表示知识属性名称,Value表示属性的取值。广义概念类别用GCC表示,如人员的广义概念类别是人,则表示为GCC[P];提供的广义概念类别是动态概念,则表示为GCC[V]。
(二)狭义概念类别
狭义概念类别是对词语语义信息的具体分类,概念类别的基元经过组合,可以构成复合型概念类别。这样,广义概念类别就可以细化为很多具体的概念小类,用以解释概念之间的细微差别。在汉英机器翻译应用中,我们共定义了41种狭义概念类别,相比汉代汉语13种词性的分类[6],更加细化。
1.具体概念
在广义概念类别中,具体概念包括人和物两大类。在狭义概念类别(以下简称概念类别)中,我们把物又分为两小类:自然物ww和人造物pw。用以区分该物的形成是否有人类活动参与,这一信息对于句子中谓语动词的语义角色选定具有重要的限制作用。
2.抽象概念
抽象概念在广义概念类别中划分为动态概念、静态概念、属性概念和逻辑概念四类,每一类又可分为若干小类,这就是狭义概念类别(CC)。下面分别描述。
(1)动态概念
动态概念是抽象概念五元组特性之一。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表述,这就是抽象概念的五元组特性。在狭义概念类别中,动态概念分为“v”和“vv”两小类。
“v”是一般意义上的动词,如“提供”“公开”等。
“vv”是动词中的特殊小类,用以描述后面须接动词的“v”,如“试图”“进行”“予以”等。这些词语本身具有动态含义,但在句子中不能单独作为谓语,必须在其后补充一个动词共同构成谓语部分,后面的动词才是谓语的中心。vv类词语作为谓语的一部分出现在句子中。
(2)静态概念
静态概念是相对于动态概念而言,我们可以把它看作抽象概念中的名词类。包括:静态概念g、值概念z、效应概念r、时间概念j1、空间概念j2、数j3、名量概念zz、动量概念zzv、综合概念s。
可以这样认为,g是一般的名词,而z和r是从名词中分离出来的。z表达的是概念的“值”,对值的表达是与数量密切关联的,因此把这个特性独立出来表达显然有利于联想脉络的建立。例如:
(1)厚度为0.3毫米的白色人造纤维布料(0.3millimeterwhiteartificialsilkcloth)
在这个短语中,汉语中“厚度为0.3毫米”是一个小句形式,作后面中心语的修饰成分,翻译为英语则是一个定中短语的形式。这种汉英结构上的转换只靠词性来区分是不够的,必须做进一步限定,汉语小句的结构是“z+为/是+j3+zz”,也就是说,在这个是字句中,主语由值的概念充当,宾语由数量概念充当。如果这样的小句结构做定语,那么转换为英语时,直接变为“j3+zz+z”的结构,也就是数量短语直接修饰值概念,放在值的前面。
g和r都是静态表达的名词,但分别代表因果两极。把两者区别开来,有利于概念的局部联想。
时间概念j1、空间概念j2和数j3都源自于基本概念语义网络,这些概念类别主要服务于时间短语、空间短语和数量短语的辨识。
综合概念s高度抽象的一类概念,主要服务于辅语义块后边界的辨识和包装句蜕的包装品(小句的部分)。如:
(2)含水涂料组合物可以通过浸涂或辊涂的方式来施加。(Theaqueouscoatingcompositioncanbeappliedbydipcoatingorrollcoating.)(辅块)方法
(3)因玻璃渗漏或结构缺陷而失效的时间将推后。(Thetimetofailureduetoglassleaksorstructuralweaknesswilloccurlater.)
例句(2)中,“通过浸涂或辊涂的方式”在句子中做辅语义块,“方式”一词位于辅语义块的末尾,作为辅块和其后面的特征语义块(谓语部分)划分的边界。静态概念的分类及与词性的大体对应关系可如下表:
(3)属性概念
属性概念是修饰限定成分。大体上对应于词性中的形容词和副词。属性概念与被修饰限定成分之间的对应关系更为具体明晰。依据被修饰限定成分的不同,可以进一步分为若干小类,将形容词类属性二分为修饰具体概念的属性x、修饰抽象概念的属性ug和可独立做谓语的u属性;将副词类属性二分为修饰动态概念的属性uv和修饰属性概念的uu属性。具体如下:
x:是具体物的物性,修饰限定名词性具体概念人(P)和物(W),对应于形容词。如:“白色”的概念类别是x,所修饰限定的成分一定是具体物。可组合成白色光(whitelight),白色颗粒(whiteparticles)等。
ug:静态概念的修饰性成分,修饰限定静态概念g、值z、效应r、综合概念s及时空概念等,对应于形容词。
u:独立的属性,用于描述可以独立作谓语的属性,也就是说,具有该属性的形容词类概念可以构成形容词谓语句。在英语语言中,也就是该类属性可以充当系表结构中的表语。这对汉英句式转换具有重要的指示作用。
uv:动态概念的修饰性成分,修饰限定动态概念v,对应于副词。
uu:描述属性的属性,修饰限定属性成分ug、u、uu、x等,也可以修饰限定动态概念。
属性概念的分类及与词性的大体对应关系可如下表:
(4)逻辑概念
逻辑概念是HNC语义网络中的一类重要概念。用于语言单位的组织与连接,大体相当于虚词。按语义及功用可分为语言逻辑、语法逻辑和基本逻辑。
1)语言逻辑
语言逻辑服务于语义块的整体辨识、语义块内部构成的分析及句间信息的提示和表达。具体如下表:
语言逻辑概念根据其在句子中所充当的作用及所处的位置,分为12小类。其中l0-l3服务于语义块的整体辨识,用来识别句子中主辅语块的前后边界。例如:
(4)使用者将某操作系统308安装到计算机310中。(Auserloadsanoperatingsystem308intoacomputer310.)
这里“将”的概念类别是l0,由它把两个主要语块“使用者”和“某操作系统308”分开。
L4-l5作为语义块内部逻辑组合符号,服务于语义块内部构成的分析,用来连接词或短语片段,组成一个语块。例如:
(5)依照本发明的文档处理系统主要包括应用软件、接口层、文档库系统和存储设备。(Thedocumentprocessingsysteminaccordancewiththepresentinventionincludesanapplication,aninterfacelayer,adocbasemanagementsystemandastoragedevice.)
这个句子中,“包括”的各对象之间通过顿号和组合符号14“和”连接,共同构成宾语。
同样道理,L6-l7服务于特征语义块的内部构成,l8服务于辅语义块的内部构成,l9指代逻辑服务于广义对象语义块的构成,la和lb分别服务于句内和句间信息的提示和表达。
这一组概念类别的设立就是为语义块感知和后续的语义块组分处理提供激活信息。
2)语法逻辑
“语法”概念用于描述语言使用的习惯。服务于语言表达方式的辨认(包括修辞)和特指语词的辨认。语言中(以汉语为例)一些句式的表达涉及到语言习惯问题,构成这些句式的特征词就用语法逻辑概念描述。例如:正反问句的表达需要特征词“是否”“是不是”,这些都归为语法逻辑类型。
尽管这些特征词在很大程度上相当于副词的语法功能,但这些词更可能是作为连句成篇的构成单位,而且不同语种使用的手段也会不同,所以,把它从副词中单列出来。
3)基本逻辑
基本逻辑概念涉及基本判断,用于判断命题的基本内容:是否和有无。此处的基本逻辑概念类别主要描述的是充当属性概念的基本逻辑,这类概念一般位于特征语义块的前面作为特征语义块的逻辑修饰语。服务于特征语义块的情态辨认。如“能够”“应该”“必须”等,大体对应于词类中的情态动词。
概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识。对语言现象的描述有粗细之分,相应的概念类别也分为广义概念类别和狭义概念类别,用以匹配不同层级的知识特征。狭义概念类别是对广义概念类别的细化描述。在汉英机器翻译应用中,狭义概念类别的应用对语块的内部构成,语块边界的确定乃至整个句子的分析都具有重要的支撑作用。是知识库中一项重要的词语属性特征。
四、概念类别在汉英机器翻译中的应用
基于HNC理论搭建了面向专利文献的汉英机器翻译系统大体上包括预处理模块、源语言分析模块、过渡转换模块和目标语生成模块几个主要部分[7]。概念类别的知识在各个模块中都发挥着自己的作用。下面我们主要介绍概念类别在分析模块和转换模块中的应用。
(一)在分析模块中的应用
源语言分析模块主要依据知识库提供的各项知识与分析规则库对文本进行分析,得到句类分析树。
例如,在辅块识别中,对于辅块边界的辨识我们可以依据语言逻辑概念类别。对于辅块标志符我们可以用l1表示,在分析规则(0)LC_CC[l15]+(f){(1)LC_CC[l1h]}=>LC_TREE(L1,0,0)+LC_TREE[BK,0,1]+LC_TREE(L1H,1,1)$时,就主要利用了概念类别信息。“(0)”表示规则调用的起始位置,“LC_CC”表示在语块中词语所具有的概念类别信息,“LC_TREE”表示生成树节点。这条规则的含义是,如果在句子中找到一个词语的狭义概念类别为l15(辅块前边界标志符),且其后面还能找到一个狭义概念类别l1h(辅块后边界标志符),则将两个词语各自在句子中生成节点,且将其与中间的部分生成一个语块BK。这样,一个完整的辅块就可识别出来。
(二)在转换模块中的应用
过渡转换模块主要依据句类分析树以及转换规则库,通过各种调度操作,将汉语句类分析树转换为符合英文表达习惯的目标语句类树。
例如,在并列结构中,有标记名词性并列结构各并列成分的中心语在语义类上显现出一定的相似性,在我们的研究中更细化为词语的概念类别。我们可根据紧邻并列连接词前面的词的概念类别向后寻找相同概念类别的词作为后边界,根据紧邻并列连接词后面的词的概念类别向前寻找相同概念类别的词作为前边界[8],可描述为如下规则:
(-1)LCR+(0)CHN[、]+(f?){(1)CR}=>LC_TREE(AND_TH,1,1)+LC_TREE(ANDMK,0,0)$
(b?){(-1)CR}+(0)CHN[、]+(1)RCR=>LC_TREE(AND_TQ,-1,-1)+LC_TREE(ANDMK,0,0)$
其中“C”表示词语的概念类别(Category),“LCR、RCR”分别表示紧邻并列连接词前、后的词的概念类别,“CR”表示分别向前或向后找到的与LCR或RCR相同的概念类别。
五、结语
本文全面阐述了概念类别的具体内容并给出了概念类别与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出,概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。
下一步的工作是,继续扩大词语知识库的规模,在对目标语(英语)的语言特征进行全面细致把握的基础上,标注英语词语的概念类别信息,并结合英语词语丰富的形态变化特征,配合汉英机器翻译引擎的研发,完成英语生成模块的知识库资源构建,以提高翻译系统的生成效果。
(本文受到国家高技术研究发展计划[863课题,项目号:2012AA011104]、中国博士后科学基金资助项目以及中央高校基本科研业务费专项资金的资助。)
参考文献:
[1]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,
1998.
[2]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出
版社,2005.
[3]晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:
科学出版社,2006.
[4]张克亮.面向机器翻译的汉英句类及句式转换.开封:河南大学
出版社,2007.
[5]李颖,王侃,池毓焕.面向汉英机器翻译的语义块构成变换[M].
北京:科学出版社,2009.
[6]胡裕树.现代汉语[M].上海:上海教育出版社,1995.
语言服务业概念篇4
但凡上过网的人,在浏览网页时,在网上会看到一张女孩子的照片,身材肥硕,动作夸张,明为丑女却自称天下第一美女让任何男人一眼看到就要流鼻血,后面跟着一大堆有伤风化的留言,不用问,那一定就是芙蓉姐姐。
芙蓉姐姐在网络中能够迅速走红是一个客观的存在。我们可以比较一下,在此之前,也有木子美的网络泛滥,差点就挤垮了“博客中国"的几台服务器。但是,木子美付出了多大的代价,要承受多大的压力?至于芙蓉姐姐,只要脸皮厚一点就可以了。芙蓉姐姐在网上的泛滥,说明她满足了网民的某种需求,这就是一个概念,无聊的网民不但需要审美,也需要审丑,需要那种有伤风化的言语发泄——这就是一个概念,离开了这个概念,“芙蓉姐姐"就会还原成一个无人问津的丑女。
事件营销的概念策略就是要企业为自己产品或服务所创造的一种“新理念”、“新潮流”,让消费者易于接受,并产生消费冲动。与普通营销相比,普通的营销可能是消费者需要什么,我就生产什么来满足消费者的需求。概念营销恰恰是引导消费者去消费什么,概念营销不仅着眼于消费者现在的需求,更加重视消费者的欲望和潜在需求。
事件营销的概念策略在商业领域中最典型的应用是农夫山泉谋杀纯净水的案例。凭借着“农夫山泉有点甜”这句暗示性极强的广告语,农夫山泉自1998年杀入水市场之后,在全国纯净水行业市场占有率中位列三甲之中。2000年4月随着与娃哈哈与乐百氏竞争的加剧,农夫山泉越来越感在资金和管理方面前所未有的压力。与此同时,其奥运推广策略也受挫。怎么办?破立结合,先把纯净水毁了!4月24日农夫山泉宣布停止生产纯净水,只出品天然水,大玩“水营养”概念,从而引发的一场天然水与纯净水在全国范围之内的“口水战”,招至同行们的同仇敌忾,但农夫山泉正是借此树立了自己倡导健康的专业品牌形象。类似的案例还有电子行业的商务通当年也是通过引领掌上电脑消费新潮流,一举创造了销售神话;家电行业的海尔空调推出“氧吧空调"概念,在那个“非典”“凉夏”的季节依然获得高利润。
在医药行业中广州诺贝华乐制药有限公司推出的“一元感冒药”,迅速搅动了全国市场。维C银翘片、速效感冒片、速效伤风胶囊、小儿退烧片、午时茶、三黄片等在连锁药店门口的堆头上摆放极为醒目,且每种产品外包装上打着醒目的“1元”标志。这种冲击波逐步蔓延全国各大城市。各种声音开始传递,有市民争相排队大量购买,也有部分药店抵制销售,一时间众说纷纭,"有赞有弹"。但不管怎样,到目前为止,销售额已达1千万元,也就是说,这么些个"一元"一包的感冒药,已卖掉了1千万包。
记得国内就曾有一位企业家提出过:理论市场和产品市场同时启动,先推广一种观念,有了观念,市场慢慢就会做好。的确,概念策略的做为一种战术就跟美国的反恐战争一样提倡“先发制人”,在产品概念上从特定的角度创造消费者非买本产品非买不可的理由来最大限度的打击竞争对手。
让我们成为“概念领袖”!
从市场上众多的概念策略应用案例上,我们似乎感觉到这种方法多在单一产品上应用,但对连锁药店而言,因每一个店门经营的产品众多,如应用就不可能针对单一产品来做,那么应该怎样做呢?
1.“多走一步”的家庭药箱概念
家庭药箱尽管每个家庭都有,平时的一些头疼脑热,用其药来简单快捷,但消费者由于普遍缺乏管理药品的知识,将不同的药品混放,时间一长,过期、变质的现象时有发生,媒体关于这方面家庭药箱使用不当的危害时有报道。其实消费者对药品安全储藏管理知识到还是次之,安全用药知识才是大事。因而家庭药箱的设计是连锁药店在概念策略中应用重点要考虑的问题。
连锁药店设计家庭药箱时,可依据药店信息系统提供的消费数据进行分类,按照每个会员消费的频率、品种等要素,分析会员工作与生活情况,然后进行规类整理。由量化的数据分析比较后得出非量化的结果,使我们在家庭药箱的概念设计上有了依据。如针对经常出差的商务人士,可将乘晕宁、阿司匹林、黄连素、创可贴、速效伤风胶囊等药品组合成体积小且便于携带的商务药箱,在药箱的内部还应装有详细的用药说明、紧急外伤处理、饮食注意等知识手册;针对上班族的工薪阶层,可将安定、甲硝唑、复方新诺明、牛黄解毒片、云南白药、碘酒、风油精、纱布等药品组合成家庭经济药箱,在药箱中赠送健康生活指南等书籍。类似的还可以组合很多的家庭药箱:男士专用药箱、淑女专用药箱、节日礼品药箱、户外旅游药箱等。
这些家庭药箱新概念的推出,可以从一定程度上,提升药店的客单价,同时连锁药店对此销售记录可进行进一步的追踪,为日后提供个性化服务打下良好的伏笔。尤为重要的是对消费者而言,在享受到方便的同时,给消费者实实在在的感觉,情感诉求改善了买与卖相对矛盾,将药店的美誉度提升上到一个新的层次上。
2.“多走一步”的特色服务
但凡说到连锁药店的特色,人们都会想到如实行送药上门,只要一个电话,所需药品就可在规定时间内送上门;代客煎药,解决了现在许多家庭没有熬药工具的后顾之忧;提供体贴周到的药学咨询,聘请药剂师在药店坐堂,随时解答顾客的问题,从很大程度上避免了盲目用药而引发的不良后果;利用多年经营的优势,紧抓老顾客,建立会员卡,对长期购药的老客户采取优惠政策等。这些服务如果真能贯彻的好,的确也是药店的一个特色。但是这些服务毕竟是“座商”服务。能不能将这些服务走出去,这是我们在连锁药店服务营销中打的一张概念牌。
凡是座落在社区的药店,所辐射的区域都是周围的社区,在这些社区中,要知道还有一些人因病住在床上或者是刚出院的患者,对这部分人进行服务,不能要求人家到药店来,只能到这些患者家去,那么既然生活在同一个阳光下,我们就要让这部分人群感到药店的特性化服务。连锁药店可利用药店的执业药师到这些患者家中,为他们提供如用药指导、康复生活保健、营养饮食配餐等服务。试想如你的家中恰巧有这样的病人,你需不需要这样的服务呢?
语言服务业概念篇5
关键词:数据服务;领域本体;语义标注
中图分类号:TP319文献标识码:A文章编号:1009-3044(2017)06-0172-02
随着“互联网+”理念的涌现,越来越多的企业或个人加入到互联网中来,互联网中的信息也越来越多,为了方便信息的传递和分享,一些企业或个人以服务的形式对外自己的数据,为用户提供服务,这种方式被称为数据服务。然而,数据服务者存在不同的领域或行业背景,造成数据服务在描述上存在语义异构性,导致无法准确的匹配所需的数据服务,从而带来资源的浪费。传统的数据服务是数据密集型的Web服务,已有研究对数据服务的描述大多采用RESTAPI方式或者WS-DL式的Web服务,然而这类Web服务缺乏语义信息,在自动服务组合等方面存在不足。OWL-SfontologyWeblanguageforservices)实现了Web服务属性和功能明确的形式化表示,使得服务的描述具有了语义。但OWL-S对服务的动态信息描述不足,不支持服务的动态复合。本文在语义标注概念的基础上,结合领域本体及语义标注技术,提出来一种基于领域本体的数据服务语义标注方法,为后续的数据服务发现、调用提供基础。
1领域本体
本体(Ontology)起源于哲学,即概念的明确规范说明,是对世界上客观存在物的系统描述。近年来,人们将本体的概念引入人工智能、知识工程和图书情报领域,用于解决信息提取、知识概念表示和知识组织体系方面的有关问题。
由于应用领域的不同,对本体研究的侧重点也有所不同。涉及特定学科领域的本体,被称为领域本体(DomainOntolo-gy)。领域本体是领域术语集和领域知识集的总体,是领域的概念化详细说明,可用本体语言将其详细说明。领域本体的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念,并从不同层次的形式化模型上给出这些概念和概念之间相互关系的明确定义,提供该领域中发生的活动以及该领域的主要理论和基本原理等。
由于本体工程到目前为止仍处于相对不成熟的阶段,还没有一个标准的本体构建方法。领域本体的建设还处于探索期,构建过程中存在着很多问题,主要问题分析如下:1)需求不充分和无计划性;2)建设过程缺少规范性;3)成果没有评价标准;4)忽视本体的共享和重用。用。
2基于领域本体的数据服务模型
由于数据服务描述中WSDL的语义缺乏性以及OWL-S存在着对服务动态信息描述不足、不支持服务动态复合的限制。本文将空间向量模型VSM引入进来,设计了一种基于领域本体的数据服务模型。使得数据服务兼具数据特征和语义双重优势,并能很好地进行服务组合及规划。
将数据服务中的WSDL文档中元素属性值进行解析,获得表示该数据服务描述文档的特征词集合。利用特征词向量之间的相似度和K中心算法对数据服务进行聚类,依据聚类的结果和相关领域信息构建相应的领域本体,即通过基于OWL-S将各个数据源的数据模型映射到一个全局共享语义本体上,实现跨领域用户对数据服务语义的理解。结合构建的领域本体,计算每个特征词的权重,将特征词集合及其权重依据本体的空间向量模型VSM进行存储,把含有这些特征词的WSDL文档与相应的特征词进行关联,从而数据服务描述文档与领域本体之间的概念相互关联,即可基于领域本体实现数据服务建模。
3基于领域本体的数据服务语义标注方法
为了解决Web上的数据服务之间存在的语义差异,本文结合构建的领域本体库,提出一种新的数据服务语义标注方法,对数据服务进行语义标注,解决异构数据服务之间的语义差异问题。
对所有的WSDL描述文档的特征词构建空间向量模型(VSM),WSDL描述文档以VSM特征项作为其表示的基本单位,所有特征项组成的一个n维特征空间向量:D=(T1,W1;T2,W2;Ti,Wi)表示一个WSDL描述文档,其中Wi为第i个特征项Ti在WSDL描述文档特征词中的权重。fij表示特征词i在第i个WSDL特征词文档中出现的频率,N表示所有WS-DL特征词文档的总数,ni表示出现有特征词i的WSDL特征词文档的个数。权重的计算方法为权重计算公式(1):
由D2可以看出,与领域本体库相关的特征词,特征词在对应的特征词文档中的权重发生了变化,“travel”特征词在WS-DL特征词文档DS1中没有出现,“travel”特征词在WSDL特征词文档中的权重为0,但是结合领域本体改进权重计算公式之后,由于本体中与“travel”相关的概念在WSDL特征词文档DS,中有出现,利用改进的权重公式计算,“travel”关于WSDL特征词文档DS,的权重变为0.1789而不是0,而与本体无关的“ip”的相应权重则不变。这样当服务请求者以“travel”来查询服务时,与“travel”相关的概念在WSDL特征词文档DS,中出现,即使“trav-ez”没有在WSDL特征词文档DS1中出现,WSDL特征词文档DSl相对应的数据服务也能被检索出来为数据服务请求者服务。
语言服务业概念篇6
[关键词]本体评估指标体系
[分类号]G354
面对众多已构建的本体,如何将其选择重用与共享是许多研究者所面临的问题。从某种层面上看,本体评估的意义在于保证本体的构建质量,实现对本体的有效管理与维护,从而为本体构建者提供参考依据,为本体使用者提供选择依据。从国内外本体评估研究看,目前主要采用基于用户、基于任务、基于原则、基于应用、基于黄金标准、基于语料库等评估方法,基于不同的需求目的,每种方法均存在其各自的特点与不足。总体而言,这些评估方法更多地注重结果评估,对本体所拥有的概念及概念关系、应用状况等进行评价,而忽略过程评估,如缺乏对构建规划、构建过程的评估。因此,本文基于本体建设的生命周期阶段,即原模型阶段、模型阶段、应用阶段来构建本体评估指标体系,旨在确定一套科学、合理、全面、客观的本体评价体系,可用于本体建设不同阶段的参考与评估。
1本体评估内容
评估内容的多元化是评估本体的核心。就评估内容而言,多元评估要求既要体现其共性,更要关注各自本体的个性;既要关注结果,更要关注过程。即以多维视角的评价内容和结果,综合衡量本体的发展状况与水平。本体的评估内容可概括为以下几个层面:
1.1本体概念层评估
概念是本体的最基本单元,概念表达的准确性、完整性、概括性、抽象性等对于本体的质量有着决定性的影响。
1.2本体结构层评估
主要包括本体概念体系的结构化及本体表示体系的结构化。本体概念体系的结构化表现为本体概念结构的灵活性及易于扩展性;规范化、结构化的本体表示语言为本体在不同系统之间的导人和输出提供标准的机器可读格式,利于被计算机存储、加工、利用,或在不同的系统之间进行互操作,为本体表示体系的结构化提供了前提条件。
1.3本体语境层评估
本体语境层表示为本体之间的关联度,通常情况下,本体之间通过建立映射、互相参考引用等方法建立概念间的语义关联,以实现本体之间概念及概念间关系的重用与共享。可通过链接或引用程度不同给予不同的评估值。
1.4本体应用层评估
以本体的应用领域作为评估对象,涉及本体系统的存储与检索、基于语义网知识层的共享和重用、基于本体的标引与语义检索、文本数据的推理研究等。本体应用层相对于其他层面,影响较小且具有间接性,因此评估难度较大。
2本体评估指标的构建
本体从构建到应用要经历整个生命周期的三个阶段:原模型阶段、模型阶段、应用阶段:①原模型阶段是本体构建前整体规划及原材料的预处理过程,包括构建本体的参考本体及可行性评估、流程设计、数据库设计、整理网页、挖掘文本语料库等;②模型阶段是本体构建过程,包括概念及概念间关系确定、本体构建的方法和工具选择与应用、本体与其他本体的映射、本体描述语言的选择与应用、本体之前的训练和测试;③应用阶段是本体构建完成后的本体应用状况,主要是运行中本体的监测活动,如知识工程、信息标引与检索、语义web、异构信息集成、本体推理等众多领域。
为实现对本体的整体性及动态性评估,需要对本体建设生命周期三个阶段的关键要素进行提炼,形成一套科学、合理、系统化的评估指标体系,这样既能测度本体构建水平又能评估其运行情况和发展潜力。本体评估指标体系,如图1所示:
2.1原模型阶段
本体的原模型阶段评估的主要内容有:确定构建目的、构建规划、可行性评估、原材料预处理及选择参考本体。
2.1.1确定构建目的确认所构建的本体是否有明确的符合学科建设的发展定位,是否有明确的符合知识组织、知识服务的建设理念,是否有总体建设目标与中长期发展规划,是否有实现目标的方法和措施。
2.1.2构建规划包括:①用户需求分析。确认是否有明确的应用需求,是否有可操作的调研计划,是否有详细的调研方案,是否有成文的调研报告,是否了解学科资源状况,是否掌握用户需求及特点,并评判服务模式是否有明显优势,建设效益是否显著。②方案设计。检测构建本体的具体内容,包括确定项目的进度,规划实施方法,评判项目的可操作性,标准本体模型实现计划等。③团队建设。主要是明确构建本体的人员配置,要求有稳定的团队,并且应熟悉掌握知识组织的理论和方法,另外还应配备技术支持人员和领域专家。④经费管理。此阶段应该有经费预算和时间预算,经费应按预算分阶段地持续投入。⑤人员合作。在本体构建的全过程都需要本体开发师(负责构建本体)、本体工程师(重用本体)、项目负责人、领域专家、行业分析家及用户进行合作共建。
2.1.3可行性评估可行性评估的目的是确定是否能够用最小的代价在尽可能短的时间内解决问题。它并不是解决问题,而是确定问题是否值得和能够去解决,包括:①技术可行性,即使用现有的技术是否能够实现构建目标;②经济可行性,即本体的经济效益是否能够超过其开发成本;③操作可行性,本体应用系统的操作方式在本体的用户组织内是否行得通。
2.1.4原材料预处理预处理是由本体工程师在构建本体前对构建本体时所需的原材料进行收集与预处理,包括流程设计、网页整理、文本语料库的挖掘及对参考本体的资料获取等。在这些收集好的材料被使用之前,本体工程师还要对其质量进行评估。
2.1.5选择参考本体包括对本体构建所参考的其他本体的质量进行评估,并对所构建本体与参照本体的相关性进行评价。
2.2模型阶段
2.2.1本体概念构建的评估本体概念来源于文本语料库和专家的参与,以定义新概念、复用且修正参考本体中的概念等。本体概念的评估包括:①概念的完整性评估。本体的概念完整性表现为尽可能包括学科或领域的全部概念,尽管很难达到,但应包括学科领域的基本概念和重要概念、反映学科的新概念和专用术语、体现交叉学科与边缘学科的所有概念。并在此基础上,参考用户的特点与需求,使其达到最佳使用效果。②概念的正确性评估。本体中的概念术语应明确、清晰、无歧义定义,一词一义,词型简练,稳定性强。③概念共享性评估。是指本体中术语所表达的概念与观点应具有普遍性,能够被整个群体所接受。④概念可扩充性评估。概念可扩充性主要表现为在本体的发展及应用过程中应该能加入新的概念。良好的可扩充性使得本体能够随着概念的逐渐增加而不断完善,同
时这样的本体也很容易对其进行概念的修改和删除。⑤概念抽象性评估。是指概念主要体现为基本的、普遍的、抽象的和哲学上的概念,通常顶层本体概念的抽象性更高一些,领域本体是从顶层本体的抽象概念中衍生出具体概念。
2.2.2本体概念间关系的评估概念间关系形成的概念网络体系,使各个概念之间建立起语义关联,为其在自然语言理解应用方面奠定了一定的基础。本体概念间关系评估的内容主要包括:①一致性检测。本体系统中概念、断言以及其他各种概念间的关系,前后定义是否具有语义冲突,需进行概念间关系的逻辑一致性检测。②完整性评估。概念间关系是否囊括了学科所有概念的概念间关系及其类别是否完整。③可扩展性评估。本体概念间关系应具有可扩展性,以便在本体应用或后及时增加与修改。④唯一性评估。本体概念间关系应具有唯一性,即概念与概念之间只存在一种关系。
2.2.3本体映射评估一般情况下,本体映射是基于概念定义的方法,即在映射时主要考虑本体中概念的名称、描述、关系、约束等。本体映射评估包含:①本体间的互操作性。主要针对本体间映射时的接口进行评估。一般情况下,如接口衔接率高,即需要人工进行概念扩充与整合的接口比较少,则说明两者的互操作性高。②重用性。重用的内容包含两个本体的概念、概念关系、属性限制等,通常重用率越高,映射的效果越佳。
2.2.4本体表示评估本体开发中,本体表示是对概念及概念之间的关系进行明确定义,选择合适且适用的本体语言,如DL、RDF、RDFS、Ontolingua、OKB、Loom、DAML,DAML+OIL、CycL、OWL等进行形式化描述。评估内容包含以下方面:①语言规范性。所选择的本体表示语言对本体知识的主要元素、概念、分类体系、关系与函数、实例、公理、产生式规则进行定义时,其语言结构是否规范,语言的推理机制是否合理。②逻辑错误检查。确认是否有逻辑错误的检查能力及检查其结果如何。③语言错误检查。确认是否有语言错误的检查能力及检查其结果如何。④语言的适用性。确认所选择的本体表示语言是否适用于表示目标本体,它对知识主要元素的定义能力如何。
2.2.5本体构建工具评估目前较为成熟、知名度较高且常用的本体构建工具主要有:DAMHmp(API)、KAON、OilEd、OntoEdit、OpenCycServer、Protege-2000、RDFAuthor和WebOnto等。判断一种工具性能如何,主要是判断其是否具有较高的使用效率和是否便于用户使用:①可视化程度。本体构建工具是否提供可视化的本体表达视图,提供的用户界面是否便捷并使用户满意。②共享性。本体构建工具是否可供用户免费使用、下载或在线使用,提供免费软件下载的官方网站是否具有多种语言的版本。③适用性。本体构建工具是否支持Unicode字符集,工具在使用时其输入和输出格式是否支持XML或其语法是否基于本体标记语言XML以及W3C、ISO或IEEE等其他国际组织的相关推荐标准。
2.2.6本体整体评估本体整体评估主要是针对本体的构建过程作出整体全面的评价:①开放性。开放性有助于促进本体与其他本体信息的共享及互操作性。完全开放意味着本体可以被自由使用或者扩展,而不加任何限制。一定程度的开放意味着本体提供者要求本体使用者遵循一定的使用条款及许可条件,实现限制条件下的部分开放。②成熟度。主要指本体目前发展的稳定性及其与其他本体的相关性。它通常与一些量化指标有关,如本体的建立时间、更新时间、发展状态及被其他本体引用的程度等。③阶段评估。本体是否进行了阶段性评估,评估的结果如何,阶段性的问题是否解决,有没有对本体进行阶段性训练和测试。④时间成本。本体的构建时间是否在预期时间内完成。⑤费用成本。构建本体的费用是否在预算费用之内。⑥本体管理。包括本体的进化管理、版本管理、存储与交换管理。要求有本体专门维护机构,有科学的理论依据与实践依据,并依据学科发展和标注实践制定了本体概念与概念关联的增、修、删的原则与标准。本体有不断更新的版本以及现实本体的稳定运行、本体存储方式、高效的存取性能、遵循有关标准协议、能够实现不同本体间数据的相互交换。
2.3本体应用阶段
本体的应用评估主要包含:本体系统辅助功能、语义标注功能、语义检索功能及文本推理功能。
2.3.1本体系统辅助功能本体系统辅助功能主要指该本体所提供的服务功能。主要包括以下内容:①与用户的交互。是否提供了与用户的交互机制,提示信息有效、直接,交互语言友好,可视化结果直观、易懂,能够为用户的操作提供适当的引导。②开放性。与本体管理工具和本体应用系统连接的难易程度以及对用户来讲是否容易使用与操作,是否可以免费获取,获取的方式是否快捷等。③个性化服务。所构建的本体应该提供信息定制服务与信息推荐服务,要有清晰的整体说明、详细的功能使用说明与信息注解、帮助信息,并可根据用户关注焦点来选择个性化服务。
2.3.2语义标注功能语义标注实为运用本体的词汇来标注语料库与web资源,通过添加语义元数据,使其内容被人或机器所理解。语义标注所要评估的内容是覆盖率、标注工具的效用性、标注结果的准确率。①覆盖率。覆盖率是指本体中描述应用领域的概念在语料文本词汇中所占的比例。覆盖率越高,说明本体描述领域内概念的广度越高,全面性越好。②标注工具的效用性。检测标注工具是否支持各种类型、各种介质资源的自动标识,是否提供了本体概念和关键词标注,是否描述了元数据的标准与通用性,标注流程是否方便,且对于应用用户是否适用。③标注结果的准确率。是指正确的标注结果数占标注数量的比率。准确率越高,语义标注功能越强,可以为进一步的语义检索奠定基础。
2.3.3语义检索功能基于本体的信息检索,旨在利用本体中的概念实现对用户信息需求及资源的语义理解与分析,实现概念层面的检索,提高查询的精确率。其功能评估包含以下内容:①查准率。指系统所检索出的术语中有多大比例的术语是相关的,而不考虑它没有检索出的相关术语。精确度越高,就越能有效地确保系统已识别的术语是正确的。②召回率。召回率是系统检索出的相关术语占总相关术语的比例,即检测有多大比例的术语是系统应该识别而实际上识别了的,而不考虑有多少不合格的识别术语。召回率越高,就越能确保系统没有错过正确的术语。③自然语言处理能力。检测系统识别用户检索语言的能力,即问答系统根据上下文的语义联系具有深层语义理解的能力。比如,对一词多义现象的处理,对开放域的答案抽取水平,所涉及的词法分析、句法分析、语义理解等基础处理能力。④用户满意度。是指用户对输出端结果的满意程度,即输出的结果是否为用户所提问题的答案,涉及答案的详细程度、输入端与输出端的时间间隔及人机界面操作的便捷性等。
2.3.4本体用于推理本体描述语言起源于人工智能领域对知识表示的研究,因此本体的描述语言不仅仅需要具有良好定义的语法和语义与充分的表达能力,更需要有效的推理支持:①工具的有效性。推理工具是否支持多版本的语言规范,是否可以方便地访问标准语言的类及属性,是否支持基本的对list的处理,是否可以实现类的层级访问和使用,是否可以实现自动或半自动推理等。②概念的可满足性。是否存在相应的解释使得概念成立。③实例检测。是指检测某个概念所对应的所有实例的集合。
-
护士节活动总结范文
有这样一个群体,她们用无微不至的护理换来了患者的康复,她们的工作平凡、枯燥、劳累,却无比神圣——她们被称为;白衣天使。以下是小编为大家整理的《护士节活动总结..
-
支教实习工作总结优选范文
听课学习、参与教研活动、看自习、批改作业等,真正感受如何作为一名一线教师。下面是由小编为大家整理的;支教实习工作总结优选范例,仅供参考,欢迎大家阅读。支教实习工作总结..
-
幼儿园食品安全工作总结范文大全
食品是维系生命健康持续的首需物资,食品安全是幼儿园安全工作的重中之重!七彩阳光幼儿园为了让孩子和家长朋友们更加了解和重视食品安全,在本周食品安全主题活动中,各教研组根据..
-
小学英语老师工作总结优选范文
英语老师坚持良好的阅读习惯,读有所思,思有所得,让我们一起走进他们的书香世界吧!下面是由小编为大家整理的;小学英语老师工作总结优选范例,仅供参考,欢迎大家阅读。小学英语老师..
-
医护人员医德医风工作总结优选范文
为深入贯彻落实;不忘初心、牢记使命主题教育,进一步改善医疗服务,加强行业作风整治,改善患者就医感受,提高患者满意度。下面是由小编为大家整理的;医护人员医德医风工作总结优选..
-
数学教师考核工作总结优选范文
为了及时了解新教师课堂的真实状态,帮助新教师更好的规范教学,尽快提高教学水平和技能。下面是由小编为大家整理的;数学教师考核工作总结优选范例,仅供参考,欢迎大家阅读。数学..
-
小学科学教学工作总结优选范文
以落实学共体理念、营造自主、合作、探究的课堂为抓手,以学教评一致性教学设计理论为依据,深入推进深度学习的高效课堂建设。下面是由小编为大家整理的;小学科学教学工作总结..
-
读后感作文范文怎么写(整理16篇)
15.读后感作文范文怎么写五今天,我读了一本好书,书的名字叫《一百个励志故事》。其中让我印象深刻的故事名叫《行行出状元》。这个故事主要写的是一个人,经过努力考上了状元,他..
-
大学生贫困生补助标准(6篇)
大学生贫困生补助标准篇1“1份关爱”:疾病是导致群众贫困的一个主要原因。据调查,南丰县因病致贫的贫困户有5950人,几乎达到建档立卡
-
农村文化建设调研(6篇)
农村文化建设调研篇1一、农村文化发展基本情况农村文化建设包括农村文明建设、农民思想道德素质提高、农村文化基础设施建设、文