计算机研究生推荐方向范例(12篇)

daniel 0 2024-02-19

计算机研究生推荐方向范文篇1

关键词:基于项目协同过滤;基于用户协同过滤;推荐系统;相似性;属性特征

中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)16-0127-04

Abstract:Basedontheanalysisofthesparseproblemandthecoldstartprobleminthetraditionalcollaborativefilteringrecommendation,acollaborativefilteringrecommendationalgorithmbasedonadaptivenearestneighborselectionisproposed.Thealgorithmconsiderstheinfluencefactorsofusercharacteristicsandprojectattributes,andthencalculatesthenearestneighborsetsoftargetusersandtargetprojectsbyusingthescoresimilaritymodel.Accordingtothesituationofthesparsescoredata,thesimilaritymeasurementresultsoftwoaspectsarehandledbytheadaptivecoordinationfactors,soastogetthefinalprojectforecastscore.Experimentsshowthattheproposedalgorithmcaneffectivelybalancetheinstabilityeffectsbasedontheusergroupscoreandtherecommendationbasedontheprojectgroup,andeffectivelyalleviatetheproblemscausedbythesparseuserratingdata,soastoimprovethepredictionaccuracyoftherecommendationsystem.

Keywords:item-basedcollaborativefiltering;user-basedcollaborativefiltering;recommendationsystem;similarity;attributefeature

1概述

互联网的迅速发展引发了信息过载问题[1]。推荐系统作为解决信息过载问题的重要手段,在电子商务领域被广泛应用,主要通过发现用户的潜在需求主动为用户推荐感兴趣的项目。在传统的个性化推荐中,协同过滤推荐算法无疑是最成功的一种推荐技术。协同过滤推荐算法是基于某些特定项目的用户之间的相似性计算,更一般而言,如果他们在某些项目上有类似的偏好,他们最有可能对一些其他项目感兴趣。基于协同过滤的方法首先基于项目或基于用户的相似性度量计算发现类似项目或用户的邻居,然后通过相似邻居的评价,提出建议。虽然协同过滤是有效的,当用户评分数据很少时,其推荐性能表现不佳。主要是由于数据极度稀疏,用户只有几个评级,相似度计算误差很大,导致计算得到的邻居集不准确,或者只能搜索到较少的邻居,无法得到准确的推荐集[2]。

传统的协同过滤推荐算法本质上是利用了用户群或者项目群中个体与个体之间的相似性来寻找相似邻居,用相似邻居的历史偏好来预测目标对象的喜好并做出推荐的过程。但是,当用户评价数据极度稀疏或者新用户和新项目的推荐问题时,只从相似用户群或者相似项目群去搜索邻居,得到的邻居集都是比较片面的[3]。在现实生活中往往这两者均不可或缺,可以考虑结合两个群体来共同为当前对象做出预测。为了恰当平衡两个群体对推荐结果的影响,可以定义一个随案例数据变化而变化的近邻因子。

2传统协同过滤方法

2.1传统相似性计算方法

协同过滤推荐的关键点是不同用户之间的相似性度量。广泛采用的方法是基于用户的共同历史评分数据项量来进行相似度的计算。在相似性计算方法中,虽然各有其优缺点,但最常用的相似度量方法是余弦相似性、修正的余弦相似性和皮尔森相似性[4]。

1)余弦相似性:将用户的评分数据转换为多维向量,然后利用这些向量的余弦值来度量用户之间的相似性。其定义如下:

最后预测分值较高的项目便是目标用户的可能推荐项目,即是协同过滤推荐系统的推荐结果。

2.2相似性度量计算的改良

在传统的协同过滤算法中相似度的计算都是在用户共同的历史评分的向量空间上进行的,如果共同评分的数据较少,则这个相似性度量计算的误差就会很大,使得推荐性能急剧下降。Herlocker等在文献[5]中提出用修正因子来调整相似度的计算,Ma等在文献[6]中提出了影响性修正权重因子的设置,我们定义用户和用户之间共同评分的产品集为,给产品和产品共同评分的用户集为,通过过设定某个阀值来将原来的用户相似度和产品相似度调整如下:

3基于自适应近邻选择的协同过滤推荐算法

传统的协同过滤推荐算法本质上是利用了群体内(这里面的群体可能是用户群,也可能是产品群)个体与个体之间的相似性(寻找对当前对象影响力最大的个邻居)来为目标对象的偏好做出预测的过程。但是,当用户评价数据极度稀疏或者新用户推荐问题时,只从相似用户群或者相似项目群去搜索邻居,得到的邻居集都是比较片面的。所以本文研究思路是从影响推荐的两个群体(邻居用户群和邻居项目群)之间寻找一个自适应地可随案例数据变化而变化的近邻因子,结合两个群体来共同为当前对象做出预测。所以本文结合UserCF算法和ItemCF算法的集成算法来进行推荐,它综合了两种协同过滤算法的优点,改善推荐精度。

3.1基本定义

在本节中我们首先来探讨协同过滤推荐系统中数据定义的问题。一般来说,推荐系统可以收集到用户注册信息,产品属性信息以后用户对已经选择过的历史产品的评价信息[7]。通过对这些信息的进一步整理清洗可以建立3个信息数据矩阵,分别是用户-项评分矩阵、产品(项目)特征属性矩阵以及用户特征信息矩阵。分别如表1、表2、表3所示。

3.5推荐算法过程描述

输入:评分矩阵,项目特征矩阵,用户特征矩阵,参数。

输出:推荐结果。

具体算法步骤如下所示:

1)在矩阵中搜索用户未评分的所有项目记为集合,任意一个项目作为目标项目。

2)基于用户-项评分矩阵,按式(5)计算用户与其他任一用户的评分相似度,基于用户特征属性矩阵按(7)计算用户与其他任一用户的特征相似度,再按式(8)进行相似度组合,得到用户间相似度。

3)基于用户-项评分矩阵,按式(6)计算项目与其他任一项目的评分相似度,基于项目特征属性矩阵按式(9)计算项目与其他任一项目的特征相似度,再按式(10)进行相似度组合,得到项目间相似度。

4)对于预先设定的用户相似度阀值,按式(11)中所对应的用户为用户的候选邻居用户,得到用户的候选邻居用户集,同时计算到值,。

5)根据项目相似度阀值,按式(12)中所对应的项目为项目的候选邻居项目,得到项目的候选邻居项目集,同时计算到值,。

6)选择输入合适的调和参数并将值代入到式(13)中,来计算得到自适应近邻选择因子和的值。

7)通过公式(14)并结合之前计算的和,计算用户对项目的预测评分。

循环如上步骤,得到用户对所有未评分项目的预测评分,预测评分较高的项目则为推荐结果。

4试验结果及其分析

4.1数据集

为了验证本文新提出的推荐算法比传统的协同过滤算法具有更好的性能,我们收集了MovieLens站点的相关数据集来完成相应实验。MovieLens数据集是最常用来测试推荐算法性能的标准数据集[8]。此数据集包含100000个等级从1到5的评价数值,由943名用户对1682部电影的评价。在这个数据集中,用户被要求至少对20部电影进行评分,数据稀疏率是95%左右。在实验中数据集被分为训练和测试部分(80%用于训练测和20%用于测试集)。

4.2试验结果及其分析

1)调整参数对推荐精度的影响

由于本文公式(8)中提出的用户相似度度量中的为可调节参数,因此在取不同值时,所获得的效果也不同,所以在该试验中取值从0到1.0,每次增加0.1,观察平均绝对偏差MAE(meanabsoluteerror)的变化,MAE值越低推荐效果越好。实验中调节因子取0.5,自适应因子取30,阀值取0.4,取0.55。选择300个用户进行测试,试验结果如图1所示。从图1中可以看出,取值为0.7时推荐效果最好。

2)调整参数对推荐精度的影响

由于本文公式(10)提出的项目相似度度量中的为可调节参数,因此在取不同值时,所获得的效果也不同,所以取值可能会对推荐精度有影响。所以在该试验中取值从0到1.0,每次增加0.1,观察MAE的变化。实验中调节因子取0.5,自适应因子取30,阀值取0.4,取0.55。选择300个用户进行测试,试验结果如图2所示。从图2中可以看出,取值为0.4时推荐效果最好。

3)不同协同过滤算法推荐精度对比

将本文提出算法与其他协同过滤算法如Item-basedCF,User-basedCF以及近期业界比较领先的研究方法EMDP(EffectiveMissingDataPrediction)进行比较。从实验结果可以看出本文改进的自适应近邻选择协同过滤算法(ANCF)获得更低的MAE值,推荐效果更好。实验结果如图3所示。

5结论

协调过滤推荐技术是推荐系统应用中的一个热门研究,基于领域的方法作为协同过滤两个分支之一,以其简单、高效、稳定和和解释性强的特性广泛应用于商业领域,但用户-项矩阵的稀疏性问题是协同过滤的主要不足之处。本文根据基于用户协同过滤算法和基于项目协同过滤算法各自的优缺点,提出一种组合算法,针对预测数据的不确定性,同时在用户群和项目群中搜索目标用户的邻居,并通过自适应因子来调节不同群体邻居对推荐结果的影响。结合用户以及项目的推荐结果,同时运用用户邻居和和项目邻居来组合计算预测评分,大大改善了数据稀疏性对推荐性能造成的影响。不过这样会增加推荐系统一些时间开销,将来的研究将探讨如何运用云计算和聚类技术等来降低算法的时间复杂性,加快推荐系统的推荐结果反馈时间。

参考文献:

[1]BreeseJ,HechermanD,KadieC.Empiricalanalysisofpredictivealgorithmsforcollaborativefiltering[C].In:Proceedingsofthe14thConferenceonUneertaintyinArtificalItelligence(UAI-98),1998:43-52

[2]彭玉,程小平.基于属性相似性的Item-based协同过滤算法[J].计算机工程与应用,2007,43(14),144-147.

[3]黄创光,印鉴.不确定近邻的协同过滤推荐算法[J].计算机学报,2010,33(8):1369-1375.

[4]邓爱林.电子商务推荐系统关键技术研究[D].上海:复旦大学.2003

[5]TsaiCF,HungC.Clusterensemblesincollaborativefilteringrecommendation[J].Appl,SoftComput,2012,2:75-80.

[6]QingLiSHM,ByeongManKim.Aprobabilisticmusicrecommenderconsideringuseropinionsandaudiofeatures[C].Inf.Process,Manage,2007:134-152.

计算机研究生推荐方向范文篇2

一、国内外研究状况

由于国外证券市场的历史较长,相关学科也就起步较早。凭借数据库系统的完善和前沿理论的掌握,国外学者在证券咨询机构方面的研究进行得较为透彻。早在1968年,CraggandMalkiel(1968)[1]便开始研究证券分析师对企业盈利预测是否准确的问题,随后FriedandGivoly(1982),[2]BrownandGriffin(1983)[3]都认为,证券分析师的盈利预测要好于常用的统计模型。而后,机构的投资评级信息量(所推荐股票是否产生超额收益率)概念也开始引起人们注意。荐股信息后短期内的超常收益是存在的,这一点得到了大多数学者的认同,Sticke(1995)[4]的研究支持了此观点,但在长期,由于考虑了交易成本的影响,机构所推荐股票能否产生超额收益,则未能得出一致结论。在影响机构荐股行为的众多因素中,近年来学者主要关注于“利益冲突”问题。

在最新的研究成果中,MalmendierandShanthikumar(2007)[5]认为,投资者依照关联分析师和分关联分析师的推荐操作,收益无区别。而Barber(2007)[6]则证明,独立咨询机构的买入推荐与关联机构的卖出推荐会有更好的收益。McNichols(2006)[7]则表示,没有证据表明,根据关联机构的推荐进行股票投资的收益率,会低于按非关联机构的建议进行操作。虽然缺乏完善的数据库支持,但国内学者在咨询机构荐股行为方面,仍然进行了众多有意义的探索,内容也涵盖了上述的三方面内容。唐俊和宋逢明(2002)[8]

采用1999年1月到9月的数据证明,市场存在对信息的过度反应想象,并且机构的荐股信息加重了过度反应得程度。陈平(2008)[9]通过实证检验,证实了我国证券分析师的羊群行为或冒险预测,与其“个性特征差异”造成的“信息处理能力”又非常紧密的联系。张雪兰和何德旭(2008)[10]在对1995-2007年间相关文献进行综述的基础上,分析了利益冲突不一定损害投资者利益的原因,提出了更有利于市场建康运作的监管建议。徐立平和刘建和(2008)[11]实证检验了证券分析师荐股行为的市场影响力,认为其受到市场整体行情影响很大,且对市场量价等指标值具有短期影响力,长期无影响。岳衡和林小驰(2008)[12]使用35家券商2005年对上市公司每股盈余的预测数据,发现我国证券分析师的盈余预测,比以年度数据为依据的统计模型更有优势,而与以季度数据为基础的模型相比,则优势不明显。

二、样本数据介绍

以上证指数为行情代表,观察中国股票市场的整体走势,会发现一幅以2007年10月16日所创下的6124点峰值为中心对称的趋势图。6124点左侧,行情一路攀升,6124点右侧,指数一路下泻,牛、熊态势清晰可见,且尤以2007年(牛市)和2008年(熊市)的市场表现最为典型。代表性强、对比鲜明的此阶段行情,不但为股票市场的相关研究,奠定了丰沛、坚实的数据基础,而且非常有利于对反向市场环境下的实证结果进行对照分析。本文即选取2007年1月至6月间和2008年1月至6月间的荐股信息和市场数据为研究对象,最大程度上满足细致检验和对比分析的需要。股票推荐信息来自于证券咨询机构,在《中国证券报》,《上海证券报》,和《证券时报》这三大证券报上所撰写的荐股专栏。以上三份报纸是中国证券市场上,影响力最为广泛的公开发行刊物,订阅量稳居同类报刊前列,其所的荐股信息,具有充分的传播能力和广泛的投资者受众。

三、研究设计

事件研究法(eventstudy)源于统计学,用来分析某一特定事件对研究对象产生的影响与冲击。在证券市场中,事件研究法多用于各类市场信息(如增发,并购及年报等)的公开,对股票收益及流动性的影响。本文确定的事件日T0,为证券咨询机构所推荐股票在三大证券报上的日。①事件窗是指在哪一个时间段内来检验特定事件影响。本文主要研究股票推荐日前后各20个交易日内的股票收益、流动性和波动性变化,所以确定的事件窗分别为(T-20,T20)。

另外,本文设定事后窗(T20,T120)测定事件日后的股票交易数据的长期表现。估计窗用来计算被研究对象各指标的正常值(期望值)。本文选取事件窗前120到前20个交易日(T-120,T-20)的数据作为估计区间。(T-120,T-20)为估计窗,T0为事件日,(T-20,T20)为事件窗,(T20,T120)为事后窗。4.股票期望收益率计算本文将采用基于CAPM的经济模型计算期望收益率。Rit=Rf+βi(Rmt-Rf)(1)式(1)为基于CAPM的期望收益率计算公式。Rit表示第i只股票在第t日的正常收益率,Rf表示无风险收益率,Rmt表示市场组合②在第t日的收益率。期望收益率计算估计区间为(T-120,T-20)。5.股票超额收益率的计算超额收益率:ARit=Rit-R^it(2)ARit表示第i只股票在第t日的超额收益率(abnormalreturn),R^it为第i只股票在第t日的实际收益率。ARt=1N∑N1ARIt(3)ARt表示在第t日被推荐的N只股票平均超额收益率。同时,还可在事件期和事后期内计算累积的超额收益率,用于判断收益的变动是否成同向、持续趋势。

累积超额收益率:CAR(t1,t2)=∑t2t1ARIt(4)CAR(t1,t2)表示在t1至t2时间段内,每天的超额收益率累加之和。本文还将总体数据的基础上划分小样本组合,分别进行实证检验。样本一:不同类型机构荐股组合。将证券公司与第三方咨询机构的被推荐股票分开,比较两组被推荐股票的收益情况以及市场反映情况,观察其荐股能力和对投资者的影响力;样本二:本地优势组合。将样本数据中证券咨询机构所推荐的本地股票挑选出来作为一组,另一组则包含咨询机构所推荐的非本地股票,检验股票收益情况,观察证券咨询机构是否在推荐股票上是否存在本地优势;样本三:承销关系组合。将证券公司所推荐的自己所承销股票挑选出来作为一组,另一组则包含证券公司所推荐的非承销股票,检验股票收益情况。

四、实证结果及分析

本文使用SAS8.1软件进行数据处理分析,得到以下结果。通过总体数据检验,得到图1至图4,可以判断,在事件窗口期(T-20,T20)内,被推荐股票有着明显的市场反应,尤其是事件日T0附近,异动情况极其强烈,收益率、交易量等指标出现大幅攀升。上述实证结果可以说明以下几个问题:第一、证券咨询机构倾向推荐前期表现好的股票;第二、股票被推荐后仍有收益,但显著低于事件日之前的收益水平;第三、证券咨询机构在三大证券报的推荐效应明显,在事件日产生极强的市场反应;第四、证券咨询机构的股票推荐有效性,受到大盘行情较大的影响,在不同的行情阶段反差明显。图5的情况表明,无论是在2007年还是2008年,事件日T0(推荐日)当天的交易量为峰值,均高于事件日前后的交易量水平。2007年被推荐股票的交易量明显大于2008年,交易量在事件日有显著跃升,且在事件日后保持稳定和相对T0前增长的水平。而2008年的被推荐股票交易量,在事件日当天增幅并不显著,且在事件日后呈递减状态,市场反应明显不足。这说明,在牛市行情条件下,市场对被推荐股票更容易给出积极的反应,在熊市行情下则缺乏动力。

总体而言,股票推荐后中长期的市场反应并不显著,而在短期内,尤其是在事件日前后三个交易日(T-0,T1)内反应强烈,无论是收益情况还是市场交易活跃情况,都在(T-1,T2)区间内达到峰值。这充分说明,对于操作频繁,短线投资,缺乏专业能力的中小投资者而言,其投资操作行为受到证券咨询机构荐股信息的影响很大。分析样本一,得到图6,可以发现,在事件窗口期内(T-20,T20)证券公司推荐股票总体略强于独立咨询机构,但优势十分微小,而在事后期(T20,T120)独立咨询机构所推荐的股票收益明显强于券商。出现此种结果的原因可能在于,券商重视公募基金等机构客户的维护,其高质量研报多在中小投资者难以获得的渠道,导致在三大证券报这类大众媒体上的券商荐股信息质量不高。而独立咨询机构更愿意扩大在散户中的知名度,因此在三大证券报上的质量较高的荐股信息,更好的发掘了上市公司价值。通过样本二数据得到图7,可以看出,在事件窗口期(T-20,T20)内,证券咨询机构在本地与非本地股票推荐上的收益情况基本一致,没有明显差别。而在事后期(T20,T120)内,本地股票甚至出现了更长时间的负收益情况,所以本地优势并不存在。

根据样本三得到图8,观察可知,券商推荐的自己所承销股票在事件日前表现并不如人意,没有像总体样本一样推荐前期累积收益率较高的股票,而在事件日后,所承销股票的累计超额收益率递减,说明推荐后的股票收益为负,在中长期范围内同样无法使投资者获得良好的回报。因此,券商推荐所承销股票收益不佳,券商与投资者存在利益冲突,为了投行部门的业务开展及客户维护,券商推荐所承销股票并没有按照正常的思路进行研究分析,而是以自身利益为出发点进行推荐,有可能造成投资者的损失。

五、结论及政策建议

经过前文各种实证结果及分析,可以看出,中国证券市场的整体不足,尤其是证券咨询行业存在着一定问题,咨询机构能力与投资者理性程度均不足,阻碍了中国证券市场的进一步发展。因此,如何进一步加强证券咨询行业的相关建设,使其充分发挥促进市场有效信息流动的桥梁作用,为市场健康发展和保护投资者利益贡献力量,成为未来证券行业发展的重点之一。加强证券咨询行业建设,促进证券市场全面进步,主要从以下几个方面入手:

第一、加强对证券咨询行业的监督管理,进一步完善准入、检查、处罚及市场退出等相关管理手段,严肃咨询行业秩序,为市场健康运行和投资者保护创造基本环境。

计算机研究生推荐方向范文篇3

【关键词】中医药;知识服务;知识推荐;移动互联网;移动设备

PreliminaryResearchonTCMKnowledgeRecommendationViaMobileInternet/YUTong,MAOYu-xin,GAOHong-jie,etal.//MedicalInnovationofChina,2015,12(36):115-118

【Abstract】AcoreproblemofknowledgeservicesinTraditionalChineseMedicine(TCM)domainisasfollows:inthefaceofmassiveknowledgeresources,howtoautomaticallyfindoutwhichonesausermaybeinterestedinsoastorealizeactiveknowledgerecommendation.MobileInternet,withitspopularity,convenience,andabilitytocollectpersonalinformation,providesanidealplatformtosolvethisproblem.Thispaperintroducedtheconceptandbackgroundofpersonalizedknowledgerecommendation,analyzedthecurrentstatusofTCMknowledgerecommendationviamobileInternet,andproposedexistingproblemsandresearchthoughts.

【Keywords】TraditionalChineseMedicine;Knowledgeservice;Knowledgerecommendation;Mobileinternet;Mobiledevice

First-author’saddress:InformationInstituteofTraditionalChineseMedicine,ChinaAcademyofChineseMedicalSciences,Beijing100700,China

doi:10.3969/j.issn.1674-4985.2015.36.038

中医药是中华民族优秀文化的一个重要组成部分,它历史悠久,源远流长。数千年来,历代医家在医疗实践中积累了丰富的经验,创立了兼具理论深度和民族特色的中医药知识体系,为中华民放的繁衍昌盛作出了杰出的贡献。随着我国社会从温饱到小康的转型,百姓的生活水平日益提高,开始更加重视生活品质,追求延年益寿,因此对中医养生保健知识产生了日益强烈的兴趣。

近年来,中医药领域的信息化建设取得了长足进展,建设了大量的文献库和数据库,形成了相对完整的中医药科学数据体系[1]。这些数字化资源中,蕴含着丰富的中医药知识。如何将这些知识资源与人民群众分享,使普通人从中受益,是一个非常重要的问题。基于互联网的中医药知识服务系统能够整合中医临床知识、中医药理论知识、中药方剂知识和中医疾病知识等中医药知识资源,面向网络用户提供中医知识或其他的数字化服务,是在人民群众中普及中医药知识的一种有效手段[2]。

中医药知识服务系统一般都实现了知识检索功能,能帮助用户从海量的中医药文献和知识资源中迅速找到有关知识[3]。但知识检索这种服务方式存在固有的局限性。为检出所需的知识,用户必须能够输入正确的检索词。这就要求用户已关注相关主题,并能用正确的医学术语将其表述出来。这对于医学专业人员可能并非难事,但对于普通人往往是一个很大的挑战。普通人很可能忽视了一些与自身健康有关的知识主题,甚至不清楚在网络上存在哪些有用的知识检索服务,因此无法充分获取在知识库中已经存在的知识。

为了弥补知识检索的局限性,可根据用户的特点向其进行主动的知识推送。不同用户对中医药知识的需求不尽相同,但人们往往对与自身体质和健康状况相关的中医药知识更感兴趣。若能根据用户的特点和偏好,向其提供个性化的知识推荐服务,则可更好地满足用户的需要。在下文中,将介绍个性化知识推荐的概念、背景和技术,阐述基于移动互联网的中医知识推荐服务的现状,提出存在的问题和研究思路。

1个性化中医知识推荐

个性化知识推荐,是指根据用户的特点和偏好,向其提供具有针对性的知识服务。以中医为例,系统可根据用户的中医体质类型,向其推荐与该体质相关的知识;若用户患有某种疾病,则系统可优先提供该疾病的相关知识。为实现个性化知识推荐服务,需要搜集用户的个人信息。这些信息可由用户填写或设定,也可由用户使用行为推定。例如,用户可通过表单填写(或勾选)其所感兴趣的疾病;又如,用户输入的检索词,可反映出其所关心的主题。系统会为每个注册用户构建“用户模型”,用于描述用户的特点和偏好,判断用户的需求。

当用户访问系统时,系统会根据该用户的模型以及系统自身的推荐逻辑,确定针对该用户的知识推荐内容。例如,若系统测出用户属于气虚质,则会基于知识库向用户推荐气虚质适宜的饮食(如当季水果等)。个性化知识推荐方法是知识服务系统中的一项核心技术,它一般具有如下特点。

1.1可定制性知识服务根据用户的设定来实现。系统采取“量体裁衣”的策略,向用户提供和推荐具有针对性和相关性的知识,以满足用户的需求。

1.2主动性系统不仅被动地响应用户的知识请求,而且会“猜测”用户需要什么,并采用推荐、提醒、个性化知识展示界面等方式主动提供知识服务。

1.3差异化系统面向各类用户提供差异化的知识内容,满足用户的不同需求。用户会因自身特点和需求不同,得到不同的用户体验。

个性化知识推荐方法能进一步简化用户利用中医知识的方式和途径,降低中医知识普及的门槛,促进中医知识的共享和传播。

2推荐系统技术概述

个性化知识推荐服务的后台需要推荐系统(亦称推荐引擎或推荐平台等,RecommenderSystem)的支持。推荐系统能推测用户对某一信息条目的偏好程度,从大量信息中过滤出用户想要的信息[4]。近年来,推荐系统在电子书店、视频网站以及搜索引擎等各种网络信息系统中得到了极为广泛的应用,成为一项功能强大、价值巨大的信息服务。

推荐系统的核心是其所使用的推荐方法(或称推荐算法)。目前,推荐方法主要包括“协同过滤”(CollaborativeFiltering)和“基于内容的过滤”(Content-basedfiltering)两大类[5]。协同过滤方法是根据某个用户的行为(对事物的购买、选择或评价等)以及其他用户的类似行为建立模型,再使用该模型预测该用户可能感兴趣的事物[6]。基于内容的过滤方法是根据事物的特征判断事物之间的相似性,从而向用户推荐更多类似的事物[7]。

很多其他的人工智能方法也可被应用于推荐系统。例如,主题模型(TopicModel)是能够从大量离散数据集中挖掘出隐含的主题结构的一类统计模型[8]。这里的“主题”是指由一些语义相关的特征构成的、用来描述一个话题的抽象概念。利用主题模型可以识别一份文档所表达的主题,从而将该文档推荐给对相关主题感兴趣的用户。又如,社会网络分析通过网络模型体现一类人群中个体之间的多层次交互关系。通过社会网络分析,可以发现人与人之间的爱好、生活习惯等相似关系,以此为基础对用户做相应的个性化推荐[9]。再如,利用关联规则挖掘(AssociationRuleMining)算法,可从海量数据中发现事物之间的关联关系,然后据此进行相应的推荐[10]。关联规则是形如XY的蕴涵式,具有一定的支持度和信任度。基于关联规则的推荐是以关联规则为基础,若用户特征满足规则头,则将规则体的内容作为推荐对象推荐给用户。

上述推荐方法都是基于统计的,试图从海量数据中挖掘用户的偏好和需求。“基于知识的推荐系统”(knowledgebasedrecommenders)与这些方法不同,它不是基于海量数据分析的结果进行推荐的,而是基于事物分类、用户偏好、推荐原则等方面的显性知识的一种推理技术[11]。基于知识的推荐方法因它们所用的“效用知识”(FunctionalKnowledge)的不同而有明显区别。效用知识是一种关于一个事物如何满足某一特定用户的知识,因此能解释需要和推荐的关系。效用知识可以是任何能支持推理的知识结构,它可以是用户已经规范化的查询,也可以是一个更详细的用户需要的表达式。此类方法可以在“协同过滤”和“基于内容的过滤”等方法不适用的领域发挥作用。其优点是不依赖于大量的数据积累,因此容易启动;其缺点是在定义推荐所需知识的过程中可能遇到知识获取瓶颈。

既然推荐系统已被成功应用于商业领域的商品关联推荐,它也就可能被用于中医知识的个性化推荐。可综合利用上述方法,研制面向中医药领域的个性化知识推荐系统,使之能够利用用户个人健康信息、人际网络信息和健康公共信息,向用户提供有用的知识和有效的建议,帮助用户决定应该进行什么有益的饮食规划、生活活动或疾病治疗规划,达到疾病防治和提高生活质量的效果。一个面向中医知识的个性化推荐系统将能够实时利用采集到的数据做出主动推荐,提高用户的疾病防治能力及其对中医知识的信赖度。

3移动互联网和中医知识推荐

近年来,智能手机等移动设备迅速普及,移动互联网取得迅猛发展[12]。移动互联网因其普及性、便捷性以及强大的个人信息采集和自动感知能力,为个性化知识推荐提供了理想的平台。首先,智能终端为用户个人健康信息的采集提供了便捷的手段,可通过规范化的问卷、量表采集用户个人健康数据并判断其健康状况。例如,可以基于中华中医药学会的《中医体质分类与判定》等标准,为用户提供“中医体质测试”服务;系统会列出一组与用户近期的体验和感觉相关的问题,根据用户的答案判断出用户的中医体质类型。其次,基于智能终端的传感系统自动采集时间、地域、天气等用户相关数据,这种用户情境感知能力能进一步提升推荐系统的精准性。例如,通过GPS系统,可感知用户的地理位置,据此推荐当地的美食,而无需推荐在当地不存在的食材及相关食谱。最后,智能终端为个性化中医知识推荐提供了移动应用程序、万维网、短信、微信等多种实现途径。

在中医药领域,已出现了过日子、中医养生、健康养生宝典、365健康养生、中华养生、中医美容保健、养生美颜听书等一系列面向社会大众提供知识服务的移动APP。许多产品会收集用户行为信息和健康数据,据此向用户提供知识推荐等个性化服务。例如,“过日子”会提请用户进行注册并填写个人健康信息,并根据用户“中医体质测试”的结果判断用户的中医体质,进而针对用户的体质类型提供个性化的知识推荐服务;“中华养生”以中医理论为依据,实现了养生提醒功能,适时推荐运动、食疗、调神等方面的养生知识,督促用户从事养生保健活动;“中医养生钟(普及版)”根据时辰(时间)与脏器经络的对应关系为用户提供养生提醒服务;“体质养生(食疗)系统”根据用户“中医体质测试”的结果提供个性化知识推荐,帮助用户在选择食物时能根据自身体质去分析营养价值,而不仅根据喜好[13]。上述产品有助于用户获得日常健康维护、疾病预防和生活指导等方面的中医知识,指导并督促用户从事养生保健活动,以达到增强体质、预防疾病、颐养生命之目的。

4存在的问题和研究思路

上述产品已初步实现了个性化中医知识推荐功能,但尚有改进空间。存在的主要问题是知识权威性和用户信任度较低[14]。中医学术界多年来开展了大量的中医药信息化工作,组织全国一流专家进行数据库加工,建设了大量的中医药数据库[1]。通过建立严格数据质量评价标准以及数据审校机制,保证了数据质量[15]。这些数据库具有领域权威性,知识可信度高,为中医知识推荐服务提供了优质资源。需要研究如何对这些知识资源进行有效组织,并与用户对中医知识需求建立关联,使这些知识资源能更有效地支持推荐服务。

另外,上述产品的推荐机制的合理性尚未得到专家的论证,在推荐技术和方法方面尚有进一步研发和改进的空间。可根据个体化健康状态,以实时健康风险评估为基础,研究智能健康信息推荐技术,开发个性化中医知识推荐系统,即时提供满足百姓日常健康维护、疾病预防和生活指导方面的中医知识。其中涉及3项主要的研究内容。

4.1用户个人健康信息模型的研究与设计为实现个性化的知识推荐,首先需要设计符合移动互联网技术特点且具有中医特色的用户个人健康信息模型。需要对基于移动互联网的用户个体数据采集手段进行调研,分析现有的个人健康数据的内容、质量和利用价值,对用户的个体特征进行系统梳理和量化建模,形成一个相对完善的、领域相关的用户特征模型。

4.2个性化中医知识推荐算法研究与实现首先,可通过文献调研、专家咨询、用户访谈等方法,整理个性化中医药知识推荐的案例,明确知识推荐策略。进而,可采用知识表示技术,构建一个面向中医知识推荐的规则库,将推荐策略表达为形式化的知识推荐规则,从而建立个人健康信息模型与中医药知识资源之间的关联关系,实现基于规则的中医知识推荐。最后,可采用“基于知识的推荐”与“协同过滤”相结合的混合型推荐机制,研究和实现专门针对中医知识的个性化推荐算法。

4.3中医知识主动推送网络服务的研究与实现在研究和实现推荐算法的基础之上,需要进一步对该算法进行网络化封装,在万维网(Web)服务器端实现和部署知识推荐的网络服务(WebService),使得移动客户端和其他信息系统都能动态调用知识推荐算法。该服务能够直接根据用户特征向移动客户端推送中医知识,从而实现基于移动互联网的个性化知识推荐。

5小结

知识推荐与知识检索是知识服务的两种基本方式:知识推荐属于系统主动推送,知识检索属于用户主动提取。这两种方式相辅相成,相互融合,可以形成相对完整的中医知识服务技术方案,进一步提升知识服务系统的用户友好性和针对性。移动互联网的发展以及智能终端的迅速普及,使具有用户情境感知能力的个性化推荐系统成为可能。“过日子”等移动应用产品已初步实现了个性化中医知识推荐功能,可根据用户的个人健康信息(如性别、年龄、体质、疾病等)以及时节、地域等环境信息,进行个性化的中医知识推荐,使用户可以随时随地获得针对自己和家人的养生知识和健康提示。需要基于中医药领域现有的优质数据资源,采用移动互联网技术,设计用户个人健康信息模型,研制权威的中医知识库以及智能化的中医知识推荐技术,实现中医知识主动推送网络服务,帮助普通百姓获得精准的个性化中医知识服务,从而提高用户的疾病防治能力以及对中医知识的信赖度。

参考文献

[1]崔蒙,尹爱宁,范为宇,等.中医药科学数据建设研究进展[J].中国中医药信息杂志,2006,13(11):104-105.

[2]高博,崔蒙,杨硕,等.基于数据的中医药知识服务研究[J].图书情报工作,2012,56(9):5-9.

[3]于彤,苏大明,尹仁芳,等.中医药知识服务平台构建研究[J].中国医学创新,2014,11(15):120-123.

[4]FrancescoRicci,LiorRokach,BrachaShapira.Introductiontorecommendersystems[M].Handbook,RecommenderSystemsHandbook,Springer,2011:1-35.

[5]HoseinJafarkarimi,AlexTzeHiangSim,RobabSaadatdoost.ANa?veRecommendationModelforLargeDatabases[J].InternationalJournalofInformationandEducationTechnology,2012,2(3):216-219.

[6]PremMelville,VikasSindhwani.Recommendersystems[M].EncyclopediaofMachineLearning,2010.

[7]MooneyRJ,RoyL.Content-basedbookrecommendationusinglearningfortextcategorization[C].InWorkshopRecom.Sys.:Algo.andEvaluation,1999.

[8]DavidMBlei.Introductiontoprobabilistictopicmodels[J].Comm.ACM,2012,55(4):77-84.

[9]JohnPScott.Socialnetworkanalysis:ahandbook(2ndedition)[M].ThousandOaks,CA:SagePublications,2000.

[10]HippJ,GüntzerU,NakhaeizadehG.Algorithmsforassociationrulemining-ageneralsurveyandcomparison[J].ACMSIGKDDExplorationsNewsletter,2000,52(2):58.

[11]BurkeR.Knowledge-basedrecommendersystems[J].EncyclopediaofLibraryandInformationScience,2000,69(32):180-200.

[12]罗军舟,吴文甲,杨明,等.移动互联网:终端、网络与服务[J].计算机学报,2011,34(11):2029-2051.

[13]胡奥杰.基于android的体质养生系统的开发[J].电子世界,2014,20(7):112-113.

[14]朱毓梅.中医药信息需求的调查分析[J].国际中医中药杂志,2014,36(9):830-832.

计算机研究生推荐方向范文1篇4

〔关键词〕相似传播;情景聚类;协同过滤;推荐算法

DOI:10.3969/j.issn.1008-0821.2016.11.009

〔中图分类号〕G2062〔文献标识码〕A〔文章编号〕1008-0821(2016)11-0050-05

〔Abstract〕IntheageoftheInternetera,thepersonalizedrecommendationsystemgraduallyisappliedtodifferentfieldsandrecommendationalgorithmhasbecomearesearchhotspotatpresent.Traditionalrecommendationalgorithm,however,oftenhassomeproblems,forexampleacoldstart,sparsedata.Inthispaper,onthebasisofresearchesontraditionalrecommendationalgorithm,thispaperproposedacollaborativefilteringrecommendationalgorithmbasedonsimilaritypropagationandcontextputingthesimilaritybetweenuserforuserclustering,thenthepaperfoundmorenearestneighborsoftargetusers,accordingtothesimilaritypropagationtofinally,itrecommendedprojectsaccordingtotheforecasttargetusersratings.Withthehelpofonlinepublicdata,thepaperimplementedtheproposedalgorithmandverifiedtheeffectivenessoftheproposedalgorithmonMatlab.experimentshowedthattheaccuracyoftheproposedalgorithmcomparedwiththetraditionalalgorithmwashigher,andtheproposedalgorithmrelievedtheproblemsoftraditionalrecommendationalgorithm,suchasthecoldstartandsparsedata,etc.

〔Keywords〕similaritypropagation;contextclustering;collaborativefiltering;recommendationalgorithm

如今,互联网已经成为人们获取信息的重要途径。然而,随着网络上信息量越来越大,信息过载的问题也越来越严重,这对人们在网上快速查找精确信息造成了很大的困难。个性化推荐系统能够根据用户的兴趣偏好、项目、需求甚至通过感知用户的情景来向用户推荐信息,这不仅很好地解决了信息过载的问题,同时还满足了用户的个性化需求。在实际应用方面,亚马逊、当当等大型电商网站都开发出了自己的推荐系统。在学术研究领域,个性化推荐方面的研究也逐渐进入学者的视野并得到关注,例如美国的Grouplens团队、AlexanderTuzhilin教授、PaulResnick教授等对个性化推荐系统及相关的推荐算法进行了深入的研究[1]。

1问题的提出

协同过滤推荐算法作为目前研究较成熟、应用范围较广的推荐算法已被广泛地运用于互联网各大推荐系统中[2]。然而,传统的协同过滤推荐算法推荐的准确率和推荐效率往往受到多方面的影响,如对于新用户存在的冷启动问题和由于评分矩阵数据稀少导致的数据稀疏问题对推荐算法的质量产生的影响。

本文对传统的推荐算法进行了改进,将相似传播的思想和用户的情景与协同过滤推荐相结合,提出了一种基于相似传播和情景聚类的网络协同过滤推荐算法,在传统协同过滤算法存在的问题得到了较好缓解的同时也提高了推荐算法推荐的准确率。

2相关概念及理论

21情景的定义

情景在不同的领域有不同的定义,心理学、情报学、哲学、组织行为学、教育学、社会学等领域的众多学者都对情景进行了深入的研究和探讨,但关于情景的定义学者们都各执己见,不能达成一致共识,因此情景一直没有统一的定义。Dey等人认为能描述某一实体特征的信息即为情景[3]。虽然这一定义目前被广泛引用,但由于不同领域对情景的理解各不相同,情景的定义一直无法准确给出。大多数学者都认同:情景是和实体是不可分的,情景只有与实体产生联系才具有意义,情景可以将实体的相关信息进行详细的描述。

22聚类的概念

聚类是利用一定的方法将数据集合划分成簇中各成员间相似度较高但簇与簇间各不相同的多个簇的过程。聚类的结果往往随着所使用的聚类方法的改变而改变,使用不同的聚类方法对相同的数据集进行聚类,产生的最终结果也可能不同。划分的过程不是通过人,而是通过聚类算法进行的。

23协同过滤推荐

协同过滤推荐(CollaborativeFilteringRecommendation,CFR)是根据用户的兴趣偏好及相关信息找到与用户相似的群体,将该群体感兴趣的内容作为待推荐的内容推荐给用户。协同过滤推荐不需要用户显式查找自己感兴趣的内容或项目,而是根据已有用户对项目的评分来预测计算该用户的评分,进而根据评分高低对用户进行推荐,因此该方法在许多领域得到广泛的应用。

3传统协同过滤推荐算法

协同过滤推荐的原理是根据用户的兴趣偏好及相关信息找到与用户相似的群体,将该群体感兴趣的内容作为待推荐的内容推荐给用户。其中,基于记忆的协同过滤在实际运用中运用范围较广,它又可以根据被计算相似度的对象的不同分为用户和项目两种类型[4]。

31基于用户的协同过滤

基于用户的协同过滤(User-basedCF)推荐算法首先是查找与目标用户相似的群体(即目标用户的最近邻),这一过程通常通过利用系统中已有“用户-项目”评分矩阵中的评分数据来计算用户与用户之间的相似度来完成;然后根据生成的最近邻集合中的用户对项目的评分数据,利用评分预测计算公式来计算得到目标用户对某一项目的预测评分;最后根据预测结果对目标用户进行推荐。整个推荐过程大致可分为目标用户最近邻查找和目标用户对项目的评分预测。余弦相似性、修正的余弦相似性、Tanimoto系数,Pearson相关系数[5]等是在计算相关系数时较常使用的方法。

User-based协同过滤推荐算法在计算用户间的相似度时多是采用Pearson相关系数的计算方法,根据已有用户对项目的评分矩阵进行计算。计算用户u与u′间的相似度,计算公式如下:

sim(u,u′)=∑s∈I(u,u′)(r(u,s)-(u))(r(u′,s)-(u′))∑s∈I(u,u′)(r(u,s)-(u))2(r(u′,s)-(u′))2

其中,r(u,s)代表用户u对项目s的评分,r(u′,s)代表用户u′对项目s的评分;(u)代表用户u对所有项目评分的平均分,(u′)代表用户u′对所有项目评分的平均分;I(u,u′)代表用户u与用户u′都有评分的项目的集合。

通过计算目标用户与非目标用户间的相似度找到与目标用户相似的用户群体,将该群体的集合作为目标用户的最近邻集合D。生成最近邻集合后,将最近邻集合中用户对项目的评分数据代入评分预测公式来对目标用户进行偏好预测。预测目标用户u对某一项目s′的评分时可采用如下公式[6]:

P(u,s′)=∑u′∈D[sim(u,u′)R(u′,s′)]∑u′∈Dsim(u,u′)

其中R(u′,s′)代表用户u的最近邻集合中的用户对项目s′的评分,sim(u,u′)代表用户u与u′的相似度,D为用户u的最近邻集合。

以上公式计算出来的预测结果将作为对目标用户进行推荐的依据。

32基于项目的协同过滤

基于项目的协同过滤(Item-basedCF)推荐算法首先是找到与项目相似的项目群,这一过程通常通过利用已有用户对项目的评分数据计算项目与项目之间的相关系数来完成;项目相似群生成后,根据用户对群体中各项目的已有评分数据来计算用户对某一项目的预测评分;最后根据评分计算结果对用户产生相关推荐。计算项目t与t′间的相似度,计算公式如下:

sim(t,t′)=∑u∈u(t,t′)(r(u,t)-(t))(r(u,t′)-(t′))∑u∈u(t,t′)(r(u,t)-(t))2(r(u,t′)-(t′))2

其中,r(u,t)代表用户u对项目t的评分,r(u,t′)代表用户u对项目t′的评分;(t)代表所有用户对项目t评分的平均分,(t′)代表所有用户对项目t′评分的平均分;u(t,t′)代表对项目t与t′都有评分的用户的集合。

根据项目间相关系数的计算生成项目的最近邻集合I,之后根据生成的相似的项目群体来预测用户对项目的评分。如计算用户a对项目i的预测评分,计算公式如下[7]:

P(a,i)=(i)+∑j∈I(i,j)sim(i,j)(r(a,j)-(j))∑j∈I(i,j)sim(i,j)

其中,(i)代表所有用户对项目i评分的平均分,(j)代表所有用户对项目j评分的平均分;sim(i,j)代表项目i与项目j间的相似度;I(i,j)代表项目i的最近邻集合。

计算出预测评分后依据预测结果对用户进行推荐。

然而,对于新用户和评分数据较少的用户,利用传统的协同过滤推荐算法很难对其进行准确的推荐。本文在对传统推荐算法研究的基础上,将相似传播的思想和用户的情景与协同过滤推荐相结合,提出了一种基于相似传播和情景聚类的协同过滤推荐算法,对传统的推荐算法进行改进以解决冷启动及数据稀疏等问题。由于在个性化推荐的过程中充分考虑用户的情景,使得推荐结果更能满足用户个性化的需求,准确率也相对较高。

4基于相似传播和情景聚类的协同过滤推荐算法

41算法思路

基于聚类的协同过滤推荐算法是根据一定的聚类算法利用已有的“用户-项目”评分矩阵将用户分成多个不同的簇,通过计算用户与各簇的距离来找到与目标用户距离最小的簇作为目标用户的相似用户群体,最后将目标用户相似群体中的用户对某一项目的加权平均分作为目标用户对该项目的评分,以此方式来预测目标用户对项目的偏好程度,然后对用户进行推荐。

然而对于新用户,由于缺少相关信息,在查找用户最近邻时可能会出现很大的误差,最终影响推荐的准确性。情景能很好地描述用户的特征,对个性化推荐有着至关重要的影响。

本文将用户的情景因素引入到个性化推荐中,充分考虑情景对推荐效果的影响,对原有的基于聚类的协同过滤推荐算法在相似度计算公式和用户评分预测公式进行改进,提出了一种基于相似传播和情景聚类的协同过滤推荐算法。该算法根据用户的情景对用户进行聚类,同时引入相似度传播的思想,能够很好地缓解以前算法存在的数据稀疏性问题。

相似传播,就是根据每个用户或项目的最近邻找出最近邻的最近邻,这样能寻找出与目标用户相似的更多的邻居,提高推荐结果的准确性。例如,若用户u的最近邻为u1,而u1的最近邻为u、u2和u3,则在预测用户u对某一项目的评分时,可以根据一定的算法利用用户u1、u2和u3的评分预测用户u的评分,最终进行推荐。

在推荐系统中利用情景对推荐信息进行过滤的时间并非是固定的,根据利用情景的先后,可将情景感知推荐系统分为情景预过滤、后过滤与建模3种不同的形式[8]。情景预过滤是在推荐过程中首先根据用户的情景剔除部分不匹配数据,生成与用户情景相关的评分数据集,之后根据推荐算法对数据集进行用户评分预测,最终将与用户情景匹配的结果推荐给用户。本文所提算法工作流程图如图1所示:

42算法

本文所提算法大致可分为以下3个步骤:

421聚类

本文根据用户情景的不同将用户进行聚类。首先确定出k个聚类中心,然后计算不同情景间的相似度,依此将用户分成k个簇,使得每个簇中的用户有相似的情景。由于情景的属性是混合型的,在计算情景间相似度前需对用户的情景进行抽象描述。本文通过采用余弦相似性计算用户情景的相似性对用户进行聚类。将用户的情景定义为C,计算情景C1与情景C2间的相似性的计算方式如下:

sim(C1,C2)=C1・C2C1C2

通过计算情景间的相似性,将情景相似度高的用户聚类在一起,生成情景最近邻集合M。

422最近邻集合的生成

计算目标用户到通过情景聚类得到的各簇之间的距离,找到与目标用户距离最近的簇,并计算目标用户与簇中各用户间的相似度。本文在传统的计算用户相似度的基础上引入用户的情景因素,对传统的相似度计算方法进行改进,提出了基于情景的用户相似度的计算,如计算目标用户u与用户u′间的相似度,计算方法如下:

sim(u,u′)=∑j∈I(u,u′,c)(r(u,c,j)-(u,c))(r(u′,c,j)-(u′,c))∑j∈I(u,u′,c)(r(u,c,j)-(u,c))2(r(u′,c,j)-(u′,c))2

其中,r(u,c,j)代表用户u在情景c下对项目j的评分,r(u′,c,j)代表用户u′在情景c下对项目j的评分;(u,c)代表用户u在情景c下对所有项目评分的平均分,(u′,c)代表用户u′在情景c下对所有项目评分的平均分;I(u,u′,c)代表用户u与用户u′在情景c下有共同评分的项目的集合。

根据以上公式计算出目标用户与簇中各用户的相关系数,将与目标用户相似度较高的用户放入同一集合中,生成目标用户的最近邻集合N。

在计算项目与项目间的相似度时,本文在基于项目的协同过滤经典算法SlopeOne算法[9]中引入用户的情景,形成“用户-情景-项目”模型,在计算项目间相似度时将情景因素对用户对项目评分的影响考虑在内,提出基于情景的项目相似度计算方法,计算项目t与项目t′的相似度的计算方法如下:

sim(t,t′)=1-∑u∈U(c,t,t′)[r(u,c,t)-r(u,c,t′)]U(c,t,t′)Pm

其中r(u,c,t)代表用户u在情景c下对项目t的评分,r(u,c,t′)代表用户u在情景c下对项目t′的评分;U(c,t,t′)代表在情景c下对项目t与t′均有评分的用户数,U(c,t,t′)代表在情景c下对项目t与项目t′均有评分的用户的集合,Pm表示满分评分。

通过计算项目间的相关性生成项目的相似项目群作为项目的最近邻集合A。

423推荐的生成

假设用户u的用户最近邻集合表示为N,情景c的情景最近邻集合表示为M,项目t的项目最近邻集合表示为A,则用户u在情景c下对项目t的预测评分Gu,c,t可通过目标用户u的用户最近邻集合N中的用户在情景c下对项目t的评分,目标用户u在情景c的情景最近邻集合M下对项目t的评分,以及目标用户u在情景c下对项目t的项目最近邻集合A中项目的评分求得。用户u在情景c下对项目t的预测评分计算方法如下:

Gu,c,t=13k1∑u′∈Nsim(u,u′)[R(u′,c,t)-(u′,c)]+(u,c)+k2∑c′∈Msim(c,c′)[R(u,c′,t)-(c′,t)]+12[(c,t)+(u,c)]+k3∑t′∈Asim(t,t′)[R(u,c,t′)-(c,t′)]+(c,t)

其中k1=1∑u′∈Nsim(u,u′),k2=1∑c′∈Msim(c,c′),k3=1∑t′∈Asim(t,t′)。R(u′,c,t)代表用户u′在情景c下对项目t的评分,R(u,c′,t)代表用户u在情景c′下对t的评分,R(u,c,t′)代表用户u在情景c下对项目t′的评分;(u′,c)代表用户u′在情景c下对所有项目评分的平均分,(c′,t)代表所有用户在情景c′下对项目t评分的平均分,(c,t′)代表所有用户在情景c下对项目t′评分的平均分;(u,c)代表用户u在情景c下对所有项目评分的平均分,(c,t)代表所有用户在情景c下对项目t的评分的平均分。

43实验和结论

为了验证本算法的有效性,笔者利用Matlab进行了验证。本文用来验证的数据集来自Grouplens提供的公开数据集,该数据集中包含了用户的情景信息、用户对电影的评分(1~5分之间)。笔者通过对公开数据集中数据的处理,从原始数据集中选出评分较多的用户,其中包括1000名用户在不同情景下对3000部电影做出的160000条评分作为验证数据,其中用来训练的数据占70%,用来测试的数据占30%,实验对预测分数达45分以上的电影向用户做推荐。

在仿真过程中,通过计算不同算法(含本文算法与传统算法)间的平均绝对误差(MAE,MeanAbsoluteError)来加以证明本文算法的有效性。设预测评分集合为P={p1,p2,p3,…,pi,…,pn},实际评分集合为Q={q1,q2,q3,…,qi,qn},则平均绝对误差的计算公式如下:

MAE=∑ni=1pi-qin

所得结果如图2所示。由图中可看出在最近邻数目相同时,本文算法的MAE值明显小于SlopeOne算法和传统的协同过滤推荐算法,本文所提算法推荐的准确率与以上两种算法相比相对较高。

5结语

本文在对用户进行推荐时充分考虑用户的情景因素对推荐结果的影响,根据情景间的差异将用户进行聚类,且在计算用户和项目相似度以及用户对项目的预测评分时也将情景的影响考虑在内,最终实现对用户的项目推荐,仿真实验证明了本文所提算法是有效且可行的。由于在推荐过程中不仅考虑用户的情景因素对用户偏好的影响,同时引入相似传播的思想使得目标用户能找到更多的邻居,这样很好地缓解了传统算法中一直存在的冷启动问题,而且进一步提高了推荐算法的准确率。但由于在根据用户情景对用户进行聚类时需反复迭代,计算所花时间较长,造成整个推荐过程所花时间相对较长,因此未来的研究希望能图2不同算法的MAE值比较

在提高推荐效率上有所突破。

参考文献

[1]冯鹏程.基于情境感知的个性化推荐算法的研究[D].上海:东华大学,2014.

[2]邓晓懿,金淳,韩庆平,等.基于情境聚类和用户评级的协同过滤推荐模型[J].系统工程理论与实践,2013,(11):2945-2953.

[3]詹丽华,李育嫦,潘瑞冰.基于情景感知的移动搜索的演变和实现[J].图书馆理论与实践,2015,(11):102-105.

[4]奉国和,梁晓婷.协同过滤推荐研究综述[J].图书情报工作,2011,16:126-130.

[5]邱均平,张聪.高校图书馆馆藏资源协同推荐系统研究[J].图书情报工作,2013,22:132-137.

[6]罗文.协同过滤推荐算法综述[J].科技传播,2015,(7):115,196.

[7]董坤.基于协同过滤算法的高校图书馆图书推荐系统研究[J].现代图书情报技术,2011,(11):44-47.

计算机研究生推荐方向范文

关键词:兴趣相似度;学习共同体;网络学习;协同过滤

中图分类号:G434文献标志码:A文章编号:1673-8454(2015)17-0020-04z

引言

互联网的快速发展和不断普及,使在线信息成为知识的重要来源,人们的学习观念也已发生巨大改变,“从认为学习是学习者个体的知识建构的过程逐渐转向为学习是学习者参与社会群组互动并完成知识意义建构的学习观”[1]。个人学习模式已不能有效满足个人需求与社会认知的需要,基于互联网的虚拟社区应用催生了各种各样的学习社区。“虚拟学习共同体是信息技术环境下群体协作、群体智慧创造与分享的必然结果,虚拟社区为信息的快速传播、知识的分享与集体智慧的创造提供了沟通与互动的平台。”[1]

国内外的学者对此展开了广泛的研究,卢强[2]对近10多年来国内学习共同体研究进展情况进行分析和总结,指出“国内学习共同体领域主要关注学习共同体的基本理论、具体应用以及组织策略,研究热点中,学习共同体在教师专业发展领域的应用和网络学习共同体方面问题突出。”关于学习共同体的构建研究,范玉凤[3]等对虚拟学习共同体的构成要素进行了分析,探讨了基于活动理论建构虚拟学习共同体的设计理念、方法和运行机制,并依据七个要素设计了一个虚拟学习共同体的架构原型。胡小勇[4]则研究了创建优秀网络学习共同体的实践策略,并且总结了一个基于博客平台的网络学习共同体的实践效果。在国内实践应用中,孙娟[5]等通过QQ群进行了网络学习共同体在实际教学中的应用研究;万力勇[6]探讨了基于QQ群的网络学习共同体社会互动的机制,并从互动频率、互动深度、互动方式和互动信任度等方面进行了分析;杨洪刚[7]等人则从成员角色变化的角度分析了基于SNS的学习共同体的构建过程。

在国外,这方面的一些研究包括:JudySheard[8]研究了建立虚拟学习社区和管理共同体的方法和策略,指出计算机作为中介的协作学习会越来越频繁,远远超过了对其理论的研究进度,在共同体的构建和管理中需要更多的技巧与策略。在实践中,宾州州立大学运用“生活―学习社区”引导学生广泛参与,在操作能力、记忆力、课堂参与度、学术能力等方面卓有成效。[9]MaryBethRosson等人[10]基于Facebook构建了一个称之为“wConnect”的学习社区,用以帮助女性计算机和信息科学的职业发展。

以上这些研究与实践,共同体的构建主要依赖成员的自组织,不能有效利用成员的兴趣偏好、学习进度等信息,在共同体的整个存在周期中并不与其他共同体互享信息、动态调整。然而,开放虚拟社区在以指数级增长信息量的倾泻下,不可避免地会造成信息过载现象,共同体成员很容易陷入“信息迷航”,因此,不仅要将数量巨大,来源广泛,专业兴趣爱好各异的社区成员聚集在一起构建学习共同体,更重要的是能借用信息技术合理组织、管理共同体。而源于信息检索和过滤技术的个性化推荐策略为这类问题提供了解决思路和技术支持。

协同过滤技术是最早被提出并被广泛应用的个性化推荐策略,该推荐算法主要分为两大类:一类是基于用户的协同过滤算法;另一类是基于物品的协同过滤算法。

本文根据学生的网络学习活动计算用户对学习内容的偏好程度,进而采用改进的用户兴趣相似度计算方法确定用户间的距离,利用协同过滤技术动态构建虚拟学习共同体。实现了共同体内成员以兴趣为吸引、以推荐为动力的动态流转构建机制。

一、用户兴趣偏好的度量

对用户兴趣偏好的度量需要分析用户在网络的学习行为,也即将用户网络行为的一些结构化数据转化成协同过滤算法所需要的数据结构。在建立虚拟学习社区的共同体时,必须对成员的反馈信息进行动态分析,并将其抽取、量化为共同体成员对主题或资源的兴趣偏好度,也即成员――主题学习资源的评分,类似于推荐系统中用户对物品的评分,这是采用协同过滤推荐技术的数据来源。

本文重点研究社区成员的学习主题与资源操作行为,在线学习中不像在线交易能给出明确的评分,在线学习中主要通过记录用户对学习资源的正反馈行为来考察用户的偏好,在这里主要研究和量化共同体成员对主题学习资源的关注、回帖、浏览、转载等操作行为,具体定量策略如表1所示。

表1中的权重分别设置为w1,w2,w3,w4依据其对偏好程度佐证的重要程度一般设置w1

对于浏览时长t的取值需要作特别说明:考虑到正常阅读速度和页面篇幅,t应在一个合理的范围内,因此做如下处理:

t=0t?t1

tt1?t

t2t?t2?t2

其中,t1表示最小阅读时间,当t低于t1时,认为学习者没有阅读该页面,可能为用户的误操作;t2表示最大阅读时间,表示用正常阅读速度能够读完的时间,超出该时间,也不能说明用户兴趣度增加,这可以避免学习者由于处理其他事情的耽搁所带来的影响。[11]

以上抽取的这些数据主要利用了用户的正反馈数据,在一定程度上衡量了社区成员参与社区互动与交流过程的表现,也捕捉了成员对虚拟社区主题学习资源的兴趣偏好程度。

二、用户间兴趣相似关系的判定

以上网络行为数据经过量化后,生成如表2所示的成员――主题学习资源得分矩阵表,该得分矩阵就是社区成员对主题学习资源兴趣度与偏好的形式化表示。

在表2中,Iij表示社区成员i对j类资源的兴趣度,该兴趣度的定量计算公式是基于社区成员i对主题j是否关注、浏览的时间、回复的次数与资源的转载情况进行的综合计算,定量的计算公式如下:

其中,attentionij表示成员i对j类主题的关注情况,如果加了关注,其值为1,否则为0;tij表示成员i对j类主题的浏览时长,avg(ti)表示成员i对社区中所有主题浏览的平均时长,二者比值反映了成员i对j类主题的特别浏览情况;ans_numij表示成员i对j类主题的回复次数,avg(ans_numi)表示成员i在社区中的平均发帖量,二者比值反映了成员i对j类主题的特别回复情况;repij表示成员i对j类主题资源的转载情况,如果进行了转载,其值为1,否则为0。

在协同过滤推荐技术实现过程中,为了生成目标用户的邻居成员集合,首先需要确定相似成员的计算方法。一般情况下,计算相似性有很多方法,常采用余弦相似性的计算方法,即通过矢量间的余弦夹角来度量用户间的相似度。公式如下:

sim(i,k)=cos(I,k)==

其中,I、K为用户i、k对所有主题的兴趣度向量,Ri,c,Rk,c分别为用户i和用户k对资源c的兴趣度。

三、改进的用户兴趣相似度计算方法

在理想状态下,随机地对学习资源的访问中,公式2能较好地反映用户间的兴趣相似度。但在实际使用中,对比网络学习共同体的学习记录发现:如果社区成员都只对基础的、热门的学习资源感兴趣,这丝毫不能说明二者兴趣的相似度高;例如,在“ACCESS数据库”虚拟学习社区中,几乎所有的学生都在开始要学习“关系数据库原理”这类学习资源,并不能说明其中的任意两个用户兴趣相似度高。反而,两个成员对冷门的学习资源采取过同样的行为更能说明他们兴趣相似度高;例如,如果两个成员都学习“菜单与工具栏”,这更能说明二者兴趣相似度高。

基于以上分析,对热门的基础资源加入惩罚因子,因而在系统中采用如下改进的计算用户兴趣相似度的公式:

其中,N(c)表示对c类资源感兴趣的用户数,Ri,c,Rk,c分别为用户i和用户k对资源c的兴趣度。

可以看到,公式3通过惩罚了成员i和成员k共同兴趣列表中热门的、基础的主题资源对他们兴趣相似度的影响,对于用户相似度的判定更加灵敏。

四、学习共同体的构建

在虚拟社区开始使用时还没有学生的学习行为数据,因此共同体在冷启动时的构建主要基于学生的注册信息和自主选择。随着学生学习行为数据的增多,对未加入学习共同体的成员按以下策略推荐其加入已有的共同体:

(1)无学习记录者,开始学习时进入知识树根结点相关的共同体学习。

(2)有学习记录者,通过系统推荐用TOPN筛选找到其用户兴趣相似度最高的5名用户。

(3)对5名用户所属的学习共同体用TOP1筛选找到认同感最大的学习共同体,推荐用户加入。

(4)若用户不认同上述结果可以自行选择加入其他学习共同体。

在协同过滤推荐过程中,随着时间的推移,社区成员的学习兴趣、专业爱好会发生变化,该计算、推荐过程也会不断重复进行,根据社区成员不间断的反馈行为,就可以计算出潜在的兴趣相似集合,进而实现动态的学习共同体构建。

在笔者主持的ACCESS数据库教改项目中,对网络学习资源按“关系数据库原理”、“SQL语言及实验”、“数据库设计”、“表操作”、“查询操作”、“窗体设计”、“宏”、“VBA编程”、“报表设计”、“菜单与工具栏”、“数据的传递与共享”等主题设计。在该学习平台,成员分属于不同的学习小组,每个学习小组可以共享学习资源,成员之间可以发私信。系统根据用户的学习记录向其推荐兴趣相似度较高的成员以及适合加入的学习共同体。该推荐更多地关注相似用户的学习状态,动态向当前用户推荐感兴趣的学习共同体,推荐其加入。社区某用户登录并学习一段时间后,有如图1所示的学习界面。

在未改进兴趣相似度算法之前,由于知识树的根结点“关系数据库原理”主题学习资源处于基础地位,学习用户较多,在开始推荐时由于受其影响会向每个用户推荐加入“关系数据库原理”学习共同体,并且在后续学习中“关系数据库原理”学习共同体总会出现在推荐中,推荐效果并不理想,该资源的“群集”现象十分明显,后来利用改进的公式3,加入惩罚因子后,推荐的精度和灵敏度都大幅度提高。

在上述学习共同体的构建中,以相对静态的学习主题资源划分若干数目相对确定的学习共同体,共同体内的成员以兴趣为基础组织,随着学习的进展,成员在不同的共同体间流动,从而吸引兴趣相近的好友在不同的共同体间迁徙。这种以兴趣吸引为基础、以集中迁徙为动力的机制可以促使所有学习者在不同主题资源的学习共同体内交叉进步。

五、关键技术实现

系统基于.NET平台开发,开发环境使用VisualStudio2008,采用基于B/S的三层体系结构,用实现,在协同过滤技术的实现环节引入IronPython语言编程实现。在混合编程时,需要在的WebSite项目中添加对IronPython.dll,ironMath.dll,Microsoft.Web.IronPython.dll三个文件的引用。

对于改进的用户兴趣相似度计算方法的关键IronPython代码如下:

defuserSim(train):

#建立倒排表

Item_users=dict()

foru,itemsintrain.items():

forjinitems.keys():

ifjnotinitem_users:

Item_users[j]=set()

Item_users[j].add(u)

#计算用户间的兴趣相似度

C=dict()

N=dict()

forj,usersinitem_users.items():

foruinusers:

N[u]+=1

forvinusers:

ifu==v:

Continue

C[u][v]+=1/math.log(1+len(users))

#计算改进的兴趣相似度

W=dict()

foru,related_usersinC.items():

forv,cuvinrelated_users.item():

W[u][v]=cuv/math.sqrt(N[u]*N[v])

returnW

六、结束语

本文设计了一种基于改进用户兴趣相似度的学习共同体的构建方法,借鉴协同过滤算法思想将具有相似兴趣的学习者自动有效地组织成学习共同体,帮助虚拟社区“人以群分”,促进协作式学习。在学习共同体的生成中既摒弃了盲目的自组织性,又兼顾了用户的自主性,保证信息畅通。实验结果证明:该构建方法具有较高的分组效率和良好的用户满意度,灵活动态的组建方法和适当的流转迁徙机制都有积极的探索意义。但用户在初次“冷启动”学习时一般按学习进度默认加入“初始学习组”,这种处理方式还需要探讨改进。

参考文献:

[1]杨丽娜,颜志军等.基于个性化推荐思想的虚拟社区学习共同体动态构建[J].现代教育技术,2012,22(1):88-92.

[2]卢强.国内学习共同体研究现状与进展分析[J].中国远程教育,2012(5):29-35.

[3]范玉凤,李欣.活动理论视角下的虚拟学习共同体构建研究[J].中国电化教育,2013(2):43-47.

[4]胡小勇.促进教师专业发展的网络学习共同体创建研究[J].开放教育研究,2009(2):87-91.

[5]孙娟,熊才平,谢耀辉.基于IM的网络学习共同体构建及应用研究[J].现代教育技术2011,21(4):130-135.

[6]万力勇,赵呈领等.基于群的网络学习共同体社会互动研究[J].电化教育研究,2012(9):56-58.

[7]杨洪刚,宁玉文,高东怀等.基于SNS的网络学习共同体构建研究[J].现代教育技术,2010,20(5):93-96.

[8]JudySheard.ElectronicLearningCommunities:StrategiesforEstablishmentandManagement[J].ITiCSE’04,UnitedKingdom,2004(8):37-41.

[9]SandraGorka,MatthewHelf,JacobMiller.ImplementingaLiving-LearningCommunityinInformationTechnology[J].SIGITE’14,Atlanta,Georgia,USA,2014(10):153-157.

[10]MaryBethRosson,JohnM.Carroll,DejinZhao,TimothyPaone.wConnect:AFacebook-BasedDevelopmentalLearningCommunitytoSupportWomeninInformationTechnology[J].C&T’09,UniversityPark,Pennsylvania,USA,2009(6):125-134.

[11]何玲,高琳琦.网络环境中学习资料的个性化推荐方法[J].中国远程教育,2009(2):67-69.

计算机研究生推荐方向范文篇6

关键词:推荐系统;协同过滤;图书推荐

中图分类号:TP301文献标识码:A文章编号:1007-9416(2017)04-0147-01

1协同过滤算法介绍

在1992年Goldberg等学者首先提出来协同过滤一词,他们将协同过滤技术使用到Tapestay的一个系统中,该系统主要是想解决Xerox公司在PaloAlto的研究中心信息过载问题。而协同过滤又常被用于分辨其为特定用户可能感兴趣的物品,因此这些结论也常用来对其他相似顾客对有些物品感兴趣的分析。到目前为止,基于协同过滤推荐的技术和方法在实际的应用系统中能取得重大成就的同时,国内外学者也在理论上对协同过滤的推荐技术进行研究和改进,着力于提高个性化推荐的效果。协同过滤算法以其出色的计算速度和健壮性,在全球范围内特别是在互联网领域中,炙手可热,同时相较其他算法,协同过滤具有以下两个优势:第一,对推荐对象无特殊要求、对于复杂切抽象的资源也同样能够实现推荐;其次,只需要显式或者隐试的用户使用过的历史数据,而并不需要有关用户本身的属性、知识,并且不会对用户的推荐体验,带来一些负面影响[1]。

目前主要由两类协同过滤算法:其一是基于用户的协同过滤算法(user-basedcollaborativefiltering)、还有基于物品的协同过滤算法(item-basedcollaborativefiltering)和SlopeOne算法。由于基于用户的协同过滤算法存在数据稀疏性和算法扩展性两个重大问题。因此本文介绍的系统,所采用的是基于物品的协同过滤算法。

2对协同过滤算法过程的分析

(1)收集用户偏好。本项目中就是收集用户的借阅历史。(2)计算物品(即已借图书)之间的相似度,这是协同过滤推荐算法中最关键的一步。在协同过滤中,两个物品是否能产生相似度,往往是因为它们共同被很多用户所认同,也就是说,每个用户都可以通过用户本身对物品的历史兴趣列表,从而给物品贡献相似度。在这里面蕴含一个假设条件,那就是每个用户对物品的兴趣,基本都局限在某些方面,因此,如果两个物品,能够属于许多用户的兴趣列表,那么这两个物品,就有可能就属于有限的几个领域,反过来说,如果两个物品能够属于很多用户的兴趣列表,那么也就有可能属于同一领域,从而来判断他们有很大的相似度[2]。

传统的计算相似度的方法有三种:基于余弦(Cosine-based)的相似度计算、基于关联(Correlation-based)的相似度计算和调整的余弦(AdjustedCosine)相似度计算。经研究,在我们的图书推荐系统中,采用以下公式:

其中|N(i)|和|N(j)|分别表示喜欢物品I和物品j的用户数量(变量),而|N(I)∩N(j)|是即喜欢物品i同时也喜欢物品j的用户数量。此公式限制了物品j的权重,可以避免了对热门物品所进行的推荐,从而也能够提高为用户所推荐自己喜欢物品的准确性。

详细计算物品相似度的代码如图1所示,其中C[i][j]记录了同时喜欢物品i和物品j的用户数。

通过上述图、公式等得到物品相似度后,ItemCF也通过以下公式来计算用户u对一个物品j的兴趣度:

其中,N(u)是作为用户喜欢的物品的一个集合,而S(j,K)是同物品j最相似的,K个物品的集合,Wji表示物品j同i的相似度,而rui是用户u对物品i的兴趣情况。这个公式的所表示含义是:和该用户历史上感兴趣的物品,越相似的物品,越有可能在用户的推荐列表中所获得比较高的排名[3]。其实现代码如:

由此可见,协同过滤推荐算法具备强大的功能和较高的效率。我们一共选取了8700个学生的借阅信息进行研究,并对其推荐结果进行有效分析,我们得出结论:(1)借书越多的用户,其推送准确率越高。(2)能够获取图书数据越完整的信息和字段越多,推送越准确。

在研究中我们发现对于借书较少产生的推荐不是十分准确,通过研究发现,系统根据少量的数据,该算法的使用不容易准确掌握用的兴趣爱好;对于从未借书的同学不会产生数据。这便是协同过滤算法的稀疏性问题。

3结语

本文介绍了协同过滤算法的主要思想,并以图书推荐系统为例,详细介绍其主要思想以及算法,采取相关方法来降低热门商品的推荐率,以更好匹配用户偏好相似度。基于协同过滤技术的图书推荐系统,对提高图书馆的服务效率具有重要意义,同时也具有较好的推广价值,该系统能够通过用户的借阅历史进行有效推荐,随着时间变化以及借阅历史馆藏信息等相关因素的发生变化,读者兴趣会发生变化时,系统也能主动向读者推荐其可能感兴趣的图书。该系统能够实现高校图书推荐的个性化与准确性的统一。今后系统的升级版将重点研究如何解决算法的稀疏性以及如何提高图书推荐质量的问题。

参考文献

[1]项亮.推荐系统实践[M].第一版.人民邮电出版社,2012.

计算机研究生推荐方向范文篇7

关键词移动学习;内容推荐;协同过滤;学习行为

中图分类号:G652文献标识码:A

文章编号:1671-489X(2016)24-0001-05

AReviewofResearchonContentRecommendationbasedonMobileLearningEnvironment//ZHUXiaoliang,WANGJun

AbstractThispapersummarizesthekeytechnologiesofmobilelearningcontentrecommendationandproposeshowtoconstructcon-

tentrecommendationframeworkformobilecloudlearningtoachieve

thebalancebetweenaccuracyanddiversityofmobilerecommenda-tionresultsbasedoninformationofcontextandsocialnetworks.

Keywordsmobilelearning;contentrecommendation;collaborativefiltering;learningbehavior

1前言

移踊チ网的发展为教育信息化带来新的挑战。一方面,伴随着越来越多的学习资源自然分布在网络上,移动设备带来的便捷性使随时随地自主学习成为可能,参与移动学习社区正成为一种趋势;另一方面,移动设备的移动性、位置性、分布性等特性也明显加剧了信息过载问题[1-2]。

因此,在移动网络学习应用中有必要引入个性化学习推荐,为学习者提供更加便利的知识服务,帮助学习者更加有效地获取学习内容、提高学习效率[3]。

一般而言,推荐系统是在收集用户既往信息的基础上分析用户的兴趣爱好和行为习惯,从而将感兴趣的信息主动推荐给用户。然而,移动互联网环境下终端设备在自身资源、处理能力等方面的局限性使得适合传统互联网用户的推荐方法并不能直接应用到移动推荐中。移动推荐系统需要深入了解用户的需求并进行精准的信息推送,主要难点则在于大大减少用户与移动设备的复杂交互,并通过智能化方式理解用户意图来自动完成信息推送。这需要面临两大挑战[4]:一是如何从大规模异质移动数据中分析数据特点、总结学习者的行为模式;二是如何利用所发掘的数据特点和行为模式设计可靠的推荐策略。

针对上述挑战,一方面,移动推荐系统需要综合考虑移动性、位置性、分布性等特性信息[5]。其中,移动性考虑了用户移动性、设备移动性和无线连接性;位置性指移动推荐系统的应用场景较灵活且用户对推荐内容的位置往往具有明确要求;分布性指移动用户分散,需要分布式设计支持他们之间进行自治的数据交换并采用简洁算法完成推荐任务。由于上述特性,移动推荐有必要借助移动互联网环境下的时间、空间等与相关用户的行为密切相关的上下文信息来增强应用的效果。

另一方面,社交网络的出现已基本改变了互联网的组成方式,而移动互联网的发展也大大推动了移动学习社区扩散的过程。诸多学者已经证明随着对学习社区的投入程度和学习时间的增加,学习者学习意愿也不断增加[6-7]。因此,协作学习的相关信息将成为移动学习推荐的重要支撑之一。再者,结合移动网络的特性,推荐列表的多样性对用户感知系统有用性和易用性也有着积极和重要的影响[8]。

多样性主要包括个体多样性、总体多样性和时序多样性。其中,个体多样性主要从单个用户的角度考查系统能够找到用户喜欢的冷门项目的能力;总体多样性则主要强调针对不同用户的推荐应尽可能地不同;时序多样性主要指用户偏好会适应用户兴趣的动态进化或用户情境的变化而发生改变。因此,如何尽可能地利用好上下文情境和社交网络等信息,实现移动推荐结果的精确性和多样性之间的平衡,这是研究者需要关注的问题[8]。

本文将结合现有研究,对移动环境下数字化学习资源推荐技术开展综述与分析。文中第二节总结了相关技术,第三节对移动学习推荐系统进行了详细分析,第四节描述了一种移动云学习内容推荐框架,第五节对全文进行了总结。

2相关研究

内容推荐技术常用的内容推荐算法包括基于协同过滤的推荐算法、基于内容的推荐算法、基于关联规则的推荐算法与混合推荐算法等[3-5]。其中,基于协同过滤的推荐技术根据用户评分矩阵来计算用户之间的相似性,并通过相似用户的评分预测当前用户的未评分项的评分;基于内容的推荐则根据用户已知的信息挖掘当前用户的偏好来推荐其可能感兴趣的信息;基于知识的推荐则使用知识结构描述用户的行为和偏好来实现推荐;混合推荐系统则结合上述多种推荐技术的优点以获得更好的精度、性能和通用性[5]。

在上述研究中,协同过滤算法是移动学习推荐中的研究热点之一[5]。协同过滤算法主要分为基于内存的方法和基于模型的方法两类。基于内存的协同过滤推荐算法主要关注用户或项目之间的相似关系;基于用户的协同过滤推荐算法则关注用户的历史数据,如用户评分数据、浏览数据等,计算用户之间的相似度,核心思想是选择最相似的用户作为邻居,利用相似邻居的偏好进行预测。协同过滤推荐系统中需要解决的是普遍存在评分数据稀疏问题,即用户评价或查看的项目远远小于用户未评价或未查看的项目。

具体到移动推荐技术如何提高推荐准确度,需要结合信息过滤技术、决策支持技术来解决信息过载问题[5]。其核心是在移动数据稀疏的情况下更为精确地估算预测用户对未知信息的主观评分,如通过收集用户行为数据、建立偏好模型、根据用户的行为和偏好对不同用户的同类需求推荐选取个性化内容等[5]。然而,移动环境下的空间数据复杂性较高,并且用户的上下文信息更加模糊[9]。因此,社交网络协作学习的引入至关重要[10]。

协作学习是一个以学生为中心的学习的过程,包括学习任务和方法的实施与交流。协作学习的优势在于沟通、人际关系和社会合作、分享、关怀、开放、创新、管理、务实、责任、参与等。在移动学习中纳入协作学习,有利于提高学习效率和可持续性[11]。然而,如何实现移动学习相关社交活动数据的结构管理,是实现学习内容过滤的一个需要解决的关键问题[11]。结合处理上下文与社交化学习信息为移动学习内容推荐提供了较好的解决思路。

目前研究主要包括:利用地理上的接近来采用链路预测方法为用户推荐好友信息;根据上下文信息判断用户间的亲近程度,从而构建用户的社交网络;采用语义网的本体语言挖掘移动用户间隐含的社会关系;等等[2]。如胡勋(2014)等将项目的相似性、移动用户的相似性和移动用户的社会关系网络融合到推荐模型,构建基于启发式的方法,将项目相似性和移动用户信任关系与协同过滤算法融合,利用教育数据挖掘(EducationalDataMining,EMD)

方法实现融合项目特征的移动用户相似度计算,继而基于移动用户的相似网络和信任网络构建邻居集合并进行推荐[12]。

上述研究为所述问题的解决提供了借鉴。

网络学习行为分析网络学习行为是指学习者在由现代信息技术所创设的、具有全新沟通机制与丰富资源的学习环境中开展的远程自主学习行为,行为的发生、发展以及变化由学习者自己控制[13]。主要行为包括:学习者借助网络提供的交流工具自主进行主题研讨和交流;学习过程中获取来自教师、学习支持系统等的支持和帮助;形式上可分为探索性学习、投入型学习、体验型学习、激励性学习、扩展性学习与有效性学习等几大类[13]。网络学习行为是用于数字化学习内容推荐的重要指标之一。

随着网络学习平台技术的不断完善,一些学者尝试构建网络学习行为模型,跟踪和分析网络学习者的操作行为。例如:文献[13]构建了一种以学习者为中心的W习行为分析模型,用来分析学习者的学习需要、学习兴趣和学习行为习惯;文献[14]提出构建用户学习需求清晰度模型;文献[15]尝试通过分析学习者的浏览行为,进而确定学习者的学习风格;文献[16-17]等借助网络学习者的学习需求、学习行为记录和个性特征等,探讨学习者的学习绩效评价方式。近年来随着社交网络的兴起,学者开展了学习社区行为分析等研究[18]。

大数据云计算――HadoopHadoop是仿照谷歌类似系统开发的云计算开源框架(HadoopMapReduce/HBase/HDFS)

中的重要组成部分之一,它为数字化学习资源推荐的分布式操作奠定了基础。其中,HDFS为上层非结构化存储提供高性能、高并发服务;HBase负责提供结构化数据服务的分布式数据库;HadoopMapReduce是一种并行计算的编程模型,用于作业调度,可将一个大作业拆分为多个小作业的框架(两者本质相同,仅规模不同),而用户需要做的只是决定拆成多少份以及定义作业本身,从而大大降低分布式系统的编程工作难度。

3移动学习推荐系统分析

数字化学习推荐系统通常是在已知学习行为特征进行智能感知基础上实现高质量学习资源推荐的智能软件系统,目的是协助学习者选择合适的课程、知识点关联的学习材料或学习活动等信息[20]。数字化学习推荐系统的基本要素包括事件、会话和推荐过程[19]。其中,事件是由用户执行的操作所引起的系统调用;一系列事件构成会话,如每点击一个超链接就生成一个新的事件会话;推荐过程是产生一组推荐所要执行的操作序列[19]。

数字化学习推荐系统的功能通常包括[20]:使用网络分析技术,收集学习者的配置文件并确定其个性化需求;收集学习目标的元数据与识别功能;获取相关的学习者与学习者匹配程度的知识学习目标,并采用一些先进的技术实现匹配的过程。数字化学习推荐系统大体可以分为两类:基于学习者兴趣的学习资源推荐系统和基于教学策略的学习资源推荐系统[20]。在此基础上,笔者总结了每一类不同策略的基本描述和案例,如表1所述。

由文献分析,基于情境感知理论的数字化学习形态正成为主流,在此基础上研制的协同过滤系统融合了多种推荐策略的优点。如文献[1]提出一种混合的推荐系统,为用户的学习过程推荐学习项目。该方法包括两个步骤:首先使用基于项目的协同过滤发现内容相关的项集;然后根据共同学习序列,应用项目集的序列模式挖掘进行过滤算法。文献[32]则提出一个模糊语言的推荐系统,以方便学习者访问对他们感兴趣的数字化学习资源,具体要求是满足学生的具体需求、促进并引导学生开展关联学习、改进教学过程;文献[33]提出一个上下文感知的建议框架,包括上下文感知的协同过滤与基于图的聚类技术和矩阵分解的上下文建模相结合的方法以及平均预测评级方法;文献[29]提出一种个性化的上下文感知学习系统以提高学习效率。

同时,基于云计算的推荐服务,可以依赖先进的人工智能机制,从用户所在的不同社交网络汇总数据,推断知识和兴趣,从而为移动学习注入新的动力[3-6]。如文献[34]基于先进的以人工智能为基础的结构和算法,提出一种知识评估方法和相应的推荐系统。此外,组推荐技术也可以通过检测组用户并聚类,然后在最大可用数量限制条件下产生足够的推荐列表[35]。

4移动云学习内容推荐框架

由上述文献分析,针对其特点,移动学习推荐系统将围绕基于情境感知理论与云计算开展工作。在文献[3]工作的基础上,笔者拓展其通用模型。模型采用SOA架构设计,可分为平台层、服务层、应用层(如图1所示)。其中,平台层负责实现教育云环境下分布式学习行为与学习偏好分析的计算;Hadoop作为分布式资源云推荐的基础架构,包括基于HDFS的存储优化与基于MapReduce的云计算功能。应用层负责学习推荐服务,包括用户推荐列表的呈现与个性化查询的输入接口。服务层实现学习推荐引擎与服务接口功能,服务接口包括推荐接口与查询接口。

服务层核心部分在于通过反馈系统从Hadoop基础架构获取行为感知、社交感知、语义感知信息的基础上运行协同过滤,完成基于情境感知的学习内容推荐引擎功能。学习者偏好分析与推荐算法是推荐系统的核心,学习者偏好分析通过对行为感知、社交感知、语义感知的综合信息分析构建数据模型,进而应用推荐算法实现个性化推荐目标。其中,行为感知目标是获取学习者既往应用学习资源过程中的个体学习行为特征;社交感知目标获取协作学习的共性特征;语义感知目标是获取虚拟学习环境中多粒度学习对象的语义特征。

实施中系统功能将分为服务端与移动应用程序两部分。服务器端收集用户上下文感知即学习行为、语义检测与社交学习参与信息,完成学习者偏好分析与协同推荐算法;移动应用程序则负责学习者行为信息的上传与推荐服务的终端呈现。具体实施按照以下步骤。

首先,语义感知子系统依据反馈系统构建一个共同的抽象的整体知识库,涵盖了对应领域知识的相关知识语义本体及关系。该子系统可借鉴基于先进的人工智能为基础的推荐算法[34]。

其次,社交感知子系统则根据课程主题组或者论坛参与情况并辅助于K-近邻算法确定群组关系,同时构建具备群组特性的行为隐性反馈信息。

最后,借鉴文献[36]改进的行为感知子系统通过反馈系统获取用户交互信息,并结合社交化学习类隐性信息构建隐式反馈数据库,进而通过显式映射实现显式反馈,再进行数据库信息比对,完成数据推荐(如图2所示)。

上述步骤中,行为感知是协同推荐的关键技术。首先,引入EdwardRolando定义的移动电子书浏览用户行为评价对象(如表2所示),并采用用户交互行为转化算法来确定用户行为Ai(i=1,...,11)的分值[36]。

其次,在Ai分值确定的基础上,实现隐性评价的显式映射。EdwardRolando定义评价矩阵向量u(i,j)表示第i个用户对第j个内容的评分,则[36]:

若已评价则取值A1为显式评分,反之取值S为隐性评分,其获取方法如下[36]:

式中Pk为对除去A1外的Ak用户行为的权重,且0≤Pk≤1,(3)。

N表示完成的行为的总次数:

Pr是A2...An的中第i个用户在第j个内容不执行的动作重新分配的Pk权重:

其中,Q(Ak)即未评价时给予固定的P值:

5总结

由于移动终端的特殊性,移动云学习中的“知识迷航”有加剧趋势,而内容推荐技术为之提供了一条便捷之路。简而言之,教育目标的准确性与推荐技术的模糊性存在天然的矛盾,为了改善移动学习内容推荐的效果,需要另辟蹊径。通常,用户行为数据体现了用户学习的情境与社交特征,是移动云学习过程控制的关键要素之一。通过内容推荐技术与云计算技术相结合构建社交学习情境,是未来移动学习的发展方向之一。考虑到移动学习环境加剧了用户行为数据的稀疏性,引入上下文行为、语义与社交网络信息是发掘情境学习特征的关键。因此,基于行为感知、社交感知、语义感知,以协同过滤算法为核心的内容推荐方案具有一定的研究价值,其优势在于在提高推荐精度的前提下最大限度地增强推荐的多样性。

在后续工作中,笔者将围绕华中师范大学“StarC云课堂”展开实证研究,从而探索协同推荐的权重设置策略以及有效降低推荐运算复杂度的便捷机制。

参考文献

[1]ChenW,etal.Ahybridrecommendationalgorithmadapted

ine-learningenvironments[J].WorldWideWeb,2014,17(2):

271-284.

[2]朱煦,陈志奎,凌若川.一种移动上下文感知的好友推荐方法[J].小型微型计算机系统,2015,36(4):744-748.

[3]王萍,刘玲.基于PaaS云模式的学习推荐系统研究[J].中国教育信息化,2013(3):78-81.

[4]桑基韬,梅涛.移动环境中基于情景的个性化推荐[EB/

OL].[2013-07-08].http://.cn/sites/ccf/nry.jsp?con

tentId=2746457350432.

[5]刘嘉,都兴中,陈振宇,等.移动推荐研究综述[J].情报科学,2012(10).

[6]StantchevV,Prieto-GonzálezL,TammG.Cloudcomputingserviceforknowledgeassessmentandstudiesrecommendationincrowdsourcingandcollaborativelearningenvironmentsbased

onsocialnetworkanalysis[J].ComputersinHumanBehavior,

2015(51):762-770.

[7]ChaoHC,etal.AM-LearningContentRecommendationServicebyExploitingMobileSocialInteractions[J].TLT,2014,

7(3):221-230.

[8]安维,刘启华,张李义.个性化推荐系统的多样性研究进展[J].图书情报工作,2013,57(20):127-135.

[9]宋封,熊辉,张蓉.下一代移动推荐系统[J].华东师范大学学报:自然科学版,2013(3):37-45.

[10]SantosOC,BoticarioJG.User-centreddesignandeduca-

tionaldataminingsupportduringtherecommendationselicita-tionprocessinsocialonlinelearningenvironments[J].ExpertSystems,2015,32(2):293-311.

[11]AsabereNY.ReviewofRecommenderSystemsforLearners

inMobileSocial/CollaborativeLearning[J].ICTJournal,2012,

2(5):429-431.

[12]胡祝孟祥武,张玉洁,等.一种融合项目特征和移动用户信任关系的推荐算法[J].软件学报,2014(8):1817-1830.

[13]丁旭.E-Learning平台上基于学习行为分析的个性化教学系统的研究与实现[D].沈阳:东北大学,2008.

[14]SunL,OusmanouK,WilliamsS.ArticulationofLearners

RequirementsforPersonalisedInstructionalDesigninE-Learning

Services[J].LectureNotesInComputerScience,2004,3143:

424-431.

[15]LoJ,ShuP.Identificationoflearningstylesonlinebyob-

servinglearners’browsingbehaviorsthroughaneuralnetwork

[J].BritishJournalofEducationalTechnology,2005,33(1):

43-55.

[16]解冬青.网络学习的个性化评价系统的研究与设计[D].上海:华东师范大学,2011.

[17]LeeW,ShihB,TuL.TheapplicationofKANO’smodelforimprovingWeb-basedlearningPerformance[C]//Proceedingsofthe32ndIEEEFrontiersinEducationConference.NewYork,

2002:27-32.

[18]李丹立.E-learning中基于聚类算法的多维度学习社区的研究[D].上海:上海交通大学,2011.

[19]AnandakumarK,RathipriyaK,BharathiA.ASurveyon

MethodologiesforPersonalizedE-learningRecommenderSys-

tems[J].InternationalJournalofInnovativeResearchinCom-

puterandCommunicationEngineering,2014,2(6):4733-4738.

[20]LuJ,etal.Recommendersystemapplicationdevelopments:Asurvey[J].DecisionSupportSystems,2015(74):12-32.

[21]KristensenT,DyngelandM.DesignandDevelopmentofaMulti-AgentE-LearningSystem[J].InternationalJournalofAgentTechnologiesandSystems,2015,7(2):19-74.

[22]Nú?ez-ValdézER,etal.Creatingrecommendationsonelectronicbooks:Acollaborativelearningimplicitapproach[J].ComputersinHumanBehavior,2015(51):1320-1330.

[23]CapuanoN,etal.Elicitationoflatentlearningneedsthrough

learninggoalsrecommendation[J].ComputersinHumanBeha-vior,2014,30(1):663-673.

[25]FarzanR,BrusilovskyP.Socialnavigationsupportinacourserecommendationsystem[J].AdaptiveHypermediaandAdaptiveWeb-basedSystems,2006:91-100.

[26]CobosC,etal.Ahybridsystemofpedagogicalpatternre-

commendationsbasedonsingularvaluedecompositionandva-

riabledataattributes[J].InformationProcessing&Management,

2013(49):607-625.

[27]SantosOC,BoticarioJG,Pérez-MarínD.Extendingweb-

basededucationalsystemswithpersonalisedsupportthroughuser

centereddesignedrecommendationsalongthee-learninglife

cycle[J].ScienceofComputerProgramming,2014(88):92-109.

[28]RodríguezP,DuqueN,OvalleDA.Multi-agentsystemforKnowledge-basedrecommendationofLearningObjects[J].AdvancesinDistributedComputingandArtificialIntelligenceJournal,2015,4(1):80-89.

[29]AkbariF,TaghiyarehF.E-SoRS:ApersonalizedandsocialrecommenderserviceforE-learningenvironments[C]//Inpro-ceedingsof8thNationaland5thInternationalConferenceone-

Learningande-Teaching(ICeLeT).2014:1-12.

[30]LiuL,KoutrikaG,WuS.LearningAssistant:Anovellearningresourcerecommendationsystem[C]//InproceedingsofICDE.2015:1424-1427.

[31]ZapataA,etal.Evaluationandselectionofgrouprecom-mendationstrategiesforcollaborativesearchingoflearningob-

jects[J].InternationalJournalofHuman-ComputerStudies,

2014(76):22-39.

[32]PorcelC,etal.ALearningWebPlatformBasedonaFuzzy

LinguisticRecommenderSystemtoHelpStudentstoLearnRe-

commendationTechniques[C]//SpringerInternationalPublishing.

2015.

[33]DoP,etal.AContext-AwareRecommendationFramework

inE-LearningEnvironment[C]//InproceedingsofFDSE.2015:

272-284.

[34]StantchevV,Prieto-GonzálezL,TammG.Cloudcomputing

serviceforknowledgeassessmentandstudiesrecommendationincrowdsourcingandcollaborativelearningenvironmentsbased

onsocialnetworkanalysis[J].ComputersinHumanBehavior,

2015(51):762-770.

计算机研究生推荐方向范文篇8

[关键词]多智能体系统偏好推荐个性化拍卖

一、引言

近年来,网络信息量有了飞速增长,如何快速发现用户潜在需求并做出正确的反应成为当前电子商务中亟待解决的问题。传统的信息获取手段在处理非结构化的资料的能力相对较弱,它不能从海量的信息中找出用户感兴趣的知识,更不能处理随用户不同而变化的个性知识、随地域不同而变化的区域性知识以及不同领域的专业性知识等。为此,本文试图创建基于多智能体的用户偏好挖掘模型,通过网络顾客提供的静态和动态信息,对顾客偏好进行分析,建立基于多Agent的顾客需求系统,以发现顾客的真实需求。

二、推荐系统框架分析

一般个性化推荐系统的推荐的过程是:用户提交检索信息、偏好表示、信息推荐、用户反馈。在多Agent推荐系统中,系统对用户行为的识别和表示,是通过智能体合作协商通信来实现的。个性化推荐系统的基本功能包括:分析顾客的行为,建立顾客行为的表示模型;利用模型向用户提供推荐;对推荐进行反馈,并根据反馈修正推荐。基于多Agent系统的顶层数据流程图如图1。

用户识别模块:对用户历史信息进行对比识别,并对用户的浏览习惯进行识别,以减少用户误识别的概率。

行为识别模块:根据信息及其来源识别用户和行为,并将信息转换为系统可识别的偏好信息,以便于数据分析。

行为收集模块:将用户记录按照相应格式存入数据库。

用户偏好模块:判断是否有用户记录,并根据用户即时信息和存档信息选择构建偏好模型或进行偏好更新。

数据挖掘模块:被动的接受请求或主动的对用户历史行为记录进行数据挖掘,通过神经网络、聚类等方法,进行顾客购买、访问行为的分析,或在数据分析人员的干预下进行推荐效果分析,为偏好推荐模块提供参考。

偏好推荐模块:根据相关模块得到的用户偏好信息、用户行为信息、数据挖掘结果和相应推荐规则,做出推荐。

推荐协商模块:其通过与“黑板”进行关于当前搜索趋势方面进行交互,并对推荐结果进行相应修正。并在用户反馈的基础上,对用户偏好进行学习,并建立相应的学习经验。在对结果进行修正后,将推荐结果返回给用户。

在整个推荐过程中,这样一个行为收集、偏好分析、推荐结果的过程将不停的重复修正,最终满足客户需求。

三、系统协商过程

偏好推荐部分是个性化推荐系统研究的核心。提高推荐的质量被作为所有推荐系统的共同目标,然而,不同的推荐方法在不同的市场环境中的适应性各有不同。引入多智能体拍卖协商机制后,所有被推荐的项目都有自己投标价格,系统就可以从中筛选出投标价格最高的推荐项目提供给用户。本统体系结构严格遵照MAS(Multi-AgentSystem)有关Agent生命周期思想,通过模拟拍卖过程进行偏好推荐。在系统中偏好推荐Agent作为卖方智能体,协商Agent作为拍卖主持智能体。协商智能体根据客户对商品的需求程度、个人偏好、风险态度、供货数量等利用博弈分析算法自动计算出最优竞价策略,并向供应商发出投标,等待交易消息,收到成功消息,偏好推荐Agent在第一次报价时根据经验得到的权重进行加权,得到第一次报价。协商Agent获得投标消息后,拍卖主持Agent处理收集到的各竞标Agent投标信息,根据拍卖机制库将投标结果进行排序,然后公布该阶段的最高投标人和当前的次高投标价,并发送给各竞标Agent,然后进入下一阶段。确定投标价格,后通知客户,并进行交易,若协商失败,则开始一轮新的协商。如果某一阶段,上一阶段的次高价格已经超过它的保留价,它就发消息给拍卖主持Agent,然后退出拍卖将最终投标消息返回给用户。直到最后一个阶段,拍卖主持Agent处理完收集到的各竞标Agent投标信息后,公布竞标结果。

四、系统算例

系统采用MovieLens站点的数据集进行实验,通过对协通过滤算法的推荐结果进行竞标优化。对推荐结果的评价采用统计精度度量方法中被广泛采用的平均绝对偏差MAE作为推荐精度度量标准。平均绝对偏差MAE通过计算预测的用户评分与实际的用户评分之间的偏差度量预测的准确性,MAE越小,推荐质量越高。设预测的用户评分集合表示为{p1,p2…pn},对应的实际用户评分集合为{q1,q2,…qn},则平均绝对偏差MAE定义为:

试验过程中,分别指定用户聚类的数目为30,40,目标用户的最近邻居个数从10增加到40,间隔为10,分别计算本文提出的算法与传统的协同过滤推荐算法的MAE,试验结果如图4.1:

由图看出,本文提出的基于MAS的协同过滤推荐算法均具有较小的MAE。由于本系统只是对协同过滤算法进行优化,其结果的改进是有限的,如果卖方可以采用不同的推荐算法,其推荐精度将可能有较大的提高。由此可知,与传统的最近邻协同过滤推荐算法比较,本文提出的算法可以有效提高推荐系统的推荐质量,弥补了协同过滤算法在稀疏度和冷启动方面的缺陷。

五、结束语

本文的创新点在于,利用多智能体系统在人工智能协商方面的优势,提出了一个基于多智能体个性化推荐系统的架构,在原有推荐算法的基础上通过对不同的推荐结果进行有效性协商,根据不断进行自学习得到最优的推荐结果,以弥补原有推荐算法智能化不足的缺点,为量化、感知用户需求等问题提供了新的研究思路。

参考文献:

[1]王继成潘金贵张福炎:web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513~520

[2]韦鲁玉丁华福:基于Agent的个性化智能信息检索系统[J].信息技术,2007,(01)

计算机研究生推荐方向范文篇9

【关键词】推荐系统;信息检索;信息超载

1.序言

网络和计算机技术的高速发展,使信息资源呈几何级速度增长,“信息超载”[1][2]已越趋明显,而且信息资源的存储方式已发生了质的变化,由结构化文本数据到非结构化图片、音频、视频等数据的转变,增加了信息检索的难度,因此如何寻找到准确信息资源的方法显得尤为重要。

当前,信息检索是解决这一问题的主要方法,其能够满足简单的用户需求,没有个性化的服务,有两种检索方式:分类检索、关键词检索。分类检索是通过对信息的特征分类,让用户寻找需求的目录类别,从而实现信息查询,但是分类检索暴露出较多的问题:

(1)交叉学科不断出现增加了项目分类的难度,无法确定项目的类别;

(2)项目分类的规则无法统一,使得分类规则差异较大;

(3)用户需要反复查找项目分类,耗时耗力[3]。

关键词检索是目前搜索引擎的主流,通过校对预存储信息和关键词,将匹配度高的信息返回给用户界面,查询速度较快,但是关键词检索的查准率低,用户个性化程度低,任何用户搜索的关键词相同,检索出的结果也是相同的,这不能满足用户需求[4]。但是推荐系统[5][6][7]能够提供这一个性化服务,能够根据用户的特征,推荐满足用户需求的对象,其主要优点是能够主动收集用户的特征资料,通过对用户个性、习惯、偏好的分析,定制的向用户提供其感兴趣的信息,同时能够及时跟踪用户的需求变化,根据变化自动调整信息服务的方式和内容。

2.推荐系统的概念

从1990年代开始,推荐系统逐渐被大家进行研究,其内容涉及认知科学、近似理论、信息检索、管理科学等领域。很多学者对推荐系统进行了广泛的研究,美国学者ReSnick等人率先提出“推荐系统”一词,并通过对一个典型推荐系统的简单描述给出了推荐系统的定义:推荐系统以所有用户的意见作为输入,对用户的意见进行综合,将有价值的意见提供给某一适合的用户,系统的好坏取决于所提供意见与用户需求之间的匹配程度;GroupLens研究小组从电子商务网站的角度对推荐系统进行了定义:推荐系统采用数据分析技术预测用户对项目的偏好值或为用户产生一个top-N推荐列表,帮助用户搜寻出他们愿意购买的电子商务网站的项目;明尼苏达大学Konstan把推荐系统定义为:推荐系统利用群体意见,帮助群体中每名成员识别其最感兴趣或最能满足其需求的产品或信息。

3.主要推荐算法

目前推荐系统采用的推荐算法主要包括关联规则、基于内容的推荐、协同过滤和混合推荐。

3.1基于关联规则的推荐

基于关联规则的推荐是以产品间关联规则为基础,把已购商品作为规则头,推荐对象作为规则体,通过数据挖掘发现项目之间潜在的联系以实施连带推荐[8][9]。

关联规则挖掘技术可以发现不同商品在销售过程中的相关性,在电子商务推荐系统中已经有了比较成熟的应用。在电子商务系统中会有保留用户交易记录的交易数据库,关联规则挖掘将对交易数据库进行分析,将会计算购买商品集X的记录集中有多少同时购买了商品集Y,当这个比例超过一定阀值时则认为商品集X与商品集Y存在关联规则,实际购物中有相当部分的用户在购买了某件商品时同时购买了另一件商品。基于关联规则的推荐系统依据计算分析所得到的关联规则,并基于用户的实际购买行为向用户实施推荐[10]。

如果规则同时满足预先设定的最小支持度与置信度,则我们把该规则作为强关联规则。

集合库中挖掘关联规则的实施步骤如下所示:

1)生成所有的频繁集,频繁集定义为所有支持度大于预先设定的最小支持度的项目集合。

2)从频繁集中产生强关联规则,必须同时满足预先设定的最小支持度与置信度。

以上步骤中步骤1是关联规则挖掘的关键,若数据交易库非常庞大,则计算复杂度随之升高。

3.2基于内容的推荐

基于内容的推荐算法是通过提取用户历史交易记录和用户对产品评价的特征,对其分析并获取用户感兴趣产品的特征作为用户的购物偏好,同时对产品进行特征提取与表示,通过用户特征偏好与产品特征的匹配程度,以实施推荐[11]。

基于内容的推荐算法基本步骤为:

1)分析用户过去的浏览或评价记录,寻求一种文档表示方法对其进行表示,从而生成用户兴趣档案。

2)对用户未接触过的文档特征进行提取与表示。

3)将用户兴趣档案与新文档特征进行匹配,将匹配度最高的文档推荐给当前用户。

基于内容的推荐算法需要先创建每个用户的独立模板,这里面存储着用户的一些基本信息,包括兴趣、爱好等信息,这些数据信息将随着用户的操作而实时地进行数据更新。

3.3协同过滤推荐

协同过滤是筛选出一组与目标用户兴趣相近的邻居用户,根据邻居用户的偏好推测目标用户的偏好,向目标用户推荐其最有可能感兴趣的项目(如Web页面、音乐、视频、商品等),它是站在用户角度进行信息推荐,并且这些推荐信息是自动的,根据用户显式的操作(比如购买信息、网页浏览信息等)进行推荐。协同过滤算法与基于内容的推荐技术的算法相比,具有较多优点:

1)协同过滤算法能够解决内容过滤算法的产品关键字获取不完整或不准确而产生的问题,通过共享同组用户的信息为其推荐内涵较高的项目,比如信息质量、个人品味等这些信息不能表述清楚;

2)协同过滤算法能够挖掘用户隐藏的兴趣。内容推荐算法推荐的信息基本都是用户相对熟悉的内容,但是协同过滤算法能够发现用户潜在的但自己尚未发现的兴趣偏好;

3)协同过滤算法能够利用相似用户的反馈内容,提高个性化推荐的学习能力。虽然协同过滤算法是一种具有代表性的推荐算法,但是协同过滤仍面临较多的问题,如精确性、稀疏性、冷启动、扩展性。

3.4混合推荐

按照不同的结合方法,混合推荐的集成方式有以下几种:

1)混合集成:它是将每个推荐算法的推荐结果进行集合,把这些集合推荐给用户。

2)加权集成:它是将每个推荐算法的推荐结果按照权值进行重新排序,把排序结果推荐给用户。

3)转换集成:它是根据不同推荐环境选择相应的推荐算法。

4)瀑布型集成:它是将两个推荐算法进行整合优化,实现一种推荐算法对另一种推荐算法的推荐结果优化。

5)特征组合集成:它与瀑布型集成相似,也是采用某种推荐算法对混合推荐结果进行过滤。

6)特征增值集成:它是将一种推荐算法的推荐结果作为另外一个推荐算法的输入。

混合推荐在实际应用中面临很多困难,需要解决不同的推荐技术进行有机集成问题,同时有实验表明,混合推荐并不一定比单独的某个推荐技术更好,并且增加了计算复杂度,在推荐效率上会有一定程度的降低。

4.总结

本文首先分析了推荐系统产生的缘由,然后详细介绍了推荐系统的概念、主要的推荐算法以及这些算法的优缺点。

参考文献

[1]曾晓牧,孙平.信息超载与图书馆的应对方案[J].图书情报工作,2004,48(6):106-109.

[2]周玲.信息超载综述[J].图书情报工作,2001,11:33-35.

[3]孙悦民.信息分类检索的技术演进及模式[J].情报资料工作,2009,6:49-52.

[4]孔莉,马莎莎.关键词检索特性的计量学分析[J].现代情报,2010,30(3):19-21.

[5]黄晓斌.基于协同过滤的数字图书馆推荐系统研究[J].大学图书馆学报,2006,24(1):53-57.

[6]王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012,23(1):1-20.

[7]GraceBurchard.推荐系统与数字图书馆个性化[J].图书情报工作,2007,51(12):33-38.

[8]BerzalFCJ.Anefficientmethodforassociationrulemininginrelationaldatabase[J].DataandKnowledgeEngineering2001,37:47-64.

[9]SWesleyTCL.Miningassociationrulesproceduretosupportonlinerecommendationbycustomersandproductsfragmentation[J].ExpertSystemswithApplications2001,20:325-335.

[10]赵艳霞,梁昌勇.基于关联规则的推荐系统在电子商务中的应用[J].价值工程,2006,5:82-86.

计算机研究生推荐方向范文

关键词:衰减函数;时间综合影响;赌选择模型;PersonalRank算法;个性化推荐

0引言

个性化推荐系统日渐成为用户资源需求的导航系统,用户需求极大地推动高质量推荐的发展。目前,提高推荐质量的相关工作主要有:1)对传统协同过滤算法,融合用户聚类[1-2]、填充[3]等方法;2)考虑多重信息(用户社交信息、项目内容信息、评分信息)的影响,对各因素优化加权[4-5];3)引入概率理论[6]、矩阵分解[2]等理论技术建模优化推荐算法。这些方法在很大程度上提高了推荐的质量,但研究者往往忽略了时间综合信息对推荐的影响。

针对当前的研究不足,本文提出一种融合时间综合影响的赌游走个性化推荐算法,引入衰减函数量化时间综合影响,利用赌模型选择游走目标,从多角度研究时间对推荐质量的影响,取得了较好的推荐效果。

1相关工作

目前,许多研究者在基于图模型推荐算法的研究上取得了不少的成果。Shang等[4]提出一种融合社交信息的随机游走图模型推荐,将用户社交信息、物品内容信息(标签)以及用户评分信息综合考虑,提高了推荐的准确率,在一定程度上缓解了冷启动问题。陈泽等[5]提出加权两层图的混合推荐算法,以物品内容信息和用户-物品的评分为权重,结合随机游走的方法为用户提供个性化的推荐。俞琰等[7]提出一种显性评分重启动随机游走算法,在用户项目二分图中,以用户对项目的评分为权重,监督重启动游走朝用户感兴趣的方向,提高了推荐的准确率。上述进展提高了推荐的性能,但均忽略了时间信息对推荐质量的影响。

融合时间信息的推荐也有一些研究工作,如王岚等[8]提出一种基于时间加权的协同过滤算法,考虑时间对用户兴趣的影响;邢春晓等[9]提出一种考虑资源和用户兴趣的协同过滤算法,指出时间信息反映了用户兴趣的动态变化,在考虑了时间信息对用户兴趣的影响的情况下,该算法在推荐的精确度上相比原来的算法有了很大的提高。然而上述算法只是在协同过滤中从用户兴趣单角度考虑时间信息的影响,而在实际推荐过程中,时间信息对用户的影响是综合的。

针对当前基于图的推荐算法对时间因素影响研究不全的现状,本文在随机游走过程中考虑时间因素对用户兴趣的影响,设计了一种时间单角度影响赌游走方法,验证从考虑时间对用户兴趣影响这一角度分析时间因素对提高推荐质量的积极作用。

在此基础上,进一步提出一种多角度考虑时间信息对推荐影响的融合时间综合影响的赌游走个性化推荐算法。该算法不仅考虑时间对用户兴趣的影响,还挖掘时间隐性反映用户关联信息,充分研究了时间因素对提高推荐质量的综合影响;实验结果表明,该算法比传统的基于图的随机游走PersonalRank算法在推荐指标上有明显的提高。

3.1衰减函数量化时间影响

PRRW算法的关注点是用户项目二分图上的关联关系,本文在该算法的基础上研究时间信息对推荐的影响,分别从以下角度分析时间影响。

1)用户兴趣与时间关联的角度。用户的兴趣是一个随时间变化的量[9-10],一个人儿时的兴趣和成年的兴趣有很大的区别,即个性化推荐的推荐对象是一个随时间变化的对象;并且用户1年前的兴趣和用户最近的兴趣相比,用户最近的兴趣更能反映用户当前的需求。所以在推荐过程中,时间在用户兴趣角度对推荐的影响不容忽视。2)时间反映“用户用户”隐性关联的角度。用户对同一物品的行为发生的时间越接近,它们之间的相关性越大。通过分析时间对推荐的影响特性,本文引入数学中的衰减函数来度量时间对推荐的影响,衰减函数原型[12]如式(2):

5结语

本文在分析当前众多基于图推荐算法的优缺点的基础上,提出了一种融合时间综合影响的赌游走个性化推荐算法。在PRRW算法的基础上做了以下两项工作:1)在基于图游走的过程中考虑时间对用户兴趣的影响,引入衰减函数模型量化时间对用户兴趣的影响,采用赌模型选择游走节点,提高了推荐质量;2)挖掘时间反映“用户用户”之间的隐性关联,考虑时间综合影响,提出融合时间综合影响的赌游走个性化推荐算法。实验表明该算法在准确率、召回率和覆盖率三个指标上都比PRRW算法有明显的改善,充分验证了时间综合因素对提高推荐性能的积极影响。但本文方法还有待从以下两个方面进一步研究:1)该算法运算的时间复杂度较高,下一步将设法降低时间复杂度,以便应用于大数据环境;2)本文只采用文中的衰减函数模型进行验证,后续将进一步探究不同的衰减函数模型对推荐效果的影响。

参考文献:

[1]CHENK,HANP,WUJ.Userclusteringbasedsocialnetworkrecommendation[J].ChineseJournalofComputers,2013,36(2):349-359.(陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报,2013,36(2):349-359.)

[2]WUH,WANGY,WANGZ,etal.Twophasecollaborativefilteringalgorithmbasedoncoclustering[J].JournalofSoftware,2010,21(5):1042-1054.(吴湖,王永吉,王哲,等.两阶段联合聚类协同过滤算法[J].软件学报,2010,21(5):1042-1054.)

[3]SUNJ,AIL.Collaborativefilteringrecommendationalgorithmbasedonitemattributeandcloudmodelfilling[J].JournalofComputerApplications,2012,32(3):658-660.(孙金刚,艾丽蓉.基于项目属性和云填充的协同过滤推荐算法[J].计算机应用,2012,32(3):658-660.)

[4]SHANGS,KULKANMIS,CUFFP,etal.Arandomwalkbasedmodelincorporatingsocialinformationforrecommendations[C]//MLSP2012:Proceedingsofthe2012IEEEInternationalWorkshoponMachineLearningforSignalProcessing.Piscataway:IEEE,2012:1-6.

[5]CHENZ,WANGG,HUF.Hybridrecommendationfilteringmethodbasedonweighedtwolayergraph[J].ComputerScience,2012,39(12):177-180.(陈泽,王国胤,胡峰.基于加权两层图的混合推荐方法[J].计算机科学,2012,39(12):177-180.)

计算机研究生推荐方向范文篇11

关键词:混合协同过滤;个性化;稀疏矩阵

中图分类号:TP301.6

在个性化系统面世前,利用用户行为数据的许多应用已经在网络上非常流行,其中最经典的就是书籍资料,音乐电影等排行榜或推荐榜。在个性化推荐算法中,利用用户的行为进行分析是一个比较重要的方面,而平常学术界将其称为协同过滤算法。学术界对该算法进行了详细的研究,并提出了较多的方法,例如基于邻域的算法?[1],隐语义模型?[2],基于图的随机游走算法?[3]。其中,基于邻域的算法?得到最广泛应用,并且研究最多的算法,主要包括基于用户的协同过滤算法和基于项目的协同过滤算法。

1基于邻域的算法

基于邻域的算法是推荐算法中最重要的算法之一,它在学术界及业界都得到了广泛的应用。该算法主要包括基于用户的协同过滤算法和基于项目的协同过滤算法。下面几节将对这两种算法进行基本的介绍,并对比他们的优缺点提出改进方案。

1.1基于用户的协同过滤算法

基于用户的协同过滤算法?[4]包括下面几个步骤。

(1)数据的表示。在协同过滤推荐系统中,可以将输入数据表示为m×n的用户-项目评分矩阵R,其中m是用户数,n为项目数,rij是第i个用户对敌j个项目的评分。评分的值与项目的内容有关。

(2)找到与目标用户相似的用户的集合。本文通过余弦相似度计算这两个用户之间的相似度。

(3)在用户相似度集合中找到跟目标用户相似的用户,并将该用户喜欢的但目标用户没用喜欢过的物品或项目推荐给当前用户。算法用下面的公式来计算用户u对项目i的感兴趣程度:

(1)

在公式(1)中的S(u,K)表示跟用户u最相思的前K个用户的集合,N(i)表示对物品i有过行为的用户的集合,rvi表示用户v对物品i的感兴趣程度,即用户v对物品i的评分。

1.2基于项目的协同过滤算法

随着用户数目的日渐增长,用户间兴趣相似度的计算越来越困难,著名的电子商务公司亚马逊提出了基于项目的协同过滤算法?[5]。该算法分为下面几个步骤。

(1)物品之间相似度的计算。计算物品之间相似度的公式如下所示,其中U(i)表示喜欢物品i的用户集合:

(2)

但是上面的公式存在一个问题,如果物品j很流行,那么wij会无限接近1,这时流行物品会对推荐的结果造成一定的影响,为了避免出现上面的状况,可用下面的公式:

(3)

(2)根据计算出的物品之间的相似度,可用下面的公式?[1]计算用户u对物品j的感兴趣程度:

(4)

在公式(4)中,N(u)表示用户u喜欢的物品集合,S(j,K)表示跟物品j相似的前K个物品的集合,wji表示物品i和物品j之间的相似度,rui表示用户u对物品i的喜欢程度,即用户u对物品i的评分。

2矩阵压缩下两种算法的结合

2.1两种算法的优势与不足

文献[6]提到,基于用户的协同过滤算法通过计算用户之间的相似性从而提供个性化程度较高的推荐,但是推荐精度比基于物品的协同过滤算法要稍低,并且在用户群较大的情况下,用户间兴趣相似度的计算将越来越困难。而基于物品的协同过滤算法通过计算物品之间的相似性从而实现更精确的推荐,但是却削弱了用户的个性化程度,从而无法提供一个个性化程度较高的推荐。

因此本文通过压缩稀疏矩阵的方式,将两种算法结合在一起,此算法不仅考虑到了用户之间的关联性,而且考虑到了项目之间的关联性,使得推荐精度得到了相应的提高。

2.2改进的推荐算法思路

改进的推荐算法主要有以下几个思路。

(1)稀疏矩阵的压缩。一般推荐算法的输入都为m×n的用户-项目评分矩阵,但是在大多数的商务系统中,该矩阵是稀疏并且巨大的,因此本文通过对用户进行分类,即对用户集合进行压缩,从而使得算法的输入矩阵进行了压缩。

(2)利用第一步得到的压缩矩阵,对当前用户进行推荐。在此过程中,需要在分类的用户集合中找到跟当前用户兴趣度相似的集合,然后在所有的用户喜欢的所有的物品集合中,计算物品两两之间的相似度,最后得到当前用户的推荐结果。本文利用公式(3)计算物品之间的相似度时,为了减少耗时,可用下面的思路进行:首先对每个用户建立一个他所喜欢的物品列表。矩阵C为n×n阶矩阵,然后对于每个用户,将倒排表中的物品两两在矩阵C中加1,最后得到物品之间的余弦相似度矩阵?[1]。下图为利用该思路计算物品相似度的例子:

图1计算物品相似度的例子

2.3用户活跃度对算法的影响

用户活跃度指的是某些用户为了某些目的在某一商务系统中购买或喜欢了很多书籍,那么该用户对于他所购买的书籍两两之间的相似度的贡献将会影响到最后的推荐结果,此时,该用户就属于噪声用户。

文献?[7]提出了一个称为IUF(InverseUserFrequence)的参数,该参数为用户活跃度对数的倒数,为了降低噪声用户对推荐结果的影响,文献[7]提出应增加IUF参数来修正物品相似度的计算公式:

(5)

从公式(5)可以看出,用户u喜欢的物品集合越大,即用户越活跃,则其对用户相似度造成的影响越小。

2.4混合协同过滤算法流程

将改进的推荐算法的思路进行进一步的扩展,并且考虑到用户活跃度对算法的影响,从而得到混合协同过滤算法的流程。

(1)建立用户-项目评分矩阵。传统协同过滤算法采用m×n的用户-项目评分矩阵R用来表示输入数据,其中rij是第i个用户对第j个项目的评分。

(2)得到用户的分类集合。利用用户余弦相似度公式计算两两之间的相似度,将最为相似的前N(本文取N=1000)个用户分为一类,得到用户分类集合。

(3)得到压缩用户-项目评分矩阵R1。和当前用户最相似的用户集合作为输入数据的用户,将这部分用户喜欢的项目集合作为输入数据的项目,从而得到用户-项目评分矩阵R1。

(4)将R1作为基于项目的协同过滤算法的输入矩阵,考虑到用户活跃度对算法的影响,用公式(5)计算物品相似度,并利用倒排表的思想简化计算。

(5)利用公式(4)计算当前用户对于物品的感兴趣程度。

3实验结果及分析

3.1实验数据集

本文采用了Book-Crossing数据集,该数据集是由Cai-NicolasZiegler使用爬虫程序在2004年从BookCrossing图书社区上采集的,其中包括278858个用户对271397本图书进行的评分,评分值为1-10,数值越高,表明用户对图书的偏爱度越高。本数据集没有经过任何的人为去除噪声数据,因此推荐结果更加符合实际情况。

在对推荐算法进行验证时,选取了50000条评分数据,并将评分数据集随机分成8份,7份即43750条数据作为训练集,剩下的一份即6250条数据作为测试集。

3.2评测指标

本文应用了召回率/准确率-精度评测方法。文献?[6]提到,现在大家关注的问题大多是精度方面的问题,现在评测一个推荐算法的性能,除了精度外,新颖性、多样性、覆盖率等更多指标越来越受到重视。

(1)准确率/召回率。对用户u推荐了N个物品,记为R(u),令用户u在测试集上喜欢的物品集合为T(u),则准确率和召回率的公式分别如下所示:

(6)

(7)

(2)覆盖率。该评测指标跟用户活跃度的影响有直接联系,它反映了算法是否将所有物品至少推荐给了一个用户,即给用户推荐的是否都是流行用户喜欢的物品。下面的公式来定义覆盖率:

(8)

3.3实验结果分析

本实验算法的编程语言为python,将三个算法进行了对比,改进的协同过滤算法跟当前用户最相似的用户集合的大小N=1000,并且将三者之间的覆盖率进行了比较,基于项目的和改进的协同过滤算法的相似度计算公式应用了公式(5),最近邻居个数K依次为5,10,15,20,25,30,35,实验结果表明,改进的用户分类下两个算法的结合在提高了用户个性化程度的同时,比传统的两个算法的精确度要高,同时,预测的质量也随着最近邻居K的值而变化。基于用户的协同过滤算法召回率和精确率在K=20达到最大值,后面没有改变。而且在K=30时,三个算法的精确率和召回率都达到了最大值,并且改进的推荐算法得到推荐结果最精确。同时,在应用了文献?[7]提出的IUF参数后,覆盖率也有了相应的改善,对比图如下所示:

图2召回率对比图

图3精确率对比图

图4覆盖率对比图

两个算法都应用了文献?[7]出的参数,但改进的算法显然要比传统算法的覆盖率高。因此,当评分矩阵极其稀疏的情况下,本文利用用户集合分类从而压缩稀疏矩阵的方法,考虑到了用户之间的关联性和项目之间的关联性,得到了较好的推荐结果。

4结束语

本文在传统协同过滤算法的基础上,提出了用户分类下两种算法相结合的算法,利用用户分类使得输入的稀疏矩阵得到了相应的压缩,考虑到了用户间的关联性及项目间的关联性,并且考虑到了用户活跃度对于推荐的影响。实验证明,混合协同过滤算法的确提高了推荐准确度,并且使得覆盖率也得到了进一步的提高。未来的研究工作主要是怎么减小噪音用户对推荐结果的影响,得到更好的推荐结果。

参考文献:

[1]项亮.推荐系统实践[M].北京:人民邮电出版社,2012.

[2]鲁权,王如龙,张锦.融合领域模型与隐语义模型的推荐算法[J].计算机工程与应用,2013(19):100-105.

[3]李芳,李永进.一种基于随机游走的多维数据推荐算法[J].计算机科学,2013(11):304-307.

[4]蔡孟松,李学明,尹衍腾.基于社交用户标签的混合top-N推荐方法[J].计算机应用研究,2013(05):1319-1322.

[5]GregLinden,BrentSmith,JeremyRecommendations:Item-to-ItemCollaborativeFiltering.IEEEInternetComputing,7(01),2003.2:76-80.

[6]KarypisG.EvaluationofItem-BasedTop-NRecommendationAlgorithms:ProceedingsofthetenthinternationalconferenceonInformationandknowledgemanagement,2001[C],NewYork.

[7]BreeseJ,HechermanD,KadieC.Empiricalanalysisofpredictivealgorithmsforcollaborativefiltering[C]:Proceedingsofthe14thConferenceonUncertaintyinArtificialIntelligence,1998,SanFrancisco,461(08):43-50.

计算机研究生推荐方向范文1篇12

关键词:推荐系统标签用户

中图分类号:TP391文献标识码:A文章编号:1003-9082(2016)11-0014-01

一、标签概述

推荐系统的目的是为用户过滤庞杂繁杂的信息,找到符合其喜好的资源。标签是从资源的内容中提取的、对资源进行概括总结的关键词,相较于资源本身,信息量增加,体量减少,减少了用户的负担。利用标签能够在很大程度上减轻推荐系统的工作量,提高其准确度。

二、标签在推荐系统中的应用

1.标签获取和应用

1.1专家标注法

很多推荐系统在建立时,既没有用户的行为数据,也没有充足的物品内容信息来计算准确的物品相似度。为了在初期提升用户体验,很多系统都利用专家进行标注。这方面的代表是个性化网络电台Pandora。雇用一批专家对资源进行标注,可以将资源用多种向量表示,然后通过常见的向量相似度算法计算出其相似度。采用专家标注法的优点是可以有一组受到广泛接受的标签库以供选择。但是需要大量的人力操作,耗时多且成本高。

1.2大众分类法

利用用户产生内容的方法,让普通用户自由标注,如Last.fm音乐电台,豆瓣等。面对数量众多且难以进行分析的大量资源,这些网站允许用户对资源进行随意标注,获得资源的相关信息。然后分析用户的标注行为,提取用户关系网络,从关系网络中分析凝聚子群,进行个性化信息推荐模型的研究。将标签作为用户和资源联系的中间节点,建立用户-标签-资源之间的三维关系图,计算其关联度,从而预测用户对于新资源的兴趣度,最终产生推荐结果。

1.3内容分析法

对于具体的物品,可从物品本身利用数据挖掘技术自动提取其特征作为标签。如对于一个新文本来说,首先将其与已有文本对比计算相似度,然后根据相似度选取已有文本的标签作为新文本的标签。

2.应用中的优势

2.1形式简单,易于处理

标签是对物品特征属性的简要描述,过滤其不重要信息或者用户不关注的信息,在某种程度上降低了信息过载现象。标签将网页、图片、音频、视频等非结构化数据资源转化为更加容易处理的文本,将文本内容进行压缩等,方便处理。

2.2易于获得

通过内容分析法能够对大量数据进行自动化处理,减少人工负担,同时避免了因新资源加入产生的冷启动问题。通过大众分类法运用大量用户的群体智慧来标注物品,相较于跟踪用户的历史行为和收集用户个人注册信息,降低了系统负担而且更具合理性,不会侵犯用户的隐私。

2.3提高了推荐结果的多样性

标签具有可重复性和广泛代表性。用户在短时间内不会重复购买同一种商品,但是对于标签,用户都有自己的喜好和使用习惯,会为不同资源使用同一个标签。一个标签可以广泛用于许多物品,可以跨越不同领域。所以用户选择了某一标签,可以将推荐结果推广到各个领域。

2.4利用标签做推荐解释,更容易获得用户信任

对于目前的大量推荐算法,用户没有了解的需求和不愿意浪费时间去了解,用户也就难以真正信任个性化推荐系统所做的推荐。用户所需要的是直观的感受。用户喜欢明星,相信明星,于是就相信其代言的公司和产品。将这一点运用到推荐当中来,一个很重要的桥梁就是人。例如在大众分类法中,标签来源于用户本身及其他用户对于该用户共同兴趣的物品所做的标注,容易得到用户认可。

3.应用中的困难

3.1歧义、多义性

在大众分类法中,用户标注目的主要有以下三点:一是对资源进行分类,方便将来的查找;二是表达对资源的看法。这是在目前较为流行的方式,用户乐意在通过社交网络中将自己的想法分享。三是生产者介绍产品,方便让市场中的潜在购买者了解。在这三点的驱动之下,标签被大量创造,而标签的歧义和多义性正是由于三者目的的差别,个人的知识层次和所处环境的差别所造成的。从客观上来说,文字语言具有一词多义,多词一义的特点,也是大众分类法难以避免的困境。如果标签得不到合理处理,那么基于标签的推荐系统必然也是低效的。

3.2分布稀疏

在大众分类法和专家标注法中,对于新加入的资源,标签数量比较少,会出现冷启动问题,难以准确描述资源。而且让用户自行输入标签无疑会增加用户标注的负担,如果用户本身没有标注的习惯和动力,就很有可能不参与标注。对于标签本身来说,近义词的存在也让标签分布分散。

3.3标签噪声

标签的质量直接影响到推荐系统的性能和推荐结果的准确性。利用内容分析法产生的标签较为集中,分辨度不高。一个文本对应的标签数可能比较多,一个标签对应的资源可能非常多。而大众分类法也难以避免一些用户出于各种目的故意打出与事实不符的标签。例如:为提升好评和销量,淘宝商家雇佣个人刷单,在评价环节利用好评返现等手段诱导消费者给出商家所想要的评语,而淘宝系统根据客户的评价形成相应标签,从而使标签失去应用的作用。

对于以上问题,推荐标签和混合使用以上三种产生标签的方法是目前应用比较广泛的解决方法。推荐标签包括向用户推荐其他用户在相同类型的资源上使用的标签和用户在其他资源中使用过的标签。推荐标签可以通过选取某一个词语代替意思相近的几个词语,减少标签分散程度,提高标签质量。同时推荐标签降低了用户的负担,用户不用花费时间去思考应该用哪个词语来标注,只是在有限的几个词语中做选择,用鼠标的几个点击代替在键盘上的输入,增加了资源被标注的机会。而混合使用以上三种方法,主要是发挥各自的优势,避免一些问题的出现。例如,在新资源加入后,相应标签较少,可以采用内容分析法将与之最相似的资源标签作为标签来解决冷启动问题,然后采用大众分类法,利用群体智慧来进一步准确描述资源。

参考文献

[1]项亮.推荐系统实践[M].人民邮电出版社.2012:

[2]孔祥迎.基于社会化标签的个性化推荐技术研究[D].西安:电子科技大学.2013.

[3]任磊.推荐系统关键技术研究[D].上海:华东师范大学.2012.

  • 下一篇:项目投资盈利模式范例(12篇)
    上一篇:难忘的野炊作文(经典)(精选7篇)
    相关文章
    1. 当代中国教育论文范例(3篇)

      当代中国教育论文范文关键词:当代中国国家哲学;有效认同;方式方法中图分类号:B26文献标志码:A文章编号:1002-2589(2012)19-0074-03“当代中国国家哲学”指中国共产党人彻底内化马克..

      daniel 0 2024-02-19 20:24:12

    2. 当代世界经济问题范例(12篇)

      当代世界经济问题范文1篇1全会和“十一五”规划何以突出强调,要坚定不移地以科学发展观统领经济社会发展的全局,切实把经济社会发展转移到以人为本、全面协调、可持续发展的..

      daniel 0 2024-02-19 19:52:12

    3. 隧道施工学习范例(12篇)

      隧道施工学习范文篇1关键词:地铁施工;技术问题;安全管理;风险预警技术;研究分析1概述为了能够提高国家的基础建设迅猛发展,提高国家在国际上的建设发展速度,我们国家大力开展了基..

      daniel 0 2024-02-19 19:20:12

    4. 对计算机应用技术的认识范例(3篇)

      对计算机应用技术的认识范文关键词:计算机;网络信息安全;影响因素;防范措施1影响计算机网络信息安全的主要因素分析1.1计算机病毒的攻击计算机病毒本质上来看是一组程序代码与..

      daniel 0 2024-02-19 18:48:12

    5. 计算机系实训总结范例(12篇)

      计算机系实训总结范文篇1计算机网络是计算机专业学生必修的一门专业基础课和核心课程,随着对计算机网络技术的研究与应用日益广泛和深入,目前从事计算机网络技术的研究、设计..

      daniel 0 2024-02-19 18:16:12

    6. 销售下半年工作总结范例(3篇)

      销售下半年工作总结范文您好!各位好!09经营财年上半年度,本部在各级领导的期许推手下、在兄弟部门的密切配合下,积极践行公司改革指示精神,履行综合管理部各项岗位职责诉求暨既..

      daniel 0 2024-02-19 17:44:12

    7. 销售一周工作计划范例(3篇)

      销售一周工作计划范文【销售人员2017工作计划范文一】在将近一年的时间中,经过市场部全体员工共同的努力,使我们公司的产品知名度在河南市场上渐渐被客户所认识,良好的售后服..

      daniel 0 2024-02-19 17:12:12

    8. 农业科技知识大全范例(12篇)

      农业科技知识大全范文些年来,由于世界经济发展步伐放缓,工业产品出口受阻,技术和人力资源在工业领域的相对过剩,发达国家越来越重视知识农业的发展。早在60年代,美国就已经将实..

      daniel 0 2024-02-19 16:40:12