当前位置: 首页 > 答疑 > 正文

聚类分析论文 聚类分析论文篇1

作者:admin 发布时间:2023-10-30 17:22:04 分类:答疑 浏览:113


  聚类分析论文篇1

  1.1环境友好型社会概念目前学术界对于环境友好型社会的定义尚未统一,论文根据简新华的研究,认为环境友好型社会是指人们在生产和生活的各种活动中尽量减少废物排放,有效防止环境污染,不断保护和优化自然生态环境的社会,也就是人与环境和谐的社会,及人类保护改善优化环境、环境能够支撑人类社会经济可持续发展的社会。

  1.2评价指标体系在借鉴简新华的综合评价指标体系基础上,并遵循评价指标体系构建的科学性、客观性、可比性、层次性和可操作性等五个原则和参考以往学者对相关具体指标的选择,文中从影响区域环境影响总量、环境影响发展和环境保护潜力等3方面,构建了环境友好型社会综合评价指标体系。

  1.3数据来源与处理文中的数据资料,来自于2011年《中国统计年鉴》、2011年《中国城市统计年鉴》、2011年《中国城市竞争力年鉴》、2011年《中国城市能源统计年鉴》等,部分数据是整理计算后得出的结果。

  1.4评价方法文中首先采用因子分析法,对我国31省级行政区域的环境友好型社会水平进行综合评价。因子分析在SPSS17.0软件环境下进行。其次,在因子分析的结果基础上,对各省市区域的环境友好型社会发展状况进行聚类分析。采用HierarchicalCluster的聚类方法,运用离差平方和法(Ward'smethod)计算类与类之间距离,选择欧式距离的平方(SquaredEuclideanDistance)进行聚类,最终得出聚类分析结果,并用Arc-GIS9.2软件呈现空间差异。

  2结果与分析

  2.1因子分析通过对评价对象的3个二级指标下的23个三级指标进行环境友好型社会程度综合评价。

  2.2聚类分析与空间分异在因子分析基础上,进行样本聚类分析,并利用ArcGIS9.2软件显示量化分类结果的空间分异特征。聚类方法选择Ward法,距离测试采用欧氏距离平方法,利用SPSS的系统聚类法进行聚类分析。根据聚类结果,可以将31个省市区域划分为3-8类如果划分太少的类别(如分为3类或4类),则无法考察类别之间的具体差异,如果选择较细的类别划分(如分为7类或8类),则某一类别中含有的省份过少,更多地表达了特殊性。为了体现类型之间的差异性,又保证不同类型包含省份的均匀性,本课题将31个省份分为5类,并用ArcGIS9.2软件分析得出空间差异

  3讨论

  (1)为了解决环境友好型评价指标体系缺乏针对性的问题,文中在环境友好型社会概念基础上,从环境影响总量、环境影响发展和环境保护潜力等三个方面,提出了由23个既相互联系又相互独立并能进行量化的指标构成的环境友好型社会综合测度指标体系。通过采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析,研究结果与当前中国环境生态质量的现状有较好的一致性,这也说明了该指标体系具有一定科学性和完备性。

  (2)尽管文中的研究为我们客观评价环境友好型社会提供了一种思路并具有一定的可操作性,但在选择环境影响总量、环境影响发展和环境潜力等具体指标时,大多是建立在数据的可获得性和以往的研究文献基础上,仍存在一定的主观性。并且所选用的统计分析方法也可以是多种多样的,也不仅仅是文中所提到的主成分因子分析法,还可以是诸如物元法、模糊评价法、神经网络法和层次分析法等,不同的分析方法势必会有不同的优点和不足之处,这需要后续学者做进一步探索。另外,从评价对象上看,文中选用的是省级空间分布尺度,这种尺度分类仍较为粗略,未来的研究可以进一步深化,比如县域等。

  (3)从研究结果看,中国31个省级行政区的环境友好型社会发展状况可以划分为五类;在空间分布上,环境友好型社会程度相对较高的省份大多位于东部沿海地区和西部国界线附近的不发达地区,而环境友好型社会程度相对较弱的省份大多位于京津唐冀和晋等省份和地区,这一研究结果与张墨宁的调查结果相一致。造成这种现象的原因,或许与中国所处的发展阶段、区域主导产业结构和在很大程度上继续沿用以往粗放型经济发展模式有关,并值得相关政府决策部门的重视。

  4结论

  研究环境友好型社会综合评价指标体系,并利用该指标体系对中国省级行政区进行实证分析,既是对该指标体系的科学性、合理性、可操作性等的检测,也是对实证区域进一步推进环境友好型社会建设提供重要的决策参考和建议的依据。文中从环境影响总量、环境影响发展和环境保护潜力等三个方面构建环境友好型社会综合评价指标体系,并采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析。研究结果发现,中国31个省级行政区的环境友好型发展程度可以划分为五大类。从空间分布来看,相对环境友好(即环境高度友好和相对友好)的省份均位于国界线边界的西部经济不发达地区和东部经济比较发达的地区,这些地区要么是经济发展仍处于初步阶段;要么是经济增长正向集约型转变,产业结构正向高级化转变的地区,人们的环保意识比较强,相关法律法规比较健全。而环境相对不友好的省份大多位于京津唐冀和晋等省份和地区,生态环境质量和承载力差,亟需转变经济发展方式。

  聚类分析论文篇2

  近年来,全国大学生数学建模竞赛迅速发展,为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同,导致各地区组织学生参加大学数学建模竞赛的规模不同,在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个,本科组高教社杯奖1个,专科高教社杯奖1个,本科组MATLAB创新奖1个,专科组MATLAB创新奖1个,本科组IBMSPSS创新奖1个,专科组IBMSPSS创新奖1个,本科组一等奖共273名,本科组二等奖共1292名,专科组一等奖共44名,专科组二等奖共211名[1],但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩,明确各地区数学建模发展状况的差异和特点,将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状,分类制定相关政策[2-3],从而充分发挥数学建模的重要作用。

  1建立综合评价指标体系

  全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项,遵循可比性原则,参考文献[4-5],选取x1-x7共七项评价指标,具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖,且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。

  2数据资料依据

  2013年全国大学生数学建模竞赛获奖名单,按指标对各个赛区的获奖情况统计如表1所示。

  3R型聚类分析定性分析

  七项指标之间的相关性。编写MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)>>d=pdist(y,’correlation’);%计算相关系数导出的距离>>z=linkage(d,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图1所示)>>T=cluster(z,’maxclust',5);%把变量划分为5类>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类,则指标1、4、7各为一类,指标2、3为一类,指标4、5为一类。

  4Q型聚类分析

  4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个,即选取5个指标体系,对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理,采用欧氏距离度量样本间相似性,选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>x(:,[3,5])=[];%删除数据矩阵的3,5两列,即使用变量1,2,4,6,7>>x=zscore(x);%将数据标准化>>s=pdist(x);%每一行是一个对象,求对象间的欧式距离>>z=linkage(s,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图2所示)>>T=cluster(z,’maxclust’,3);%把样本点划分成3类>>fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm,1,length(tm));%变成行向量>>fprintf(’第%d类的有%s\n’,i,int2str(tm));%现实分类结果>>end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京,福建,湖南;第三类:江西,山东,四川;第二类:其它地区。

  4.2选取7个指标的分类考虑到指标2与指标3,指标5与指标6具有一定的独立性,若七个指标体系全部取用,将33个地区分为4类,程序输入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京,河南;第二类:辽宁,吉林,江苏,山东,广东,陕西;第四类:内蒙古,海南,西藏,青海,宁夏,新疆,香港,澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩,即选用指标1,2,3,对33个参赛地区进行聚类分析,从而明确掌握其本科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京,福建,湖南;第二类:江苏,浙江,山东,河南,湖北,广东,重庆,四川,陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩,即选用指标4,5,6,对33个参赛地区进行聚类分析,从而明确掌握其专科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%画聚类图(如图5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东,四川;第三类:山西,广东,陕西;第四类:其余各地区。

  5结束语

  通过2013年高教社杯大学生数学建模竞赛奖项的设置建立评价指标体系,首先运用R聚类分析法对指标间的相关性做了分析。在此基础上,重新确立评价指标,对各地区在本年度该项赛事中取得的成绩进行四个方面的Q聚类分析,并给出分类结果。特别分别给出了本科阶段、专科阶段的分类。希望能够有利于赛区明确其在全国大学生数学建模竞赛中所处的位置、阶段差异等,从而有针对性的制定相关政策,充分发挥数学建模在人才培养中的重要作用。

  聚类分析论文篇3

  【关键词】教育技术学;学位论文;共词分析;聚类分析

  【中图分类号】G420 【文献标识码】B 【论文编号】1009―8097(2009)11―0060―03

  一 数据来源

  《CNKI中国优秀硕士学位论文全文数据库》是目前国内相关资源最完备、高质量、连续动态更新的中国硕士学位论文全文数据库。

  本文选择中国知网的《CNKI中国优秀硕士学位论文全文数据库》的免费题录数据库,于2009年5月6日,以“学科专业名称”作为检索途径,输入“教育技术学”作为检索词,学位年度从2004年到2008年,共检索到2078篇学位论文。

  对检索结果用Excel、文本合并工具、ROST TFIDF(网页及文本特征词提取工具)进行数据统计,共得到3853个关键词。反复地进行人工校对,去除了对反应主题没有积极意义的整合、对策、现状、过程、影响、发展、启示等,最后确定了3620个关键词。选择词频数大于20的高频关键词共得到31个,如表1所示。

  二 数据分析

  1 构造共词矩阵

  对31个关键词两两配对,统计他们在2074条文献中共同出现的频次,形成31×31的矩阵,如表2所示。

  2 构造相异矩阵

  为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转化成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式为[1]:

  对角线上的数据是某关键词自身的相关程度,经上式计算均为1。为方便处理数据,用“1”与全部矩阵相减,得到表示两词间相异程度的相异矩阵[2],如表3所示。

  3 利用SPSS进行聚类分析

  将表3所示相异矩阵导入SPSS进行层次聚类分析,选择“组间平均链锁(Between group link age)”,即个体与小类中每个个体距离的平均值[3]。此种方法利用了个体与小类的所有距离的信息,克服了极端值造成的影响[4]。得到的凝聚状态表,如表4所示。

  表4中,第一列表示聚类分析的第几步;第二、三类表示本步聚类中哪两个样本或小类聚成一列;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非零表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到[5]。例如,第一步中,1号关键词(信息技术)与29号关键词(课程整合)聚成一类,它们的个体距离是0.932,这个小类将在第18步中用到。同理可得其它聚类。这个聚类可以从图1所示树状图中展现出来。

  树状图以躺倒树的形式展示了聚类分析中的每一次类的合并情况。SPSS自动将各类间的距离映射到0―25之间,并将凝聚过程近似地表现在图上。1号关键词(信息技术)与29号关键词(课程整合)距离最近,首先合成一类。其次是5号关键词(教学模式)和10号关键词(建构主义),以此类推。可见聚类过程与表4所示的凝聚状态图是一致的。

  三 结论

  结合高频关键词的共词矩阵和上述聚类过程,我国教育技术学硕士学位论文的研究热点可以概括为以下几类:

  (1)信息技术与课程整合,包括关键词1、21、29、30。主要是围绕新课程改革目标,在课程学习活动中使用信息技术,以便更好地完成课程目标、培养创新精神和锻炼的实践能力,在研究过程中主要关注课程教学过程中把信息技术、信息资源、信息方法、人力资源和课程内容有机结合,共同完成教学任务。

  (2)建构主义情境下的教学模式。包括关键词5、10。建构主义是当代学习理论的革命,是信息化教学模式建构的关键理论基础。其中建构主义学习流派、理念、基本要素、教学隐喻等成为广大硕士生研究的热点。但在发展建构主义的前提下也出现了很多对建构主义的反思。

  (3)教师教育技能培训、教师教育信息化。包括关键词4、23、19、8。FD(教师教育教学能力开发)是既免费师范生教育及教育信息化背景下备受硕士研究生关注的热点。涉及的内容有利用技术改善教师技能,培训教师,优化教育资源,提高教师信息素养等,这对提高全国教师技能水平具有深远意义。

  (4)现代远程教育。包括关键词9、15。网络环境下的远程教育各加体现开放大学的开放性,确保学习型社会的终身教育的发展与普及。主要包括远程教育的理论研究、远程教育的国内外对比研究、远程教育学习支持服务研究、远程教育学科建设研究、远程教育质量保证研究等。

  (5)基于网络环境的研究性学习。包括关键词14、17。关于网络学习的研究,构建自适应学习系统、智能授导系统、教育语义网等网络个性化学习是关注热点。特别是基于统一本体的语义网技术在自适应学习中的研究应用还在探索中,是教育技术以后关注的重大热点。

  (6)基于行动研究的知识管理的教学设计。包括关键词2、26、12、27。信息时代科学技术革命的飞速发展,知识更新速率以几何级数的形式增长,出现了“知识爆炸”现象。可见知识管理在信息时代的重要性。知识管理已是教育技术关注的热点,在进行研究过程中包括学习管理系统(LMS)、个人学习环境(PLE)、个人知识管理(PKM)等的研究。

  (7)在学习环境中形成学习共同体。包括关键词18、31、7、11。网络环境下自主学习、协作学习更加便捷,促使了具有相同爱好学习者形成了学习共同体,构建更加复杂、多元化的学习环境。为教师专业发展为目的的网络学习共同体也应运而生。在研究过程中主要是围绕网络共同体的成员、工具、主题、资源、活动等必备要素以及网络共同体的应用策略和实践效果等。

  (8)网络教育。包括关键词3、13、16、22。网络课程是网络教育的基本形式,网络课程的教学设计,网络课程的界面效果,学习路径等都是网络教育涉及的内容。网络教育与远程教育是不可分割的,但网络教育又不局限于远程教育而主要是依托网络进行的教育。为了实现网络资源的更优质共享,降低相同资源的重复开发,关于网络教育的标准研究在研究生硕士论文中很普遍。

  (9)在教学策略中使用虚拟现实技术。包括关键词20、28、24。虚拟现实技术主要是结合游戏的娱乐性进行网络教育游戏的设计与开发,基于游戏的激励机制、娱教等进行教学设计。

  共词聚类分析不同于普通的文献计量方法,它是能定量反应出词与词之间的亲疏关系,进而反应这些词所代表的主题内容的结构[6]。

  通过高频关键词反映教育技术学硕士学位论文的研究热点,并且通过共词聚类分析反映这些热点内容的结构关系。但是由于所选关键词的多少造成的聚类结果有所不同,因此不排除有些出现频次较低的关键词可能成为未来的研究热点[7]。与此同时,尽管《CNKI中国优秀硕士学位论文全文数据库》具有很高的权威性,但收入具有一定得滞后性和片面性以及检索的不可重复性,可能存在数据的漏检或误检。因此,我们的数据统计分析难免会出现差错和缺漏。但我们的目的是通过对我国教育技术学硕士学位论文的热点分析,进一步了解我国教育技术学研究生的研究方向,并且将文献计量学的共词研究方法移植到教育技术学领域,丰富了教育技术学的研究方法,这将是非常有意义的一件事情。

  参考文献

  [1] [3] [5] [6]李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[J].情报科学,2008,(3):73-76.

  [2]郑华川,于晓欧,辛颜.利用共词聚类分析探讨抗原CD44研究现状[J].中华医学图书情报杂志,2002,(2):1-3.

  [4]薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2005:310-313.

  [7]侯跃芳,崔雷.医学信息存储与检索研究热点的共词聚类分析[J].中华医学图书馆情报杂志,2004,(1):1-4.

  聚类分析论文篇4

  [关键词]学术期刊 评价指标分类 因子分析 聚类分析

  [分类号]G304

  1 引 言

  学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。

  Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

  由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。

  本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。

  2 方法

  2.1 聚类分析(Cluster Analysis)

  聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。

  对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。

  2.2 因子分析(Factor Analysis)

  因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

  建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。

  因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,

  因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。

  3 数据

  本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:

  由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。

  4 指标分类结果

  4.1 聚类分析

  采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。

  平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。

  被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。

  由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。

  4.2 因子分析分类

  同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P

  第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。

  第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。

  第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。

  第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新

  因此,根据以上分析,可以将学术期刊指标分类如下:①影响力指标:总被引频次(x1)、他引率(x2)、扩散因子(x3)、学科影响指标(X4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13);②期刊特征指标:即年指标(x8)、基金论文比(x9)、平均作者数(XIO)、平均引文数(x11)、海外论文比(X14);③时效性指怀:被引半哀期(x6)和引用半衰期(X12)。

  5 结论

  聚类分析论文篇5

  关键词:成人教育学;硕士学位论文;研究热点;共词

  作者简介:康红芹(1984-),女,河北邢台人,天津大学教育学院博士生,研究方向为职业技术教育基本理论、成人教育基本理论。

  中图分类号:G720 文献标识码:A 文章编号:1001-7518(2012)06-0038-04

  面对着新技术的不断涌现和社会需求的发展变化,成人教育学学科获得了较大发展。近些年来,成人教育研究现状如何?哪些问题所受关注度较高?本文采用词频分析法、共词分析法和多维尺度分析法对2002-2011年我国成人教育学硕士学位论文的关键词进行分析,旨在直观地了解近年来我国成人教育的研究热点与发展动态。

  一、研究对象与方法

  (一)研究对象

  本文以CNKI数字图书馆的“中国优秀硕士学位论文全文数据库”为数据来源库,以“学科专业名称”为检索途径,以“成人教育学”为检索词,选取2002-2011学位年度,得到465篇硕士学位论文(搜索时间为2012年1月21日),以这些硕士学位论文的关键词为研究对象。

  (二)研究方法

  词频分析法是指利用计算机技术对学科文献的相关信息,如关键词等,进行词频统计,然后通过考察词频数量的变化来观察一个学科(领域)发展情况的一种文献计量学方法[1]。通过某一学科相关文献的关键词的频次分布与特征,能够显示该学科的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等[2]。本文通过统计成人教育学硕士学位论文关键词的频次,以了解该学科硕士学位论文的研究热点。

  共词聚类分析法是以共词出现的频率为分析对象,利用聚类的统计学方法,把众多分析对象之间错综复杂的共词网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来的聚类的过程[3]。共词聚类分析法能够定量地反映出词与词之间的亲疏关系,进而反映这些词所代表的主题内容的结构[4]。本文运用共词聚类分析法生成共词聚类树状图来分析成人教育学硕士学位论文的主流研究领域的结构及其关系。

  多维尺度分析法属于多元统计分析方法的一种,“用于反映多个研究事物间的相似性(不相似性)程度,通过适当的降维方法,将这种相似(不相似)程度在低维度空间中用点与点之间的距离表示出来。”[5]若点与点的距离较近,表明事物间的相似性程度较高;反之,说明事物间的相似性程度较低[6]。本文利用多维尺度分析法生成共词知识图谱,以此来判断成人教育学硕士学位论文研究热点所处的位置。

  二、研究结果与分析

  (一)确定高频关键词

  首先,提取465篇硕士学位论文的所有关键词,将其存入一个文本文件中。其次,利用《书目共现分析系统》(Bibliographic Item Co-Occurrence Matrix Builder,BICOMB)对存有关键词的文本文件进行提取和统计,初步获得近十年成人教育学硕士学位论文关键词的词频分布情况。再次,为了保证统计数据的合理性和精确度,需要合并相同意思的关键词。如,将“策略”、“对策”、“策略研究”及“对策研究”合并为“策略”;将“个案研究”与“个案”合并为“个案研究”等。此外,去掉“研究”这一无实义词汇。之后,再次利用BICOMB工具对规范后的关键词进行统计,得到由高到低的关键词频次排序情况。最后,根据关键词频次的实际分布情况,本文将关键词频次≥7,累积比率达到19.127%(保留三位小数,下同)的前28个关键词作为高频关键词(见表1)。这28个高频关键词代表了近十年成人教育学硕士学位论文的研究热点。

  (二)构建矩阵

  首先,构建词篇矩阵和共现矩阵。尽管以上28个高频关键词代表了近十年成人教育学硕士学位论文的研究热点,但无法看出这些高频关键词之间的关系,为此需要对这些关键词做进一步的处理,即利用BICOMB工具构建词篇矩阵(见表2)和共现矩阵(见表3)。在表2中,第1列是28个高频关键词,第1行是237篇来源文献。词篇矩阵所要呈现的是28个高频关键词在237篇来源文献中出现的情况,“1”表示对应的关键词在相应的来源文献中出现过,“0”表示对应的关键词在相应的来源文献中没有出现过。表3是两两统计33个高频关键词在同一篇论文中出现的频次后,形成的一个33×33的共词矩阵,两个关键词在多篇论文中同时出现的频次的高低与二者之间的密切程度呈正比关系。从表3可以看出,共现矩阵表是一个对称矩阵,对角线上的数据为各个高频关键词出现的总频次,每一列的某个关键词与每一行的某个关键词相交叉所指的数据为这两个关键词同时出现的频次,如关键词“策略”共出现了55次,“策略”和“成人教育”这两个关键词同时出现2次,也可以理解为在2篇论文中同时出现。

  然后,构建相似矩阵和相异矩阵。因为以上矩阵中的关键词频次是绝对值,难以反映关键词之间的真正依赖程度。所以,为了真正反映关键词之间的紧密联系程度,需要进行深入的处理[7]。首先,利用SPSS19.0将词篇矩阵生成相似矩阵,如表4所示。在相似矩阵中,数据的大小表明相应的两个关键词之间距离的远近。数据越大,说明关键词之间的距离越近,相似度越大;数据越小,说明关键词之间的距离越远,相似度越差。相似矩阵对角线上的数据均为1,表明高频关键词自身的相关程度为完全相关。由于相似矩阵中的0值过多,统计时易产生较大误差,为了降低这种误差,用1与全部相似矩阵上的数据相减,得到表示关键词之间相异程度的相异矩阵(见表5)。在相异矩阵中,数据越大,说明关键词之间的距离越远,相似度越差;反之,则说明关键词之间的距离越近,相似度越大[8]。相似矩阵对角线上的数据均为0,表明高频关键词自身的相关程度为完全相异。

  (三)进行聚类分析

  聚类分析的基本原理是将具有相似性的研究个体进行归类,以展现主题内容的结构。本文使用SPSS19.0对表2的词篇矩阵进行聚类分析。通过“分析”――“分类”――“系统聚类”,将第1列(所有高频关键词)设置为“标注个案”,将其余各列(所有来源文献)设置成“变量”,在“绘制”中选择“树状图”,在“方法”中选择“组间联接”聚类方法和“Ochiai”二分类系数[9]。然后,获得28个高频关键词的共现聚类分析树状图(见图1)。在图1中,纵轴的数字代表与之相应的高频关键词的序号,横轴的数字代表关键词之间的距离,若两个关键词在越短的距离内聚集在一起,说明二者的相关度较高,它们之间的关系越紧密。比如,21(专业化)和28(发展)在最短的距离内聚集在一起,说明它们之间的相关度很高,关系非常密切。

  整体来看高频关键词的聚类分析树状图,可将成人教育学硕士学位论文的研究热点分为以下几部分:(1)农村成人教育与专业化发展研究,包括关键词12(农村成人教育)、21(专业化)和28(发展),主要涉及农村成人教育的发展与成人教育管理者、教育者的专业化发展;(2)现状、问题和策略研究,包括关键词9(现状)、5(问题)和1(策略),具体内容涉及成人教育的各个方面,既包括理论问题和实践问题,又包括基础问题、关键问题和前沿问题;(3)社区教育相关研究,包括关键词4(社区教育)、16(社区)、17(开发)和3(成人);(4)成人高等教育和成人教育学相关研究,包括关键词7(成人高等教育)、20(构建)和22(成人教育学);(5)美国成人教育相关研究,包括关键词13(启示)、23(美国)和2(成人教育);(6)中小学教师继续教育问题和终身教育研究,包括关键词14(继续教育)、18(中小学教师)和8(终身教育);(7)成人学习和成人教学研究,包括关键词11(成人学习)和25(成人教学);(8)以教师教育为核心的研究,包括关键词10(教师专业发展)、26(教师培训)、6(教师)、19(个案研究)和15(培训);(9)成人高校研究,包括关键词27(成人高校);(10)成人素质开发研究,包括关键词24(素质开发)。

  (四)进行多维尺度分析

  多维尺度分析的基本原理为,利用低维度空间中点与点之间距离的远近来表示研究个体间的相似性程度。本文使用SPSS19.0对表5的相异矩阵进行多维尺度分析。通过“分析”――“度量”――“多维尺度(ALSCAL)”,将第1列之外的其余各列设置成“变量”,选取“正对称”图形来描述高频关键词的数据结构,在“模型”中选择“序数”、“矩阵”、“Euclidean距离”,在“选项”中选择“组图”[10]。最后,生成28个高频关键词的知识图谱。经观察发现,知识图谱中点与点的聚集情况与聚类分析树状图中研究领域的分类基本一致。依据关键词的聚类过程和它们之间的密切程度,将成人教育学硕士学位论文高频关键词的共词知识图谱分为10个研究领域,如图2所示。进一步观察发现,一些研究领域在知识图谱上的跨度比较大,比如包括关键词“农村成人教育”、“专业化”和“发展”这一研究领域,这种现象说明有些研究领域的内部聚合程度较低,从另一方面也可以认为一些关键词之间的关系相对而言比较独立些[6]。

  三、结语

  通过以上对近十年我国成人教育学硕士学位论文研究热点的分析,可以得出如下认识:

  1.通过词频分析,得出近十年我国成人教育学硕士学位论文的28个高频关键词。其中,策略、成人教育、成人、社区教育、问题、教师、成人高等教育、终身教育等相关研究备受重视,成为研究热点中的焦点。

  2.通过聚类分析,发现近十年我国成人教育学硕士学位论文的研究热点主要集中在十个领域,包括:农村成人教育与专业化发展研究;现状、问题和策略研究;社区教育相关研究;成人高等教育和成人教育学相关研究;美国成人教育相关研究;中小学教师继续教育问题和终身教育研究;成人学习和成人教学研究;以教师教育为核心的研究;成人高校研究;成人素质开发研究。

  3.基于聚类分析,又通过多维尺度分析生成共词知识图谱,以更加直观、形象的方式来呈现近十年我国成人教育学硕士学位论文的十个热点研究领域。同时还发现,有些热点研究领域的内部聚合程度较低。

  本文运用现代统计技术,以可视化的方式描绘近十年成人教育学硕士学位论文的研究热点及其结构关系,为开展成人教育研究提供了一种新的思路和研究方法,这也正是这篇文章最大的创新之处。本研究只是对我国大陆成人教育学硕士学位论文的主流研究领域进行了透析,其实可以进一步扩大研究范围,比如分析国外或港澳台的成人教育学硕博学位论文主流研究领域;分析国内外成人教育期刊论文的主流研究领域等。希望越来越多的成人教育研究者能够运用本文采用的研究方法扩大研究范围,或者使用其他新颖的、适切的研究方法来丰富本学科研究成果,从而促进成人教育健康、持续发展。

  参考文献:

  [1]汤建民.基于中文数据库的知识图谱绘制方法及应用:以创新研究论文的分析为例[M].杭州:浙江大学出版社,2010:11.

  [2]邱均平,谭春辉,文庭孝.2004年国内外情报学研究重点及其演进[J].图书馆论坛,2005(06):71.

  [3]钟伟金,李佳,杨兴菊.共词分析法研究(三)共词聚类分析法的原理与特点[J].情报杂志,2008(07):118.

  [4]杨颖,崔雷.应用改进的共词聚类法探索医学信息学热点主题演变[J].现代图书情报技术,2011(01):84.

  [5]许振亮,陈悦,尹丽春,等.中国技术创新理论前沿知识图谱:作者共被引视角[J].图书情报工作,2008(05):91.

  [6]陈瑜林.我国教育技术学博士学位论文元分析[J].电化教育研究,2011(07):44,45.

  [7]刘艳华,华薇娜.基于ERIC数据库的国外远程教育研究热点分析[J].远程教育杂志,2011(05):90.

  [8]张勤,马费成.国外知识管理研究范式――以共词分析为方法[J].管理科学学报,2007(05):69.

  [9]崔雷.书目共现分析系统BICOMB用户操作使用说明书[EB/OL].省略/information/upl_files/201052 9131514660.pdf.

  聚类分析论文篇6

  [关键词] K-Means算法;卷烟零售户;库存聚类分析

  [中图分类号] F272 [文献标识码] A

  [文章编号] 1009-6043(2017)03-0128-02

  Abstract: In order to accurately understand the market inventory and demand, reduce the pressure of business inventories, implement the on-demand supply to retailers and find out the common features of retailers groups, the study investigates their annual sales and inventory level. The customer can be divided into three categories based on the kmeans++ algorithm of Spark + MLlib and clustering analysis of collected the code data of cigarette sales by means of KMeans +. The appropriate classification results, and corresponding management strategy of sales and inventory, which provide decision support.

  Key words: K-Means algorithm, cigarette retailers, inventory clustering analysis

  一、前言

  KMeans算法是聚类分析中的常用算法,它是数据划分或者分组处理的重要方式,目前在电子商务、生物科学、图像处理、Web文档分类等领域都得到了有效的应用,如许多文献利用KMeans进行聚类分析将客户细分特定的类型,同时根据其所属类别进行群组协同推荐。论文根据收集所得的卷烟销售扫码数据采用KMeans进行聚类分析,以期更为准确了解市场销售和库存情况,减小商业库存压力,实现对零售户M行按需供货,发现零售户群体共性特征,为制定合理的卷烟销售和库存管理策略提供决策支持。

  二、实验平台选择

  Spark是一个基于内存的分布式计算系统,是由UCBerkeley AMPLab实验室于2009年开发的开源数据分析集群计算框架,是BDAS(Berkeley Data Analytics Stack)中的核心项目,被设计用来完成交互式的数据分析任务。MLlib是建立在Apache Spark上的分布式机器学习库,Spark的机器学习有分类和回归、协同过滤、聚类、降维和特征提取和变换等[2]。Spark将分布式内存抽象成弹性分布式数据集(Resilient Distributed Datasets,RDD)。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,以便后续的查询能够重用,这极大地提升了查询速度[2]。故论文选择了Spark+MLlib作为K-means算法的运行平台。

  三、卷烟零售户销售量和库存的聚类分析

  (一)原始数据及数据预处理

  烟草公司在以往的经营中产生了海量的柜台扫码交易数据,本文数据来自贵阳市红华烟草公司零售门店在2014年1月1日至2015年3月20日之间产生的柜台扫码销售及库存数据,共有2014年1月1日至2015年3月20日的1797371条销售数据,有销售码、执照-代号、交易时间、商品代号、交易数量、单价、交易金额、门店名等字段,265071条库存数据,有库存数量、日期、时间、门店名等字段。本实验通过spark集群计算出每个零售门店在2014年1月1日至2015年3月20日之间日库存量之和与日销售量之和,最终得到了各零售户的年销售量(单位:箱)和年库存量(单位:箱)。例如,零售户1的销售量(单位:箱)和年库存量(单位:箱)分别为18706箱和57705箱,在数据进入模型之前进行了标准化。

  (二)实验过程、结果及分析

  1.Spark MLlib对经典K-means算法的改进

  经典K-means聚类算法有两个典型的缺陷:(1)聚类数K的值是预先给定的,未必就是最优解;(2)初始聚类中心是随机选择的,可能会得到一个局部最优聚类,具有较高的平方误差。

  对于经典K-means聚类算法的上述缺陷,许多学者提出了不同的改进方法,本文通过计算不同聚类数K的轮廓系数来确定最优聚类数K,轮廓系数结合了聚类的凝聚度和分离度,用于评估聚类的效果。该值介于-1-1之间,值越大,表示聚类效果越好[8]。

  对于初始聚类中心的选择,Spark MLlib采用了kmeans++算法,所谓kmeans++算法其实就是在进行标准kmeans优化算法之前执行一个初始化聚类中心的过程,其具体计算步骤如下[9]:

  (1)在数据点中随机选择一个聚类中心。

  (2)对于每个数据点x,计算x到已选出的所有聚类中心的距离的最小值D(x)。

  (4)重复(2)和(3)直到选出K个聚类中心。

  (5)执行标准的K-means聚类算法。

  2.聚类数K的选取

  轮廓线是一种簇内数据一致性的检验和解释的方法,轮廓系数值取值区间为[-1,1],它代表一个对象属于它所在组的合理的程度及属于临近组的不合理程度。当大多数对象都有一个比较高的轮廓系数值时,我们认为这个聚类效果很好。对不同的聚类数K,分别计算其聚类结果的轮廓系数,我们选取K=6来进行聚类。

  3.聚类结果分析

  下图给出了卷烟零售户销量和库存数据标准化后聚类分析的可视化结果,从图中可以看出,Kmeans很好的把零售门店区分开了,结果是比较合理的。

  依据上述结果,烟草公司可以制定如下的销售优化策略。

  (1)如图,参看12个X形点,21个下三角点和5个菱形点,该三类店面销量要明显低于其他三类,而菱形店面存量最多,说明供求关系最不紧张,记作六类店面,下三角形店面平均存量次之,记作五类店面,X形店面平均存量最少,记作四类店面。

  (2)12个十字店面销量要明显高于上述三类,供求紧张度1.403也低于上述三类。

  (3)相互比较5个圆点店面和11个上三角店面,前者的销量虽然高于后者,但前者的存量却远比后者充裕,因此相比于前者,后者更迫切地需要补充存货。

  四、结论

  本文根据收集所得的卷烟销售扫码数据采用KMeans+进行聚类分析,将客户分为三大类别,得到了较为合适的分类结果,同时,针对客户的三个类别,给出了相应的销售和库存的管理策略,论文的实践可以为卷烟销售和库存管理策略的制定提供决策支持。

  [参 考 文 献]

  [1]晁源.互联网思维下的卷烟消费跟踪方法探究[J].中国商贸,2015(24)

  [2]黎文阳.大数据处理模型ApacheSpark研究[J].现代计算机(普及版),2015(3)

  [3]陈虹君.基于Spark框架的聚类算法研究[J].电脑知识与技术,2015(4),武汉大学学报(理学版),2003,49(5):571-574

  [4]唐振坤.基于Spark的机器学习平台设计与实现[D].厦门大学硕士论文,2014

  [5]吴哲夫,张彤,肖鹰.基于Spark平台的K-means聚类算法改及并行化实现[J].互联网天地,2016(1)

  [6]李彦广.LIYan-guang基于Spark+MLlib分布式学习算法的研究[J].商洛学院学报,2015(2)2000,892:29-46

  [7]Feller W. An introduction to probability theory and its applications (3rd ed.)[M]. New York: Wiley, 1969

  [8]Silhouette (clustering). (2016, March 25). In Wikipedia, The Free Encyclopedia. Retrieved 16:39, March30, 2016, fromhttps: // en. wikipedia. org / w / index. php? title=Silhouette _ (clustering) & oldid=711931734

  聚类分析论文篇7

  关键词:信息资源管理;热点与前沿;可视化分析;Ueient

  中图分类号:G253 文献标识码:A 文章编号:1008-0821(2012)07-0036-07

  信息资源管理产生于20世纪四五十年代,起源于西方国家,最早产生的领域是美国政府部门的文字管理领域和企业管理领域。随着计算机技术、通信技术的发展,推动了信息资源管理的进一步发展。国外学者对信息资源管理的基定义。Bergeron,P在对1986-1995年间信息资源管理的概念进行回顾的基础上,将信息资源管理分为技术派和综合派。Bill Cook认为信息资源管理是组织的信息资源获得最大可能的经济价值,同时强调它对经济、效率和有效性的支持。w.D.Maedke在1981年从企业管理的角度认为对于一个特定的企业来说。信息资源管理是一门管理各种相互联系的技术群,使信息资源得到最充分的利用、最有效的配置的一门艺术或科学。霍顿于1979年在论文中认为信息资源管理是对一个机构的信息内容及支持工具的管理。本文认为信息资源管理是国际、国家和社会各组织机构为达到预定的目的,综合运用各种手段,对信息活动中的各要素实施全面管理的一种管理思想和管理模式。

  国内的学者对信息资源管理的发展进行了综述研究,钟守真和李月琳对信息资源管理的含义进行了研究综述,综合介绍了中外研究者对信息资源管理含义的不同认识,总结了国内外学者在该领域所做的努力。凌云和高凡通过文献调查的研究方法,以1995-2005年国内外关于信息资源管理的期刊论文、研究报告为基础,对文献进行了聚类分析,总结了国外信息资源管理研究的进展情况。邱均平和苏金燕运用信息计量学的相关理论和方法,对1994-2006年间国内信息资源管理研究领域发表的论文进行了统计分析,总结了研究热点、文献增长规律、作者分布规律、合作者情况。王亚军对1999-2008年间我国政府信息资源管理理论研究状况与发展趋势进行了研究,从建设意义、管理技术与方法、开发利用、共享机制等方面进行综述,并指出了存在的问题。王伟军和甘春梅对基于Web2.0信息资源管理的概念与内容进行了综述,对内涵、类型、特性进行了界定,从技术、经济和人文3个维度阐述了其架构和内容体系。在以上的研究中,学者利用文献分析法从不同角度和时间跨度对信息资源管理研究领域进行了综述研究,缺少对该领域研究状况的可视化的立体再现,本文在他们研究的基础上,采用社会化网络分析的方法展示信息资源管理研究的结构和趋势,通过词频分析,确定信息资源管理研究领域的热点关键词,并绘制关键词所反映的信息资源管理领域的知识图谱,形象的展示信息资源管理的最新研究进展,使广大学者能够更加直观的了解信息资源管理的研究内容。

  1、数据来源与研究方法

  1.1 数据来源

  本文在CNKI数据库中,以“信息资源管理”为主题词,对2007-2012年的文献进行了检索,共有1542篇文.献,获取了每篇研究信息资源管理论文的题目、机构、作者、发文期刊、关键词、发文时间等相关数据。

  1.2 研究方法

  本文以高频关键词为研究对象,利用词频分析法、共词聚类分析等研究方法对关键词的共词网络和聚类图谱进行分析,对我国信息资源管理的前沿进行探讨。关键词是指出现在文献的篇名、摘要和正文中,用以表达文献主题概念,有实际意义的自然语言词汇,对于某学科专业学术论文。由于研究人员对同一课题或概念的掌握较为准确,所使用的关键词也逐渐趋向一致。科研人员长期从事某个学科前沿领域的课题研究,会将新理论、新成果、新技术及时转化为公认的关键词,这些新兴关键词的多少代表着学科发展的方向与成熟度。分布频次与特征显示该学科的总体内容特征、内在联系、发展脉络、研究重点。

  对文献关键词分析包括关键词的词频分析和共词聚类分析,词频分析是提取研究对象的关键词进行词频统计,筛选出高频关键词,分析研究对象的热点、前沿及发展方向。共词聚类分析是内容分析法的一种,共词聚类分析法主要是统计关键词在一篇文献中两两出现的频率,以词对频率为研究对象,采用聚类算法的数据挖掘方式,把关系密切的关键词聚集成类,形成一个个类团。

  鉴于这些研究方法的科学性、准确性、客观性和实用性,以及近几年来取得的与此有关的一系列有意义的研究成果,本文将以关键词为基础的共词分析法和词频分析法相结合,应用于信息资源管理研究发展前沿、动态研究,并分析信息资源管理的重点研究领域和发展变化趋势。

  1.3共词分析

  共词分析是由法国国家科学研究中心的卡龙(Callon)等引入情报学领域的一种内容分析和科学绘图方法。这种方法不仅能够描绘学科领域的知识结构,还能结合时间序列揭示学科结构的演变历程。在人工智能、科学计量学、信息系统、信息检索和信息科学等领域都得到很好的应用。当两个能代表某一研究领域的关键词出现在同一篇文献中时,说明这两个关键词之间有一定的关系。出现的次数越多说明他们之间的关系越密切。统计高频关键词在文献中共现的次数,利用聚类分析、多维尺度分析等方法将某个领域的知识结构用图形的方式直观的表现出来。有利于分析该领域的研究热点和发展趋势。共词分析应依次进行4个步骤:(1)确定信息资源管理领域文献的高频关键词;(2)建立共词矩阵、相异矩阵、相似矩阵;(3)基于共词举证选取聚类分析、多维尺度分析、网络分析绘制信息资源管理领域图谱;(4)对得到的数据进行分析[uJ。

  2、研究及结果

  2.1 词频分析

  运用SPSS等软件对文献集中的关键词字段进行统计,共提取关键词3 9564",把词频在15以上的关键词确定为高频关键词,共有61个,去掉与研究主题相关度不高的关键词“信息资源管理,频次429”、“中国人民大学,频次30"、“增刊,频次24”、“对策,频次19”、“作者单位,频次17”、“稿件,频次17”、“启示,频次15”、“政府信息,频次16”、“信息共享,频次25”,得到52个关键词作为研究对象,如表1所示。这些词能从较大程度上代表信息资源管理领域的研究热点。

  2.2 高频关键词共词矩阵

  将上述52个高频关键词利用共词分析软件的共词统计功能生成一个52×52的共词矩阵(如表2),统计它们在1542篇文献中共同出现的频次,该矩阵是对称矩阵,表中对角线上的数值为该关键词与其它关键词共同出现的次数的最大值加1,凸显该关键词与自己的亲密关系,表中非对角线单元格上的数值为两个关键词共现的次数。如关键词“图书馆”和“信息资源”的共词频次为16,表示有16篇文献同时使用了这两个关键词。

  2.3 聚类分析

  通过聚类分析可以获取信息资源管理研究领域的相关性,即可以对当前信息资源管理研究领域加以归类分析,明确研究的进展方向。利用SPSS的多维尺度分析功能,对提取的高频关键词进行聚类分析。原始关键矩阵统计的是绝对值,不能充分反映词与词之间真实的相互关系,需要对原始共词矩阵进行包容化处理,形成相异矩阵和相似矩阵。准确反映关键词之间的紧密关联程度。由于高频关键词相似矩阵中含O较多,为了便于SPSs统计分析,将相似矩阵用1相减,得到相异矩阵(见表3)。将相异矩阵通过SPSS的多维尺度分析后得到关键词共词聚类图谱(见图1),其中,图谱中距离中心越近的节点越能代表研究的核心地位,而节点间的距离越近则表明它们之间的相关度越大。

  共词聚类图谱中,图书馆、情报学、电子政务、信息技术、政务信息距离中心最近,目前处于信息资源管理研究核心地位的仍以信息技术、图书馆、电子政务为主。从图中节点分布的大致位置可以判断信息资源研究内容大致可以分为3类:第一类是信息技术与传统信息服务相结合的研究,包括以信息技术为依托的图书馆信息服务、政务信息资源服务。第二类是以图书馆学为主的学科发展研究。第三类是以电子文件管理为主的信息资源管理学的研究。

  2.4 社会网络分析

  为了避免对角线词频与其它词频相差过大而影响分析效果,引入0cbiia相似系数对共词矩阵进行处理,即把两个关键词同时出现的次数做分子,两个关键词各自出现的次数的乘积做分母。不用考虑没有引用这两篇论文的其它论文。经处理后得到高频关键词相似矩阵,见表4。相似矩阵中的数值越大,说明两者的关系越紧密,两者的相似度越大。

  为了对共词网络进行分析,将构造的高频词相似矩阵导入社会网络分析软件UciIlet中,得到共词网络图(见图2)。从图中我们可以直观的看出:第一,信息化建设、信息资源整合等处在网络的中心位置,表明这些关键词与其它关键词共同出现在同一篇文献中的次数最多,在信息资源管理领域处于核心地位,即其他研究领域都是围绕着这些核心展开的。第二,政务信息、公共信息资源、档案管理、政府信息、图书馆、数据库、数字图书馆等研究对象处在网络的中间位置,它们是联系网络边缘与核心的桥梁,由此可见信息资源管理目前研究的对象主要集中在图书馆和政府两个领域。第三,网络资源管理、电子资源、网络、元数据、电子商务等词处在网络的边缘节点,表明了它们是当前信息资源管理研究的热点,虽然这些节点之间的联系比较稀疏,但它们更多的是通过中间节点作为桥梁与核心节点进行联系,目前以现代信息技术为对象信息资源研究成为研究热点。

  2.5 中心性分析

  中心性分析是社会网络分析的一个重要概念,是关于社会网络中行动者中心性位置的测量概念,反映的是行动者在社会网络结构中的位置或优势的差异。集中常用的中心度包括点度中心度、中间中心度、接近中心度。Lee,W.H研究发现,在一个共词网络中,网络中心性的点度中心度、中间中心度和接近中心度3个指标不但可以发现某一研究主题当前的研究热点,而且还可以用于发现未来发展趋势[捌。在某一个学科领域,节点中心度较高的节点通常代表着当前的研究热点;节点中心度和接近中心度两项指标较低,而中介中心度指标较高的节点代表着新兴的发展趋势。

  本文利用UdIlet,计算出了各关键词的中心度(表5),各关键词平均密度为19.712,整个网络的平均中心度为36,大于平均中心度的关键词有19个,表明这19个关键词在网络群众拥有最强的影响力。

  点度中心度在本文中反映的是某一个关键词与其它词是否同时出现在某一篇文献中,如图书馆、电子政务的中心度都是74,表明他们与网络中的74个关键词至少同时出现在某一期刊论文中,中心度越高,反映其在网络中的地位越高,越有可能是研究的热点。

  中间中心度在论文中表示网络中某一个关键词影响其它关键词共同出现在一篇期刊论文中的能力大小的指标,从表2中可以看出“信息资源”、“电子政务”、“信息技术”等11个词的中间中心度与其它词相比,显得比较突出,表明在信息资源管理研究领域,这些关键词影响其它词是否共现的能力很强。

  接近中心度是衡量网络中某一个节点不受其它节点约束的能力。接近中心度计算的节点与其它节点的距离越短,则表明该点越容易到达其它点,接近中心度越小的节点在网络中越处于核心地位。在表2中的“信息资源管理”、“图书馆”、“电子政务”、“信息服务”、“知识服务”处于网络图中的核心地位。

  点度中心度较高的几个节点的中间中心度的走势与其大致相同,表明信息资源、电子政务、信息技术、信息服务既是当前的研究重点,也是其它领域研究的桥梁和纽带;中间中心度和点度中心度较高而接近中心度较低的点有信息资源、电子政务、信息技术、信息服务、信息资源共享、信息资源整合,表明以信息技术为中心,信息资源整合和信息资源共享作为信息服务中的关键环节将会成为今后一段时期的研究方向。综上所述,信息资源管理研究仍以信息服务为核心,而依托信息技术,由传统图书馆的信息资源管理向数字图书馆、电子政务、网络的信息资源研究的转变可能是未来的发展趋势。

  3、小结

  本文以信息资源管理为主题收集了CNKI数据库近五年所刊载的研究论文,以论文的关键词为研究对象,对关键词进行词频统计,获得高频关键词,建立高频关键词矩阵,并进行包容化处理,得到相似矩阵和相异矩阵,通过对共词矩阵的共词聚类分析、网络分析和中心性分析,从可视化共词结构和多维尺度聚类两个角度对我国信息资源管理研究前沿进行了探讨,认为传统研究领域如图书馆、政务信息、企业信息资源管理等将继续引领学科研究方向,数字图书馆、电子政务、电子商务等依托现代信息技术的新型信息资源管理研究将成为热点。因此可以说明在信息技术和通讯技术的引领下,以信息技术和网络为核心的虚拟环境下的信息资源的整合、组织和服务将成为信息资源管理的学术研究趋势。

  聚类分析论文篇8

  关键词:聚类分析算法 应用研究 算法描述

  中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)10-0143-01

  聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。

  1 聚类分析算法

  根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:

  目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:

  根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。

  2 K―means聚类分析算法描述

  对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:

  第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。

  第二步:数据准备。计算各科标准差:

  第三步:计算各初始聚类中心。

  第四步:计算与聚类中心最近邻的数据对象,并合并成新类。

  第五步:重新计算聚类中心值。

  第六步:验证聚类收敛性。

  if 聚类中心值o新变化

  结束聚类 else 转入第四步 endif

  第七步:进行各个类数据分析。

  3 结语

  总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。

  参考文献

  [1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).

  [2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).

  [3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).

  [4]许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).

  收稿日期:2016-08-18


标签:分析研究关键


相关推荐

最新推荐

关灯