网络舆情分析系统 网络舆情分析系统篇1
作者:admin 发布时间:2023-10-06 06:33:26 分类:随笔 浏览:83
微博,即微博客,源自于英文单词Microblog。作为web2.0的产物,微博属于博客的一种形式,但单篇的文本内容通常限制在一定范围内(国内通常为140个汉字),使用户能够通过微博融合的多种渠道(包括网页、手机、即时通讯、博客、SNS社区、论坛等) 文字、图片、视频、音频等形式的信息,具有内容碎片化、使用方式便捷、传播迅速、交互性强等特点。
2010 年以来,互联网继续成为舆论超强磁场,其中微博已成为舆论发酵并放大的主要平台之一。微博是近年来网络上出现的新兴媒体形式,它综合应用网络、无线通信等技术,方便地满足了用户随时随地进行沟通的需求。我国微博总体上处于起步阶段,但发展速度迅猛。据统计[1],2012年1月,据中国互联网络信息中心(CNNIC)报告显示,截至2011年12月底,我国微博用户数达到2.5亿,较上一年底增长了296.0%,网民使用率为48.7%。微博用一年时间发展成为近一半中国网民使用的重要互联网应用。有人说,2010年是中国的微博元年,那么2011年就是中国的微博壮年。2012年5月16日[2],新浪公布未经审计的第一季度财报显示,新浪微博用户数已增至3.24亿。一种传播媒体普及到5000万人, 收音机用了38年,电视用了13年,互联网用了4年,而微博只用了15个月。作为一种新兴的传播载体,微博不仅在中国社交网络中占据领先地位, 更成为中国最具影响力的主流媒体之一。
网络舆情是指通过互联网或者其他网络手段传播出的广大公众对于现实生活中存在的某些焦点、热点问题所持的有较强影响力和倾向性的言论及观点。开通微博、建立专区留言板,新闻跟帖,BBS论坛,都已经成为了群众与组织展开交流的重要手段,这些网络手段的确起到了一定的交流作用。
网络自身具有虚拟性、隐蔽性、随意性和渗透性等特点,广大用户都很乐意通过这些渠道参与到各种话题的讨论中去,尽管起到了一定的积极作用,然而一旦引导不利,产生一系列的负面的网络舆情就会严重的威胁到社会大环境的安全,甚至会对公共环境的发展起到消极作用。这就要求要加强对于网络舆情的及时监测和有效的引导,并且及时的关注网络舆情的负面危机。这对于维护社会安全发展,稳定民情民心有着重要的作用,对于促进国家的发展与进步更是有着重要的现实意义。
从当前网络舆情的传播速度来看,爆炸性消息3小时之内就能够迅速被各大论坛转载,6小时内就有可能已经出现在各大新闻网站的网页上,那么可想而知,24小时之后,关于新闻事件的追踪和跟帖就会使其成为热点事件,并且很有可能在网络上掀起舆论讨论的热潮。所以对于有关部门来说,能够在第一时间掌握哪些是热点舆情,哪些有可能在短时间内发展成热点舆论,哪些又会对社会安全造成影响是十分必要的。
舆情分析系统就是在这样的背景下产生的,网络舆情分析平台是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机分析的系统统称。通过这个系统,能够让我们有效的对网络舆情进行预警和应对。这个系统的产生在一定程度上解决了一些网络舆情带来的负面影响。
2微博对于网络舆情研究的价值
网络舆情研究一直被国内外研究组织重视,主要目的是对于海量网络信息,分析出隐含在其中的舆情动态,挖掘网络的热点、焦点和敏感话题,其核心技术主要包括文本分类与聚类,主题检测与跟踪等。但近年来,特别是web2.0业务普及应用以来,网页所带来的交互性、动态性,待抽取内容的多态性等使得没有一个系统的工具可以适应所有的信息提取需求。
微博具有以下几种特点:
1)微博是一种新兴的网络媒体,与以往的博客有较大的不同。首先,从传播效果来看,微博以传播广度为主,与博客有很大不同(以传播深度为主)。其次,微博的聚合度非常高,能够快速的吸引十几万人的关注。第三,虽然博客也有交互,但博主是主体,访者对于博主的影响极其微小,而微博是信息的汇聚点,同时信息和接受信息。
2)微博聚集了大量的用户群体,它是一种允许用户及时更新的简短文本,允许任何人阅读或者只能由作者指定的群组阅读。因此,利用微博可以方便地、获取即时信息,构建与维护人际网络。同时,微博具有跨平台、跨网络、跨业务、跨网站的技术特征,且承载多样化的网络应用,使得微博上聚集了大量的用户群体。
3)微博加速和扩展了信息传播。微博用户可以将自己的微博与手机绑定,随时随地更新信息,不再受时间与空间的限制,使得信息传播更加及时,特别是对突发事件的报道和反馈。2011年5月,一个名叫厄本的人在微博上率先美军击毙本﹒拉登的消息,厄本在政治以外的其他领域的知名度并不高,但迅速赢得1000多名粉丝,1分钟内这条消息被转发80次,2分钟后,有300多人转发了厄本的消息,引发了这条消息的大爆炸,可见微博这一新兴媒体对信息的传播能力是十分惊人的。
因此,微博拓宽了信息传播的渠道,对经济的发展、社会的进步、科技的普及起到了积极的作用。但另一方面,随之产生的负面问题也越来越突出:
1)反动、淫秽、迷信、暴力等有害信息在微博上传播,严重危害了国家和社会的稳定。
2)社会突发事件经微博快速传播后,造成网络上的小消息流传,容易引起公众的不理性判断和行为混乱,从而酿成严重后果。
突尼斯“茉莉花革命”,正是利用微博这一新兴媒体,由推手在其中推波助澜,没有得到政府足够的重视,使得一个普通事件的影响力无穷的放大,最终导致突尼斯政局大变。
虽然微博业务得到了快速应用,但对微博的研究目前还不多,主要集中于从心理学、传媒学的角度分析网络新业务。从社会需求,其信息提取与舆情分析技术急需重视,如何从微博空间获取重要的信息对于当前舆情分析领域是非常重要的研究课题。
3基于微博的网络舆情分析系统设计
整个系统由微博信息爬取、文本预处理、微博特征表示与提取、话题发现和舆情分析等几个部分组成,下面将分别介绍。
3.1文本预处理
微博文本的预处理包括网页的爬取,分词和停用词的处理。
3.1.1网页爬取
目前对微博的收 集工作主要由爬虫程序来进行,但由于数据量过于庞大,爬虫效率已达不到实时信息收集的要求,因此需要一款软件来指导爬虫程序运行,去有目的的收集应该值得关注的微博人群的情报,而不是在海量数据中漫无目的的搜索。
3.1.2分词
对文本进行分词是预处理的重点,中文分词与英文分词是不同的,英语单词与单词之间用空格作为分隔符以便对语句进行识别,而中文的排列方式是根据不同的汉字组合实现的,字与字,词与词间无明显分隔符,要让计算机识别中文信息就必须对中文文本进行必要的分词。目前最常用的中文分词技术[3]为字符串匹配分词方法和基于统计的分词方法。在上述理论推动下,中科院计算所开发出了较好的汉语词法分析器:ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)[4],其主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典。目前该版本已经升级到了ICTCLAS2012。ICTCLAS2012分词速度单机达到996KB/s,分词精度98.45%,API不超过2M,各种词典数据压缩后不到3M。本文将使用该开源系统用于微博信息的分词。
3.1.3停用词过滤
停用词是与微博内容不相干或者对理解微博不起作用的词,如“哦、啊、了”等语气词还有一些频率过高或者过低的词。据研究,中文语句中高频的停用词占到文本语句的30%-50%。在实际的算法应用中,这些没有实际意义的词不能作为文本的特征项对分类结果产生作用,若不处理这些停用词将对后续算法的效率产生影响。我们采用“停用词库”的方法来处理停用词,停用词库中包含了一些经常被去除的高频停用词,如“的”、“我”等这些具有很高的文档频率和非常低的反文档频率的词语。
3.2文本向量表示与提取
3.2.1文本向量表示
例如:如果想要在多篇微博中得到AI这个特征项,那么某篇微博M中“AI”会出现很多次,因此“AI”在这篇微博里面的TF会很高。然而我们库中里面的N篇微博并不是每一篇都在讲AI,因此“AI”可能只有在 N 篇微博里面的某 3 篇文章出现,因此 DF 只有 3,IDF 变成 0.33,假设我们 N=100 有 100 篇微博,常见词像“the”在每一篇都出现,DF 就是 100,IDF 就是 0.01。所以“AI”的 IDF 会比“the”的 IDF 高,假设这篇微博M中“AI”和“the”两个字出现的次数刚好一样,乘上 IDF后,“AI”这个字的分数就比“the”这个字的分数来的高,就会判断“AI”是这篇文章重要的特征词,而“the”这个字并不是这篇文章的特征词。
3.3热点话题分析
在固定时间周期内通过微博的信息流中,一组内容相同或相近,参与者数量超过一定阈值的微博所涉及的话题内容,称为微博热点话题MBHT(Microblog Hot Topic)。
微博话题形式化描述为[5]:MBT=(MS,N,T,MF)。其中MS(Microblog Set)表示非空的微博信息集合;N表示参与者个数;T表示微博消息发生的时间跨度;MF(Microblog Feature)表示抽取的微博特征词表。
根据热点话题的定义,每次热点话题提取和分析的对象,是时间跨度T内微博的集合,表示为CM,MS∈CM。因此微博的话题发现就是基于微搏内容的归类处理,每一类微博就能说明用户群所关注的一个焦点,即热点话题。
在微博内容的划分上,由于微博数量巨大且内容复杂,并且在研究中没有先验学习语料,所以不能直接通过有监督的文本分类方法来获得归类后的微博子集合。因此类别特征能被视为话题的对应体,通过计算每个微博话题的特征词表就能够发现这段时间内微博中的热点话题。
在无监督学习条件下直接获取每一个话题对应的特征词表是不现实的,可以通过词频统计[6]的方式发现整个微博流中的特征集合,根据内容关联度对这个特征集合进行划分就能得到每个微博话题对应的特征词表,每个特征词表对应一个话题,通过这样的方法完成微博的话题发现。
3.4基于话题发现的舆情分析
微博的每个话题对应相应的特征词表,根据特征词表中构建话题数据库,继而对其进行传播态势分析,社会关系分析以及倾向性分析。
1)基于热点话题的微博信息传播态势分析
首先,微博中存在着海量信息,但往往很难快速提取有用的舆情信息。对微博信息进行数据结构化分析,并对数据进行处理,过滤掉重复的内容,统一对象模型,最后进行信息提取。其次,构造微博热点话题的传播态势模型,即根据提取的热点话题关键信息,研究微博信息的传播在网络空间到地理空间的映射,在时间标度下,该热门话题空间区域内的分布,以何种速度传播,影响哪些地域范围,形成时间、空间二维传播态势模型。
2)基于热点话题的社会关系分析
从微博的粉丝、关注、信息反馈、信息传播等关键信息可以看出,微博网络可以映射到社会网络拓扑结构,通过对微博人际关系结构特征的研究,统计出社会网络中个体的链接度、个体之间的连接关系等特征。通过分析这些个体节点间的交互关系,挖掘出微博空间中的关键人和关键事件。
3)基于热点话题的倾向性分析
在包含主观情感倾向的微博中,用户对于话题的态度可以是赞扬、抨击或者支持、反对或者高兴、沮丧,对于这些情感状态,我们将之统一分为正面,中立和负面三个大类,其基本划分标准如下[8]:
1)正面:描述内容持肯定态度,带有称赞、歌颂或哀悼、惋惜等语气。
2)中立:相关事件的客观报道或者描述。
3)负面:描述内同持否定、质疑、讽刺或者抨击、痛斥、鄙视等色彩。
微博话题倾向性分析在于总结和分析微博文本语句中,用户对热点话题所持有的态度,态度主要体现在微博消息中的主观句中,而主观句又是由态度词构成,态度词可以理解为极性词,即感情色彩的词。情感词基本都是类似“喜欢”,“讨厌”等形容词或者副词,再加上否定词“不”、“非"等就能基本反映一段话所包含的用户观点。分析过程可以先人工建立一个褒贬词库作为判断基准,从而与态度词进行相似度对比,词与词的相似度反映其语义相似度,继而通过语义的相似度计算得到微博信息的倾向。
4结论
基于微博的网络舆情分析系统能快速找出值得关注的微博用户群,并将关心的某个热门话题在地理空间上的传播情况直观的展现出来,在茫茫海量微博信息下,能够为相关用户快速发现话题,锁定目标,进行舆情分析,提供有价值的军用或商用情报。因此,研究微博用户的人际关系和传播态势对分析网民用户感情、生活、态度等价值很大。在微博上利用话题发现与追踪技术对内容按主题的分类以及实现对特定话题的追踪以掌握民情将引起广泛的关注。
参考文献
[1]百度百科.微博[EB/OL]
[2]维基百科.新浪微博 [EB/OL].新浪微博
[3]孙茂松,王洪君,李行健,等.信息处理用现代汉语分词词表[J].语言文字应用,2001,(4):23-28.
[4]ICTCLAS[EB/OL].
[5]黄美璇.基于主题发现的舆情分析系统的设计与实现[J]. 北京联合大学学报,2012(2):34-36.
[6]唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2 010(7):79-81.
[7]蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009(2):233-241.
[8]杨震,段立娟,赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010(5):669-673.
[9]王淑群.影响网络信息检索的因素与对策[J] .图书馆论坛,,2006(2):197-199.
网络舆情分析系统篇2
>> 基于电视传媒热点的网络舆情分析系统研究与设计 基于数据挖掘的高校网络舆情分析系统设计与实现 基于微博平台的舆情分析研究综述 基于Java实现网络舆情分析系统的研究与实现 网络舆情分析系统功能研究 基于微博的舆情监测与分析的研究 MNPOS:军事网络舆情分析系统研究 网络舆情分析系统中的支撑技术研究 基于Web数据挖掘的网络舆情分析技术研究 网络舆情分析师的社会责任 网络舆情分析中的文本聚类算法 医患关系问题的网络舆情分析 基于微博的大学生网络舆情监控与引导机制初探 基于微博的高校网络舆情社会影响力评价研究 网络舆情分析与监测研究 网络舆情智能检测与分析系统的设计 微博时代网络教育舆情的内涵及特点 政务微博的网络舆情引导探究 基于微博的企业客户互动系统的设计 基于微博社交网络的信息传播分析 常见问题解答 当前所在位置:
[2]维基百科.新浪微博 [EB/OL].http:///zh-cn//新浪微博
[3]孙茂松,王洪君,李行健,等.信息处理用现代汉语分词词表[J].语言文字应用,2001,(4):23-28.
[4]ICTCLAS[EB/OL].http://.
[5]黄美璇.基于主题发现的舆情分析系统的设计与实现[J]. 北京联合大学学报,2012(2):34-36.
[6]唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010(7):79-81.
[7]蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009(2):233-241.
[8]杨震,段立娟,赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010(5):669-673.
[9]王淑群.影响网络信息检索的因素与对策[J] .图书馆论坛,,2006(2):197-199.
网络舆情分析系统篇3
关键词:舆情分析;中科院中文分词算法;权值算法;情感倾向性;中文情感分析
中图分类号:TP393.09文献标识码:A文章编号:1007-9599 (2012) 06-0000-02
现代网络社会纷繁复杂,通过各大网站,例如:百度贴吧、天涯论坛等等一些地方可以看到网民对于各种新闻时事的评论和意见。所以网络中的评论内容是对于抓住民众舆情倾向的一个宝贵财富。民众舆情是人民群众通过表达自己的意见而可以预见未来事务的发展走向。因此,能够抓住并分析民众舆情,是可以为解决和分析更多未知社会事件奠定了基础。
通常情况下,在某个事件发生之后,网民们会通过各种途径了解事情的来龙去脉,一个短短的贴吧帖子,往往会引来数以千计的留言和评论。在现代信息传递水平高度发达的年代,网络评论内容的情感倾向性:支持、反对或者中立,就能够体现我国民众绝大部份比例的态度。总而言之,人民群众在网络发表的意见往往是对事件的后续发展与走向起到相当重要的作用,所以能够提取民众意见和分析民众意见来的尤为重用。
因此,选择爬取网民经常访问的网站是一个非常有效的获取民众舆论的方法。针对百度贴吧、天涯论坛、猫扑论坛的评论爬取是获取主流民众热议事件及其评论的有力之道。而通过分词水平较为准确的中科院分词方法,能够首先对爬取下来的评论进行预处理。再经过中文情感分析的处理之后生成统计数据,为需要舆情分析的客户提供有效把握民众舆论走向的信息。
一、舆情搜索系统设计
(一)系统用例设计
当客户通过登录此舆情分析与监测系统时,可以拥有通过搜索查阅帖子的权力和生成情感倾向程度图表的权力。因此,本系统主要实现功能即为:(1)搜索查阅帖子。(2)生成情感倾向程度图表。而管理员角色的设置是为了调整搜索内容以及管理客户信息。因为此系统为较敏感的管理工具,因此不能预设客户注册功能而只能通过管理员后台分配用户名和密码信息于客户手中,为了保证信息安全性和系统可靠性。
(二)系统功能模块设计
本系统主要实现三个功能:内容爬取、帖子搜索和中文情感倾向性分析,而中文分词部分使用流行且准确性高的中科院中文分词算法,故此功能不再赘述。由于是大体功能已知的系统设计,故选择增量式模型进行系统设计和开发,在完成主要核心功能的同时为将来可能增加的功能留有空间和接口,以方便维护和升级。
1.内容爬取模块设计
内容爬取模块顾名思义,系统自动对。话题的爬取采用Java开源组件和相关API实现的本地爬虫,情感分析方面使用基于情感词典的分析方法,并对特殊句式和特殊词汇进行处理。采用Struts2+Hibernate框架集成整个系统。
当模拟浏览器请求贴吧分类首页显示时,可抽取出贴吧主页链接信息,将贴吧主页链接信息和贴吧名可以顺序存入后台数据库中。然后,将此信息转入贴吧待处理队列中,可进行请求贴吧主页的要求并抽取帖子链接及下一页的链接。通过获得所需要的链接信息可轻松与互联网链接并抽取所需要的信息,继而得到:帖子正文信息、帖子回帖内容、帖子回帖数量以及可能的翻页链接信息。将抓取的有用信息顺序存入后台数据库中,那么第一步的帖子正文和评论内容爬取工作可告一段落。
2.搜索模块设计
搜索模块的功能设计是为用户服务的,所以功能的设计需要为用户服务。用户通过标题检索,输入的关键词通过中科院中文分词处理后进入到数据库的标题倒排索引表匹配,返回到前台处理并返回相应的标题ID。因为在先前步骤中已经完成了主题信息及评论内容的抓取功能,所以主要信息已入后台数据库中。当查询成功时,返回词ID,并将主题内容和评论信息显示在用户界面上;当查询不到主题时,返回失败信息。
搜索功能的实现主要利用了倒排索引过程实现。倒排索引是利用了现实中需要根据属性值来查找记录的要求设计。这种索引表中的每一项都包括一个属性值和具有该属性值的其地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。
3.中文情感分析设计
中文情感分析通过对评论内容的预处理,即利用中科院分词算法分词之后,与已存在的中文情感词典匹配,利用预先设定好的权值计算、叠加可计算出中文情感的倾向值 ,
( )(1)
为情感副词的值, 为情感词的值。当 >0时,情感倾向值为正,则表明此评论为支持;当
通过此中文情感权值计算算法的使用,可以为评论内容进行情感倾向性的判断和统计。当把所有关于此主题的帖子的评论计算后的情感词权值进行统计计算后,可提供最终的舆情分析数据和内容。
二、系统实现
系统的实现是利用现在流行的Java语言进行编写的。选择Java语言的好处是:(1)Java语言方便易学,面向对象的思想可以有效地实现功能模块化的编写模式。(2)开源的语言节省了成本的开支。(3)Java语言的成熟也为开发此系统提供了便利,因为参考资料的方便查阅简便了开发整个系统的流程。
通过基于SSH(Strust2+Spring+Hibernate)的成熟的开发架构模式,有效地节约了开发时间,并且使得此系统的架构完备且可靠性高,安全性高,极为适用于开发这样一款安全性要求高的舆情系统中。
(一)搜索模块的实现
通过根据搜索模块设计得到设计模型,可以利用Java语言对其进行编程实现,通过利用较为高效的倒排索引算法,可以有效提高搜索效率。使得此系统在面对网络中如此巨大的信息量的同时,能够使得搜索时间保证在仅为1~2秒左右(实验数据得出),增强了本系统的可用性和用户友好性。
(二)中文情感分析的实现
通过将基于权值的情感分词算法的Java语言编程实现,内嵌于本系统之中,当系统抽取到网络评论之时,经过中文分词的处理之后,到后台的情感倾向词典匹配权值,再进行权值叠加和情感副词的相乘,可以对其进行情感分析处理。
在情感词典中,所有支持性词,例如:“好样的”,“喜欢”,“聪明”等词的权值为正,而反对性词的权值为负,其他一般词汇的权值为0。情感副词如“很”,“更”等等会单独设立词典,当句子中有此类词语时,会对这个情感副词后面紧跟的词汇乘以情感副词的权值。
仅仅在词语级别处理中文句子的情感分析是不够的,中文博大精深,对于许多句式的分析要单独处理。例如:转折句式、反问句式、双重否定句式等。正是这些特殊句式往往将一句话的内容观点相反化。例如:“我喜欢”与“我不是不喜欢”的句意是一样的。所以单独列出特殊句式处理模块,进行句子处理是非常有必要的。例如,当检测到句子为转折句式时,会将转折词后的权值加重处理。经过每个句式的分析和验证,本系统的情感分析准确率达到70%左右。情感分析统计的实现如图3。
图3
三、有待改进之处
首先,本系统只实现了基本核心功能,如果要开发出成熟的舆情分析系统还需要增加其他一些必备功能,例如:帖子比较、评论者搜索等。其次,本系统的中文情感分析的准确率还有待提高,中文情感分析的算法还需要进一步的优化和改进。最后,本系统只适用于普通的论坛贴吧,对于具有专业性强的网站分析不能适用。
四、结束语
当前中国的经济高速发展,网络建设不断提高,能够使用网络发表自己言论和主观的人数越来越多,为了能够保证一个健康和谐的网络环境,舆情分析系统是当前最有利的网络舆论监测者,是一个为保证网络健康发展的有利工具。发展和研发舆情分析系统是应用性强,可用性高的一个方向。
参考文献
[1]GAO C;WANG J;HE Y Efficient mining of frequent se-quenec generators 2008
[2]MATSUMOTO S;TAKAMURA H;OKUMURA M Sentiment classification using wordsub-sequences and dependencysub-trees 2005
[3]JINDAL N;LIU B Identifying comparative sentences in text docu-ments 2006
[4]姚天蚄;程希文;徐飞玉文本意见挖掘综述[期刊论文]-中文信息学报 2008(03)
[5]LIU B;HU M;CHENG J Opinion observer:Analyzing and compa ring opinions on the Web 2005
[6]YI J;NASUKAWA T;BUNESCU R Sentiment analyzer:Extracting sentiments about a given topic usingnatural language processing techniques 2003
[7]JINDAL N;LIU B Opinion spam and analysis 2008
网络舆情分析系统篇4
关键词:电视传媒 网络舆情 设计
中图分类号:TP393.09 文献标识码:A 文章编号:1007-9416(2013)09-0166-02
目前,网络舆情监测与分析技术与媒体传播理论与实践技术相结合的应用尚处于起步阶段,舆情分析技术还处于兴起期,专门针对电视台关心信息的解决方案还没有,已有研究人员提出的多种分析技术还有待改进。
本文针对电视传媒热点,进行了基于电视传媒热点的网络舆情监测系统的研究,主要研究内容包括以下两个方面:一是获取技术的研究,保障信息获取的快捷性和准确性,从而适应网络舆情监测的分析和需要;二是进行了话题层次上进行互联网舆情信息监控的发现模型的研究改进,该模型应能高效获取电视台所关心的网络信息,具有较高的分类准确性、较高的效率和较高的智能化程度,能将热点话题进行自动分类,使得对网络新闻、网络舆情信息进行及时的跟踪和关注十分方便。
本文的研究实验基于以下框架进行(图1)。
本文以红网、华声论坛等为监测对象,2013年7-9月期间进行了关于电视传媒热点相关信息的监测与分析。
1 数据采集阶段
在数据采集阶段,采用垂直搜索引擎,使用WEB挖掘技术,利用主题爬虫对网站进行监控和采集,采集得到的网页存入数据库中。本文分别根据不同网站和论坛的特点,以栏目为出发点,递归向下获取文章列表、子栏目列表,再获取相应的回复。本文利用论坛在主帖列表页面中提供的回复数与点击数,结合Web信息提取模块的功能,将回复信息数进行提取,与曾经提取过的信息数量进行比对,通过差值可以获得上次的采集断点所在的页数,然后直接转移至含有未采集新数据的页面,对主帖与回帖进行增量的采集。这种智能更新策略避免了带宽与计算资源的浪费(表1)。
在信息提取功能模块,本文对爬取的网站数据,随机抽取300条信息,分别提取标题、内容、回复数、点击数、作者、日期等信息,并经过人工查看提取字段内容的正确性。Web信息提取功能测试结果见(表2)。
在本次测试过程中,论坛采集部分可以做到100%的采集率,新闻部分,有部分提取失败。主要因为网页和数据本身错误,导致页面无法访问。
本系统的爬虫模块与一些全自动识别与提取Web信息的爬虫系统相比,具有灵活高效的特点。本文通过人工识别网站结构,灵活的增加或减少提取种类,使得本系统的提取程序较自动识别的提取方式准确度更高。缺点是不能智能解析未知结构网站,需要首先进行爬取网站的人工分析,因此不适合所有网站的网络爬取。
2 分析处理阶段
在分析处理阶段,系统从数据库中读取数据并送入分析流水线进行分析。本文根据文章、话题、词汇之间的关系(文本选择话题服从Dirichlet分布,话题选择词汇服从多项分布)建立潜在语义模型,再通过辩分推断,结合吉布斯推断技术手段,确定语义模型参数,将模型参数学习出来,从而确定文章所讨论的话题,以及话题所包含的词汇,从而实现在话题层面对文章的分类分析,分析结果将存入Oracle数据库,并传递给下一个分析引擎(或人工判读),直至全部处理,得到归类舆情与监控信息。
其中,为发现舆情热点,本文基于信息指纹提取功能计算文章转载的情况。信息指纹功能测试结果如(表3)所示。
通过对事件文章在各个媒体中转载次数的对比观察,我们能非常直观了解该信息内容的热度。通过运行测试的出的结果与实际情况进行比较,系统的功能是令人满意的。系统以电视台关心的节目、主持人、新闻事件等信息内容为中心而设计,能够达到平均80%的准确率,满足用户的要求。
3 结语
本文主要针对华声论坛、金鹰微博、红网论坛等有名的网站进行了实验研究,通过对湖南电视台所关心的特定信息的抓取,并结合湖南电视台对网络舆情信息的需求进行数据的挖掘处理,以直观数据及界面形式,为用户提供准确、快速的新闻素材、网络舆情情感分析、倾向性分析、节目反馈信息和公众人物的舆论信息等(图2)。
网络舆情分析系统篇5
网络舆情分析师的起源与定义
从2008年开始,国内网络舆情监测与研究机构开始大量出现。舆情业务领域的人才也成为稀缺资源。国内大量党政机关、大中型企业、研究机构和新闻媒体的舆情监测部门纷纷设立,“网络舆情分析师”成为新闻和互联网行业的朝阳职业。
网络舆情分析师专职从事互联网信息监测、舆情态势分析、舆论环境研究、网络危机处置等工作,为各级党政机构、企事业单位以及个人提供互联网信息监测、分析和咨询服务。他们每天浏览成百上千个网页,对突发公共事件和热门话题如数家珍,熟知网络流行语和热门段子,从海量的信息中挖掘有价值的信息,准确及时地反映社情民意,预测舆情走势,迅速把握热点,帮助有关部门及时准确地把握民意脉搏,咨诹善道、察纳雅言,发现基层社会矛盾,提示政府及早发现问题,有效化解危机。
网络舆情分析师的基本能力
网络舆情分析师可以说是“一专多能”的“杂家”。舆情分析遵循“三结合”工作模式,即定性与定量、软件与人工、分析师与专家会商结合,这个过程中往往要交叉使用到新闻传播学、社会学、统计学、公共管理学、法学、计算机等多方面的知识。从舆情分析业务出发,网络舆情分析师应掌握六大基本技能:网络信息挖掘能力、概括剖析能力、抽样统计能力、语言表达能力、舆情走势预测能力和舆情对策研究能力。
网络信息挖掘能力。网络舆情分析师的首要任务,是从海量杂乱无章的网络信息中挖掘出可能演变成网络舆情的话题和热点,并及时参与讨论和观察,注意保存各种有价值的信息动向和观点言论,为舆情抽样和分析工作积累重要的鲜活元素。一般情况下,网络舆情信息来源于四个渠道:一是互联网言论,众多知名新闻综合网站、舆情多发网站、草根网站,每天都在大量关于时事政治、经济生活、社会民生、反腐败、社会道德、教育与就业等方面的新闻信息,甚至有些网站提供新闻跟帖功能,可能某一个新闻热点就会引发公众的兴趣点,出现大量评论和热议的情况,成为舆情信息;二是传统媒体网络版,报纸、杂志等传统媒体纷纷建立网络版,方便公众阅读,同时传统媒体与网络媒体利用各自的信源引导舆论,在意见的互动中共同完成了对社会热点事件的建构和传播;三是无线/即时通讯,移动电话短信群、手机移动网络、QQ群和MSN群,按照同学、同事、同乡或同好来组成一个个小的交流圈;四是新兴社交型媒体,论坛、博客、微博、微信等社交平台,首先有发帖人发帖,继而引发热烈跟帖,受到广泛关注后形成舆情信息。
概括剖析能力。通过网络监测获得海量网络信息源后,需要对这些信息源进行分析和研判,从中提取出与事件相关的舆情信息,然后概括剖析舆情信息的时间和空间分布情况、倾向性和发展态势等情况,以准确得到网络舆情选题的类型、标准、定位和途径。识别热点信息,可以根据新闻出处权威度、评论数量、发言时间密集度等参数,识别出给定时间段内的热门话题。或者根据信息的转载量、评论的回言信息时间密集度来判断。实际上,要准确概括剖析出网络热点,网络舆情分析师必须懂得中国网络舆情的复杂性,懂得转型社会中网络舆情的公共性,懂得舆情研究和分析对推动社会进步的重要意义。他们对公众情绪要有敏锐的体悟,对网络文化要有贴切的观察,对刻板印象要有深度的理解,对社会心理要有深度的把握,对网络舆情要有理性的认识。
抽样统计能力。网络舆情师分析一方面通过经验人工处理舆情信息,另一方面需要熟练使用一种或多种网络舆情监测系统,完成网络舆情的抽样、统计、分析和模型制作,已达到更加科学准确的分析结果。一般情况下,网络舆情检测系统包括三个子系统:一是舆情分析引擎子系统,它是系统的核心,主要包括热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析、突发事件分析、报警系统、统计报告等功能;二是互联网信息采集系统,该系统采用元搜索与信息雷达技术,智能信息抽取技术主要是针对特殊客户进行特定领域的信息采集;三是搜索引擎数据管理子系统,该系统完成对搜集到信息进行预处理,对搜索引擎数据集进行阶段性的数据维护,支持系统多用户分级管理系统,包括用户逐级进行审核功能。
语言表达能力。一方面是书面文字表达水平,主要表现在网络舆情报告编写过程中。常见的舆情报告有社会热点事件、社会热点话题、中央部委形象、地方政府形象、企业形象及公众人物形象舆情分析报告。网络舆情分析师根据不同的报告形式和舆情特点,选择不同的文案结构和侧重点,做到文风简洁和严谨,格式规范,信息含量高,舆情分析研判和指导意见观点深刻,态度明朗,同时掌握文字、图形、表格、音视频等多种信息形式的表现方式,使舆情报告编写做到“言简意赅,美观整洁,深度解读,精益求精”,实现舆情报告的科学化、标准化、高效化和形象化。另一方面是口语表达能力,如在沟通、辩论、说服和演讲等方面,能够发挥组织协调作用,在舆情会商时,面对轻重缓急等各种局面均能灵活驾驭。
舆情走势预测能力。面对刚刚发生或正在发展中的各类舆情事件,网络舆情分析师需要对舆情事件的波及范围、时间性质和严重程度进行初步的总体性研判。网络舆情的宏观研判主要包括时空研判、民意研判和社会研判三个主要方向,三项指数之间存在着紧密的联系,其中任何一个指数出现大幅度攀升迹象,都有可能带动整体舆情压力的迅速上升。时空研判是对舆情是否发生在敏感时间和重要地点进行初步分析判断,考察国内媒体尤其是国内网民对于舆情事件的关注度,以及在网络言论中的实际反应。民意研判是在较短的时间内通过舆情宏观基本面的全面浏览和初步分析,以坚持客观、公正和负责的态度,对同一主体作出媒体报道与评论的倾向性和网络言论倾向性的分析考察,对舆情价值作出经验判断。社会研判是对于近期发生的舆情事件、话题和现象更具社会深度和广度的最重要的研判环节,一方面强调事实证据的可靠性和可验证性,防止出现捕风捉影的主观臆断,同时需要有充足的历史和舆情案例支撑以及舆情事件本身具体和真实的细节佐证。一方面强调社会学、统计学、公共管理学和新闻传播学等研判理论的科学运用。
舆情对策研究能力。一般情况下,突发舆情事件一旦爆发,就应积极处置,并把握以人为本、高速高效、依法处理、慎用警力、党政相应五大原则。在处置过程中,具体采用几种基本方法:一是迅速控制事态,抢抓时效,争取事态逐渐减弱,防止其蔓延扩大;二是坚持灵活的动态反应,了解事态起因,参与人群情况,有针对性的作出应对策略;三是统一行动,统一口径,精心组织部署,明确责任分工,时间处置和吁请工作联合行动,才能全面解决问题;四是政府响应及时,主要党政领导直接出面表态和对话,消除群众和舆论的误解和对立情绪;五是主导舆论导向,利用主流媒体,特别是网络媒体做好正面宣传报道,减少和消除不实谣言和传闻的负面影响;六是组织纪律约束,慎用警力,利用归属组织做教育工作,防止矛盾扩大化,尽量减少参与事件的人数和越轨言行;七是法律措施,利用执法机关依法处置,保护公民的合法权益,打击违法犯罪行为,取得舆论理解和充分认可,维护政府的公信力。
网络舆情分析师的社会责任
成为一名合格的网络舆情分析师,不仅仅要求其掌握全面的技术,还需要其具有较高的社会责任感。替谁看网、为谁说话的问题将直接决定网络舆情分析师的社会功效和存在的意义。如果网络舆情分析师能够摒弃个人主观意愿,完全站在第三方的立场,客观公正地表达舆情信息和公众诉求,那么对于捍卫网络秩序、规范网络舆论、维护社会和谐都具有十分重要的意义。但是如果他们受到某些因素干扰,或者受到某些利益诱惑,单纯以维护某些集体或个人的利益为重,掩盖真相、歪曲事实、诱导言论、主观臆断则会严重影响网络秩序,使舆情监管部门因未及时了解事件真相而错失最佳疏导时机,甚至有可能引发更大的社会矛盾。
保证网络舆情分析师这股力量不“变质”,关键是要培养其社会责任,使其树立稳定的人生观、价值观和职业观,将维护网络正常秩序作为工作的唯一职责和目标。网络舆情分析师应坚守“七条底线”:一是法律法规底线;二是社会主义制度底线;三是国家利益底线;四是公民合法权益底线;五是社会公共秩序底线;六是道德风尚底线;七是信息真实性底线。“七条底线”如七个砝码衡量着网络天平上每个人的网络责任和个人诚信、品质。“七条底线”更像一条法律准绳将长期维系网络传递正能量。
链接
网络舆情分析师,是现代社会一种崭新的职业,他们活跃在许多党政机关、企业以及专业学术机构中。他们每天浏览成百上千个网页,对突发公共事件和热门话题如数家珍,熟知网络流行语和热门段子,迅速把握热点,准确分析舆情,预测舆情走势,有效化解危机。在舆情分析师这个新职业群体中,虽然不乏搜索引擎专家、网络调查专家、统计高手、图表专家等“高技术”人才,不过,分析师们所需要的不仅仅是技术。
网络舆情分析系统篇6
〔关键词〕网络舆情;政府决策;情报服务;危机管理
1 开展网络舆情分析的必要性
1.1 网络舆情的含义
网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。
网络舆情的载体包括门户网站、新闻网站、贴吧、论坛、博客、微博等。通过门户网站、新闻网站传播的网络舆情主要是新闻媒体对社会管理者的政治取向产生和持有的政治态度,是经过媒体验证和包装过的舆论;通过贴吧、论坛、博客、微博传播的网络舆情主要是公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
1.2 网络舆情的特点
由于互联网具有虚拟、隐蔽、使用广泛等特点,在传播方式和效果方面不同于传统媒体,除具有社会舆情的一般特征外,网络舆情还具备以下几大特征:
1.2.1 突发性
网络舆论的形成往往非常迅速,事先没有征兆。国内外发生的某个事件,经网络披露后,数小时内就可能发酵成为有重大舆论影响的事件。如“7?23”甬温线特大铁路交通事故发生后,相关消息在微博中疯狂转发,迅速形成了强大的舆论压力,一定程度上影响了政府的决策。
网络舆情的突发性,需要政府时刻监控,才能快速作出反应。传统观点认为,官方处置突发事件有“黄金24小时”之说,即在事发24小时内权威消息主导舆论是平息事件的关键。然而,对于网络舆情,传统的“黄金24小时”法则渐显无力,人民网舆情监测室提出了“黄金4小时”法则,即在突发事件出现后,政府要在4小时内理清事实真相,完成各部门协调工作和信息披露文书。
1.2.2 广泛性
随着网络舆论对公权的审判泛化,任何领域都可能成为舆情敏感领域,如政府官员违法乱纪行为、食品安全、征地拆迁等。据统计,2010年的舆情关涉主体中,中央、地方政府机构及官员占了77%。这表明,政府及官员的行为时刻被社会公众“围观”,其行为或言论很容易引起整个网络空间共同反应。
由于政府管理的范围、领域较广,需要定期监测,才能及时发现苗头,制定应对策略,以避免在公开回应时考虑不周,在网络舆情中陷入被动境地。
1.2.3 难辨性
网络技术web2.0的发展,使得网民既是信息的接收者,也是信息的者,而网络信息的自由,导致信息鱼龙混杂,泥沙俱下,既有反映真实情况和民意的消息,也夹带着许多虚假信息、不良信息和非法内容,如造谣诽谤、恶意炒作等。同时,相关主体操控网络舆情向职业化、产业化方向发展,在许多网络舆情事件中,有组织地推进舆情传播的行为隐约可见。
舆情分析需要从海量庞杂信息中采撷精粹,帮政府相关部门读网,还原社会真实的矛盾构成。
2 网络舆情对政府决策的重要性
2.1 政府对网络舆情的重视
随着互联网的普及和网民数量的急剧增加,我国的公共舆论格局已经发生了很大变化,网络正以前所未有的速度影响着党和政府的治国理政。2008年6月1日,胡锦涛同志在视察人民日报社时强调:“互联网已成为思想文化信息的集散地和社会舆论的放大器,我们要充分认识以互联网为代表的新兴媒体的社会影响力”。2009年中共十七届四中全会明确提出要“注重分析网络舆情”,网络舆情分析逐渐成为了解民意的重要手段。
据《2010中国危机管理年度报告》披露,2010年影响较大的危机舆情事件,网络首发比例为67%,其中33%在事发当天曝光。随着网络事件的不断出现和网络民意的啸聚,传统的“捂”、“拖”、“删”、“压”等舆论管控模式和手段,在新的舆论格局面前失去了原有的效力。党委宣传部和地方政府应急办等部门纷纷建立网络舆情监测和定期报告制度,制定舆情研判机制和磋商制度,将舆情工作和政府决策紧密结合。
基于对网络舆情的重视,政府部门纷纷开通微博,与网民积极互动,制度化办理网民留言。2010年底,新浪微博上的政府微博有630个,而截至2011年7月,新浪微博上的政府微博共计5 467个,官员微博共计3 127个。
2.2 网络舆情分析应纳入决策情报服务
目前国内网络舆情监测与研究机构在2008年开始大量出现,主要有4类:第一类由软件公司和传统的市场调查公司成立,技术实力较为雄厚,抓取网络舆情数据能力较强;第二类依托主流媒体,如人民网舆情监测室、新华网,对时事热点和受众心理变化的敏感度较高;第三类背靠高校或学术机构,如中国人民大学舆论研究所等,这类机构善于归纳、梳理网络舆情的变化和特点,总结一般规律;第四类则由政府部门自身成立,主要监测群众对本地区、本部门工作的反馈,主要设在新闻办、宣传办等部门。
根据中国科学技术情报学会2008年起对全国200多家部级、省级、市级科技情报机构的调查显示,95.8%被调查机构的主要服务对象是政府。情报机构是为政府提供支撑服务的重要信息服务机构,为领导决策服务是其服务功能之一。针对政府部门舆情监测任务繁重、人手不足的现状,情报机构应把网络舆情分析作为决策情报服务工作的重要新方向,纳入政府内参工作系列,充分利用服务的渠道优势、人才优势和技术优势,开展网络舆情分析工作,为领导提供及时、客观、准确的舆情信息,帮助政府部门加强对网络舆论的及时监测,以积极化解网络舆论危机。
3 网络舆情分析的决策服务流程
3.1 准确分析需求
网络舆情需求分析是网络舆情监测的起点。开展网络舆情服务,需要准确把握政府的舆情需求,这是最基础、最重要的工作,需求分析不准确,虽然不至于“失之毫厘,谬以千里”,但在很大程度上决定、影响着网络舆情服务的质量、价值和意义。
从操作层面看,了解舆情需求的途径主要有两个:一是政府部门有明确需求,可以直接告知情报机构;二是全方位了解政府职能范围和工作重点,通过向政府部门提建议等方式进行沟通确定。由于网络舆情需求是动态变化的,需求分析工作不能一劳永逸,需要在服务工作中通过这两种途径的相互交叉不断调整。
(1)要根据政府部门的管辖范围和基本职能,梳理出网络舆情监测的基本框架,如地区范围、行业领域、舆情集中点等,用以指导网络舆情的收集和筛选,包括搜索关键词的设置、监测网站的选择等。
(2)要站在领导的角度、全局的高度,认真揣摩领导的决策需求。这要了解全党全国工作的全局,了解地区和部门工作的全局,了解当前工作的重点和思路,了解政府的“痛点”和“痒处”,才能更好地理解和把准政府的脉搏。
(3)情报人员还要有较强的新闻敏感和信息意识,能及时捕捉可能对社会稳定带来影响的各种倾向性问题,善于见微知著,以小见大,在表面的“平静”之中看到隐藏的“波动”。
3.2 全面抓取数据
面对繁杂的信息源,情报人员要充分认识信息源特征,熟悉各类信息源的价值所在,建立专门的抓取渠道,并设计出科学的搜集流程,形成通畅的、可靠的舆情汇集系统。
舆情信息的抓取目前有两种实现手段:自动抓取和人工搜集。自动抓取是借助计算机技术建立实时、自动的舆情监测系统,应用网络智能搜索引擎、文本挖掘、主题抽取和人际社会网络等信息技术进行海量信息搜索。人工搜集是多种方式相结合:一是反复设置不同的关键词,利用百度、谷歌搜索并筛选;二是建立专门的队伍浏览舆情主要来源网站,进行人工定期排查;三是聘用“网络调研助管”,密切关注舆情比较集中的论坛。
舆情信息的抓取是网络舆情分析的重要环节,如果是单纯的人工搜集,需要花费很多时间和精力,但另一方面,网络舆情监测软件/平台只能实现有限的人工智能,最科学有效的舆情监测模式是系统和人工的紧密结合。
3.3 认真分析舆情
提供网络舆情服务,信息的抓取和搜集固然重要,但更重要的是对网络舆情进行科学筛选、深度提炼、量化统计和分析研判,为政府提供针对性强、有重要参考价值的舆情,以推动实际问题的解决,这是网络舆情服务的核心价值所在。
从操作层面看,网络舆情热点的识别,可以根据新闻出处的权威度、评论数量、发言时间、密集程度等,识别出给定时间段内的热门话题。例如,反映某一议题的舆论在不同时间节点上的变化情况,反映某一议题的帖子的多少,反映某一议题的帖子在论坛总帖子中的比例,等等。
在识别出网络舆情热点后,可以对相关数据进行多维度的分析,例如,对信息的观点、主旨进行倾向性分析,如正面、中性、负面,各方不同观点等;对网络舆情在网络中的传播情况进行统计分析,如信息来源、转载量、转载地址等。
尽管以上统计分析功能大部分都能通过计算机实现,但计算机不能完全替代人脑,从某种程度上讲,舆情的分析很大程度上依靠人工分析。
3.4 及时反映舆情
搜集和反映网络舆情要迅速、及时,要早发现、早收集、早分析、早传递,注重时效性,任何一个环节都不能延误。及时的舆情监测和反馈,可以提高决策的针对性,有效解决苗头性问题;迟到的分析则会失去其应有的价值。特别是对于重大的网络舆情突发事件,更是要尽早发出危机预警。
危机预警能力的高低,主要体现在能否从每天海量的网络言论中敏锐地发现潜在危机的苗头,并依据相关性原理、相似性原理、可能性原理、延续性原理等,进行科学预测。越早预测出舆情危机可能爆发的时间,政府部门就有越充裕的时间来应对危机。
4 面向政府决策的网络舆情服务
为更好地面向政府提供网络舆情分析服务,需要根据政府部门的需求特点规划舆情周期,制定科学合理的舆情程序,设计网络舆情分析产品,如表1所示。
4.1 按周期分
舆情分析产品的提供周期需要根据具体政府部门的舆情压力而定。
舆情日报:每个工作日一期。每天定时对舆情热点进行筛选,对相关话题进行梳理和深度加工,凝练成“标题+摘要”的形式,内容包括当日舆情热点、媒体关注度、网民主要观点等,以短信或电子邮件的形式发送,有利于用户及时掌握每天舆情。
舆情周报/月报:每周/每月一期。定期提供每周/每月舆情综述、媒体关注度、舆论主要关注点、网友观点以及处置建议等,有利于用户准确、全面了解网络舆情,并能为决策者提供切实有效的应对建议。
舆情专报:不定期出版。采用“专事专报”的形式,针对某一重大突发事件提供阶段性或全过程舆情监测与分析研判,包括舆情概要、事件描述、媒体关注度、舆论主要关注点、网友观点以及处置建议等。
4.2 按功能分
日常监测:将网络舆情监测作为一项日常工作不间断进行,随时掌握网络舆论的导向、特点和趋势,一旦发现有不利于社会稳定的重大网络舆情,可以及时反馈到有关部门。
突发事件监测:突发事件社会影响大、给决策者思考的时间短,如果不及时准确获得最新信息并加以判断处理,产生的后果非常严重。对于突发事件,需要迅速对相关网络舆情进行监测,及时有效地汇集和分析舆情信息。
4.3 按服务范围分
普适类产品:为多个政府部门提供的舆情报告,一次形成、多用户使用,目前最具代表性的是人民网公开发行的舆情刊物《网络舆情》。这种产品的优点是可以充分发挥舆情报告的使用价值,降低监测成本。
定制类产品:为某政府部门定制的舆情报告,这种产品的优点是非常有针对性,能提供密切相关的舆情,但投入的资源较多。
4.4 按服务手段分
根据网络舆情分析机构和舆情需求部门的实际情况和技术条件,可以选择以下几种服务手段之一:
PC客户端服务系统:以技术平台为基础,为用户提供PC定制监测系统,用户不需单独部署舆情采集服务器,只需通过账号、密码登录客户端服务系统的定制平台,自主设置关键词,即可全面监测相关舆情。
手机舆情服务系统:实现舆情监测PC用户端和手机浏览端的无缝链接,弥补了舆情监测在空间和时间上的死角。用户可以自助设置监测关键词,自助设定发送时间,自助设定发送手机号。
电子邮件:通过电子邮件主动、快速发送word文档或PDF文档的舆情分析报告。
纸质报告:对文字进行整理、排版,形成内部刊物并打印装订成册,通过专人送阅。
5 结束语
随着互联网的迅猛发展,网络舆情的日益重要,政府需要建立常态的舆情监测和应对机制,以防微杜渐。网络舆情分析工作充分体现了情报工作的本质:为决策服务。网络舆情分析将成为情报机构决策服务工作的重要组成部分。从长远来看,舆情分析有很大的发展空间,监测的媒体类型可以从网络拓展到电视、平面媒体等;业务链可以从网络舆情分析延伸到舆情软件开发、舆情监测平台定制、舆情相关课题研究、舆情培训、危机公关策略研究等。
参考文献
[1]曾润喜.网络舆情管控工作机制研究[J].图书情报工作,2009,(18):79-82.
[2]宋占茹.图书馆开展网络舆情分析工作初探[J].情报探索,2010,(8):7-8.
[3]崔薇,曾润喜,王国华.中国网络舆情研究文献计量分析[J].情报科学,2011,(1):131-135.
[4]姜胜洪.网络舆情的内涵及主要特点[J].媒体与传播,2010,(3):151-152.
[5]杨玫.舆情分析:图书馆为领导决策服务的新探索[J].图书馆论坛,2006,(5):233-235.
[6]刘毅.内容分析法在网络舆情信息分析中的应用[J].天津大学学报:社会科学版,2006,(7):308-310.
[7]于家琦.论我国舆情信息机制的完善路径[J].天津大学学报:社会科学版,2010,(5):241-244.
[8]杨丽娟,张音.走近网络舆情分析师[N].人民日报,2011,(6).
[9]曾润喜,徐晓林.网络舆情突发事件预警系统、指标与机制[J].情报杂志,2009,(11):52-54.
[10]罗婷,李成.如何开发舆情监测产品?――人民网舆情监测室的运作模式[J].中国记者,2010,(6):52-54.
[11]人民网舆情监测室.如何应对网络舆情?――网络舆情分析师手册[M].北京:新华出版社,2011:10-12.
网络舆情分析系统篇7
网络舆情分析师要有浓厚的网络研究兴趣。由于网络舆情分析师赖以生存的内外部环境尚不成熟,使得这个职业面临巨大挑战。从外部环境看,目前民众对网络舆情分析师尚不熟悉,也未充分认识其重要性,甚至部分舆情服务提供商从事偏离网络舆情业务主线的活动,使得网络舆情分析师有时会遭受非议。从内部环境看,一是网络舆情分析师工作强度和精神压力都相当大,每天要浏览各类网站,了解当前的新闻热点,熟悉网民特点等。同时,面对海量的网络信息和数据,进行提取、挖掘、分类、归纳、研判和推理,最后形成分析报告。时常加班,也经常没有节假日。这既是脑力劳动,也是体力劳动,身体往往会处于亚健康状态。二是网络舆情分析师的成才时间较长。刚入行时,往往需要从助理网络舆情分析师开始做起,熟悉网络舆情信息源,学会网络舆情抽样,慢慢进行网络舆情分析、研判和应对。三是知识更新快,能力要求高。网络舆论和形势发展日新月异,舆情应对也需要不断推陈出新。这就需要密切跟踪互联网新技术新应用对舆论传播的影响。知识更新相当快,这需要网络舆情分析师不断的学习。同时,也要求网络舆情分析师具备对网络言论的敏感把握和捕捉提取,高超的语言文字表达等多项能力。工作强度大,成才时间长,知识更新快,能力要求高。这些挑战需要网络舆情分析师对这个职业有浓厚的兴趣才能坚持下来,不断积累经验,进而才能取得成功。
二、掌握网络舆情分析的基础知识
网络舆情分析师对网络舆情的研究,既包括对网络舆情周期的研究,对网络舆情的研判以及网络舆情的应对,也包括对舆情信息捕捉、抽样、分类等方面。前者往往需借助人文社科的相关知识,而后者则更多需融入自然科学的研究成果。因此,网络舆情分析师在进行舆情分析和研究时,往往会涉及众多方面的知识。例如,对网络诽谤、网络谣言以及网络诈骗等行为的防控和打击,往往涉及法学或公安学的知识;有关网络舆情的传播以及与传统媒体的分析对比,则需要运用新闻传播学的知识;媒体和网络结构与背景的定性与定量分析等则是属于统计学的范畴。由此,不难看出新闻传播学、社会学、统计学、公共管理学、法学、经济学、计算机等学科的知识和理论在舆情分析工作中运用较多。这就要求网络舆情分析师对这些方面的知识能较为熟悉,并能融会贯通。与此同时,对于相关专业领域的舆情监测工作,舆情分析师还需要掌握相应专业的基本知识和相关流程。
公安机关的网络舆情工作就需要舆情分析师熟悉公安业务,了解依托情报信息流水作业、侦防联动的工作机制。具体言之,公安机关的舆情监测人员通过浏览网站等方式对网络舆情进行全天候、常态化实时监测,并汇总舆情监测记录和存档。并借助专业软件全面监测网络舆情动向和事态发展。监测人员一旦发现有效舆情,立即将舆情内容上报领导,网监部门快速响应,进入预警状态,事先与网络舆情发生的源头媒体、互联网管理部门、新闻单位等相关部门取得联系,以备在后续处理中进行协同作战。同时,网监部门工作人员根据当前掌握的事态信息,对网络舆情进行分析、分类、分级。并在预案中选取一套适用的应对策略,再结合舆情现状和当前的人员、设备、资金情况,综合各方面因素,生成一套完善、可行、高效、有力的应对方案。领导下达应对方案后,网监部门首先与舆情涉及的人员、部门取得联系,对舆情内容的真实性展开调查。在初步控制舆情后,网监部门还需持续关注事态发展的情况,直至确保舆情已经完全平息,不再复发。只有对公安机关网络舆情工作流程和相关公安工作的熟悉,公安系统的网络舆情分析师才能更好的融入公安情报工作,更好的对网络舆情进行检测分析,实现“情报导侦”,维护社会稳定。另外,需要注意的是,网络舆情分析师需要特别重视舆情政务知识的学习和积累。
三、具备网络舆情分析的基本能力
网络舆情分析师应具备网络舆情分析的基本能力,即对网络言论的敏感把握和捕捉提取能力,高超的语言表达能力,逻辑思维和综合分析的能力和社会人际交往能力。
(一)对网络言论的敏感把握和捕捉
提取能力网络的飞速发展和广大网民的积极参与,使网络成为当今社会民情民意的集中反映,成为民主政治的前沿窗口。但是,互联网是一个相对虚拟的世界,如果无法有效控制网络中信息的正确性及传播的范围,那么极易给社会的稳定带来一系列的问题,尤其对于目前正处于社会转型期的中国,更需要注重对网络舆情的预警工作,注意对网络舆情的监控。因此,为了能给相关部门或客户提供全面、迅速、准确、客观的分析报告,舆情分析师必须具备从海量信息中快速搜集、甄别信息的能力。这就要求网络舆情分析师需浏览各类新闻获取大量信息。因此,想在浩如烟渺的网络信息中掌握有价值的信息,网络舆情分析师须提升其对网络言论的敏感把握和捕捉提取能力。
(二)高超的语言文字表达能力
表达能力是指一个人通过语言、文字、动作、表情等媒介表达其内心意思的能力。网络舆情分析师必须具备较强的表达能力,即语言表达能力和书面表达能力两个方面。语言表达能力是指人们以语言为媒介表达其内心意思的能力。网络舆情分析师在沟通、辩论、说服、演讲以及与相关人士进行交往等,都需要通过语言将自己的意思或主张外化。使用语言表达意思的能力如何,直接关系到网络舆情分析的效果,对同一事件内容或同一事件对象,由于表达的形式、技巧不同,会产生完全不同的效果。因此,网络舆情分析师应当有较强的语言表达能力,既能发挥组织协调作用,又能在舆情会商时,面对轻重缓急等各种局面灵活驾驭。文字表达能力是指人们以书面文字为媒介表达其内心意思的能力。较强的文字表达能力对于网络舆情分析师同样重要。在网络舆情分析过程中,网络舆情分析师需要制作分析材料、建议报告以及各种文案,这些材料的制作都要求客观、准确,文风简洁和严谨,格式规范,信息量高,舆情分析研判和指导建议观点深刻,态度鲜明。如果文字表达能力不强,是很难做好这些工作的。
(三)逻辑思维和综合分析的能力
思维作为一种认识活动过程,是通过分析、综合、判断、推理来实现的。网络舆情分析师必须具有科学的逻辑思维能力。一方面要求网络舆情分析师善于运用多种思维形式,从大量网络信息中理出网络事件的线索,透过现象看本质,去伪存真,辨明其事实的真相。另一方面要求网络舆情分析师思维必须严谨,符合逻辑规则。并且思维敏捷,能在极短的时间内迅速作出反应。当然,科学的逻辑思维能力也有助于提升网络舆情分析师的综合分析能力。在舆情监测工作中,面对刚刚发生或正在发展中的各类舆情事件,网络舆情分析师需要对事件的波及范围、事件性质和严重程度进行总体性研判。舆情分析一般采取“三结合”的工作模式,即定性分析与定量分析相结合,人工分析与软件应用相结合,舆情分析师基础工作与专家委员会舆情研判相结合。虽然有些分析工作,舆情分析师可以借助专业的舆情监测与分析系统完成,但大部分的研判预测分析工作,仍然需要通过网络舆情分析师的综合分析能力来完成。
(四)社会人际交往能力
人际关系是网络舆情分析师工作中相当重要的一个环节。成功在很大程度上取决于网络舆情分析师拥有良好的人际关系。良好的人际关系能开拓视野,能让网络舆情分析师迅速掌握和了解最新的舆情动态,并通过信息灵通、对网络舆情具有敏锐和深刻洞察力的专业人士,准确把握网络舆论格局。同时,提高其倾听和交流的能力,对自身事业的发展有重要的作用。另外,网络舆情分析师还可通过其第三方身份更方便地接触官员、专家、媒体人士和网络意见领袖、论坛版主等各个群体,这对于了解各方观点进而做出客观平衡的结论很必要。当然,网络舆情分析师在与人交往沟通过程中,有时会因为立场、地位、信息、看问题的角度不同,导致双方的误会或者观点差异,甚至迥异的情况。这就需要网络舆情分析师要能控制自己的情绪,即使对方胡搅蛮缠,毫无道理,也无需与其唇枪舌剑。而应避其锋芒,必要时以不变应万变。
四、拥有独立第三方的思维和价值观
互联网具有便捷性、开放性、互动性和高效性的特点,使得网络舆情对社会治安影响越来越大。网络舆情是社情民意中相当活跃的部分,但网民的意见也带有强烈的个人色彩。同时,由于网络信息的便利性,以及网络信息审查与传统媒体的信息审查存在巨大的差异,导致在网络上谣言非常容易。另外,随着经济全球化和以信息技术为核心的科学技术的迅猛发展,网络上的意识形态领域的斗争也变得非常复杂。这就需要网络舆情分析师必须保持理性的头脑,通过观察分析和研判大量网络信息,不受网民负面情绪的影响,去伪存真,准确预判舆情走势和建设性的提出舆情应对方案和措施。而要做到这些,就需要网络舆情分析师拥有独立第三方的思维和价值观。在工作中要有强烈的法律意识,坚持新闻真实性的原则,坚守道德底线,注意保守秘密,以人为本,推动政府和民众的良性互动,维护社会稳定和谐的大局。换言之,网络舆情分析师都要尊重事实和法律,要在工作中体现正义、良知和爱心。
网络舆情分析系统篇8
关键词:网络舆情;大数据;舆情分析方法
中图分类号:TP393.08
随着网络技术的高速发展,网络自媒体的数量庞大,网民人数的不断增多,互联网资源数量呈现指数型的增长,网络已经成为民众获取信息的最主要渠道。网络在传达社情民意方面的优势也逐步显现出来,成为反应社会舆情的主要载体之一,在表达民众心声、反映社会舆论方面发挥极其重要的作用。
在海量数据中,通过探测并发现网络舆情中的热点话题,有助于梳理舆情监控的思路,抓住纷繁的监控工作中的重点,从海量的互联网信息中找到目标信息,将有限的人力物力用到关键的地方,提高工作的针对性和有效性,更好地应对网络舆情。
而如何对网络舆情加以有效的监督和引导,积极化解网络舆论危机,使和谐的互联网环境为维护社会稳定、促进国家发展、构建社会主义和谐社会发挥重要作用,不仅具有重要的现实意义,也已经成为网络舆情工作面临的一个重要课题。基于上述分析,我们认为网络舆情数据越来越呈现出大数据特征。
1 问题与挑战
大数据环境下的网络舆情分析和挖掘方法具有如下挑战:
1.1 为了得到更准确的舆情信息,所需要的数据量大幅膨胀。随着数据生成的自动化以及数据生成速度的加快,自媒体时代的到来,为了获得准确的网络舆情信息需要处理的数据量急剧膨胀。一种处理大数据的方法是使用采样技术,通过采样,把数据规模变小,以便利用现有的技术进行数据管理和分析。
1.2 数据深度分析需求的增长。为了从数据中得到准确的舆情信息进而指导人们的决策,必须对大数据进行深入的分析,这些复杂的分析必须依赖于复杂的分析模型。所以对网络舆情信息的分析还需要路径分析、时间序列分析、图分析、What-if分析等。
1.3 自动化和可视化分析需求的出现。在TB级的复杂舆情信息环境下,网络舆情系统应该能根据网站的内容自动构造查询,自动提供热点推荐,自动分析数据的价值并决定是否需要保存。
2 大数据技术的主要进展
针对传统分析技术的局限性,研究者提出了一些试验性的解决方法和途径。R是开源的统计分析软件,IBM公司研究人员致力于对R和Hadoop进行深度集成,把计算推向数据并且并行处理,使Hadoop获得强大的深度分析能力,为应用开发者提供了丰富的数据分析功能。
针对频繁模式挖掘、分类和聚类等传统的舆情分析方法,研究人员也提出了相应的大数据解决方案。如,Iris Miliaraki等人提出了一种可扩展的在MapReduce框架下进行频繁序列模式挖据的算法[1],Alina Ene等人用MapReduce 实现了大规模数据下的K-center 和 k-median聚类方法[2],Kai-wei chang 等人提出了针对线性分类模型的大数据分类方法[3]。U kang等人使用“BP算法”处理大规模图数据发掘异常模式。Jayanta Mondal等人[4]提出了一个基于内存的分布式数据管理系统来管理大规模动态变化的图以支持低延迟的查询处理方法。Shengqi Yang等人[5]对基于集群上的大规模图数据管理和局部图的访问特征进行研究,为了在图查询处理中减少机器间通讯,提出来分布式图数据环境。Jiewen Huang等人提出了一个多节点的可扩展RDF数据管理系统,比目前系统的效率高出3个数量级。
3 网络舆情分析发展方向
3.1 实现更加复杂和更大规模的分析和挖掘是网络舆情分析未来发展的必然趋势。在大数据新型计算模式上实现更加复杂和更大规模的分析和挖掘是网络舆情分析未来发展的必然趋势,需要进行更细粒度的仿真、时间序列分析、大规模图分析和大规模社会计算等。
这些舆情主体间频繁联系、相互影响,在这个过程中涌现出一些大V,他们左右着其他主体的舆论方向,最终影响整个舆论场。同时,关注点相似的舆情主体间也自觉或不自觉地形成了一些联系相对紧密的子群体,在子群体中信息传播速度更快。要管理和引导网络舆情,就必须对网络舆情主体和舆论子群体进行研究,而社会网络分析方法就是有效的手段。
3.2 网络舆情信息的实时分析和挖掘。面对海量数据,分析和挖掘的效率成为网络舆情分析领域的巨大挑战。尽管可以利用大规模集群并行计算,但在数10TB以上的数据规模上,分析和发掘的实时性受到了严峻的挑战,而查询和分析的实时处理能力,对于舆情运用个体来说及时获得决策信息,做出有效应对是非常关键的前提。
3.3 关联不同领域数据进行舆情分析,非结构化大数据处理分析成为难点和重点。网络上的信息是千千万万的人随机产生的,从事网络舆情研究要从这些看似杂乱无章的数据中寻找有价值的信息。网络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、失效性、社会性、突发性和高噪音等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。网络数据的采集相对科学数据的采集成本较低,网上许多数据是重复的或者没有价值的,价值密度低。一般来说,网络舆情的数据分析及预测,比科学实验的数据分析更困难。所以我们不要一味的追求获取越来越多的数据,而是数据的去冗分类,去粗取精,从数据中挖掘有用信息,减少不必要的数据采集。
3.4 词汇理解的复杂性研究。既考虑词汇的情感倾向性,又权衡语义模式对评论的情感倾向值的影响,能比较全面地分析突发事件网络舆情的态势。但是词典的构建与语义模式的建设需要人工参与,个人的主观性影响比较大,机器学习的能力不强,准确度不高。另外,由于网络语言表达的灵活性,技术的发展速度跟不上社会话语变迁的复杂性。在国内的网络语境中,谐音、暗语是常用的表现手法,借古讽今、借外讽内是常用的叙事手段,隐喻、借代是常见的修辞。现有技术还不能完全准确地判定句子的情感倾向性,机器对词汇的理解能力需要进一步研究。
4 结束语
随着大数据时代的到来,我们要不断改进舆情的分析方法,将大数据思维及方法运用到网络舆情分析中去。首先要开始关注大数据分析,其次不再仅仅依靠语义分析,而是求诸于自动化的数据分析,再次要关联不同领域数据进行舆情分析,等等。总之,我们要突破传统,将舆情分析向大数据分析的方向创新。
参考文献:
[1]Miliaraki I,Berberich k,Gemulla R.Mind the gap:large-scale frequent sequence mining.SIGMOD’13,2013:797-808.
[2]Ene A,Im S,Moseley B.Fast clustering using MapReduce. KDD’11,2011:681-689.
[3]Chang K,Roth D.Selective block minimization for faster convergence of limited memory large-scale linear models.KDD’11,2011:699-707.
[4]Mondal J,Deshpande A.Managing large dnamic graphs efficiently.SIGMOD’12,2012:145-156.
[5]Yang S,Yan X,Zong B,e.Towards effective partition managenment for large graphs.SIGMOD’13,2012:517-528.
作者简介:唐松(1979-),男,副教授,硕士,研究方向:网络舆情;王惠君(1964-),女,教授,研究员,研究方向:网络舆情、信息安全。
- 上一篇:草原情歌词 草原情LRC歌词
- 下一篇:返回列表
相关推荐
- 大宝眼袋霜价格 说到家喻户晓的平价护肤品,很多
- 成语网名大全 1、枯萎的信2、往事如烟3、悲
- 微肥 微肥是什么?该如何使用?作物生
- 林建鹏 说到王思聪,大家都会想到他是王
- 曾轶可父亲 曾轶可说出来很多人不清楚,可她
- 安吉中南百草园 位于湖州的安吉中南百草园是一处
- 梅姨案 1、梅姨案指全国通缉的人贩子子
- 平凡之路歌词是什么意思 1、寓意:《平凡之路》延续了朴
- 孟尝君有舍人 1、《孟尝君舍人》出于战国时代
- 大连红旗高中 1,大连红旗高中好吗这个学校还
- 农民工保险 现在大家都开始买保险了,
- 恐龙宝贝之失落的文明动漫 1、《恐龙宝贝之失落的文明》是
- 未来可期 1、未来可期的意思是未来可以期
- 拾忆歌词 1、歌词翻开日记整理破碎的心情
- 小日向白朗 1、普安协会,1935年在天津
- 标杆管理起源于 1、标杆管理起源于美国施乐公司
- 桑兰的资料 1、黄健,男,出生于中国福建,
- 天上白玉京下句 1、《天空中的白玉景》的下一句
- 浙江卫视左岩 1、左岩,女,满族,1985年
- 固定收益 固定收益类理财是指一部分的理财
- 浙江外国语学院专科 1、浙江外国语学院(Zheji
- 拉登的儿子 1、奥马尔·本·拉登(Omar
- 河南工程学院专科 1,河南工程学院都有什么大专专
- 王传越简历 1、《请放心》是王传越演唱的一
- 民国四大家族 1、一般是指蒋宋孔陈四大家族,
- 王紫藤 王紫藤的拼音怎么读王紫藤的拼音
- 溏心风暴剧情分集介绍 第1集正哥心头二件事正哥买下心
- 欧莱雅眼线膏 1、巴黎欧莱雅(L’Oréal
- 圣诞贺卡 011、人依旧,物依旧,又是一
- 玻尿酸充填 说到玻尿酸填充,相信许多爱美人
- 最新推荐
-
- 网络舆情分析系统 网络舆情分析系统篇1
- 点亮 【点亮】的意思,拼音,读音等)
- 抵赖 【抵赖】的意思,拼音,读音等)
- 喜欢你时风好甜 《喜欢你时风好甜》这部剧凭借着
- s11套装 新赛季—王者之冕这是一套半甲半
- 草原情歌词 草原情LRC歌词
- 生化危机6蜘蛛女boss 生化危机6里昂篇最后BOSS是
- 教育评价 摘要评价应该是以人为本,透明的
- 奢组词 奢侈
- 九月九日 农历九月九日是我国的民间传统节
- 西安飞机工业公司职工工学院 西安飞机工业公司职工工学院(简
- 白龙鱼服什么意思 【白龙鱼服】的意思,拼音,读音
- 李大辉 李大辉个人资料李大辉,2001
- 宜都名都花园 巨恒名都总占地面积约8700平
- 何翯 何翯个人资料何翯,1987年出
- 谁是被害者 谁是被害者简介《谁是被害者》是
- 王璐瑶 王璐瑶个人资料王璐瑶(原名王路
- 斑马线尺寸 采用的是机动车交通信号灯和人行
- 半条翠 早春时节尽管春寒料峭,玉兰花不
- qq7.0 新版qq版本号为7.0.142
- 苏菲娅 苏菲娅个人资料苏菲娅,日本动漫
- 版组词 出版
- 斗战神多玩 疲了倦了传统卡牌游戏过于休闲,
- 大江大河梁思申 想知道金晨饰演的梁思申戏份很少
- 二月二不能理发 二月二之前是农历的正月。旧时民
- 萧敬腾 我不会爱歌词
- 盗墓笔记无邪歌词 一、《盗墓笔记无邪》歌词如下:
- 安全教育培训制度 安全教育培训制度
- 交组词 “交”组词,拼音,解释交缚交纳
- 识别 【识别】的意思,拼音,读音等)
- 神魔大陆任务攻略 在神魔大陆中,也存在许多的日常
- 教师专业标准学习心得 教师专业标准学习心得1
- 天后
- 二手手机网 一、口袋优品
- 诛仙2青云轩辕祖师在哪 诛仙2青云轩辕祖师在哪里?
- 盗墓笔记大结局是什么 很多朋友问盗墓笔记的大结局到底
- 曲面电影 这是一部惊悚电影《曲面》这个女
- 宋声声 宋声声是晋江作者长洱所著《犯罪
- collectivism Abstract:Indivi
- 美了美了歌词 &小沈阳 美了美了LRC歌词
- 江南style(满身囔囔踹)东北版
- 地域文化 内容提要:地域文化其实就是最能
- vcd转mp3 将VCD转换成MP3,可以放在
- 春季安全教育 教学目标:
- 英语语言学毕业论文 英语文学毕业论文篇1
- 温州大学城市学院招生网 第一章总则
- 我的老师贾平凹 导语:对贾平凹《我的老师》一文
- 别里科夫 《装在套子里的人》是俄国小说家
- berlin单词的意思,例句
- 管维嘉 管维嘉个人资料管维嘉,1983
- 梦三国太史慈出装 本篇是关于太史慈的大型攻略,本
- 帮遛娃途中睡着 眼下春光好,春花俏,很多家长都
- 凯特贝金赛尔 凯特·贝金赛尔个人资料凯特·贝
- 读书使人明智 作文800字:读书使人明智
- 禁组词 “禁”组词,拼音,解释禁阁禁坐
- 死灵术士用什么武器 死灵术士用什么武器好?很多小伙
- 广场游乐设备 游乐设施是指用于经营目的,在封
- 关于环保 本文作者介绍了环境功能和环境问
- 读书示小妹十八生日书 读书示小妹十八生日书
- 神武烽火连城活动 神武烽火连城活动攻略,游戏中有