网络舆情监测技术如何工作
admin 2020-03-30 01:12

舆论引导顺利展开的前提和保障是舆情信息的搜集、处理与展示工作,这些工作对于制定引导策略至关重要。

1. 网络舆情信息采集技术

(1)元搜索技术

搜索引擎在我们的日常互联网使用中非常普遍,而用户在搜索时往往使用单一的搜索引擎,单一的搜索引擎并不能保证覆盖100%的互联网信息,这导致了检索结果不全数量不够的缺点存在。元搜索技术针对这一缺点建立在已有搜索引擎服务之上,集成多个单一优秀的搜索引擎,这样做有利于集合多个搜索引擎的优势供用户选择。

(2)网络爬虫技术

网络爬虫(Crawler)又称网络蜘蛛(Spider),是一种能够根据需求提取网页的脚本或程序,可使用多种高级编程语言编写,目前使用十分广泛。它的主要目的是将网页下载到本地形成一个互联网内容的镜像备份,从而获得网页信息。

2. 网页解析与预处理技术

这里主要包括信息抽取技术、分词技术和文本形式化技术。这些技术能够协作工作,是将互联网数据转化为易于理解的信息数据的重要一步,是决定舆情监测效果的关键。

(1)信息抽取

信息抽取技术主要包含有两类,基于模板的抽取方法的思路是经过分析,同一网站或类似网站的网页格式基本固定,网页内容可能随时更新,但使用的模板却稳定不变,这样方便了自动化处理。基于网页结构信息的抽取方法使用网页结构分析技术,能够对目标信息的抽取实现自动化,多数爬虫爬得的数据为半结构化,不能直接处理,针对这一特点可采用这种方式。

(2)分词技术

分词技术用于将语句拆分成单词,便于理解,现在的检索系统中常用的分词算法可分为三类,基于统计的分词方法(Based on statistics)、基于理解的分词方法(Based on understanding)和基于字符串匹配的分词方法(Based on character matching)。

(3)文本形式化技术

文本形式化的目的是使用一定可衡量的因素来代表文本,从而方便掌握文本的各种特点,它是高级检索的基础工作。常用的文本形式化算法采用有以下模型:布尔模型(Boolean Model)、概率模型(Probabilistic Model)、聚类模型(Cluster Model)和向量空间模型(Vector Space Model)等。

3. 文本聚/分类技术

经过一系列的舆情信息搜集与处理,我们得到了大量数据集,而这些舆情的主题并不十分明显,这里我们就需要用到数据挖掘中的分类和聚类方法来判断所得信息主题是否与部门监测的主题一致,预测舆情的发展趋势,为舆论引导的相关工作提供了参考。

1.文本分类算法

分类算法通过数据集中的数据表现出来的特性(这里也就是通过文本形式化生成的文本特征)来对数据进行分类,从而得到与监测主题相关的舆情信息,结果直观。

2.文本聚类算法

聚类算法的中心思想是把数据元素分成簇,使簇内元素相关性更大,不同簇间元素相关性小,从而达到相互区分的目标,利用这点可以将网络舆论的热点进行归纳,很容易在一个簇中发现近期舆论的突出表现和倾向,这为舆论引导工作点明了方向。

4. 舆情信息分析与展示技术

(1)可视化分析

可视化分析技术的设计思想是将数据库(这里就是我们的舆情信息数据库)中的数据项映射成生成图元素,将各个数据项特征表示成图形,并且使用高维度方式来代表数据元素的各个属性值大小。使用线状图、柱状图等统计学图形,能够对相关数据更直观更方便的了解和分析。

(2)观点倾向分析

观点倾向分析有很多种方式,例如获取网络热门事件相关网页,利用聚类算法处理评论,得到的句集使用分词技术,然后通过对比事先建立的语料库中的关键词计算语句的情感倾向,从而得到网民情感倾向,了解网民的真正看法。