三、案例解析——基于网络舆情的旅游者情绪分析

(一)网络舆情与旅游者情绪 旅游者情绪在网络舆情中体现。随着互联网的普及,以微博、论坛、博客等为代表的网络社交媒体广泛流行,网络舆情逐渐成为影响人们情绪、态度行为的重要因素。 网络舆情(Network Public Opinion),是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。它具有以下几种特征。 1. 直接性 直接性是指网民可以通过微博、论坛和博客随时发表意见,民意表达十分畅通;网络舆论具有无限次即时快速传播的可能性,网民可以转发将信息重新传播,一个爆炸性的新闻信息能在很短的时间被大多数网民获取。 2. 虚拟性 互联网是一个虚拟的空间,发言者的身份是隐蔽的,再加上我国对网络舆情的管理和监督机制不够完善,因此网络舆情的真实性值得推敲。有的信息可能是网民片面、错误的认识,有的信息可能是网民宣泄情绪所捏造的,还有的信息可能是出于商业目的甚至是不法目的杜撰的。因此,网络舆情具有一定的虚拟性。 3. 突发性 网络舆情的形成往往非常迅速,一个新闻热点再加上一个情绪化的观点就可以掀起大片舆论的波浪。 4. 随意性和多元性 网络舆情不同于传统媒体的一点是网络舆情没有门槛,所有人都可以通过网络媒体发表意见和评论。网民在网上或隐匿身份,或现身说法,谈论国事、交流思想。网络为民众提供了交流的空间,也为收集真实的舆情提供了素材。 在旅游行业中,越来越多的旅游者会在网络中表达自己的情绪,同时旅游者的决策也会 受到网络舆情的影响。网络舆情中的旅游者情绪对证券经营机构来说具有极高的研究价值。
(二)获取旅游情绪的分析方法 应用网络舆情分析旅游者情绪,需要从大量文本信息或非结构化数据中挖掘有价值的资料。通过网络舆情分析旅游者情绪的过程如图 7-5-1 所示。 图 7-5-1 通过网络舆情分析旅游者情绪
首先,应用文本挖掘技术,从杂乱无序的网络媒体信息中获取有价值的信息,把非结构化的文本信息转化为结构化文本信息,从文本信息中提取情绪测评指标,结合属性词典和情感词典,应用情感分析引擎,获得情绪分析结果。其次,可支撑两方面的应用:一是基于情绪分析结果,以及情绪与旅游市场之间走势的关联,对市场行情进行预测;二是基于文本信息中的属性和情感倾向,指导各类旅游营销产品。 对于网络舆情中旅游者情绪的分析,主要应用网页抓取技术、特征挖掘技术以及情感极性分类技术等。 1. 网页抓取技术 网络爬虫是目前使用最多的文本采集技术。网络爬虫又称为“网络蜘蛛”,是一个自动抓取网页的计算机程序。通用网络爬虫的原理如下:从一个或若干初始网页的 URL 开始,获得初始网页上的 URL 列表,在抓取过程中,不断地从当前页面上抽取新的 URL 放入队列,直到 URL 的队列为空或满足某个爬行终止条件。主体爬虫的工作流程较通用网络爬虫复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL 队列中。然后,根据一定的搜索策略从队列中选择下一步抓取的网页 URL,并重复上述过程,直到满足系统设置的任一停止条件。有别于传统网络爬虫的是,主体爬虫主要解决三个问题:一是对抓取目标的描述或定义;二是对网页或数据结构的分析与过滤;三是确定对URL 的搜索策略。这一过程所得到的分析结果还将对以后的抓取过程提供反馈和指导。 2. 特征挖掘技术 特征挖掘技术是一种能够从结构化的文本信息中提取出关键属性词的技术。属性词一般由名词和名词短语组成。产品具有多种属性,也称为产品特征。一般情况下,一篇产品评论信息可能涉及产品的多个特征。产品特征可以分为显性特征和隐性特征两类。显性特征是指出现在语句中可以直接作为产品特征的词汇或短语,而隐性特征是指句子中没有明显的特征描述,需要对句子进行语义理解才能得到的特征。提取隐性特征需要自然语言的完全理解技术,而该技术目前还不够成熟。因此,目前的产品特征挖掘只考虑显性特征,在网络舆情中也只能识别显性属性,进而判断旅游者对不同显性属性的情感倾向。 3. 情感极性分类技术 情感极性分类主要是分析主观性文本、句子或者短语的褒义或贬义,即判定它们的极性类别。情感极性分类是有指导的机器自动分类,一般分为训练和分类两个阶段,具体可以分为以下几个步骤。 (1)确定情感分析单元。情感分析单元即情感极性的分类对象,它是由研究目的决定的。情感分析单元的选择,直接对文本信息的情感分析效果产生较大的影响。 (2)文本表示训练文本。文本表示将决定选用什么样的文本特征来表达文本信息。就目前的文本分类系统来看,绝大多数都是以词语或者词语组合作为特征项表达文本信息。 (3)挑选分类方法并训练分类模型。已有的文本分类方法有统计方法、机器学习方法等。在对待分类样本进行分类前,需要确定分类方法,利用训练文本进行学习训练并获得分类模型。 (4)运用分类模型对测试集进行极性分类,评价所建立的分类模型的分类效果。 情感极性分类算法可以分为两类,即基于语义的情感分类方法和基于机器学习的情感分类方法。 ① 基于语义的情感分类,是指通过文本信息语义分析的方式建立情感分类器,主要有两种方式:第一种是先从情感单元中抽取带有情感倾向的形容词或者动词,以及和这些词具有修辞关系的程度副词或否定副词,将其称为情感词;然后对这些情感词进行情感倾向计算,并得到它们的情感倾向值;最后对情感词的情感倾向值求和,得到情感分析单元的情感倾向值。第二种是建立一个包含情感字典的情感倾向语义模式库;然后把情感倾向分析单元按照这个模式进行模式匹配,计算出情感倾向值;最后对这些短语模式的情感倾向值求和,得到该情感分析单元的情感倾向值。 ② 基于机器学习的情感分类,主要算法包括朴素贝叶斯算法、决策树、人工神经网络、K 近邻算法等。对常用文本分类算法分析比较发现,支持向量机、K 近邻算法、朴素贝叶斯是三种较好的文本分类算法,其中,支持向量机具有最高的分类精度,但分类速度最慢;朴素贝叶斯算法具有最高的分类速度,但是精度最低。基于语义的情感分类算法和基于机器学习的情感分类算法各有利弊。 基于语义的极性分类算法能够更加接近现实的语义特征,但分析效果依赖于对语义模式的正确归纳;基于机器学习的情感分类算法,直接明确提取文本信息情感特征项,但分析效果依赖语料库或训练文本信息的代表程度。 (5)使用获得的分类模型对待分类文本进行分类,并对分类效果进行评价。 文本分类中普遍使用的性能评估指标包括查准率(precision)和查全率(recall)。查准率反映了一个分类器对类别的区分能力,查准率越高,表明分类器识别的正确分类数与总分类数差距不大,即识别的错误率较低。查全率反映了一个分类器的泛化能力,查全率越高,说明这个分类器越能够把正确的类别识别出来,但并不关心识别出的总个数。 为了判断属性词所在文本信息的情感极性是否符合人工标注的真实极性,可以归结为一个二值分类,评估选择使用二维列联表。判断情感极性的过程可以通过列联表进行展示,如表 7-5-1 所示。真正属于该类的极性数即在人工标注中得到的情感极数。衡量查准率与查全率的计算方法如下: 表 7-5-1 评估极性分类性能的列联表 如果算法的查准率高而查全率低,虽然分类效果的可靠性高,但对新的语句进行分类时很多正确的类别不能识别。而如果算法的查全率高而查准率低,虽然对新语句的正确识别效果很好,但分类结果中错误的数量可能比较多。由此分析,单独使用查准率和查全率中的一个指标来评价分类算法是不全面的,需要综合考虑。