舆情大数据

作者:胡朋 已发布 2021/01/21 10:35:00 GMT+0, 上次修改时间: 2022-02-17T10:15:24+00:00
本项目通过互联网来采集学校的相关数据,通过爬虫,获取百度贴吧的评论信息,获取知乎关于学校的评价等。通过获取到的舆情数据进行分析,并从数据资源开放、舆情监管系统、数据预见性及动态监管角度提出了管理对策。

项目描述

舆情大数据项目前端主要通过vue,element-ui以及echarts展现舆情数据,后台连接mysql数据库,并且使用springboot框架,采用restful方式为前端提供数据。通过获取到的舆情数据,进行分析,并从数据资源开放、舆情监管系统、数据预见性及动态监管角度提出了管理对策。

项目背景

在校大学生是使用移动互联网的主力,特别在学习生活、情感交流、电子支付、旅行计划、就业竞争等方面与移动互联网形影不离,舆情信息俯拾即是、舆情数量迅速飙升,加之青年学生从众化、激情化和冲动性等特征,极易出现由于舆情而引发过激的言论和行为,因而强化高校校园舆情分析以及管理愈发凸显其重要性。

舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,主体(民众)对客体(执政者)及其持有的政治取向所产生和持有的社会政治态度,而校园舆情是指在公共空间中传播的针对学校教育问题的公众话语与民意表达,是某一高校范围内广大师生针对社会、学校所发生事件,引发的有一定倾向性的热议、评判和取向的总和,不简单定义为只是学校范围内的事件、政策、观点等舆情民意。

很多学校没有专门的学校论坛,现阶段,只能通过互联网来采集学校的相关数据。比如:通过爬虫,获取百度贴吧的评论信息,获取知乎关于学校的评价等。通过这些数据来进行分析展示,进而对学校提供决策意见。

项目功能

    登录

    使用账号即可登录到本系统。

    登录.png

    首页

    首页功能展示。

    首页.png

    舆情大数据

    主要功能有用户分析、话题分析、评论分析。

    舆情大数据.png

    用户分析

    主要展现活跃用户、性别比例、访问来源、访问人数。

    用户分析.png

    话题分析

    主要展现热门话题、话题分类、访问人数。

    话题分析.png

    评论分析

    主要展现评论回复情况、用户评论分类、实时评论数。

    评论分析.png

    项目架构

    本项目采用前后端分离架构。

    框架

    技术

    前端

    vue.js,element-ui ,echarts

    后端

    Java,springboot,mybatis

    数据库

    Mysql,MongoDB

    数据处理

    python,pandas

    数据爬取

    python,scrapy

    系统架构

    系统架构.png

    数据流向

    数据流向.png

    前端

    前端主要通过vue,element-ui以及echarts展现舆情数据。

    后端

    采用springboot+mybatis框架,采用restful方式为前端提供数据。

    数据库

    MySQL数据库采用数据仓库的设计思路,根据展示的结果设计出维度表以及事实表。维度表包括:客户端维度表、用户维度表、时间维度表。事实表包括:话题事实表、回复事实表、评论事实表。

    MongoDBNoSQL数据库,存储爬取到的原始数据。

    数据处理

    采用pandas将采集到的不规则的数据,处理成规则数据,并将数据保存到设计好的数据仓库中。其中采用聚类方法对话题进行了聚类,对评论进行情感分析。

    采用scrapy爬虫框架,对数据进行爬取,主要爬取话题数据,回复数据以及评论数据。并将数据存储到MongoDB中。

    其它介绍

    项目特色

    舆情大数据通过互联网来采集学校的相关数据,比如:通过爬虫,获取百度贴吧的评论信息,获取知乎关于学校的评价等,能够比较及时展示学校相关话题,获取舆论导向,学校可以及时掌握学生情况,从而及时采取相关措施,保证校园安全。

    设计原则

    可扩展性和易维护性的原则

    在设计时应具有一定的前瞻性,充分考虑系统升级、扩容、扩充和维护的可行性;并针对本系统涉及用户多、业务繁杂的特点,充分考虑如何大幅度提高业务处理的响应速度以及统计汇总的速度和精度。 

    经济性和实用性的原则

    舆情大数据的设计实施尽最大可能节省项目投资,确保系统性能优良,投入合理,具有较好的性能价格比,设计面向实际,注重实效,坚持实用、经济的原则,充分合理利用现有设备和信息资源,为我校节省投资。 

    先进性和成熟性的原则

    舆情大数据设计将充分应用先进和成熟的技术,满足建设的要求,把科学的管理理念和先进的技术手段紧密结合起来,提出先进合理的业务流程;将使用先进成熟的技术手段和标准化产品,使平台具有较高性能,符合当今技术发展方向,确保系统具有较强的生命力,有长期的使用价值,符合未来的发展趋势。 

    可靠性和稳定性的原则

    在设计时采用了可靠的技术,各环节具备故障分析与恢复和容错能力,并在安全体系建设、复杂环节解决方案和系统切换等各方面考虑周到、切实可行,建成的系统将安全可靠,稳定性强,把各种可能的风险降至最低。 

    安全性和保密性的原则

    在系统设计把安全性放在首位,既考虑交通数据的充分共享,也考虑了信息的保护和隔离;在各个层次对访问都进行了控制,设置了严格的操作权限;并充分利用日志系统、健全的备份和恢复策略增强系统的安全性。