教育大数据舆情监测项目-校园舆情分析系统

作者:研发部-刘政 已发布 2020/12/21 10:06:00 GMT+0, 上次修改时间: 2022-02-17T09:21:52+00:00
教育大数据舆情监测项目,以洛阳理工学院校园舆情分析系统为例,采用Scrapy爬虫技术进行数据采集,利用python的Django框架完成Web系统搭建,使用机器学习相关算法完成数据的分析与挖掘;实现综合利用大数据技术对海量校园舆情信息进行采集、分析和可视化展示,帮助学校决策部门站在更高的视角观察校内学生的思想动态。

项目背景

        在当前互联网+教育的大背景下,互联网已经为教育赋予了新的变革动力;同时,由于大数据的广泛应用及其背后蕴藏的巨大潜力和价值,大数据的建设和发展已上升为国家战略。学校需要充分利用信息网络技术和大数据技术,汇集校内各种教育数据,整合和新建各类教学资源、人力资源、教学平台,建立一个在丰富教育教学资源基础上集教学运行、教学管理、信息共享的全校统一的信息化“教育大数据服务平台”,以大力推进教师教育专业的建设与发展,大力提升人才培养的质量。 教育舆情监测作为“教育大数据服务平台”中重要的一环,受到越来越多的关注。随着学校信息化建设的发展,洛阳理工学院也积累产生了大量的校园舆情的互联网数据以及每天不断产生新的数据。要建立教育大数据舆情监测项目,需要利用大数据技术对这些数据进行处理、分析、挖掘其潜在的宝贵价值。

        在此背景下,本项目提出建设校园舆情分析系统,利用现代科学技术,对校园态势进行充分感知,对学校的教学、科研、管理和服务等工作进行充分的统筹和融合,面向教师、学生、职工和领导提供可参考的、前瞻的、主动的、精准的智能管理和服务。项目不仅能够锻炼学生的项目开发技能,同时能够帮助学校决策部门站在更高的视角观察校内学生的思想动态。


项目功能

        教育大数据舆情监测项目-校园舆情分析系统,以洛阳理工学院为例,通过网络爬虫技术爬取洛阳理工学院百度贴吧数据,利用数据处理、数据存储、数据分析与挖掘等技术将校园海量的舆情信息以舆情指标的方式反映出来,并借助前端可视化技术,使校园舆情数据指标可视化,帮助学校决策部门站在更高的视角观察校内学生的思想动态,根据实际情况做出更贴近现实的正确决策。

数据采集与预处理

        洛阳理工学院百度贴吧是我校学生使用较多的贴吧论坛网站,本系统针对洛阳理工学院百度贴吧使用Scrapy框架编写的网络爬虫进行数据采集。Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。本系统中的爬虫收集的数据主要包括贴吧中的话题数据、回复数据以及评论数据,并将数据批量存储到临时数据库中,通过数据清洗最终存储到校园舆情业务数据库中。 

数据分析处理

        本系统主要使用机器学习中的情感分析算法对采集的贴吧数据进行分析挖掘,将贴吧数据按照客体表达自身观点所持的态度分为正面情感数据、负面情感数据、中性情感数据;并对分析处理后的数据进行相应的统计分析。 

舆情数据可视化展示

        借助前端可视化技术,以可视化大屏的方式,使校园舆情数据指标可视化,如了解学生近期关注的主要热点关键词(词云图)、校园舆情的正负面总体导向、负面情绪主要关注点及相关作者等,帮助学校决策部门站在更高的视角观察校内学生的思想动态,根据实际情况做出更贴近现实的正确决策。

教育大数据舆情监测项目图-首页.jpg

校园舆情分析系统-首页


教育大数据舆情监测项目图-受关注话题.jpg

校园舆情分析系统-最受关注的言论


教育大数据舆情监测项目图-受欢迎的作者.jpg

校园舆情分析系统-最受欢迎的作者


教育大数据舆情监测项目图-数据量统计.jpg

校园舆情分析系统-数据量统计


项目架构

技术框架图.png

        本项目前端展示界面主要通过HTML+CSS+JS技术采用Bootstrap前端框架进行界面搭建,结合当前流行的Echarts可视化工具,根据数据特征进行划分,选择合适的可视化指标进行可视化展示,使用JavaScript进行界面的用户交互,后台采用Django Web框架作为MTV的技术实现,采用Pandas和Sklearn的情感分析等算法实现数据处理、数据统计与分析模型建立,最后将大量的校园舆情数据存储在Mysql关系数据库上。数据采集采用Scrapy网络爬虫的方式实现校园网络舆情场景的数据采集。