舆情分析

作者:陈腾 已发布 2022/05/08 11:02:50 GMT+0, 上次修改时间: 2022-11-26T11:34:10+00:00
建设“舆情分析与溯源系统”分析并研究网络舆情信息的来源类别和特征、负面影响等内容,总结得出网络舆情采集的内容、标准和关键词。在此基础上,构建和开发一个专门用于处理网络舆情信息的系统,实现属地网络舆情内容的检索、查看、指派、统计、浏览等功能。

舆情分析

image-20220316110733588.png

一、项目意义

建设“舆情分析与溯源系统”分析并研究网络舆情信息的来源类别和特征、负面影响等内容,总结得出网络舆情采集的内容、标准和关键词。在此基础上,构建和开发一个专门用于处理网络舆情信息的系统,实现属地网络舆情内容的检索、查看、指派、统计、浏览等功能。

整体项目使用的是Pycharm开发工具,Django Web框架,Django 是一个开放源代码的 Web 应用框架,Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。

我们的业务流程是:数据获取、数据预处理、数据挖掘(深度学习、神经网络)、数据可视化。

二、使用技术

Scrapy——网络爬虫框架。它是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据**等领域。

Jieba——分词组件

是一个Python 中文分词组件可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。

它有三种模式:

精确模式,试图将句子精确的分开,适用于文本分析。

全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。本系统使用的是精确模式。

三、结果展示

image-20220316110903554.png