舆情分析

作者：陈腾 — 已发布 2022/05/08 11:02:50 GMT+0, 上次修改时间: 2022-11-26T11:34:10+00:00

建设“舆情分析与溯源系统”分析并研究网络舆情信息的来源类别和特征、负面影响等内容，总结得出网络舆情采集的内容、标准和关键词。在此基础上，构建和开发一个专门用于处理网络舆情信息的系统，实现属地网络舆情内容的检索、查看、指派、统计、浏览等功能。

一、项目意义

整体项目使用的是Pycharm开发工具，Django Web框架，Django 是一个开放源代码的 Web 应用框架，Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。

我们的业务流程是：数据获取、数据预处理、数据挖掘（深度学习、神经网络）、数据可视化。

二、使用技术

Scrapy——网络爬虫框架。它是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据**等领域。

Jieba——分词组件

它是一个Python 中文分词组件，可以对中文文本进行分词、词性标注、关键词抽取等功能，并且支持自定义词典。

它有三种模式：

精确模式，试图将句子精确的分开，适用于文本分析。

全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词。本系统使用的是精确模式。

三、结果展示