舆情分析
建设“舆情分析与溯源系统”分析并研究网络舆情信息的来源类别和特征、负面影响等内容,总结得出网络舆情采集的内容、标准和关键词。在此基础上,构建和开发一个专门用于处理网络舆情信息的系统,实现属地网络舆情内容的检索、查看、指派、统计、浏览等功能。
一、项目意义
建设“舆情分析与溯源系统”分析并研究网络舆情信息的来源类别和特征、负面影响等内容,总结得出网络舆情采集的内容、标准和关键词。在此基础上,构建和开发一个专门用于处理网络舆情信息的系统,实现属地网络舆情内容的检索、查看、指派、统计、浏览等功能。
整体项目使用的是Pycharm开发工具,Django Web框架,Django 是一个开放源代码的 Web 应用框架,Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。
我们的业务流程是:数据获取、数据预处理、数据挖掘(深度学习、神经网络)、数据可视化。
二、使用技术
Scrapy——网络爬虫框架。它是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据**等领域。
Jieba——分词组件
它是一个Python 中文分词组件,可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。
它有三种模式:
精确模式,试图将句子精确的分开,适用于文本分析。
全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。本系统使用的是精确模式。
三、结果展示