基于文献知识图谱的智能推荐系统

作者:5f208d8a — 已发布 2021/01/23 10:55:00 GMT+0, 上次修改时间: 2022-05-08T05:56:43+00:00
科技文献作为研究成果的重要传播载体,成为追踪行业技术发展的重要手段,本系统通过使用网络爬虫技术获取科技文献,并将科技文献数据与知识图谱技术相结合,利用可视化的形式展示文献数据之间的隐含关系,并结合推荐算法为用户推荐相关论文,对学生在毕业设计中选题、写作和材料选择上提供帮助。

项目描述

       本系统从数据获取、知识表示、图谱展示三个方面出发,设计了基于文献知识图谱的智能推荐系统。主要完成以下功能:

       1)从中国知网获取文本数据;

       2)使用Python语言进行知识表示,并抽取出论文的实体与属性;

       3)构建可视化的文献知识图谱,并分析论文之间的联系;

项目背景

       文献知识图谱主要基于检索网站中的文献数据,如中国知网,利用知识图谱技术对论文文献数据进行管理和知识抽取,最终构建文献知识图谱,能够展示文献数据之间的联系。在现实生活中文献的查找是编写论文中很重要的一部分,但通常在查找的结果中附带着大量的无关信息,并且部分信息的阅览还涉及到费用问题。为了解决上述问题,本项目将实现基于文献知识图谱的智能推荐系统。

项目功能

   1.论文搜索

       系统整体将以网站的形式呈现给使用者,用户登录成功后,则可以通过输入的关键字查询论文信息。

基于文献知识图谱的智能推荐系统-2.png

   2.论文查看

       推荐论文的前端展示设置论文查看功能,可以查找出文章对应的作者、作者单位、摘要、来源与发布时间,查看论文如下图所示。

基于文献知识图谱的智能推荐系统-3.png

   3.知识图谱

       系统通过用户的历史浏览记录,为其推荐相关论文,并形成知识图谱。用户可以通过对图谱的分析,找出该课题当前的热点研究方向。

基于文献知识图谱的智能推荐系统-4.png

项目架构

       基于文献知识图谱的智能推荐系统的系统架构图,系统整体可以分为三个功能模块:数据层、逻辑层与应用层。

       数据层是整个系统的基础。主要是基于Python的网络爬虫技术爬取含有论文数据的非结构化网页,爬取的网页数据通过使用Python语言进行数据预处理,将处理好的结构化数据存入关系型数据库MySQL中,数据库中的数据将作为系统的基础,为系统后台开发提供有力的支撑。

       逻辑层是整个系统的核心。逻辑层搭建基于数据层获取的大量的论文信息,用户使用过程中系统会收集浏览历史记录,通过协同过滤算法与基于内容的推荐算法搭建推荐系统,该系统是通过分析浏览历史记录进行推荐。论文图谱将通过处理后的论文数据进行展示,分析图谱可以得到重要的信息。

       应用层主要是用户对系统的使用。用户通过注册/登录进入到系统的论文检索页面,通过对论文关键字的检索,系统会通过后台返回相关的论文信息,并进行不同方式的可视化展示,使用过系统后的用户可以通过留言页面留下反馈信息,系统可以利用反馈信息对推荐系统给出客观的评价,并指出推荐算法以及推荐系统改进的方向。

基于文献知识图谱的智能推荐系统-1.png