基于大数据技术的菜系数据分析系统

作者:536280dc6797 — 已发布 2021/01/29 08:20:00 GMT+0, 上次修改时间: 2022-02-18T01:58:38+00:00
本项目主要基于大数据技术实现了一套菜系数据分析系统。

一、项目描述

        本项目主要基于网络爬虫、数据清洗、数据分析及数据可视化等大数据技术实现了一套菜系数据分析系统。通过大数据分析,我们可以直观看到八大菜系的用料及其评分情况,对于餐饮业来说,有助于他们了解当今时代人们对于菜品口味的需求,合理调整菜品及口味。而对于美食爱好者来说,可以一目了然地看到各大菜系的特点。

二、项目背景

         大数据是现代社会高科技发展的产物,相对于传统的数据分析,它是海量数据的集合,它以采集、整理、清洗、存储、分析、应用等为核心,正广泛地应用在军事、金融、环保、通信等各个领域中。当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显,并且逐渐融入到我们工作、生活的方方面面。

        大数据技术涉及到数据采集、存储、分析等过程。本项目主要采用网络爬虫、数据清洗、数据分析及数据可视化等技术。使用爬虫从美食论坛上爬取中国各大菜系信息采集数据,包含菜谱名、链接、用料、评分等,然后对数据做数据清理及分析,最后对数据分析结果可视化展示。

         网络爬虫又称为网页蜘蛛或网络机器人,是一种按照一定的规则自动地抓取网络信息的程序或者脚本。应用网络爬虫技术,可以根据需求定制一个数据采集系统,为数据分析提供数据来源。数据清洗是对采集的数据清洗和校验的过程,目的在于删除重复信息、纠正错误等,保证数据一致性,为后续数据分析提供高质量的数据集,提高数据分析的可靠性。数据可视化主要借助于图形化手段,将数据以更加直观、简洁的方式展现出来。

三、系统设计

        本系统主要包括数据采集模块、数据清洗模块、数据分析模块及数据可视化展示模块。如下图所示:

系统流程.jpg

       其中,数据采集模块主要通过网络爬虫从网上获取菜系数据,如下图所示:

原始数据2.jpg

         然后,分别通过数据清洗和数据分析,最终以可视化的形式将结果展示出来。

四、数据可视化展示

         数据分析结果展示效果如下:

         各菜系菜谱数量占比:

各菜系数量.png

        由上图可知,川菜和粤菜菜谱数量较多,在菜系中的分量更重一些。湖北菜和清真菜菜谱数量较少。

         各菜系平均评分:

各菜系平均分.png

        由上图可以看出各菜系评分非常接近,用户平均评分都在4.6分以上。说明各大菜系口感评分都不错,不愧是菜系,口感都不差!

         粤菜用料词云图:

粤菜词云图.png

        由粤菜用料词云图可知,粤菜主要用料包括胡椒粉、五花肉和白糖。粤菜的圣地在顺德,粤菜注重质和味,口味相对清淡,力求清中求鲜、淡中求美。

        川菜用料词云图:

川菜词云图.png

        由川菜用料词云图可知,川菜主要用料包括花椒、豆瓣酱、大蒜和干辣椒。不怕辣的四川人喜好种植花椒,四川火锅也因为有了花椒的加入更有吸引力,千千万万的海内外寻味者奔涌相随。

        清真用料词云图:

清真词云图.png

         清真菜主要用料包括蛋白、蛋清、面粉、玉米等。在我国,包括回族、维吾尔族、哈萨克族等10个少数民族具有清真饮食习惯,清真菜最突出的特点在于饮食禁忌比较严格,因此在用料上明显与其他菜系有所区别。清真菜的口味偏重咸鲜,汁浓味厚,肥而不腻,嫩而不膻。

        湘菜用料词云图:

湘菜词云图.png

        由湘菜用料词云图可知,湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒为生,尤其以剁椒出名。

        通过以上数据分析,可以直观的看到八大菜系的用料及其评分情况。有助于餐饮业了解人们对于菜品口味的需求,合理调整菜品及口味;也可以让美食爱好者一目了然地看到各大菜系的特点。