基于大数据技术的菜系数据分析系统
一、项目描述
本项目主要基于网络爬虫、数据清洗、数据分析及数据可视化等大数据技术实现了一套菜系数据分析系统。通过大数据分析,我们可以直观看到八大菜系的用料及其评分情况,对于餐饮业来说,有助于他们了解当今时代人们对于菜品口味的需求,合理调整菜品及口味。而对于美食爱好者来说,可以一目了然地看到各大菜系的特点。
二、项目背景
大数据是现代社会高科技发展的产物,相对于传统的数据分析,它是海量数据的集合,它以采集、整理、清洗、存储、分析、应用等为核心,正广泛地应用在军事、金融、环保、通信等各个领域中。当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显,并且逐渐融入到我们工作、生活的方方面面。
大数据技术涉及到数据采集、存储、分析等过程。本项目主要采用网络爬虫、数据清洗、数据分析及数据可视化等技术。使用爬虫从美食论坛上爬取中国各大菜系信息采集数据,包含菜谱名、链接、用料、评分等,然后对数据做数据清理及分析,最后对数据分析结果可视化展示。
网络爬虫又称为网页蜘蛛或网络机器人,是一种按照一定的规则自动地抓取网络信息的程序或者脚本。应用网络爬虫技术,可以根据需求定制一个数据采集系统,为数据分析提供数据来源。数据清洗是对采集的数据清洗和校验的过程,目的在于删除重复信息、纠正错误等,保证数据一致性,为后续数据分析提供高质量的数据集,提高数据分析的可靠性。数据可视化主要借助于图形化手段,将数据以更加直观、简洁的方式展现出来。
三、系统设计
本系统主要包括数据采集模块、数据清洗模块、数据分析模块及数据可视化展示模块。如下图所示:
其中,数据采集模块主要通过网络爬虫从网上获取菜系数据,如下图所示:
然后,分别通过数据清洗和数据分析,最终以可视化的形式将结果展示出来。
四、数据可视化展示
数据分析结果展示效果如下:
各菜系菜谱数量占比:
由上图可知,川菜和粤菜菜谱数量较多,在菜系中的分量更重一些。湖北菜和清真菜菜谱数量较少。
各菜系平均评分:
由上图可以看出各菜系评分非常接近,用户平均评分都在4.6分以上。说明各大菜系口感评分都不错,不愧是菜系,口感都不差!
粤菜用料词云图:
由粤菜用料词云图可知,粤菜主要用料包括胡椒粉、五花肉和白糖。粤菜的圣地在顺德,粤菜注重质和味,口味相对清淡,力求清中求鲜、淡中求美。
川菜用料词云图:
由川菜用料词云图可知,川菜主要用料包括花椒、豆瓣酱、大蒜和干辣椒。不怕辣的四川人喜好种植花椒,四川火锅也因为有了花椒的加入更有吸引力,千千万万的海内外寻味者奔涌相随。
清真用料词云图:
清真菜主要用料包括蛋白、蛋清、面粉、玉米等。在我国,包括回族、维吾尔族、哈萨克族等10个少数民族具有清真饮食习惯,清真菜最突出的特点在于饮食禁忌比较严格,因此在用料上明显与其他菜系有所区别。清真菜的口味偏重咸鲜,汁浓味厚,肥而不腻,嫩而不膻。
湘菜用料词云图:
由湘菜用料词云图可知,湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒为生,尤其以剁椒出名。
通过以上数据分析,可以直观的看到八大菜系的用料及其评分情况。有助于餐饮业了解人们对于菜品口味的需求,合理调整菜品及口味;也可以让美食爱好者一目了然地看到各大菜系的特点。