基于纽约绿标车数据的打车需求分析
项目背景
随着科学技术的发展,世界已经进入到了一个信息化的时代。在人们的共同努力下,互联网大数据领域发展的越来越好,基于数据的研究现如今已有许多人关注,大数据更是具有体量大、传输速度高、多样性、精确性等优点,大数据分析也已经渐渐成为了人们分析问题的一种方式。出租车作为城市公共出行工具之一,大大的减少了城市固定交通工具的运行压力,给人们的出行提供了便捷。由于出租车数量有限,特别是在城市交通高峰期,会出现在某些地区出租车处于超负荷运行的状态,这就给人们的出行带来了极大的不便利。本项目借助纽约出租车网站公布的绿标车相关载客数据进行相关数据分析,并绘制成可视化的图片进行展示。
项目描述
本项目利用纽约绿标车打车数据,通过不同时间、不同支付方式、不同里程以及天气等信息来分析人们的打车需求。通过对出租车的需求分析,为出租车的调度安排提出建议,为人们的出行提供更为便利的条件。
项目功能
(1)获取数据:首先,从NYC Taxi & Limousine Commission网站上下载所需要的出租车数据信息和对应的对照文档字符标识说明。
(2)分析数据:对下载的数据进行分析,弄清楚每列数据的含义和需要进行分析内容的属性值;
(3)可视化:结合所需要分析数据和时间、地点等信息进行可视化处理。
项目展示
1、从对应网站下载本项目所需数据和对应说明文档。
1)打开以下网址:https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page
2)查找2020年1-6月纽约绿出租车数据,并下载文档名为“green_tripdata_2020-0X”,其中,X表示月份。
3)查找对照文档字符标识说明pdf文档,文档名为“data_dictionary_trip_records_green”。
图1 6月csv输入数据
图2 对照文档字符标识说明
2、进行导入库文件和数据的准备工作。
1)分别导入“green_tripdata_2020-0X”中2020年1-6月的数据表,并对数据表进行拼接,组成用于分析的完整数据表。读入csv函数原型如下:
data = pd.read_csv(f)
2)查看维度,了解拼接完后的数据共有多大的数据量。
利用shape函数可以看到整合后的数据表大概有一百多万条数据,20个字段:(1225889, 20)。
3)使用columns函数查看数据表中20个字段的列名称,如下图所示:
通过字段名称可以发现,这张数据表中包括了很多信息,例如:乘客上下车时间、经纬度、乘客数量和付款方式、行驶距离等等。
4)利用head函数查看数据表中前5行的具体内容,如下图所示:
可以发现上下车时间既包括了日期信息,也包括了具体的小时等信息。
5)从上面的输出可以看到并不是所有数据都满足2020年1月到6月这个区间,因此这里需要对数据进行一次简单的处理:仅保留满足2020年1月到6月的数据。
green_taxi = green_taxi[(green_taxi['lpep_pickup_datetime'] >= '2020-01-01 00:00:00')&(green_taxi['lpep_pickup_datetime'] < '2020-07-01 00:00:00')]
3、利用matplotlib库进行柱状图、饼图等的绘制。
1)绘制2020年1-6月使用趋势柱状图
对输入数据按月的使用量变化趋势进行分析绘图:首先,将数据表中的载客时间字段转化为日期格式,然后把这个字段设置为数据表的索引字段;然后,按月的维度对数据表中的数据进行汇总技术,并提取“VendorID”列作为每月出租车的载客数量。
图3 2020年1-6月使用趋势柱状图
2)绘制乘客数量分布柱状图和对应各月乘客分布饼图
绿色出租车的车型有4种,根据用途和载客数量不同从小到大分布为Sedan、Town car、Minivan和SUV。不同的车型能搭载的乘客数量是不同的,那么从分析每次搭乘时出租车内的人数,可以从侧面反映乘客选择的车型。但是这里的数据是由出租车司机手动进行输入的,所以可能会有一些不准确性。所以,除了查看整体数据的柱状图外,再通过对各月饼图的对比,得出人们选用不同车型数量的更直观的选择。
图4 乘客数量分布柱状图
图5 每月乘客分布饼图
3)绘制支付方式分布柱状图
绿色出租车的支付方式一共有6类,具体见下图所示:
从上图可以看出来,这些支付方式也存在重复的问题,甚至还出现了Unkonown的情况,不过本项目仍然按照6种方式来统计分析。
图6 支付方式分布柱状图
4)绘制平均距离及里程分布柱状图
绿色出租车起步价是2.5美元(0.2英里以内),之后每0.2英里(约320米)或者等候2分钟加收40美分;从晚间8点到早上6点期间,加收夜行附加费0.50美元;高峰时刻(周一到周五下午4点到8点)附加费1美元;此外,乘客还需承担乘车期间产生的任何费用并另付小费(15%以上)。但是,这里搭乘距离是影响金额的主要因素。因此,本项目把距离作为单独分析项进行可视化绘制。
图7 平均距离及里程分布柱状图
5)绘制乘客叫车方式偏好柱状图
绿色出租车是规定了运营区域的,所以如果乘客没有预约,绿色出租车就不能够去非规定区域接客,也就是说叫车方式也决定了绿色出租车的载客情况,这里对乘客叫车偏好进行单独分析。
图8 乘客叫车方式偏好柱状图
6)绘制1月数据24小时搭乘趋势图
出租车20小时(一天)的搭乘情况有助于分析每天高低峰乘车情况,因此这里单独进行可视化绘制。
图9 1月数据24小时搭乘趋势图