基于Kylin的大数据可视化在线分析软件及其在智能交通中的运用

文档更新于2022-03-02 19:19|4.5分(高于98%的文档) |219|80




一、项目概况11项目摘要通俗意义上讲,“互联网+”就是“互联网+各个传统行业”, 其目的在于推动移动互联网、云计算、大数据、物联网等现代化信息技术手段与传统行业巧妙结合,服务社会,助力经济提升,充分发挥互联网在社会资源配置中的优化和集成作用,将互联网的创新成果深度融合于经济、社会各领域之中,提升全社会的创新力和生产力,形成更广泛的以互联网为基础设施和实现工具的经济发展新形态。近年来,互联网+巨头纷纷跑马圈地:百度发布Carlife,腾讯、阿里布局传统汽车行业,移动通信运营商、汽车厂商也急着寻求对接,一时之间,基于互联网+概念下的智能交通成了未来交通发展的新趋势。 随着大数据时代的到来,大数据(Big Data)已普遍被认为是继云计算、物联网之后IT行业又一大颠覆性的技术革命,正催生和推动世界各地社会、经济发生深刻的变化。大数据相比于传统的数据仓库,具有数据量大、查询分析复杂、查询分析时间长等特点。大数据技术的难点不在于如何存储庞大的数据信息,而在于如何对这些极富价值的海量数据实施有效的、专业化的处理,特别是如何在大规模海量数据中快速、灵活地实现在线分析。 综合以上,交通领域的监控数据随着时间的推移增长的速度难以想象,这些海量数据如何能够得到快速有效的分析和挖掘,并且最终的分析结果能够直观地通过图形化的形式展现,而且用户能够很好地关注自己感兴趣的内容以及用户个性化推荐等等,以上这些问题都是我们团队作品创意的主要来源。12项目具体实施概况介绍我们认为项目主要通过给用户提供不同的交通数据可视化分析的服务。在软件项目的基础上,给用户提供平台,用户只需要提供他们要可视化分析的数据。结合所学的知识,我们认为项目的具体实现可结合使用Hadoop软件生态群体中Hive分布式数据库及HBase分布式数据库,图表动态可视化部分使用Echarts、D3、Leaflet等可视化技术,同时结合使用J2EEWeb架构可实现该项目。项目的总体架构如图1所示:

通过讨论分析,我们决定将该项目的实现过程分为两个阶段。在离线(Offline)处理阶段,我们可以有效地利用Hadoop大数据平台生态集群中的一系列开源软件。比如,首先我们可以使用目前开源的ETL工具将源数据从传统数据库中抽取到Hive分布式数据库存储并清洗,然后通过自定义的分析模型使用Hive离线分析海量数据构建分布式数据分析平台、HBase存储分析结果构建分布式存储平台,最后通过调用RestAPI查询HBase中存储的分析结果供Online阶段使用。在在线(Online)交互阶段,我们认为前端界面显示部分采用J2EE Web开发技术、Echarts图表动态可视化技术以及D3、Leaflet地图可视化技术来进行设计实现,用户通过自由选择自己感兴趣的主题内容,系统可将离线阶段分析的结果通过用户指定的可视化形式展现,从而达到良好的人机交互体验。二、项目产品介绍基于以上的背景和问题描述,我们团队作品的主要构思是将数据多维度、多指标分析技术和可视化技术应用于对大规模海量交通数据的可视化分析之中。我们首先会将开发的数据可视化分析软件在本地进行安装部署后,用户只需要提供要分析的数据和选定购买他们想要的可视化分析服务(即各种不同的可视化分型形式和效果),然后我们开发人员进行分析并将可视化的数据发送给对方,这样就完成了一次服务的提供。21项目产品内容概述通过团队成员共同对相关领域的技术发展调研之后,首先,我们认为项目软件提供的服务中应包含以下功能:使用开源的ETL数据抽取清洗工具对传统数据库的海量数据进行抽取,将海量数据从传统数据库迁移到大数据平台中,存储在Hadoop集群上的Hive数据库中,并根据业务需求的清洗规则对数据进行清洗。