基于Hadoop的肺癌数据的大数据分析与设计
日期:2024-09-14  作者:王丹   来源:  浏览量:0

基于Hadoop的肺癌数据的大数据分析与设计

李硕 大数据技术·大二实践学期

项目简介:

本项目旨在通过整合多源肺癌相关数据,深入剖析肺癌患者的多维度信息,包括肺癌患者的存活月数,肺癌位置对各项指标的影响,肺癌患者的吸烟史是否对病情有影响等。信息将以图表的方式展示给公众,使公众能够轻松理解并参考这些信息。这样,不仅能增强公众对肺癌预防措施的认识,还能在面临肺癌挑战时,更有效地监控与肺癌相关的生理指标(如血压、血糖、钾、钠水平等),从而做出更加科学合理的健康决策。

本项首先使用python清洗数据,随后利用Hadoop集群的强大性能,在Hive数据仓库中执行多条语句查询和多条建表操作,最后利用sqoop将Hive数据仓库中的数据导入到MYSQL数据库中,并对MYSQL中的数据进行可视化分析,直观展现了各项指标对肺癌患者的影响。

主要技术:

本项目采用Hadoop搭建的完全分布式大数据架构,实现了高效的数据处理与存储。使用Hive数据仓库构建与管理大数据,使用数据迁移工具Sqoop实现从Hive数据仓库到MySQL关系型数据库的数据导出,使用python编程语言完成可视化分析。

 

图1 数据链路

 

图2 分布式环境

 

 

图3 可视化大屏

 

视频详情演示请使用抖音App扫描下方二维码

 


收藏本页