基于Hadoop的肺癌数据的大数据分析与设计
日期:2024-09-14 作者:王丹 来源: 浏览量:1541
基于Hadoop的肺癌数据的大数据分析与设计
李硕 大数据技术·大二实践学期
项目简介:
本项目旨在通过整合多源肺癌相关数据,深入剖析肺癌患者的多维度信息,包括肺癌患者的存活月数,肺癌位置对各项指标的影响,肺癌患者的吸烟史是否对病情有影响等。信息将以图表的方式展示给公众,使公众能够轻松理解并参考这些信息。这样,不仅能增强公众对肺癌预防措施的认识,还能在面临肺癌挑战时,更有效地监控与肺癌相关的生理指标(如血压、血糖、钾、钠水平等),从而做出更加科学合理的健康决策。
本项首先使用python清洗数据,随后利用Hadoop集群的强大性能,在Hive数据仓库中执行多条语句查询和多条建表操作,最后利用sqoop将Hive数据仓库中的数据导入到MYSQL数据库中,并对MYSQL中的数据进行可视化分析,直观展现了各项指标对肺癌患者的影响。
主要技术:
本项目采用Hadoop搭建的完全分布式大数据架构,实现了高效的数据处理与存储。使用Hive数据仓库构建与管理大数据,使用数据迁移工具Sqoop实现从Hive数据仓库到MySQL关系型数据库的数据导出,使用python编程语言完成可视化分析。
图1 数据链路
图2 分布式环境
图3 可视化大屏
视频详情演示请使用抖音App扫描下方二维码
【收藏本页】
- 上一篇:基于大数据的酒店分析系统
- 下一篇:招聘智能推荐系统--大数据技术专业实践成果