基于大数据技术的全球肺癌数据分析网站
日期:2025-07-25  作者:admin   来源:  浏览量:0

胡栋竣 大数据技术·大二实践学期

项目简介:

本项目基于美国CDC的NHANES肺癌数据库,构建了一套完整的数据采集与分析系统。系统采用三层架构设计:数据采集层通过Python requests,BeautifulSoup等库从官方源获取CSV格式数据;数据传输层使用Java HDFS API实现高效数据写入;数据处理层运用Spark进行数据清洗和筛选,经Hive建表后导入MySQL,最终通过Jupyter Notebook进行可视化分析,并用web部署访问,实现了高拓展性。系统成功处理了10,000条精选记录,实现了从数据获取到可视化展示的全流程自动化,为公共卫生研究提供了高效的数据支持。该方案整合了Python、Java、Spark等多技术栈,具有模块化、可扩展的特点,显著提升了肺癌数据分析效率,适用于健康趋势研究、政策制定支持等多个应用场景。

主要技术:

预处理使用spark或者python数据处理方法。将数据预处理后的数据存储到数据仓库Hive中并进行合理的数据仓库分层。使用数据迁移工具sqoop将数据仓库中的数据应用层数据导出到结构化数据库MySQL中。最后使用可视化工具pyecharts或者tableau或者fineBI绘制可视化大屏并进行可视化分析。

 

 

图1 首页

 

图2 大屏

 

图3 吸烟状态与癌症风险分析



收藏本页