Mathematics and Statistics Faculty Research & Creative Works

Multiple Imputation For Robust Cluster Analysis To Address Missingness In Medical Data

Abstract

Cluster Analysis Has Been Applied To A Wide Range Of Problems As An Exploratory Tool To Enhance Knowledge Discovery. Clustering Aids Disease Subtyping, I.e. Identifying Homogeneous Patient Subgroups, In Medical Data. Missing Data Is A Common Problem In Medical Research And Could Bias Clustering Results If Not Properly Handled. Yet, Multiple Imputation Has Been Under-Utilized To Address Missingness, When Clustering Medical Data. Its Limited Integration In Clustering Of Medical Data, Despite The Known Advantages And Benefits Of Multiple Imputation, Could Be Attributed To Many Factors. This Includes Methodological Complexity, Difficulties In Pooling Results To Obtain A Consensus Clustering, Uncertainty Regarding Quality Metrics, And A Lack Of Accepted Pipelines. A Few Studies Have Examined The Feasibility Of Implementing Multiple Imputation For Cluster Analysis On Simulated/small Datasets. While These Studies Have Begun To Address How To Pool Imputed Values And Quantify Uncertainty In Clustering Due To Imputation, A Need Remains For A Complete Framework That Integrates MI In The Clustering Of Complex Medical Data And Sophisticated Cluster Algorithms. We Propose A Cluster Analysis Framework That Mitigates Bias And Addresses These Limitations. It Includes Methods To Pool Multiple Imputed Datasets, Create A Consensus Cluster Solution By Ensemble Methods, And Select An Optimal Number Of Clusters Based On Validity Indices. It Also Estimates Uncertainty About Cluster Membership Attributable To The Imputation And Identifies Features That Characterize The Derived Clusters. The Utility Of This Framework Is Illustrated By Its Application To A Traumatic Brain Injury Dataset With Missing Data. Our Analysis Revealed Six Multifaceted Clusters That Differed With Respect To Glasgow Coma Score (GCS), Mechanism Of Injury, Sociodemographics, Vitals, Lab Values, And Radiological Presentation. The Most Severe Cluster Consisted Of Single, Relatively Young Patients Injured By Motor Accident, With Higher GCS Severity Scores. Comparative Analysis With The Miclust R Package, Along With Statistical Validation Of Cluster Characterization, Demonstrates Its Robust Performance.

Recommended Citation

A. Harder et al., "Multiple Imputation For Robust Cluster Analysis To Address Missingness In Medical Data," IEEE Access, Institute of Electrical and Electronics Engineers, Jan 2024.

The definitive version is available at https://doi.org/10.1109/ACCESS.2024.3377242

Department(s)

Mathematics and Statistics

Second Department

Chemistry

Third Department

Electrical and Computer Engineering

Publication Status

Open Access

Keywords and Phrases

Analytical models; canonical discriminant analysis; clustering; Data models; Data preprocessing; ensemble learning; missingness; mixture models; multiple data imputation; Precision medicine; Predictive models; Systematics; traumatic brain injury; Uncertainty

International Standard Serial Number (ISSN)

2169-3536

Document Type

Article - Journal

Document Version

Final Version

File Type

text

Language(s)

English

Rights

Creative Commons Licensing

This work is licensed under a Creative Commons Attribution 4.0 License.

Publication Date

01 Jan 2024

Download

Full Text Link

Included in

Chemistry Commons, Electrical and Computer Engineering Commons, Mathematics Commons, Statistics and Probability Commons

COinS

Mathematics and Statistics Faculty Research & Creative Works

Multiple Imputation For Robust Cluster Analysis To Address Missingness In Medical Data

Abstract

Recommended Citation

Department(s)

Second Department

Third Department

Publication Status

Keywords and Phrases

International Standard Serial Number (ISSN)

Document Type

Document Version

File Type

Language(s)

Rights

Creative Commons Licensing

Publication Date

Included in

Search

Browse

Author Corner

Related Content

Useful Links

Article Locations

Mathematics and Statistics Faculty Research & Creative Works

Multiple Imputation For Robust Cluster Analysis To Address Missingness In Medical Data

Author

Abstract

Recommended Citation

Department(s)

Second Department

Third Department

Publication Status

Keywords and Phrases

International Standard Serial Number (ISSN)

Document Type

Document Version

File Type

Language(s)

Rights

Creative Commons Licensing

Publication Date

Included in

Share

Search

Browse

Author Corner

Related Content

Useful Links

Article Locations