信息与智能工程学院2023级电子信息专业硕士陈祥龙同学于近日在SCI期刊《Journal of Sensors》发表研究论文:Application of GRKM clustering algorithm for DNA data analysis using self-encoder dimensionality reduction,提出名为GRKM的基因聚类创新算法。该技术通过融合自编码器降维与智能优化策略,显著提升肺癌基因分型精度,为癌症个性化治疗提供新工具。
DNA微阵列技术可同时监测数万个基因活性,但海量高维数据如同迷宫。传统聚类方法(如K-means)面临三大瓶颈:①随机初始中心导致结果不稳定;②欧氏距离忽视基因关联性;③依赖人工预设聚类数量。针对这些问题,研究创新性构建降维-优化-聚类全流程解决方案:
(1)智能压缩器
4层自编码神经网络(48→24→12→6)将基因维度压缩85%,保留关键特征的同时剔除噪声,训练损失值仅0.043。
(2)仿生优化器
引入灰狼优化算法(GWO),30只灰狼经100轮迭代自主确定最佳聚类数K=6,轮廓系数达0.789。
(3)全局搜索器
采用随机游走算法替代随机初始化,使初始聚类中心探索范围扩大47倍,避免陷入局部最优。
(4)关联度量器
以马氏距离替代欧氏距离,通过协方差矩阵量化基因间隐性关联,解决特征尺度不一致问题。
研究中的数据集是从NCBI的GEO数据库中下载的编号为GSE6044的肺癌基因表达数据,该数据集包含29例既往未治疗过的肺癌患者的肿瘤细胞与 5 例无肿瘤的对照患者的正常肺组织的基因表达谱,每个样本包含了六万多个基因位点。GRKM算法经过和多种传统算法的对比实验,得出在轮廓系数、簇内平方和、簇间平方和以及DBI指数等指标上都优于传统算法。
最终算法发现6类功能迥异的基因群,这些基因的异常表达共同构成了肺癌复杂病理机制的核心环节,也为治疗靶点的探索提供了重要方向。