王四宝团队合作揭示昆虫“暗物质”基因的功能与演化
2026年1月28日,中国科学院分子植物科学卓越创新中心王四宝研究员团队、浙江大学沈星星教授团队、华南农业大学周筱帆教授团队合作在Cell Research期刊发表题为“Structural genomics sheds light on protein functions and remote homologs across the insect tree of life”的研究论文。该研究构建了迄今物种覆盖最广的昆虫生命之树;基于比较蛋白结构基因组学发现,许多昆虫蛋白一级序列差异显著,但三级结构高度保守;揭示先天免疫受体cGAS-like receptor(cGLR)在昆虫中广泛分布且结构保守,并首次鉴定蚊虫cGLR,证实埃及伊蚊cGLR在抗登革病毒和寨卡病毒感染中具有重要作用。据此,研究提出“蛋白序列分化—结构保守—功能等价”的应用新范式。
昆虫起源于约4.8亿年前,是地球上最繁盛的动物类群之一。至今已描述的昆虫物种超过100万种,占所有动物物种的50%以上。这一古老类群在发育可塑性(如完全变态)、生态功能(如传粉)、病原传播媒介(如媒介昆虫)等方面展现出独特的演化特征,为解析生命多样性机制提供了理想模型。
对基因功能的准确解析,是深入理解昆虫形态多样性、生态适应及行为复杂化演化机制的重要基础。在比较基因组学研究中,基于序列同源性的检索长期以来是蛋白质功能注释的核心路径。然而,当蛋白在演化过程中发生显著分化导致序列相似性显著下降时,基于序列的方法往往难以识别远缘同源关系从而限制了对蛋白功能谱系与生物学意义的全面理解。以模式生物黑腹果蝇为例,其基因组中仍有超过2000个基因功能尚未明确,堪称“暗物质”基因。
基于生物学中经典的"序列-结构-功能"范式,蛋白质的三维结构在演化过程比其氨基酸序列更为保守,也与分子功能更为直接关联。从蛋白结构层面探索这些序列难以识别、长期处于 “暗物质” 基因的功能及其演化规律,成为一种极具潜力的研究策略。本研究基于人工智能的蛋白结构预测方法,对代表性昆虫物种的蛋白质组开展了大规模结构预测,构建了一个涵盖超过1300万个蛋白的昆虫结构图谱,并揭示了大量此前未知的蛋白功能及其深层次的演化规律。该研究建立了首个系统性的蛋白结构基因组学研究范式,为解析蛋白功能与演化提供重要的基石。
理解昆虫的演化历程,离不开一个覆盖主要类群、结构稳健的系统发育框架。研究团队整合了来自17个公开数据库的昆虫基因组与转录组数据,重建了一棵昆虫的高分辨率系统发育树。该昆虫生命之树2.0包含4854种昆虫,并覆盖全部28个目。研究团队综合选取了824个具有代表性的昆虫物种,作为蛋白结构研究的基础。通过整合公共数据库中已有的蛋白结构数据,利用基于人工智能的结构预测工具对尚无公开结构的蛋白结构进行预测,最终构建了一个包含1329万个蛋白结构的综合数据集。这一覆盖广泛演化谱系的结构图谱,为从蛋白结构角度理解昆虫蛋白功能的起源与演化,提供了新的视角。为探究昆虫蛋白结构的多样性,研究团队进一步对海量昆虫蛋白结构进行聚类分析,结合结构预测置信度分数分布的观察,最终选择约8.7万个高质量蛋白结构簇,进行后续分析。通过比较蛋白结构基因组学分析,发现这些蛋白结构家族成员呈现高度结构同源性。相比之下,在相同参数条件下开展的序列聚类却将这些蛋白划分为多个差异显著的小簇。两者形成鲜明对照,提示尽管氨基酸序列在演化过程中可能发生显著分化,蛋白质三维结构仍保留着相似性;因此,相较于单纯序列相似性,结构信息为判定功能关联与同源关系提供了更稳健的依据。
为了进一步理解这些结构簇所蕴含的生物学意义,研究团队建立了一套基于蛋白三维结构的功能注释流程。通过与功能已知的蛋白结构库进行系统比对,研究成功揭示了78.2%的结构簇获得了精准的功能注释。值得注意的是,其中有14.4%的蛋白无法通过传统序列同源方法获得功能信息。这些蛋白往往长期处于功能未知状态,属于蛋白质组中的“暗物质”,而结构相似性为解析其潜在功能提供了新的线索。为追溯这些功能注释的来源,研究进一步从每个结构簇代表蛋白的最佳匹配结构中提取物种分类信息。结果表明,功能信息广泛来源于动物、真菌、植物、细菌及古菌等多个类群,其中相当一部分来自非昆虫的模式物种(如人、小鼠等)。这一现象提示,结构相似性能够跨越较大的系统发育距离,连接分子功能在不同类群中的保守线索。
先天免疫受体cGAS最初在哺乳动物中被发现,随后在模式生物黑腹果蝇中鉴定出与其对应的受体(cGAS-like receptor,以下简称cGLR)。值得注意的是,由于序列差异较大,过去在其它昆虫中未能识别出与果蝇cGLR相对应的同源基因。因此,领域内的研究者普遍认为,包括蚊子在内的其它昆虫体内并不存在先天免疫受体cGLR。研究团队注意到,在昆虫纲内高度保守的一个结构簇中,远缘同源蛋白对比例最高。这个簇中不仅包含了两个来源于果蝇的先天免疫受体蛋白cGLRs,还鉴定到了来自埃及伊蚊等所有其它昆虫的同源蛋白(图1a)。基于这一结构线索,研究团队进一步对埃及伊蚊中识别出的两个cGLRs同源蛋白进行了功能验证。
实验结果表明,敲降埃及伊蚊体内的cGLRs会显著提高登革热病毒和寨卡病毒的感染水平。而在细胞中过表达cGLRs则明显抑制这两种病毒的复制,这显示这些受体在埃及伊蚊的抗病毒免疫中发挥着重要作用(图1b~c)。此外,生化与细胞实验揭示,cGLR能够激活抗病毒基因的表达,并产生环状二核苷酸信号分子2′3′-cGAMP。进一步的体内实验表明,在埃及伊蚊体内注射该信号分子可以增强其抗病毒能力(图1d~e)。
综合结构分析与功能实验结果可以看出,埃及伊蚊中的cGLR与果蝇cGLR在功能上具有一致性,可以感知RNA病毒并产生第二信使,介导先天免疫反应。结构层面揭示的远缘同源关系,为理解这一古老免疫机制在昆虫中的广泛保守性提供了关键线索,也为未来针对媒介昆虫的干预策略提供了新的潜在分子靶点。
本研究以昆虫这一高度多样、演化历史悠久的类群为范式,首次在主要类群尺度上系统绘制蛋白结构图谱,建立面向宏观演化问题的结构比较基因组学框架,为从结构层面解析蛋白功能的大规模演化提供关键资源与方法基础。本研究还揭示了先天免疫受体cGLR在昆虫中的广泛分布与结构保守性,并在埃及伊蚊中验证其功能,为理解昆虫抗病毒免疫提供新机制,也为研发蚊媒病毒干预策略提供的潜在分子靶点。
浙江大学博士生吴伟寅、分子植物卓越中心崔春来(现工作单位华东师范大学)、浙江大学博士生朱逸骁为共同第一作者。浙江大学沈星星教授、分子植物卓越中心王四宝研究员和华南农业大学周筱帆教授为共同通讯作者。分子植物卓越中心王四宝团队的博士生刘子成、高涵博士等参与了部分研究工作。本研究得到国家自然科学基金重点项目和新基石研究员项目等项目资助。
论文链接:https://www.nature.com/articles/s41422-026-01220-0

图1 埃及伊蚊cGLRs的结构保守性及其抗病毒功能验证。