基因:生命遗传因子
基因[*译者注:基因(遗传因子)是产生一条多肽链或功能RNA所需的全部核苷酸序列。基因是生命的基本构造,储存着种族、血型、孕育、生长、凋亡等过程的全部信息],DNA和RNA,存在于每个细胞中,它们并非简单地使用四个字母代码来提供大量指令,并对周围世界做出先天适应性反应。DNA中有一些离散的功能性元素,其作为功能操作的杠杆,被称为基因。从20世纪40年代到20世纪70年代,这一时期占主导地位的理论是,一个基因只执行一种特定的功能(即“一个基因,一种酶”)。乔治·比德尔(George Beadle)在细菌系统中观察到这一现象,并因此获得了诺贝尔奖。此前的研究引发了几种流行的基因概念,如“智力基因”“癌症基因”“身高基因”。
然而,在人类和其他多细胞生物中,要想调控基因并非易事;基因很少执行单一的功能或具有驱动特征(又称表型),或对疾病的风险带来唯一影响。几乎所有的基因都在不止一种的细胞类型、不同的组织或发育时期活跃,这种“一个基因,多种功能”的原理被称为多效性(Pleiotropy)。由于许多基因具有多效性,因此我们很难认为某个表型仅仅被一个基因控制。例如,某种蛋白质可以作为一种化学反应的酶,但在细胞内可以作为另一种用途的支架;控制胰岛素代谢(PI3K)的相同基因,也可以在细胞对化疗的反应及癌症转移中起到至关重要的作用。
600万年前,人类与最后的共同祖先黑猩猩和倭黑猩猩发生分化以来,人类基因组的大小一直保持不变,但我们对基因及其调控的了解只是在过去的10到20年中才变得清晰。20世纪90年代末,人们对人类基因组中的基因数量争论不休,有人推测基因数量可能多达120000个,或少至20000个。编码RNA和非编码RNA之间的区别还没有得到充分理解,许多人持有人类中心主义的观点,他们认为人类看起来很复杂,因此人类的基因比果蝇(13000个)或蠕虫(20000个)的基因多得多。然而,2001年发布的人类基因组的第一个完整草案显示,人类仅有25000个基因。
令人振奋的是,自那以来,寻求人类基因组内新基因的速度并没有放缓。许多实验室的研究人员,以及诸如DNA元素百科全书(ENCODE)等大型联盟,一直在加快研究的步伐,平均每年有大约1000个新基因被发现。截至2020年年底,基因的数量增加到60000个以上,并且在未来几年,我们将有可能发现更多基因。虽然在我们细胞中产生酶、蛋白质复合物和氨基酸功能元件的蛋白质编码基因的数量一直保持在相对稳定的20000个以上,但明确定义的非编码基因的数量正在不断增加(见图3.1)。这意味着那些适应太空航行的最关键的基因,可能仍在等待我们进一步发掘。
图3.1 随着时间变化的已确认的人类基因的数量:GENCODE基因计数,包括基因总数、蛋白质编码基因、长非编码基因、小非编码基因和假基因
如今,这些发掘工作仍在继续,因为DNA只保存了人类基因组的信息,而活性形式(RNA)对每个细胞、组织、发育时间来说非常特殊。因此,人类可能需要付出超乎寻常的努力去寻找新基因。比如,胎儿利用胎儿血红蛋白处理其体内大部分氧气的分子,但这个基因在人类出生时就消失了,通常再也不会出现。为了解决这些问题,人们通过一些项目为人体的每一种细胞构建图谱,包括由Nenad Sestan领导的Brain Span项目,以及由Aviv Regev领导的人类细胞图谱项目,这两个项目可以帮助我们确认有多少个基因是真正存在于第一个细胞当中的。
不过,发掘基因并不是为了人类基因组。随着时间的推移,有几个存储遗传信息的大型项目正在开展,有关数据库也在日益丰富,包括GenBank(当后文谈到CRISPR时,会进行详细介绍),它保存了世界各地生成的所有序列数据,还有欧洲分子生物学实验室、KBase、日本的DNA数据库及中国国家基因库。世界上最大的两个绘制基因组图谱的项目是地球生物基因组计划和脊椎动物基因组计划,研究人员每周都会在不同的栖息地中发现数千个基因。
基因改变
无论基因的数量何时能最终确定,基因都不会永远保持同样的状态。生命总会不断进化,即使是古老的“已死的”基因,或称假基因,也可能“复活”并再次发挥其作用。这些基因是遗传信息的遗骸,它们仍然存在于人类的基因组中。我们的基因组本质上是一张旧画纸,其上存有数十亿个重叠的“涂鸦”和进化选择的“注释”,如今的我们不仅能够翻阅这些画纸,而且可以看到发生了哪些变化,以及这些变化是如何发生的。其中一个过程被称为外显子化,即一个基因中目前没有被转录成蛋白质的部分会发生突变,然后变成一个外显子,可以作为一个新的RNA或蛋白质的一部分。此外,几乎所有的基因都经历了剪接的过程,它的内部元素被混合和匹配,并通过这种方式创造一个新的功能。这种剪接过程可能产生于疾病(如骨髓增生异常综合征)、决定婴儿性别,以及特定的免疫反应之中。
除了通过生命的工具箱来生成或回收一个新的基因成分,还有一种更简单的获得新的遗传功能的方式,这可能只能通过进化选择才行。一些快速进化选择的例子仅在过去几百年内产生。在日常生活中,人类在成年后能够消化牛奶中的乳糖(乳糖酶耐受性),而哺乳动物在婴儿期之后通常不具备这种能力。另外,波利尼西亚群岛的人们似乎被赋予了自由深潜和增大脾脏的基因,拥有这种基因的岛民能够比其他地区的人类潜得更深,且潜水时间更长。最后要提及的一点是,有证据表明,夏尔巴人和喜马拉雅登山者的遗传选择(EPAS1基因)使他们更适应高海拔地区的生活。进化选择赋予了人类一些最近的适应性,而这一过程仅仅在几十代人中就已经完成了。
基因调节
虽然基因组(你体内的所有DNA)和转录组(你体内的所有RNA)定义了细胞的基本构成部分,但它们的调控是由其他分子完成的,这些分子统称表观基因组(Epigenome)和表观转录组(Epitranscriptome)。数百种化学标记定义了DNA和RNA在细胞中部署和使用的时间、方式、位置,范围从非常小的化学变化到DNA或其周围蛋白质的巨大变化,如DNA甲基化,其中只有4个原子(CH3)被添加到DNA中的胞嘧啶,以控制基因。
同样的原则也适用于RNA,甲基化这样轻微的化学修饰可以调节特定RNA的功能。2012年,我们实验室及一些研究人员首次将其定义为表观转录组。现在有超过115种已知的RNA加工修饰,跨越了生命的所有领域,代表了RNA的显著可塑性,就像DNA和表观基因组一样,影响着RNA的状态、定位、翻译速度和稳定性。
几乎所有基于RNA的病毒都曾对RNA进行过修饰,包括人类免疫缺陷病毒(HIV)、寨卡病毒、丙型肝炎病毒(HCV)。杜克大学斯泰西·霍纳博士实验室和我们实验室的研究都表明,种种修饰改变了病毒的生成、释放及与宿主细胞相互作用的速度。RNA修饰几乎在所有被测试的生物体中都可以观察到,包括病毒、植物、细菌、真菌和动物。现在我们已经了解到,就像表观基因组一样,表观转录组作为一组隐藏的“杠杆”控制着RNA的功能。这些杠杆是未来细胞工程的潜在基质。