Skip to content

基因组学

约 1443 个字 预计阅读时间 5 分钟

基因组功能

基因组中执行功能的单元是基因,一个典型的基因在原核/真核生物中如下图所示:

alt text

在原核生物中,多个功能相近、联系紧密的基因往往组合在一起,同一个调控元件组合成操纵子。这是原核生物调节基因表达的重要方式。

真核生物对基因表达的调控更加复杂,包括了远端调控元件近端调控元件,对于前者,其平均距离靶基因百来kb。

有时候这些调控元件可能处在基因的内含子中。

一个真核生物的可读框内结构如下图所示:

alt text

外显子是最终参与编码蛋白质的部分,是构成成熟mRNA的序列。内含子是pre-mRNA的组成部分,会在mRNA的成熟过程中由于可变剪切被切除。

但是并不是所有外显子序列都能最终编码出蛋白,存在处于起始密码子终止密码子外侧的mRNA序列,它们不直接参与蛋白质翻译本身,它们负责维持mRNA的稳定性、定位与调控翻译。

alt text

在真核生物中,往往是内含子占据了大多数序列,它们深刻参与到基因表达调控当中。

调控序列

调控序列负责使每个基因都可以在正确的时间、地点、环境下表达

增强子启动子都是调控序列。

一个基因往往对应多个增强子,但只有一个启动子,以实现在多种不同的状态下的差异化表达。

alt text

alt text

增强子是一系列可以增强基因组表达的远端调控序列,虽然距离靶基因有一段距离,但是其可以通过与启动子结合,形成染色质环,在三维空间上诱导基因的表达。

alt text

本质上,启动子与增强子中都含有成簇的转录因子结合序列 (Transcription factor binding sequence, TFBS),而启动子与增强子想要发挥作用,还需要被称为转录因子的蛋白与之结合才能发挥作用。

转录因子

转录因子,是一种可以识别并结合特定DNA短序列蛋白质。通常识别4-10bp的结合基序 (motif)。人类基因组中有超过30个家族,1000多个不同的转录因子。

对于每个基因的启动子,每个增强子,都含有特定的TFBS组合,可以招募特定的转录因子组合

转录因子本身具有细胞特异性

alt text

这本身参与了特定细胞类型的分化与维持,在特定细胞中表达特定一组的转录因子,从而特异性启动、增强相应基因的表达。

alt text

通过在上皮细胞中表达OSKM转录因子组合,可以诱导细胞脱分化,成为诱导多能干细胞 (iPS Cells)。

山中伸弥还在发力!

大多数人类疾病的突变发现在非编码区域(可能因为在编码区域突变的大多数直接暴毙了...)。

alt text

值得注意的是,人基因组中重复基因占据50%以上

alt text

在其中约有44%的序列是转座子。

转座子,最开始被称为跳跃基因,因为它可以“拖家带口”带着自己的序列插进DNA上的片段,就像在基因组上“跳跃”。

转座子对基因组稳定性是一个巨大挑战,细胞进化出了很多策略来封印转座子。而在某些方面上,细胞也利用转座子对关键生命过程进行调控。

  • 生物早期发育的关键调控因子
  • 转座子结合位点多在重复序列
  • 参与组织基因组结构
  • 基因组进化动力(倒位,缺失,重复或易位)

alt text

基因组演化

基因组演化的动力来自于分子的演化,也就是染色体重排DNA突变

分子钟

基因组与蛋白质的演化速率大致是恒定的,所以可以通过比较突变差异来判断两个物种的分化时间。

这种现象被称为分子钟

alt text

alt text

在基因组中,存在一些被称为保守序列的区域,特点是:

  • 处在强烈选择压力下
  • 包含重要功能(如编码关键蛋白质、关键调控元件与转录因子结合位点)
  • 序列十分保守,在多物种中同源性极高

比保守序列还要保守的被称为超保守区域

alt text

一个有关于基因组演化的实例就是新冠病毒,其在短短3年里多次产生新亚型,基因组快速演化。

alt text

alt text

病毒的高速演化基于:

  • 较高的复制错误率
  • 极大数量与快节奏的生命周期
  • 极强的选择压力

基因组图谱

基因组的图谱包含了其上多种元素的排列关系与作用关系,就像是给一整个基因组绘制了一份包含图例的地图。

其包含遗传图谱(重组率计算)、物理图谱(碱基对计算)两种类型。

两者互补,前者可以洞察不同基因之间的重组关系,从而揭示对应区域的染色质性质。

后者可以准确了解序列内含,便于从碱基排列本身获取信息。

一个经典的DNA测序方法是桑格尔测序法 (Sanger Sequencing)。

下一代测序方法是Illumina开发的边合成边测序,使得测序成本大大下降。