基因是由成千上万个核苷酸对组成。组成基因的核苷酸序列可以分为不同区段。在基因表达的过程中,不同区段所起的作用不同。在遗传学上通常将能编码蛋白质的基因称为结构基因。任何一个基因都包括非编码区和编码区。能够转录为相应信使RNA,进而指导蛋白质合成(也就是能编码蛋白质)的区段叫做编码区。不能转录为信使RNA、不能编码蛋白质的区段叫做非编码区。非编码区位于编码区前后,同属于一个基因,控制基因的表达和强弱。原核生物的基因非编码区虽然不能编码蛋白质,但对遗传信息的表达是不可缺少的,因为在它上面由调控遗传信息表达的核苷酸序列,该序列中最重要的是位于编码区上游的RNA聚合酶结合位点。启动子、终止子属于非编码区。因为回文序列的特殊排列,大多都位于非编码区。原核基因的编码区全部编码蛋白质,真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段编码序列,可以编码蛋白质的序列称为外显子。在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子。非编码区在每个断裂基因的第一个和最后一个外显子的外侧,有人称其为侧翼序列。在侧翼序列上有一系列调控序列。真核细胞的基因中编码区特点:间隔的、不连续的。包括:外显子和内含子(位于编码区中的非编码序列)。通常把基因转录起点前面即5’端的序列称为上游(upstream),起点后面即3’端的序列称为下游(downstream)。并把起点的位置记为十1,下游的核苷酸依次记为+2,+3,……,上游方向依次记为-1,-2,-3,……。非编码区的调控序列主要有以下几种结构:①在5′端转录起始点上游约20~30个核苷酸的地方,有TATA框(TATAbox)。TATA框是一个短的核苷酸序列,其碱基顺序为TATAATAAT。TATA框是启动子(见下)中的一个顺序,它是RNA聚合酶的重要的接触点,能够使酶准确地识别转录的起始点并开始转录。当TATA框中的碱基顺序有所改变时,mRNA的转录就会从不正常的位置开始。②在5′端转录起始点上游约70~80个核苷酸的地方,有CAAT框(CAATbox)。CAAT框是启动子中另一个短的核苷酸序列,其碱基顺序为GGCTCAATCT。CAAT框是RNA聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。当这段顺序被改变后,mRNA的形成量会明显减少。③在5′端转录起始点上游约100个核苷酸以远的位置,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为增强子。当这些顺序不存在时,可大大降低转录水平。研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的基因表达有不同的调控作用。例如,人类胰岛素基因5′末端上游约250个核苷酸处有一组织特异性增强子,在胰岛素β细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。在其他组织细胞中没有这种蛋白因子,所以也就没有此作用。这就是为什么胰岛素基因只有在胰岛素β细胞中才能很好表达的重要原因。④在3′端终止密码的下游有一个核苷酸顺序为AATAAA,这一顺序可能对mRNA的加尾(mRNA尾部添加多聚A)有重要作用。这个顺序的下游是一个反向重复顺序。这个顺序经转录后可形成一个发卡结构。发卡结构阻碍了RNA聚合酶的移动。发卡结构末尾的一串U与转录模板DNA中的一串A之间,因形成的氢键结合力较弱,使mRNA与DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来,同时,RNA聚合酶也从DNA上解离下来,转录终止。AATAAA顺序和它下游的反向重复顺序合称为终止子(见下),是转录终止的信号。启动子和终止子:启动子(promoter)位于编码区上游的非编码区中。真核生物启动子包括下列几种不同顺序,能促进转录过程:(1)帽子位点:转录的起始位点。(2)TATA框(TATAbox):又称Hogness框,类似于原核生物的Pribnow框,决定了转录起点的选择。其一致顺序为TATAATAAT。约在基因转录起始点上游约-30-50bp处,基本上由A-T碱基对组成,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能开始转录。(2)CAAT框(CAATbox):其一致顺序为GGGTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约-...