第二章 基因和基因组
一、基因的概念
概念:
基因( )是原核、真核生物以及病毒的
和 分子中具有遗传效应的核苷酸序列,是遗传的
基本单位。
“一个基因一种酶”学说
“一个基因一条多肽链”
顺反子 基因
单个基因~单顺反子;多个基因~多顺反子
分类:
结构基因:编码蛋白质和 、 的基因
调节基因:具有调节控制作用
命名:
常用三个小写英文斜体字母表示,例如涉及乳糖代谢
相关的基因:
对基因的概念的理解:
(1)一个DNA上有多个基因。每个基
因包括编码区和非编码区。每个基因含
有多个脱氧核苷酸对。
(2)染色体是基因的主要载体,基因
在染色体上呈直线排列。相邻基因间有
一段无遗传效应的非编码序列。
二、基因的结构
年 等首先发现,在真核生物基因
组中,基因是不连续的,在基因的编码区域内部含
有大量的不编码序列,从而隔断了对应于蛋白质的
氨基酸序列,这种不连续的基因又称为断裂基因或
割裂基因( )。
三、真核生物的断裂基因
断裂基因=外显子( )+内含子( )
大多数真核基因都含有内含子,而相反,
原核基因基本不含内含子。
经过删除和连接,除去无关的
DNA间序(即内含子),便形
成了成熟的mRNA分子
断裂基因 Split Genes
翻译
多肽链
真核
生物
细胞
成熟
mRNA
的形
成过
程
鸡卵清蛋
白DNA和
mRNA分
子之间杂
交形成的
R环
基因中
含有内
含子
DNA和mRNA之间形成特殊的RNA-DNA异源双链
分子结构
断裂基因 Split Genes
注意:1. 内含子和外显子的分布
2. 外显子和内含子的相对性
3. 内含子的生物学意义
• 有的内含子可编码内切酶
• 调控
• 提高进化速率
4. 基因的大小取决于内含子的
长度和数目。如大多数酵母基
因小于2kb,哺乳动物大多数基
因在5~100kb之间。
164 199 229 242 259aa
α型 W X α Z
W X α β Z
β型 W X β Z
164 199 229 242 259aa
图 10-42 肌钙蛋白基因内含子的交替剪接,
产生α和β两种类型的蛋白
有些基因的初级转录本,可以按照不同的途径剪辑
形成不同的RNA分子,编码不同的蛋白质
四、重叠基因(overlapping gene)
• 1977年Sanger首先发现重叠基因
• 他对单链环状的噬菌体X174进行了测序。
5386Nt 11 基因, 3个转录单位,由3个启动子
(pA,pB,pD)启动。
• X174含有的5386Nt最多能编码1795个氨基酸,
若每个氨基酸的平均分子量为110,则总的蛋白质
分子量为197,000Da,但实际蛋白质总分子量却为
262,000D。
• 将全部DNA序列和蛋白质的氨基酸序列进行比较,
发现了重叠基因
•有时同一段DNA序列可得到不同的表达产物
重叠基因和基因内基因
重叠基因 Overlapping Genes
五、基因组( )
• 原核基因组一般含有大量单一序列,仅
有少量的重复序列。
原核生物的细胞中除了主染色体以外,
还含有各种质粒。
• 真核基因组一般含少量单一序列和大量
重复序列。
真核生物除了核染色体以外,还存在细
胞器DNA。
(一) 原核生物基因组
• E.coli基因组4200Kb,双链闭合环状,约编
码2000个基因。
• 类核(nucleoid)
支架 (scafford) 100个DNA环组成,
每个环长40Kb
(二) 真核基因组的复杂性
•概念:一个物种的单倍体染色体所含的遗传物
质的总和,基因组的大小用全部DNA的碱基对总
数表示。
人类基因组3X109(30亿) bp,共编码约3~4万
个基因。迄今,小鼠、果蝇、线虫、拟南芥、水
稻、酵母菌等模式生物的全基因组序列均已测出。
1.真核生物基因组
•C值(C value)和 C值矛盾(C-value paradox)
显花植物
鸟类
哺乳类
爬行类
两栖类
骨鱼类
软骨鱼类
棘皮类
甲壳类
昆虫类
软体动物
蠕虫类
酶菌
藻类
真菌
革兰氏阳性菌
革兰氏阴性菌
枝原体
106 107 108 109 1010 1011
图 10-37 不同门类生物的 C 值分布(仿 B.Lewin:《GENES》Ⅵ,1997,Fig 21.1)
•C值(C value):每种真核生物的单倍体基因
组中的全部DNA含量是恒定的,称为该物种的C值。
•C值矛盾(C-value paradox): C值的大小与进
化的复杂性并不一致;无法用已知功能解释基因
组DNA的含量。
全国
多选:
.下面哪些生物的全基因组序列已经测定:
.拟南芥 .水稻 .酵母 .小鼠
.人
2. 真核生物基因组的不同序列组分
• 单一拷贝序列:大部分蛋白质结构基因
• 轻度重复序列:在基因组中含有2-10拷贝
如:组蛋白基因、tRNA基因、珠蛋白基因等。
• 中度重复序列:
平均长约300bp,约有10-几千个拷贝
如:rRNA基因和tRNA基因
• 高度重复序列:有几百~几百万个拷贝,大部分
集中在着丝粒和端粒等异染色质区。
• 卫星DNA (satellite DNA)
• 小卫星 (minisatellite )
•微卫星 (microsatellite )
5'前导顺序,3'拖尾顺序
非编码顺序 因突变而失去功能
基因和 ( > 90%) 假基因
基因相 加工假基因
关顺序 编码顺序 基因片断(丢失了 5'和 3'端顺序,不能表达的基因)
(20-30%) (< 10%) 短分散顺序(SINEs)―如 Alu 顺序 人类基因组 分散的重复顺序 (3×109bp) 中度/高度 (40%) 长分散顺序(LINEs) 基因以 重复顺序 卫星 DNA(长 100~5000kb) 外非编 (20~30%) 成簇的重复顺序 小卫星 DNA(长 100bp~20kb,VNTRs) 码顺序 (60%) 微卫星 DNA(4bp,CA 重复) (70-80%) 单一/低度 重复顺序 (70~80%) 图 10-37(b)人类基因组的序列 •基因家族(gene family):来源相同、结构 相似、功能相关的一系列基因形成一个家族。 •基因簇(gene cluster):家族中各成员紧密 成簇排列成串连重复单位 •假基因(pseudogene) 3.基因家族 NTS NTS TS 18s TS 5.8s TS 28s TS 图10.29 非洲爪蟾rRNA基因的串联重复排列 TS:可转录的间隔(spacer)顺序 NTS:不可转录的间隔顺序 H1 H4 H2B H3 H2A 海胆(R) 6000bp 海胆(S) 6540bp 海胆(L) 7240bp H1 H3 H4 H2A H2B 果蝇 4800bp H1 H3 H2B H2A H4 蝾螈 9000bp 图 10-31 组蛋白基因簇的重复单位 图例: 基因; 间隔区; 转录方向 ζ ψζψα ψα α2 α1 θ ε Gγ Aγ ψβ δ β 图10-30 人 类 血 红 蛋 白 的 α 和 β 基 因 簇 晚期胚 早期胚 成体 ψ βho βh1 ψh2 ψh3 β1 maj β2 min 小鼠 β4 β3 ψβ β1 兔 ρ βH β ε 鸡 kb 60 50 40 30 20 10 0 图 10-32 脊椎动物中的β-珠蛋白基因簇和假基因