人类基因组计划(科学探索工程)

闽发论坛 — Tue, 29 Nov 2022 05:12:39 +0000

人类基因组计划（英语：Human Genome Project, HGP）是一项规模宏大，跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体（指单倍体）中所包含的30亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

“人类基因组计划”在研究人类过程中建立起来的策略、思想与技术，构成了生命科学领域新的学科——基因组学，可以用于研究微生物、植物及其他动物。人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划，是人类科学史上的又一个伟大工程，被誉为生命科学的“登月计划”。

人类基因组计划由美国科学家于1985年率先提出，于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想，在2005年，要把人体内约2.5万个基因的密码全部解开，同时绘制出人类基因的图谱。换句话说，就是要揭开组成人体2.5万个基因的30亿个碱基对的秘密。截止到2003年4月14日，人类基因组计划的测序工作已经完成。其中，2001年人类基因组工作草图的发表（由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因组公司各自独立完成，并分别公开发表）被认为是人类基因组计划成功的里程碑。

研究历史

对人类基因组的研究在70年代已具有一定的雏形，在80年代在许多国家已形成一定规模。1984年在Utah州的Alta,White R and Mendelsonhn M受美国能源部(DOE）的委托主持召开了一个小型专业会议讨论测定人类整个基因组的DNA序列的意义和前景（Cook Deegan RM,1989)

1985年5月在加州Santa Cruz由美国DOE的Sinsheimer RL主持的会议上提出了测定人类基因组全序列的动议，形成了美国能源部的“人类基因组计划”草案。

1986年3月，在新墨西哥州的Santa Fe讨论了这一计划的可行性，随后DOE宣布实施这一计划。

1986年，诺贝尔奖得主杜尔贝科（R. Dulbecco）在《科学》（Science）周刊撰文回顾肿瘤研究的进展，指出要么依旧采用“零敲碎打”的策略，要么从整体上研究和分析人类基因组。文中指出：如果我们想更多地了解肿瘤，我们必须关注细胞的基因组。…… 从哪个物种着手努力？如果我们想理解人类肿瘤，那就应从人类开始。……人类肿瘤研究将因对DNA的详细知识而得到巨大推动。”

1986年遗传学家McKusick V提出从整个基因组的层次研究遗传的科学称为“基因组学”

1987年初，美国能源部和国立卫生研究院为HGP下拨了启动经费约550万美元（全年1.66亿美元）

1988年，美国成立了“国家人类基因组研究中心”由Watson J出任第一任主任

1990年10月1日，经美国国会批准美国HGP正式启动，总体计划在15年内投入至少30亿美元进行人类全基因组的分析。

1987年，意大利共和国国家研究委员会开始HGP研究，其特点是技术多样（YAC，杂种细胞，cDNA等）、区域集中（基本上限于Xq24-qter区域）

1989年2月英国开始HGP，特点是：帝国癌症研究基金会与国家医学研究委员会（ICRP-MRC）共同负责全国协调与资金调控，剑桥附近的Sanger中心注重首先在线虫基因组上积累经验，改进大规模DNA测序技术；同时建立了YAC库的筛选与克隆、特异细胞系、DNA探针、基因组DNA、cDNA文库、比较生物基因组DNA序列、信息分析等的“英国人类基因组资源中心”。可谓“资源集中、全国协调”。

1990年6月法兰西共和国的HGP启动。科学研究部委托国家医学科学院制定HGP，主要特点是注重整体基因组、cDNA和自动化。建立了人类多态性研究中心（CEPH），在全基因组YAC重叠群、微卫星标记（遗传图）的构建以及驰名世界的用作基因组研究的经典材料CEPH家系（80个3代多个体家系）方面产生了巨大影响。

1990年，美国能源部（DOE）与国立卫生研究院（NIH）共同启动HGP，原定投入30亿美元，用15年时间完成该计划。英、日、法、德等国相继加入。

1995年德意志联邦共和国开始HGP，来势迅猛，先后成立了资源中心和基因扫描定位中心，并开始对21号染色体的大规模测序工作。

1990年6月欧共体通过了“欧洲人类基因组研究计划”，主要资助23个实验室重点用于“资源中心”的建立和运转。还有丹麦王国、俄罗斯联邦、日本、韩国、澳大利亚等。

1994年，中国HGP在吴旻、强伯勤、陈竺、杨焕明的倡导下启动，最初由国家自然科学基金会和863高科技计划的支持下，先后启动了“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构和功能研究”，

1998年在国家科技部的领导和牵线下，在上海成立了南方基因中心。

1998年5月11日，世界上最大的测序仪生产商美国PE Biosystems公司，以其刚研制成功的300台最新毛细管自动测序仪（ABI 3700）和3亿美元资金，成立了Celera Genomics公司，宣称要在3年内，以所谓的“人类全基因组霰弹法测序策略”完成人类基因组测序，并声称要专利200～400个重要基因，并将所有序列信息保密3个月。Celera公司已有雇员300多人，购买了号称“全球第三”的超大型计算机，号称拥有了超过全球所有序列组装解读力量总和的实力。就在六国共同宣布工作框架图构建完成的同一天，Celera公司宣称已组装出了完整的人类遗传密码。Celera公司此举，是对公益性的HGP的竞争与挑战

1998年，组建了中科院遗传所，1998年在北京成立了北方人类基因组中心。1999年7月在国际人类基因组注册，得到完成人类3号染色体短臂上一个约30Mb区域的测序任务，该区域约占人类整个基因组的1%。

人类基因组计划（Human genome project）由美国于1987年启动，中国于1999年9月积极参加到这项研究计划中的，承担其中1%的任务，即人类3号染色体短臂上约3000万个碱基对的测序任务。中国因此成为参加这项研究计划的唯一的发展中国家。

2000年6月26日，参加人类基因组工程项目的美国、英国、法国、德国、日本和中国的6国科学家共同宣布，人类基因组草图的绘制工作已经完成。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构，序列错误率低于万分之一。95%常染色质区域被测序，每个Gap小于150kb。完成图将于2003年完成，比预计提前2年。由于人类基因测序和基因专利可能会带来巨大的商业价值，各国政府和一些企业都在积极地投入该项研究，如1997年AMGEN公司转让了一个与中枢神经疾病有关的基因而获利3.92亿美元。

研究领域

选择人类的基因组进行研究是因为人类是在“进化”历程上最高级的生物，对它的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。

测出人类基因组DNA的30亿个碱基对的序列，发现所有人类基因，找出它们在染色体上的位置，破译人类全部遗传信息。

在人类基因组计划中，还包括对五种生物基因组的研究：大肠杆菌、酵母、线虫、果蝇和小鼠，称之为人类的五种“模式生物”。

HGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。

研究内容

遗传图谱

又称连锁图谱（linkage map），它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义：6000多个遗传标记已经能够把人的基因组分成6000多个区域，使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近（紧密连锁）的证据，这样可把这一基因定位于这一已知区域，再对基因进行分离和研究。对于疾病而言，找基因和分析基因是个关键。

第1代标记

经典的遗传标记，例如ABO血型位点标记，HLA位点标记。70年中后期，限制性片段长度多态性（RFLP），位点数目大于105，用限制性内切酶特异性切割DNA链，由于DNA的一个“点”上的变异所造成的能切与不能切两种状况，可产生不同长度的片段（等位片段），可用凝胶电泳显示多态性，从片段多态性的信息与疾病表型间的关系进行连锁分析，找到致病基因。如Huntington症。但每次酶切2-3个片段，信息量有限。

第2代标记

1985年，小卫星中心（minisatellite core）、可变串联重复VNTR（variable number of tandem repeats）可提供不同长度的片段，其重复单位长度为6至12个核苷酸，1989年微卫星标记（microsatellite marker）系统被发现和建立，重复单位长度为2~6个核苷酸，又称简短串联重复（STR）。

第3代标记

1996年MIT的Lander ES又提出了SNP（single nucleotide polymorphysm）的遗传标记系统。对每一核苷酸突变率为10-9，双等位型标记，在人类基因组中可达到300万个，平均约每1250个碱基对就会有一个。3~4个相邻的标记构成的单倍型（haplotype）就可有8~16种。

物理图谱

物理图谱是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序，即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的，核苷酸序列不同的DNA，经酶切后就会产生不同长度的DNA片段，由此而构成独特的酶切图谱。因此，DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子，由限制酶产生的用于测序反应的DNA片段只是其中的极小部分，这些片段在DNA链中所处的位置关系是应该首先解决的问题，故DNA物理图谱是顺序测定的基础，也可理解为指导DNA测序的蓝图。广义地说，DNA测序从物理图谱制作开始，它是测序工作的第一步。制作DNA物理图谱的方法有多种，这里选择一种常用的简便方法──标记片段的部分酶解法，来说明图谱制作原理。

用部分酶解法测定DNA物理图谱包括二个基本步骤：

⑴完全降解

选择合适的限制性内切酶将待测DNA链（已经标记放射性同位素）完全降解，降解产物经凝胶电泳分离后进行自显影，获得的图谱即为组成该DNA链的酶切片段的数目和大小。

⑵部分降解

以末端标记使待测DNA的一条链带上示踪同位素，然后用上述相同酶部分降解该DNA链，即通过控制反应条件使DNA链上该酶的切口随机断裂，而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱，根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。下面是测定某组蛋白基因DNA物理图谱的详细说明。

完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图，大片段限制性内切酶切点图，DNA片段或一特异DNA序列（STS）的路标图，以及基因组中广泛存在的特征型序列（如CpG序列、Alu序列，isochore）等的标记图，人类基因组的细胞遗传学图（即染色体的区、带、亚带，或以染色体长度的百分率定标记），最终在分子水平上与序列图的统一。

基本原理是把庞大的无从下手的DNA先“敲碎”，再拼接。以Mb、kb、bp作为图距，以DNA探针的STS（sequence tags site）序列为路标。1998 年完成了具有52,000个序列标签位点（STS），并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群（contig）”。用“酵母人工染色体（YAC）作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”，近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。

序列图谱

随着遗传图谱和物理图谱的完成，测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。

大规模测序基本策略　

逐个克隆法

对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装（公共领域测序计划）。

全基因组鸟枪法

在一定作图信息基础上，绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序，利用超级计算机进行组装（美国Celera公司）。

转录图谱

转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能，最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。

原理

所有生物性状和疾病都是由结构或功能蛋白质决定的，而已知的所有蛋白质都是由mRNA编码的，这样可以把mRNA通过反转录酶合成cDNA或称作EST的部分的cDNA片段，也可根据mRNA的信息人工合成cDNA或cDNA片段，然后，再用这种稳定的cDNA或EST作为“探针”进行分子杂交，鉴别出与转录有关的基因。用PolyA互补的寡聚T或克隆载体的相关序列作为引物对mRNA双端尾侧的几百个bp进行测序得到EST（表达序列标签）。2000年6月，EMBL中EST数量已有4,229,786。

转录图谱的意义

在于它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达；也可以了解一种组织中不同时间、不同基因中不同水平的表达，还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。

人类基因组是一个国际合作项目：表征人类基因组，选择的模式生物的DNA测序和作图，发展基因组研究的新技术，完善人类基因组研究涉及的伦理、法律和社会问题，培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家，促进人类健康。

主要用途

人类疾病贡献

人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病，采用“定位克隆”和“定位候选克隆”的全新思路，导致了亨廷顿氏舞蹈症、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现，为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病（老年性痴呆、精神分裂症）、自身免疫性疾病等多基因疾病是疾病基因研究的重点。健康相关研究是HGP的重要组成部分，1997年相继提出：“肿瘤基因组解剖计划”“环境基因组学计划”。

对医学的贡献

基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。

生物技术贡献

⑴基因工程药物

分泌蛋白（多肽激素，生长因子，趋化因子，凝血和抗凝血因子等）及其受体。

⑵诊断和研究试剂产业

基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。

推动细胞工程

胚胎和成年期干细胞、克隆技术、器官再造。

对制药的贡献

筛选药物的靶点：与组合化学和天然化合物分离技术结合，建立高通量的受体、酶结合试验以知识为基础的药物设计：基因蛋白产物的高级结构分析、预测、模拟—药物作用“口袋”。

个体化的药物治疗：药物基因组学。

社会经济影响

生物产业与信息产业是一个国家的两大经济支柱；发现新功能基因的社会和经济效益；转基因食品；转基因药物（如减肥药，增高药）

生物进化影响

生物的进化史，都刻写在各基因组的“天书”上；草履虫是人的亲戚——13亿年；人是由300～400万年前的一种猴子进化来的；人类第一次“走出非洲”——200万年的古猿；人类的“夏娃”来自于非洲，距今20万年——第二次“走出非洲”？

负面作用

侏罗纪公园不只是科幻故事；种族选择性灭绝性生物武器；基因专利战；基因资源的掠夺战；基因与个人隐私。

破译人类遗传信息，将对生物学，医学，乃至整个生命科学产生无法估量的深远影响。目前基因组信息的注释工作仍然处于初级阶段。随着将来对基因组的理解更加深入，新的知识会使医学和生物技术领域发展更为迅速。基于DNA载有的信息在细胞生命活动中的指导作用，在分子生物学水平上深入了解疾病的产生过程将大力推动新的疗法和新药的开发研究。对于癌症、老年痴呆症等疾病的病因研究也将会受益于基因组遗传信息的破解。事实上，在人类基因组计划完成之前，它的潜在使用价值就已经表现出来。大量的企业，例如巨数遗传公司开始提供价格合宜，而且容易使用的基因检测，其声称可以预测包括乳腺癌、凝血、纤维性囊肿、肝脏疾病在内的很多种疾病。

人类基因组计划对许多生物学研究领域有切实的帮助。例如，当科研人员研究一种癌症时，通过人类基因组计划所提供的信息，可能会找到某个，或某些相关基因。如果在互联网上访问由人类基因组信息而建立的各种数据库，可以查询到其他科学家相关的文章，包括基因的DNA，cDNA碱基顺序，蛋白质立体结构、功能，多态性，以及和人类其他基因之间的关系。也可找到和小鼠、酵母、果蝇等对应基因的进化关系，可能存在的突变及相关的信号传到机制。人类基因组计划对与肿瘤相关的癌基因，肿瘤抑制基因的研究工作，起到了重要的推动作用。

分析不同物种的DNA序列的相似性会给生物进化和演变的研究提供更广阔的路径。事实上，人类基因组计划提供的数据揭示了许多重要的生物进化史上的里程碑事件。如核糖体的出现，器官的产生，胚胎的发育，脊柱和免疫系统等都和DNA载有的遗传信息有密切关系。

主要实例

疾病基因

人类基因组研究的一个关键应用是通过位置克隆寻找未知生物化学功能的疾病基因。这个方法包括通过患病家族连锁分析来绘制包含这些基因的染色体区域图，然后检查该区域来寻找基因。位置克隆是很有用的，但是也是非常乏味的。当在1980s早期该方法第一次提出时，希望实现位置克隆的研究者们不得不产生遗传标记来跟踪遗传，进行染色体行走得到覆盖该区域的基因组DNA，通过直接测序或间接基因识别方法分析大约1Mb大小的区域。最早的两个障碍在1990s中期在人类基因组项目的支持下随着人类染色体的遗传和物理图谱的发展而清除。然而，剩余的障碍仍然是艰难的。

所有这些将随着人类基因组序列草图的实用性而改变。在公共数据库中的人类基因组序列使得候选基因的计算机快速识别成为可能，随之进行相关候选基因的突变检测，需要在基因结构信息的帮助。对于孟德尔遗传疾病，一个基因的搜索在一个适当大小的研究小组经常在几个月实现。至少30个疾病基因直接依赖公共提供的基因组序列已经定位克隆到。因为大多数人类序列只是在过去的12个月内得到，可能许多类似的发现还没有出版。另外，有许多案例中，基因组序列发挥着支持作用，例如提供候选微卫星标识用于很好的遗传连锁分析。（2001年中国上海和北京科学家发现遗传性乳光牙本质Ⅱ型基因）

基因组序列对于揭示导致许多普通的染色体删除综合症的机制同样有帮助。在几个实例中，再发生的删除被发现，由同源体重组合在大的几乎同一的染色体内复制的不等交叉产生。例子包括在第22条染色体上的DiGeorge/ velocardiofacial综合症区和在第7条染色体上的Williams-Beuren综合症的重复删除。

基因组序列的可用性同样允许疾病基因的旁系同源性的快速识别，对于两个理由是有价值的。首先，旁系同源基因的突变可以引起相关遗传疾病。通过基因组序列使用发现的一个很好的例子是色盲（完全色盲）。CNGA3基因，编码视锥体光感受器环GMP门控通道的a亚单位，显示在一些色盲家系中存在突变体。基因组序列的计算机检索揭示了旁系同源基因编码相应的b亚单位，CNGB3（在EST数据库中没有出现）。CNGB3基因被快速认定为是其他家系的色盲的原因。另一个例子是由早衰1和早衰2基因提供的，它们的突变可能导致Alzheimer疾病的的早期发生。第二个理由是旁系同源体可以提供治疗敢于的机会，例子是在镰刀状细胞疾病或β地中海贫血的个体中试图再次激活胚胎表达的血红蛋白基因，它是由于β-球蛋白基因突变引起的。

我们在在线人类孟德尔遗传数据库（OMIM）和SwissProt 或TrEMBL蛋白质数据库中进行了971个已知的人类疾病基因的旁系同源体的系统检索。我们识别了286个潜在的旁系同源体（要求是至少50个氨基酸的匹配，在相同的染色体上一致性大于70%但小于90%，在不同的染色体上小于95%）。尽管这种分析也许识别一些假基因，89%的匹配显示在新靶序列一个外显子以上的同源性，意味着许多是有功能的。这种分析显示了在计算机中快速识别疾病基因的潜能。

治疗疾病

在过去的世纪里，制药产业很大程度上依赖于有限的药物靶来开发新的治疗手段。最近的纲要列举了483个药物靶被看作是解决了市场上的所有药物。知道了人类的全部基因和蛋白质将极大的扩展合适药物靶的寻找。虽然，仅仅人类的小部分基因可以作为药物靶，可以预测这个数目将在几千之上，这个前景将导致基因组研究在药物研究和开发中的大规模开展。一些例子可以说明这一点：

⑴神经递质(5-HT）通过化学门控通道介导快速兴奋响应。以前识别的5-HT3A受体基因产生功能受体，但是比在活体内有小得多的电导。交叉杂交实验和EST分析在揭示已知受体的其他同源体上都失败了。然而，通过对人类基因组序列草图的低要求检索，一个推定的同源体被识别，在一个PAC克隆中第11号染色体长臂上。同源体显示在纹状体、尾状核、海马中表达，全长cDNA随后得到。这个编码胺受体地基因，被命名为5-HT3B。当与5-HT3A组合成异二聚体中，它显示负责大电导神经胺通道。假定胺途径在精神疾病和精神分裂症的中心作用，一个主要的新的治疗靶的发现是相当有兴趣的。

⑵半胱氨酰基白三烯的收缩和炎症作用，先前认为是过敏反应的慢反映物质（SRS-A），通过特定的受体介导。第二个类似的受体，CysLT2，使用老鼠EST和人类基因组序列的重组得到识别。这导致了与先前识别的唯一的其它受体有38%氨基酸一致性的基因的克隆。这个新的受体，显示高的亲和力和几个白三烯的结合，映射在与过敏性哮喘有关的第13号染色体区域上。这个基因在气道平滑肌和心脏中表达。作为白三烯途径中抗哮喘药物开发中一个重要的靶，新受体的发现有明显的重要的作用。

⑶ Alzheimer疾病在老年斑中有丰富的β-淀粉样物沉积。β-淀粉样物由前体蛋白（APP）蛋白水解生成。有一个酶是β位 APP裂开酶，是跨膜天冬氨酸蛋白酶。公共的人类基因组草图序列计算机搜索最近识别了BACE的一个新的同源序列，编码一个蛋白，命名为BACE2，它与BACE有52%的氨基酸序列一致性。包含两个激活蛋白酶位点和象APP一样，映射到第21条染色体的必须Down综合症区域。它提出了问题，BACE2和APP过多的拷贝是否有功于加速Down综合症病人的脑部β-淀粉样物沉积。

给出了这些例子，我们在基因组序列中进行系统的识别传统药靶蛋白质的旁系同源体。使用的靶列表在SwissPrott数据库中识别了603个入口，有唯一的访问码。

生物学

一个例子是：解决了困扰研究者几十年的一个神秘课题：苦味的分子学基础。人类和其他动物对于某一种苦味有不同的响应（响应的多态性）。最近，研究者将这个特征映射到人类和老鼠中，然后检索了G蛋白偶合受体的人类基因组序列草图上的相关区域。这些研究很快导致了该类蛋白的新家族的发现，证明了它们几乎都在味蕾表达，实验证实了在培养细胞中的受体响应特定的苦基质。

人体基因组图谱是全人类的财产，这一研究成果理应为全人类所分享、造福全人类，这是参与人类基因组工程计划的各国科学家的共识。值得关注的是，目前在人类基因组研究领域，出现了一些私营公司争相为其成果申请专利的现象。美国塞莱拉基因公司曾表示，想把一部分研究成果申请专利，有偿提供给制药公司。

找到了一批主宰人体疾病的重要基因

如：肥胖基因、支气管哮喘基因。这类基因的新发现每年都有新报道。这些基因的发现，增进了人们对许多重要疾病机理的理解，并且推动整个医学思想更快的从重治疗转向重预防。例如：湖南医科大学夏家辉教授组于1998.5.28发表克隆了人类神经性高频性耳聋的致病基因（GJB3），这是第一次在中国克隆的基因。

在人类基因组计划的推动下，涌现了几门崭新的学科。如：基因组学(genomics）和生物信息学(bioinformatics)

生物技术的产业化。一批世界级的大公司纷纷把它们的重心转向生命科学研究和生物技术产品。这种趋势或潮流也不能不说和人类基因组计划密切相关。

研究进展

国外

完成人类基因组序列完成图

⑴ 从当前物理图谱生成的克隆产生完成的序列，覆盖基因组的常染色质区域大于96%。大约1Gb的完成序列已经实现。剩下的也已经形成草图，所有的克隆期望达到8～10倍的覆盖率，大约2001年中期（99.99%的正确率），使用已经建立的和日益自动化的协议。

⑵ 检测另外的库来关闭gaps。使用FISH技术或其他方法来分析没有闭合的Gaps大小。22，21条染色体用这种方式。2003年已经完成。

⑶ 开发新的技术来关闭难度较大的gaps，大约几百个。

基因组序列工作框架图（Working draft）：通过对染色体位置明确的BAC连续克隆系4-5倍覆盖率的测序（在BAC克隆水平的覆盖率不应低于3倍），获得基因组90%以上的序列，其错误率应低于1%。工作框架图可用于基因组结构的认识、基因的识别和解析、疾病基因的定位克隆，SNP的发现等。

草图的作用

1、草图，许多疾病相关的基因被识别

2、SNP（人与人之间的区别），草图提供了一个理解遗传基础和人类特征进化的框架。

3、草图后，研究人员有了新的工具来研究调节区和基因网络。

4、比较其它基因组可以揭示共同的调控元件，和其他物种共享的基因的环境也许提供在个体水平之上的关于功能和调节的信息。

5、草图同样是研究基因组三维压缩到细胞核中的一个起点。这样的压缩可能影响到基因调控

6、在应用上，草图信息可以开发新的技术，如DNA芯片、蛋白质芯片，作为传统方法的补充，目前，这样的芯片可以包含蛋白质家族中所有的成员，从而在特定的疾病组织中可以找到那些是活跃的。

2001年2月12日，美国Celera公司与人类基因组计划分别在《科学》和《自然》杂志上公布了人类基因组精细图谱及其初步分析结果。其中，政府资助的人类基因组计划采取基因图策略，而Celera公司采取了“鸟枪策略”。至此，两个不同的组织使用不同的方法都实现了他们共同的目标：完成对整个人类基因组的测序的工作；并且，两者的结果惊人的相似。整个人类基因组测序工作的基本完成，为人类生命科学开辟了一个新纪元，它对生命本质、人类进化、生物遗传、个体差异、发病机制、疾病防治、新药开发、健康长寿等领域，以及对整个生物学都具有深远的影响和重大意义，标志着人类生命科学一个新时代的来临。

众多发现

1、分析得知：全部人类基因组约有2.91Gbp，约有39000多个基因；平均的基因大小有27kbp；其中G+C含量偏低，仅占38%，而2号染色体中G+C的含量最多；到目前仍有9%的碱基对序列未被确定，19号染色体是含基因最丰富的染色体，而13号染色体含基因量最少等等（具体信息可参见cmbi 特别报道：生命科学的重大进展）。

2、目前已经发现和定位了26000多个功能基因，其中尚有42%的基因尚不知道功能，在已知基因中酶占10.28%，核酸酶占7.5%，信号传导占12.2%，转录因子占6.0%，信号分子占1.2%，受体分子占5.3%，选择性调节分子占3.2%，等。发现并了解这些功能基因的作用对于基因功能和新药的筛选都具有重要的意义。

3、基因数量少得惊人：一些研究人员曾经预测人类约有14万个基因，但Celera公司将人类基因总数定在2.6383万到3.9114万个之间，不超过40,000，只是线虫或果蝇基因数量的两倍，人有而鼠没有的基因只有300个。如此少的基因数目，而能产生如此复杂的功能，说明基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义，也说明人类的基因较其他生物体更'有效'，人类某些基因的功能和控制蛋白质产生的能力与其他生物的不同。这将对我们目前的许多观念产生重大的挑战，它为后基因组时代中生物医学的发展提供新的非凡的机遇。但由于基因剪切，EST数据库的重复以及一些技术和方法上的误差，将来亦可能人类的基因数会多于4万。

4、人类单核苷酸多态性的比例约为1/1250bp，不同人群仅有140万个核苷酸差异，人与人之间99.99%的基因密码是相同的。并且发现，来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中，人与人之间的变异仅为万分之一，从而说明人类不同“种属”之间并没有本质上的区别。

5、人类基因组中存在“热点”和大片"荒漠"。在染色体上有基因成簇密集分布的区域，也有大片的区域只有“无用DNA” ——不包含或含有极少基因的成分。基因组上大约有1/4的区域没有基因的片段。在所有的DNA中，只有1%-1.5%DNA能编码蛋白，在人类基因组中98%以上序列都是所谓的“无用DNA”，分布着300多万个长片断重复序列。这些重复的“无用”序列，决不是无用的，它一定蕴含着人类基因的新功能和奥秘，包含着人类演化和差异的信息。经典分子生物学认为一个基因只能表达一种蛋白质，而人体中存在着非常复杂繁多的蛋白质，提示一个基因可以编码多种蛋白质，蛋白质比基因具有更为重要的意义

6、男性的基因突变率是女性的两倍，而且大部分人类遗传疾病是在Y染色体上进行的。所以，可能男性在人类的遗传中起着更重要的作用。

7、人类基因组中大约有200多个基因是来自于插入人类祖先基因组的细菌基因。这种插入基因在无脊椎动物是很罕见的，说明是在人类进化晚期才插入我们基因组的。可能是在我们人类的免疫防御系统建立起来前，寄生于机体中的细菌在共生过程中发生了与人类基因组的基因交换。

8、发现了大约一百四十万个单核苷酸多态性，并进行了精确的定位，初步确定了30多种致病基因。随着进一步分析，我们不仅可以确定遗传病、肿瘤、心血管病、糖尿病等危害人类生命健康最严重疾病的致病基因，寻找出个体化的防治药物和方法，同时对进一步了解人类的进化产生重大的作用。

9、人类基因组编码的全套蛋白质（蛋白质组）比无脊椎动物编码的蛋白质组更复杂。人类和其他脊椎动物重排了已有蛋白质的结构域，形成了新的结构。也就是说人类的进化和特征不仅靠产生全新的蛋白质，更重要的是要靠重排和扩展已有的蛋白质，以实现蛋白质种类和功能的多样性。有人推测一个基因平均可以编码2-10种蛋白质，以适应人类复杂的功能。

模式生物：酵母（yeast）、大肠杆菌（Escherichia coli）、果蝇（Drosophila melanogaster）、线虫（Caenorhabditis elegans）、小鼠（Mus musculus）、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。

目前基因组学的研究出现了几个重心的转移：一是将已知基因的序列与功能联系在一起的功能基因组学研究；二是从作图为基础的基因分离转向以序列为基础的基因分离；三是从研究疾病的起因转向探索发病机理；四是从疾病诊断转向疾病易感性研究。

在后基因组时代，如果在已完成基因组测序的物种之间进行整体的比较、分析，希望在整个基因组的规模上了解基因组和蛋白质组的功能意义，包括基因组的表达与调控、基因组的多样化和进化规律以及基因及其产物在生物体生长、发育、分化、行为、老化和治病过程中的作用机制都必须发展新的算法以充分利用超级计算机的超级计算能力。

美国和英国科学家2006年5月18日在英国《自然》杂志网络版上发表了人类最后一个染色体——1号染色体的基因测序。

在人体全部22对常染色体中，1号染色体包含基因数量最多，达3141个，是平均水平的两倍，共有超过2.23亿个碱基对，破译难度也最大。一个由150名英国和美国科学家组成的团队历时10年，才完成了1号染色体的测序工作。

科学家不止一次宣布人类基因组计划完工，但推出的均不是全本，这一次杀青的“生命之书”更为精确，覆盖了人类基因组的99．99%。解读人体基因密码的“生命之书”宣告完成，历时16年的人类基因组计划书写完了最后一个章节。

中国

人类基因组计划中还包括若干个模式生物体基因组计划，中国重点支持的水稻基因组研究计划亦可划入这一范畴。模式生物体一直就是生命科学领域研究的基本模型，加之它们与人类相比基因组结构简单、单位DNA长度上基因密度高，易于基因的识别，而且从低等至高等的各个模式生物是研究基因分子进化的绝佳材料。各模式生物体之间的比较性研究将有助于人类基因的结构与功能的阐明。对于在整体水平研究基因的功能，模式生物体更有着无法取代的地位。

中国的基因组研究工作起步较晚，而且是基础差、底子薄、资金少，与国际上这几年HGP的惊人速度相比，中间的差距很大，并且这种差距有进一步加大的可能。中国生命科学界应在如下几个方面共同努力：

1、尽快收集和利用中国宝贵的多民族基因组资源和遗传病家系材料，并阻止这些资源盲目流向国外。

2、集中人力、物力和财力，建立互相配套的、集分子遗传学、自动化技术和信息技术为一体的中心，才能卓有成效地开展工作。

3、根据中国国情和原有工作基础，做到有所为有所不为，走“短平快”和出奇制胜的道路，直接楔入基因组研究中最为关键的部分－基因识别，如走“cDNA计划”道路，尽可能地克隆一大批新基因，在人类8万～10 万个基因中占有一定的份额。同时，由于基因组DNA测序是一项劳动和技能密集性工作，如能引进技术，培训一支高水平的技术队伍，完全有可能将人类基因组测序的一部分工作吸引到中国。

4、充分利用国际基因数据库中已有信息，建立生物信息技术，推进中国基因组研究工作，并在基因组转录顺序的认识及基因功能推测方面多做工作。

5、多渠道筹措资金，在维护知识产权的前提下开展国际间合作。

历史已将中国当代科学家推上了人类基因组计划这一国际合作和竞争的大舞台，他们责无旁贷地要为供养自己的国家和人民负责，为21世纪中国的科学、技术和产业负责，唯有高瞻远瞩地认清当前的形势和不辞劳苦、不计得失地拼搏，才有可能在国际人类基因组计划中占有一席之地，有着交换和分享数据的资本，共同品尝人类基因组这一全人类的“圣餐”。

中国1994年启动HGP，现已完成南北方两个汉族人群和西南、东北地区12个少数民族共733个永生细胞系的建立，为中华民族基因保存了宝贵的资源，并在多民族基因组多样性的研究中取得了成就，在致病基因研究中有所发现。定名为中华民族基因组结构和功能研究的HGP为“九五”国家最大的资助研究项目之一（700万元），为中国在下世纪国际HGP科学的新一轮竞争中占据有利地位打好了基础。

技术应用

1、人类基因组测序

1990年～1998年，人类基因组序列已完成和正在测序的共计约330Mb，占人基因组的11%左右；已识别出人类疾病相关的基因200个左右。此外，细菌、古细菌、支原体和酵母等17种生物的全基因组的测序已经完成。

值得一提的是，企业与研究部门的携手，将大大地促进测序工作的完成。美国的基因组研究所（The Institute of Genome Research,TIGR）与PE（Perkin-Elmar）公司合作建立新公司，三年内投资2亿美元，预计于2002年完成全序列的测定。这一进度将比美国政府资助的HGP的预定目标提前三年。美国加州的一家遗传学数据公司（Incyte）宣布（1998年〕，两年内测定基因组中的蛋白质编码序列以及密码子中的单核苷酸的多态性，最后将绘制一幅人的10万个基因的定位图。与Incyte公司合作的HGS（Human Genome Science）公司的负责人宣称，截止1998年8月，该公司已鉴定出10万多个基因（人体基因约为12万个），并且得到了95%以上基因的EST（expressed sequence tag）或其部分序列。

1998年9月14日美国国家人类基因组计划研究所（NHGRI）和美国能源部基因组研究计划的负责人在一次咨询会议上宣布，美国政府资助的人类基因组计划将于2001年完成大部分蛋白质编码区的测序，约占基因组的三分之一，测序的差错率不超过万分之一。同时还要完成一幅“工作草图”，至少覆盖基因组的90%，差错率为百分之一。2003年完成基因组测序，差错率为万分之一。这一时间表显示，计划将比开始的目标提前两年完成。

2、疾病基因的定位克隆

人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的分子遗传学问题。6000多个单基因遗传病和多种大面积危害人类健康的多基因遗传病的致病基因及相关基因，代表了对人类基因中结构和功能完整性至关重要的组成部分。所以，疾病基因的克隆在HGP中占据着核心位置，也是计划实施以来成果最显著的部分。

在遗传和物理作图工作的带动下，疾病基因的定位、克隆和鉴定研究已形成了，从表位→蛋白质→基因的传统途径转向“反求遗传学”或“定位克隆法”的全新思路。随着人类基因图的构成，3000多个人类基因已被精确地定位于染色体的各个区域。今后，一旦某个疾病位点被定位，就可以从局部的基因图中遴选出相关基因进行分析。这种被称为“定位候选克隆”的策略，将大大提高发现疾病基因的效率。

3、多基因病的研究

目前，人类疾病的基因组学研究已进入到多基因疾病这一难点。由于多基因疾病不遵循孟德尔遗传规律，难以从一般的家系遗传连锁分析取得突破。这方面的研究需要在人群和遗传标记的选择、数学模型的建立、统计方法的改进等方面进行艰苦的努力。近来也有学者提出，用比较基因表达谱的方法来识别疾病状态下基因的激活或受抑。实际上，“癌肿基因组解剖学计划（Cancer Genome Anatomy Project,CGAP”就代表了在这方面的尝试。

4、中国的人类基因组研究

国际HGP 研究的飞速发展和日趋激烈的基因抢夺战已引起了中国政府和科学界的高度重视。在政府的资助和一批高水平的生命科学家带领下，中国已建成了一批实力较强的国家级生命科学重点实验室，组建了北京、上海人类基因组研究中心。有了研究人类基因组的条件和基础，并引进和建立了一批基因组研究中的新技术。中国的HGP在多民族基因保存、基因组多样性的比较研究方面取得了令人满意的成果，同时在白血病、食管癌、肝癌、鼻咽癌等易感基因研究方面亦取得了较大进展。

首先建立了寡核苷酸引物介导的人类高分辨染色体显微切割和显微基因克隆技术；已建立的17种染色体特异性DNA文库和24种染色体区特异性DNA文库及其探针；构建了人X染色体YAC图谱，已完成了人X染色体Xp11.2-p21.3跨度的约35cM STS－YAC图谱的构建；建立了YAC－cDNA筛选技术。

目前的研究工作还包括：疾病和功能相关新基因的分离、测序和克隆的技术和方法学的创新研究；中国少数民族HLA分型研究及特种基因的分析；人胎脑cDNA文库的构建和新基因的克隆研究。

中国是世界上人口最多的国家，有56 个民族和极为丰富的病种资源，并且由于长期的社会封闭，在一些地区形成了极为难得的族群和遗传隔离群，一些多世代、多个体的大家系具有典型的遗传性状，这些都是克隆相关基因的宝贵材料。但是，由于中国的HGP 研究工作起步较晚、底子薄、资金投入不足，缺乏一支稳定的、高素质的青年生力军，中国的HGP 研究工作与国外近年来的惊人发展速度相比，差距还很大，并且有进一步加大的危险。如果我们在这场基因争夺战中不能坚守住自己的阵地，那么在21 世纪的竞争中我们又将处于被动地位：我们不能自由地应用基因诊断和基因治疗的权力，我们不能自由地进行生物药物的生产和开发，我们亦不能自由地推动其他基因相关产业的发展。

延伸计划

模式生物（包括小鼠、果蝇、线虫、斑马鱼、酵母等）的基因组计划。
人类元基因组计划：对人体内所用共生菌群的基因组进行序列测定，并研究与人体发育和健康相关基因的功能。
国际人类基因组单体型图计划（简称HapMap计划）：目标是构建人类DNA序列中多态位点的常见模式。由于每个个体（除了孪生子和克隆动物）的基因组都有独特之处，因此有必要对个体之间的差异在基因组上进行定位。其完成将为研究人员确定对人类健康和疾病以及对药物和环境反应有影响的相关基因提供关键信息。
人类基因组多样性研究计划：对不同人种、民族、人群的基因组进行研究和比较。这一计划将为疾病监测、人类的进化研究和人类学研究提供重要信息。