随着测序技术成本的不断下降、效率的不断提升,以及越来越准确的全基因组解读方式的发展,理解各种基因变异对健康的影响变得愈加重要。引发疾病的基因变异可以是小到一个核苷酸的替换、插入和缺失,也可能是大到一个或多个染色体的获得或缺失。而技术进步让检测基因序列和寻找疾病相关突变变得简单快捷,为识别和瞄准致病突变技术开辟了一个崭新的、重要的研究领域。
前言
随着测序技术成本的不断下降、效率的不断提升,以及越来越准确的全基因组解读方式的发展,理解各种基因变异对健康的影响变得愈加重要。引发疾病的基因变异可以是小到一个核苷酸的替换、插入和缺失,也可能是大到一个或多个染色体的获得或缺失。
基因突变能引起各种疾病,甚至儿童早亡。理解基因突变的原因以及突变对生理功能的影响具有重大意义。一些有害的突变可能一代代地遗传下来。只有当一个个体携带一对突变基因时,才能发现这种隐性突变。这种突变能造成发育缺陷、衰老或癌症等疾病。
最近,技术进步让检测基因序列和寻找疾病相关突变变得简单快捷,为识别和瞄准致癌突变技术开辟了一个崭新的、重要的研究领域。新的基因编辑工具,对性状遗传结构理解的加深,再加上生殖技术的进步,为清除或缓解突变造成的负面影响提供了新的可能。尽管一些突变比其它突变更易靶向,但是把遗传信息转化为临床手段的进度仍令人沮丧。但不得不说,首次人体全基因组解读完成之后的十年,科学家们在这方面取得了重大的进步——未来遗传研究的成果在临床上或许会有更多用武之处。
以寻找疾病相关突变为目的的基因数据中心不断扩张。本图为英国桑格研究所(Sanger Institute)的基因数据中心。该中心目前有16petabytes的DNA序列信息。
一、23andMe药物研发,前途无量or无亮
23andMe,一家消费者遗传学公司收集了超过100万人的DNA样本。如今,它想通过这些样本来研发药物。
切洋葱时,你流了多少眼泪?对你来说,新鲜的香菜闻起来是不是像肥皂?你的臀部、大腿部位以及手臂后部是否有妊娠纹?你是否有脑肿瘤?
把你的唾液寄给23andMe,花上99美金就能做一个基因分析,然后你就能从网页账户中获得祖先遗传的信息。你还会遇到一系列可选问题,如此之多!有些问题是关于你的品位和习惯的,其它问题则是关于你的疾病史和用药史的。
位于硅谷的23andMe拥有由超过30位遗传专家和数据分析师组成的专业团队,该公司是世界上拥有最大生物样本库的公司之一。23andMe里的在线调查能提供用户的基本资料,帮助专家们确定DNA与健康、外貌,以及爱好之间的联系。目前23andMe的分析报告中还增加了DNA和医学以及心理的联系,从而让服务增值。这些服务让23andMe从众多竞争者中脱颖而出,成为面向消费者遗传测试这一新兴领域的典型。
2013年,23andMe遭遇了滑铁卢。当时美国食药监局(FDA)要求23andMe停止提供唾液检测和基因组服务,因为他们在未经监管机构批准的情况下向个人销售基因检测服务。尽管23andMe取消了个人基因组服务中的健康信息服务,但是他们的研究团队仍在进行这方面的研究。如今,该公司收集了超过100万人的DNA样本(这等于2000升以上的唾液)。好奇的消费者们似乎也对这项研究非常着迷,他们每周一共回答了超过200万个新的调查问题,帮助公司寻找新的健康相关基因。
23andMe的研究团队的焦点逐渐从与雀斑和喷嚏反射相关的基因,转移到能够作为药物靶标的疾病相关基因。23andMe的研究主任Joyce Tung指出,这就像是革命,他们原来做的事情是“告诉我们你喜欢早起吗”,现在他们要做的事情是“大家一起来攻克疾病吧”。
据知情人透露,23andMe目前已签订了30多份协议,允许制药公司和生物技术公司使用他们的数据库。其中,14个协议去年签订,大部分仍未公开。Genentech公司的人类遗传学高级主任Tim Behren谈到23andMe的帕金森病人数据库时表示,没有哪个公司拥有像23andMe这么多的样本。Genentech前期投入了1000万美金来使用该数据库,并承诺会追加到5000万美金及以上。
23andMe的壮举还不止于此。今年3月,它宣布会雇佣一个治疗团队,自主研发药物。即使23andMe的拥护者也觉得,这一举动过于鲁莽。斯克里普斯研究学院(Scripps Research Institute)研究数字化医疗技术的医师和遗传学家Eric Topol表示,23andMe的主要贡献是让基因组学民主化了。这是它的核心。也许23andMe能够成功研发药物,但希望很渺茫,毕竟药物研发领域的竞争者太多了。
23andMe位于山景城的加州火车站旁,办公楼是一栋看起来冷冷清清的4层玻璃房。入口处可见公司的商标——粉红色和绿色交叉的染色体。这个夏日的上午,Anne Wojcicki穿着人字拖在自助餐厅里做水煮蛋,房间的另一侧摆放了一排跑步机。
Wojcicki,23andMe的共同创始人兼首席执行官计划把公司搬到这栋楼里。今年5月,23andMe决定搬出山景城最负盛名的谷歌园区。Google是23andMe的早期投资者,并且对Wojcicki的决策有很大影响。Wojcicki是生物学家和医疗投资分析师,2006年她和生物学家Linda Avey、财务主管Paul Cusenza抱着“将基因信息整合到日常生活中”的信念创办了23andMe。他们认为,通过收集每个人的DNA样本和健康信息,能够把疾病研究变成一个“数据问题”。
Tung在斯坦福大学( Stanford University)做过博后——研究小鼠和人身上色素沉积的相关基因。结束博后生涯后,她远离了学界,成为了23andMe的第一批员工。当时,业内对于23andMe以低价基因测试和在线调研来获得宝贵数据的理念充满怀疑。据Tung回忆,当时人们的普遍看法是,这个想法是好的,但注定在医学方面毫无收获。
在自助餐厅的楼上是玻璃会议室。Tung雷鸣般的笑声时不时会飘出来。当被问及23andMe的数据库为什么会在研究中扮演重要角色时,她伸了伸胳膊回答“因为它大!”
23andMe通过检测日益增长的样本中的单核苷酸多态性(single nucleotide polymorphisms,SNP,DNA碱基对中相对常见的变异)来提取遗传信息。每位消费者的唾液中的DNA被分解成多个片段,然后浇在SNP芯片(一个信用卡大小的检测板,上面覆盖了载有DNA探针的硅珠)上。每个单链DNA探针都可捕获能与其配对的DNA片段,从而暴露出目的位点的核酸。然后,自由漂浮的带有荧光标记的核酸会与该位点结合,从而显示该处的SNP。
负责23andMe的技术平台的生物物理学家Arnab Chowdry一直尝试从芯片中获取更多的信息。目前的芯片可以检测65万个SNP,但使用的是公开的参考基因组;另外,也能预测这些变异可能遗传产生的、超过1400万种变异。
23andMe利用SNP来预测祖先遗传和其它性状。比如说,分析结果中会包含消费者有多大比例的DNA来自北欧人种。直到2013年,分析报告还会警告一些潜在的、风险增高的疾病,包括帕金森病、乳腺癌和心肌病。(公司早期为谷歌的共同创立者、Wojcicki的前夫Sergey Brin做过分析,结果表明Brin携带了一个会增加帕金森病风险的基因。Brin公开发表了这一结果,并从此成为帕金森病研究的主要资助者。)
23andMe的科研领导团队(从左到右):研究主任Joyce Tung、首席科学家David Hinds、资深研究主任Joanna Mountain、首席执行官Anne Wojcicki、平台架构师Arnab Chowdry以及治疗学团队首席科学家Richard Scheller。
通过对超过80万同意参与研究的消费者的调查,23andMe的科学家们寻找SNP和生理性状之间的新联系。常用手段是全基因组关联分析(Genome Wide Association Study, GWAS):他们按照表型把消费者分组——讨厌香菜的人群、2型糖尿病患者等,通过与对照组进行对比,发现实验组中更常出现的SNP。
从2009年起,23andMe为特定病人群体免费提供个人基因组服务,作为交换,这些病人需要参与一些更为聚焦的疾病相关调查。目前,23andMe的帕金森病人团体成员已达到12000人;而患肉瘤、骨髓增殖性肿瘤(一种罕见的骨髓疾病)、肠炎和红斑狼疮等疾病的病人团体人数较少。
所有的调查问卷和基因型信息都被抹去了识别信息,以保护参与者的隐私。这些参与者非常乐意提供更多数据。Tung指出,当23andMe发送新的调查问题时,一般24小时内收到上百万份回复。哈佛大学(Harvard University)的遗传学家、23andMe 的科学咨询委员会成员George Church表示,在很多研究中,受试者很容易就中途退出, 但23andMe的受试者们配合度非常高。
23andMe在激励受试者方面做得非常好。研究者们会花时间研究一些能引起消费者兴趣、但无法拿到国立卫生研究院(NIH)资助的课题。例如,他们发现了4个与妊娠纹形成相关的SNP,以及位于嗅觉受体基因中、讨厌香菜味道的变异。
23andMe的在线调查大大充盈了数据库。但一些研究者认为,这样得来的数据非常不可靠。国立老化研究所(National Institution Aging)神经遗传实验室的细胞生物学家Mark Cookson表示,这种获得数据的方法遭到了很多人的质疑。非正式的调查问卷在可靠性上远不如医学检查或病人的病历。Cookson还指出,医学界的人会说,你都不知道哪些人有帕金森,你怎么净化数据?
Cookson表示,近期这类质疑有所减少。寻找某一性状与某一基因序列的联系,需要的是统计学意义。因此只要有足够的样本,结论的可靠性就能够保证。23andMe的一些研究也与其他团体的研究成果一致。
到2012年,23andMe的消费者超过18万人,这些消费者的样本和问卷调查帮助发现了一些基因,例如与雀斑、卷发、秃头、帕金森病和甲减相关的基因联系。在2012年美国人类遗传学会(American Society of Human Genetics, ASHG)年会上,23andMe的首席科学家、统计遗传学家David Hinds表示他的地位发生了改变,“之前,人们对我们的研究丝毫不感兴趣,但这次会议上很多人表示想和我们合作,想使用我们的数据库。”今年夏天,23andMe发表了30多篇论文,其中很多是与学术实验室合作的成果。
23andMe也证实了它的数据库能指导药物研发。在2014年ASHG年会上,他们展示了针对2751个候选药物的分析,表明23andMe的数据库能帮助预测哪个药物可能在临床试验中获得成功。他们观察到,如果23andMe数据库里显示疾病性状与某一SNP相关,而药物是以这一SNP所在基因或周围基因为靶点,那么相比不以疾病相关基因为靶点的药物,前者通过FDA批准的概率要增加两倍。
但关联研究本身难以作为药物开发的工具。与疾病相关的SNP往往标志着致病的突变存在于附近。同时,关联研究也不能揭示一个突变是如何引起疾病的,以及以一个基因产物为靶标会对身体产生哪些影响。直到最近,全基因组关联分析部分解决了这个问题。Hinds指出,过去SNP分析有很大的局限性,因为他们能发现关联,但无法发现生物机制。
23andMe开放的办公空间看起来更像是计算机公司,而不是生物技术公司。带着耳机的服务人员有条不紊地拨打、接听着电话。新员工的工作室里还飘着写有“欢迎来到我们的基因库(WELCOME TO OUR GENE POOL)”的气球。
“这真的是一场革命,我们原来做的事情是“告诉我们你喜欢早起吗”,现在我们要做的事情是“大家一起来攻克疾病吧”。”
——Joyce Tung,23andMe的研究主任
最引人注目的新员工是Richard Scheller,他主要做生物机制方面的研究。去年12月,61岁的药物研发老手Scheller宣布从Genentech公司退休。同一天,他接到了Wojcicki的邮件。Wojcikci表示,她在斯坦福念过书,她知道Scheller是那种永不停止前进脚步的人。Wojcikci一直在考虑23andMe是否应该自主进行药物开发,而Scheller的热情让她坚定了这个决心。
在23andMe,Scheller有些不适应。Tung的团队里都是信息学专家。Scheller表示,Tung图队的人谈的都是著名统计学家的算法,Scheller完全不懂他们在说什么。
药物研发对于23andMe的核心团队来说是个新领域。Chowdry表示,他们一直希望采用数据库影响药物研发过程,但Chowdry认为,大部分人都没想过自己做研发。尽管如此,Chowdry认同了这一决策,他认为,如果他们真的相信数据库的价值——事实上,他们都相信它的价值,自己做研发意味着他们能更充分地利用这份价值。
作为新医疗部门的负责人,Scheller计划于下年招募25名科研人员,并打算后年将人数翻倍。Scheller目前正在南旧金山地区寻找合适的实验室位置,并同时与签约实验室沟通、交流。随后,23andMe将会慢慢变成生物技术公司,直接进行药物研发工作:寻找候选基因、筛选与候选基因或它们的蛋白相互作用的化合物,在动物身上,随后在人身上测试这些化合物的作用。
23andMe几乎没有透露这个部门接下来的目标。Scheller表示,他们唯一能确定的领域是神经心理疾病——这是因为这个疾病极度复杂。在加入Genentech前,Scheller是斯坦福大学神经科学实验室的一个负责人。Scheller还指出,23andMe的第一个候选药物可能是以疾病相关分子为靶标的抗体,因为抗体比小分子药物更易合成。
开展药物研发意味着23andMe要脱离老本行SNP芯片,开展部分或全基因组测序。SNP芯片针对的是常见的标志性突变——发生概率为3-5%,但这无法从遗传学上解释很多常见疾病的高发生率。23andMe的芯片包括了很多更为罕见的SNP,但仍然无法囊括特定基因上的成百上千的不常见变异,而且SNP芯片只能检测已知的突变,不能发现新的突变。
近年来,有多个以寻找致病基因为目标的大规模全基因组筛查项目正在开展中。其中包括1月启动的奥巴马精准医疗计划中的百万老兵计划和遗传学家J. Craig Venter的人类长寿公司开展的基因筛查项目。Genentech的Behrens表示,当DNA测序价格越来越低廉时,“我们能发现更多的基因变异。”Behrens是对23andMe数据库中3000位帕金森患者的父母进行基因测序项目的一个负责人。他表示,去年基因组测序的成本下降到1600美金时,公司决定开始基因组测序项目。
23andMe经过消费者的允许,保留了很多唾液样本,这部分样本可用于全基因组测序。考虑到99美金的SNP测试费,1600美金仍很贵。Scheller表示,很多人问我,如果把样本进行全基因组测序,岂不是能获得更多数据。但是那样就需要20亿美金来完成所有样本的测序。而且很多序列对我们完全没用。相反,Scheller决定用SNP来确定需要测序的基因组部分,然后对病人的这些区域进行测序。(Wojcicki表示,公司最后会把基因组测序信息整合到交给消费者的个人DNA分析结果中。)
Cookson表示,23andMe面临的最大障碍是任何基于基因组研发药物的团体都会遇到的问题:把可能有疾病相关的DNA区域转化成药物靶标。“他们能顺利完成这一步吗?我不知道。但很少人能做到这一点,因此允许我冒昧地说一句,‘他们做不到’。我自己也没有做到。”
尽管业内对于23andMe进军药物研发界议论纷纷,Wojcicki目前正聚焦于一个更迫切的商业目标:重启23andMe的消费者健康服务。2013年FDA曾警告过23andMe,认为他们提供的产品没有被证实其有效性,并且没有准确地向消费者传达信息,消费者可能因为疾病风险增加而盲目担忧。23andMe因此不得不中断其消费者健康服务。
Wojciki表示,23andMe遭禁是因为对政策理解不透彻以及没能准确理解预期目标。23andMe现在正和FDA合作,在今年年底前收回发给消费者的健康报告。2月,FDA通过了23andMe测试消费者是否携带能导致后代罹患布卢姆综合征(一种罕见的影响DNA结构稳定性,从而增加癌症风险的疾病)的隐性基因。在上市前的审查过程中,FDA也批准了23andMe检测其它疾病基因携带者的测试服务。这意味着23andMe可以不需要向FDA申请就能把这些信息反馈给消费者。但23andMe是否可以继续提供其它健康信息,例如药物响应和疾病风险等信息仍不确定。Wojcicki表示,形势一片大好,但他们可能需要做一些让步。
同时,23andMe决定生产并出售唾液检测试剂盒。Tung表示,他们设计了一款消费者产品。Tung工作职责的一部分就是发现“接下来他们能为消费者提供哪些最棒最酷的东西”。
加州大学伯克利分校(University of California, Berkeley)的生物学家,兼23andMe科学顾问委员会成员的Michael Eisen指出,消费者遗传学公司转向制药领域时,都会遭遇这样一个逻辑,如果消费者遗传学公司不想止步于满足消费者的好奇心,那么就需要使用这些人的基因信息来助力疾病的诊
疗。
二、谁拥有你的DNA,或想拥有它
越来越多的公司和机构开始利用服务器来处理人类DNA数据。《科学》(Science )杂志的一项非正式调查发现,至少有17家生物资料库持有或计划持有7.5万人的基因信息。这些数据涵盖了从常见的基因突变扫描(SNP)到编码蛋白的外显子组,再到全基因组等信息。
大英生物样本库(UKBiobank)使用自动设备存储和访问多个DNA样本。
23andME
规模:>100万人的基因样本
基因数据:SNP
这家广受欢迎的私营基因测序公司希望把已有的基因数据用于药物研发上。
ANCESTRY.COM
规模:>100万人的基因样本
基因数据:SNP
这家美国家谱网站目前正与谷歌注资的生物技术公司Calico合作寻找长寿基因。
HUMAN LONGEVITY, INC.
规模:计划收集100万人的基因样本
基因数据:全基因组
由基因组先锋Craig Venter创立,Human Longevity Inc计划花一年时间对10万人进行基因测序,寻找与衰老相关的基因。
100K WELLNESS PROJECT
规模:107人的基因样本(计划10万人的基因样本)
基因数据:全基因组
由美国科学院院士、资深测序专家Leroy Hood领队,该项目采用系统的方法研究基因和健康的联系。
百万老兵项目 (MILLION VETERAN PROGRAM)
规模:39万人的基因样本(计划100万人的基因样本)
基因信息:SNP、外显子组、全基因组
该项目由美国国防部资助,旨在发现肝脏、心脏疾病和物质滥用相关基因。
美国国家研究队列(U.S. NATIONAL RESEARCH COHORT)
规模:计划100万人的基因样本
基因数据:待定
该项目是奥巴马精准医疗计划的一部分, 使用基因学数据实现个体化医疗。
大英生物样本库(UK BIOBANK)
规模:50万人的基因样本
基因信息:SNP
以英国中年人为样本,研究生活习惯、基因和常见疾病的关联。
10万人基因组计划(100,000 GENOMES PROJECT)
规模:5500(计划7.5万正常人+ 2.5万肿瘤患者基因样本)
基因数据:全基因组
该计划由英国资助,聚焦于癌症和罕见疾病,旨在把基因组信息整合到临床治疗中。
deCODE GENETICS
规模:14万人的基因样本
基因数据:SNP和全基因组
已被Amgen公司收购,这个冰岛公司在冰岛内寻找疾病相关基因。
KAISER-PERMANENTE BIOBANK
规模:20万人的基因样本(计划50万人的基因样本)
基因数据:SNP
这个保健公司发表了关于端粒和疾病风险的论文。
GEISINGER MYCODE
规模:6万人的基因样本(计划25万人的基因样本)
基因数据:外显子组
Geisinger是宾夕法尼亚州的保健服务提供商,该公司和Regeneron制药公司合作,研究基因和疾病的关联。
VANDERBILT'S BIOVU
规模:19.2万人的基因样本
基因数据:SNP
关注影响常见疾病和药物响应相关的基因。BioVU的数据已经被实行了永久去识别操作。
日本生物样本库(BIOBANK JAPAN)
规模:20万人的基因样本
基因数据:SNP
该项目从2003年到2007年间收集志愿者的DNA样本,目前致力于研究常见疾病的遗传学。
中国慢性病前瞻性研究(CHINA KADOORIE BIOBANK)
规模:51万人的基因样本
基因数据:SNP
该项目寻找基因、生活方式和常见疾病之间的联系。
EAST LONDON GENES & HEALTH
规模:计划10万人的基因样本
基因数据:外显子组
其中一个目标是在一个近亲结婚非常普遍的国家寻找健康的“基因敲除人”——缺乏特定基因的人。
沙特人类基因组计划(SAUDI HUMAN GENOME PROGRAM)
规模:计划10万人的基因样本
基因数据:外显子组
这个国家性的计划旨在寻找罕见遗传疾病的致病基因。
费城儿童医院(CHILDREN'S HOSPITAL OF PHILADELPHIA)
规模:10万人的基因样本
基因数据:SNP和外显子组
世界上最大的使用儿童健康记录和基因信息来研究儿童疾病的机构。
三、人类基因突变的起源、决定因素和结果
生殖细胞基因突变是遗传疾病的主要原因,同时也是进化的最终来源。体细胞突变则是癌症的主要原因,并可能导致多种疾病负担。这篇综述旨在介绍基因组的突变发生率、突变谱和突变决定因素方面的最新研究,以及这些因素是如何影响孟德尔遗传病以及其它复杂的人类疾病的。我们也会介绍突变效应概念化模型和未来突变研究的重点——检测和定量突变的新技术,把突变和分子功能、进化适合度和致病性联系起来,更好地解读突变的效应。
尽管DNA复制和修复的分子机制在进化过程中日益精确,但基因突变的发生率依然不低。据估计,平均一个人就携带了60 个新生点突变(且这种突变具有极大的个体差异性),这部分突变来自于父母的生殖细胞突变。因此,上一代全球七十亿个人类,合起来大约发生了1011种生殖细胞突变,远远超过了人类基因组中的核苷酸数目。此外,发育过程中和整个生命过程中发生的体细胞突变都数量
惊人。举例来说,60岁老人体内的增生性组织,如小肠上皮,几乎每个细胞里每个基因组位点都存在一个突变。
基因测序技术的进展有助于科学家们从基因组层面检测生殖细胞和体细胞突变。这些基因突变的研究证实、修正和扩展了我们对突变的理解,包括:基因突变的起源、发生机制、经验特征、复制和非复制导致的突变、突变谱和发生率的异质性和个体差异性、性别和父母生育年龄对突变率的影响,以及生殖细胞和体细胞突变之间的相似性和差异性等。然而,学界对突变造成的功能、表型和健康效应的解读存在缺口。如果我们想要有效地识别新生突变引起的遗传性疾病,确定突变与癌症是否有因果关系,解读人类疾病的遗传基础,我们就必须填补这个缺口。
人类生殖细胞突变发生率
许多不同的方法都可用于估计生殖细胞碱基替换的发生率(图1)。本文中,除非特别说明,突变统一指碱基替换导致的突变。纵观历史,乃至近代,人们对于突变率的估计几乎都是基于病症明显的孟德尔疾病的发病率。最大的一项研究汇总了~ 60个基因位点的数据,估计平均每代生殖细胞每个碱基对的突变率为1.28×10-8。然而,以孟德尔遗传病为基础的估计使用了多个假设,同时因为研究局限于少数位点的突变,因此这类估计并不能真实代表生殖细胞的突变发生率。系统发生树方法在人类和非人灵长类动物之间的序列差异的基础上,估算公认中性位点突变的发生率。这种方法得到的全基因组平均每代生殖细胞每个碱基对的突变率为2.2×10-8。系统发生树方法也做假设,如假设代数和被研究的位点对健康无影响。此外,系统发生树估计方法可能会受到进化过程而非突变和选择,如偏向性基因转换(能影响哺乳动物的替换速率(上一代到下一代的速率))的影响。
新测序技术让科学家们能够识别系谱树中的新生突变(即孩子携带而父母不携带的突变),从而能够更直接地估计突变率。基于全基因组测序,科学家们估计每代生殖细胞每对碱基对突变率为~1.0× 10-8,这还不到系统发生树方法估计值的一半,却与基于孟德尔疾病的估计更为一致。以家系为基础的测序存在一个问题:具有很强的数据过滤性,因此测序分析方法既能影响假阳性,又会影响假阴性率。尽管如此,基于古人类的“缺失突变”的估计方法(如果古人类不灭绝,他们会积累了多少突变)得到的结果与系谱估计法得到的结果基本上一致(分别是~1.1和1.2× 10-8)。
图1 推断人类生殖细胞突变发生率的方法。(上图)基于孟德尔疾病患者(图中用红色圆圈和方形表示),确定系谱中的新生突变(子女具有,而父母不具有),以及发现系谱中自体同源区域发生的突变(长长的纯合区域中出现的杂合位点)。(下图)比较基因组方法包括1,系统发生树法(基于人类和非人类灵长动物都会发生的突变数目);2,推断与现代人相比,古人类缺失了多少突变(如果古人类不灭绝,他们会积累多少突变)。图中,红色线条表示突变。
虽然各种方法估计出的突变率的差异大到两倍,但是这种估计对于我们理解人类进化和疾病具有重要意义(例如,帮助科学家们估计有效群体大小、推断现代人脱离其他古人类群体的时间、现代人走出非洲,及分散到世界各地的时间)。此外,有越来越多的证据表明,编码序列中的新生突变和罕见变异不仅会引起孟德尔疾病,还会诱发一些更为常见,且具有遗传异质性的疾病,例如神经发育障碍和早发性乳腺癌。这表明,多个突变都能影响疾病的发生,而多个基因同时突变会增加疾病的风险。因此,准确估计生殖细胞突变率对于解读人类疾病的模式、发病和机制至关重要。
上面讨论的估计方法是针对单碱基替换引起的生殖细胞突变率。也有一些方法用于估计小段插入和缺失以及拷贝数变异(CNV)导致的新生突变率。例如,家庭全基因组测序估计每一代生殖细胞突变率为2.94个小片段插入(1-20个碱基对)和0.16个结构变异(>20个碱基对)。值得注意的是,平均而言,结构突变影响的基因组核苷酸比替换多得多。全基因组测序一小段一小段地解读DNA序列,可能会低估了结构突变的发生率,尤其是中等碱基片段的插入或缺失。随着测序技术的不断提高,科学家们对生殖细胞结构性突变的发生率的估计可能会更精确。新生结构突变可能会引起病症明显的孟德尔疾病,也可能会引起神经发育缺陷等疾病。事实上,基于家庭的新生CNV研究有助于解密这些新生点突变在这些疾病中所起的作用。
由于序列组成和序列的功能背景都会影响局部突变发生率,生殖细胞突变在全基因组中的发生率和模式上都具有明显的异质性。最显著的莫过于CpG二核苷酸的突变,该区域胞嘧啶的突变率比其它二核苷酸的突变率约高10倍。这是因为胞嘧啶甲基化后,会自发脱氨,生成胸腺嘧啶。编码序列中CpG含量较高,外加上其它一些序列组成等方面的差异,可能造成基于外显子组测序和基于家系基因组测序得到的生殖细胞突变率估计值之间的差别(两种方法得到的每代生殖细胞每对碱基突变发生率分别为~1.5×10-8与~ 1×10-8)。发生率和发生模式的异质性,可能是不均匀修复的结果——例如,生殖细胞中表达的基因中存在转录偶联修复。而基于单核苷酸多态性和人类-大猩猩核苷酸对比得到的突变发生率差异,部分原因可能是染色体结构和复制时间等因素。
性别和父亲育龄的影响
与精子细胞生物学中性别差异理论一致的是, 生殖细胞突变中DNA复制错误大部分是继承自父亲。此外,基于谱系的测序最近对父亲育龄和新生突变关系做了一个定量的分析。具体来说,父亲育龄导致了95%的新生突变;青春期后,父亲育龄推迟一年,新生突变会增加1-2个;育龄每推迟一年,基因中新生突变占的比例会增加0.26%,这样来说,父亲育龄为40岁的儿童的新生突变是父亲育龄为20岁的儿童的2倍(分别是~19.1与~9.6)。这一结果与自闭症病因的外显子测序研究结果非常接近,该研究中这一比例是4:1。产妇年龄通常不影响点突变,更多的是影响染色体不分裂之类的错误。除了点突变,非回归新生CNV的发生率也表现出强烈的父亲倾向性和育龄影响,这揭示了基于复制CNV的形成机制,例如复制叉停滞和模板转换。更广泛地说,突变率的不同,突变谱、父母育龄等差异表明了突变有多种起源。
体细胞突变和疾病
从受精卵到成年,每个人一生会经历上万亿的细胞分裂,每次分裂都会积累一些体细胞突变。一些组织,如上皮细胞,在一生中会一直分化,终末分化的组织继续通过非复制过程发生体细胞突变。据估计,体细胞突变率是生殖细胞突变率的4至25倍,并且一些体细胞突变与癌症密切相关。因为体细胞突变可能只存在于一个细胞中,不需要出现在身体各组织中,因此癌症基因的突变谱比常见的生殖细胞突变谱要多样化(例如,非整倍体、染色质碎裂等)。此外,尽管癌症相关突变存在共性,但每个个体的突变负担和突变谱都不同。
小范围的体细胞突变的多样性反映的是环境诱变剂和/或内在功能失调使DNA复制或修复过程发生错误。肿瘤类型相关的体细胞突变率的差异则与组蛋白标记(决定染色体的解旋和固缩),复制时间和转录偶联修复有关。目前突变谱是否与某些癌症相关仍不明确,但了解这些突变模式仍然是寻找癌症中显著突变基因的依据。
人们越来越认识到,除了癌症以外,很多种人类疾病的起因都是体细胞突变。例如,发育早期的体细胞突变造成了惊人比例(6%-20%)的遗传疾病。一些单基因遗传病完全是由体细胞突变引起的,这可能是因为生殖细胞突变在胚胎发育过程中非常致命。一些能影响父母性腺组织的体细胞突变可能不会影响父母,但孩子可能携带该突变(生殖系嵌合体)。最后,体细胞突变也会在一些细胞亚群中引起体质性疾病。总体而言,体细胞突变在一些体质病中起到的作用远大于其在癌症中的作用。
突变效果的概念化模型
虽然生殖细胞和体细胞突变的发生率简明易懂,解读突变对健康的影响仍然具有挑战性。一个简单的、将突变的影响概念化的方法是把有突变的影响进行分配。例如,在群体遗传学中,新突变的健康效应分布(DFE)是一个完善的概念。估计或测量DFE非常困难, DFE是一个复杂的、具有差异性的分布系统,不同生物体之间以及不同基因组之间都有差异。有害突变对健康的影响,可能是通过多种途径实现的,并且随着功能分类的不同,影响不同,例如蛋白编码区域和非编码区域。从进化的角度来讲,有利突变是罕见的,这些有利突变对健康的效应分布有待研究。
图2 突变效应的概念模型。(上图)突变对蛋白结构和功能的分子效应。图为BRCA1 基因RING结构域的深度突变扫描。(中图)致病性。图为引起帕金森氏病的隐性Parkin蛋白突变。(下图)健康效应。直方图展示的是有效群体大小(Ne )和选择(自然选择)的力量(s )。
考虑新突变的影响时,我们可以分成健康、致病性和分子功能三个方面(见图2)。这三者都涉及到“功能”,但以不同的方式影响功能。健康是一个连续的属性,可以定义成与野生型基因的个体相比,携带该突变的个体的繁殖后代成功率、基于很长一段时间的健康效应及其分布(例如DFE)等。例如,对健康有很大影响的新突变,可能连一代都无法繁殖,而对健康影响相对弱的有害突变,会表现出等位基因频率轨迹,随着家族繁殖,随机出现该突变的携带者。
致病性是指一个突变可能导致个体患上某种具有临床表现的疾病。从历史的角度来看,致病突变导致的疾病被称为孟德尔疾病,突变也被分为致病突变和非致病突变。然而,把突变的致病性看作一个连续的属性可能更实用,这是因为突变可能会增加特定疾病的风险,或许能通过概率来量化。与DFE类似,我们可以为新突变的致病效应进行概念化分布,将其与某一疾病或更广泛意义上的疾病联系起来(即致病效应分布,distribution of pathogenic effects, DPE)。在一个极端的孟德尔疾病中,致病突变的风险概率非常高(但值得注意的是,孟德尔疾病的致病基因都是通过患病个体来确定的,我们缺乏正式的外显性测量)。相反,绝大多数的突变或全基因组关联研究揭示的单倍体(GWAS)的致病概率很低,并不是疾病所必需的,也不足以引起疾病。
总的来说,突变通过分子水平上的破坏作用,对进化(例如健康)或个体(例如致病性)产生影响。一个给定突变的分子效应——无论是在蛋白质编码或调控区域——是高度依赖于其所在序列的功能的,而且,可能是高度依赖于环境的(即可能只在某些细胞类型中有影响,或只在发育阶段有效)。所有这些事件可被定义为位于特定序列或整个基因组的突变的分子效应分布(distribution of molecular effects, DME)。
一个特定突变的DFE、DPE和DME是相互联系的。例如,如果一个突变的分子效应分布DME较大,那么它更有可能有害、致病,致病性可以根据突变的有害程度来预测。然而,这些分布之间的关系没有那么简单。例如,一个突变在疾病中起到的作用可能无法测量,但可能短暂或长期地影响生殖能力。突变的DME致病可能很大,但它可能只在特定环境下才会产生效应。目前还没有一种普遍有效的衡量方法来评价突变效应,并且选择哪种突变作用作为预测的最佳指标也严重依赖于研究者的研究目标。
DFE通过在实验条件下评估突变积累和突变形成,对突变动物及其后代进行健康评估。这些方法局限于动物模型,往往依赖于诱变剂,一般只能识别健康效应较大的突变。另一种方法是采用比较基因组学。人类基因组中的编码和调控区域中突变的DFE明显不同,虽然很大比例的编码突变的健康效应已知,但纯化选择中非编码序列的绝对量大于编码序列(科学家们就究竟大多少存在争议)。
原则上,DPE可通过估计携带突变的个体罹患特定疾病的几率来衡量。然而,在实践中,这种衡量非常难以操作。首先,一般是患有疾病的患者才会去进行测序,发现突变。这种情况下,我们无法确定有多少人携带该突变但没有患病。其次,虽然理论上每一个非致命的突变至少有几百个现代携带者,但我们在最近几十年也不可能实现全球几十亿人的全基因组测序,因此大部分突变仍是未知。最后,我们只能评估那些等位基因频率很高的突变。对于罕见的突变和或新突变,如果其健康效应不是十分严重,即使是对全球每个人进行全基因组测序都不足以评估该突变的具体效应。
与DFE和DPE相反,人们对特定突变的分子效应分布进行了实证测量。例如,饱和诱变研究主要研究各种突变在转录激活(针对顺式调控元件)方面的效应,或酶/信号分子活力方面的效应(针对蛋白质编码序列)。现在使用大规模并行报告基因测试和深突变扫描来进行DME的评估,可以实现数以千计突变的复合诱变和功能测定(例如,一次测序发现所有可能的点突变或氨基酸替换)。一个特定突变的DME如何影响DFE和DPE仍是未知。然而,既然用于检测目标序列的实验方法可以用于检测序列的生理功能,那么根据DME就能合理推断DFE或DPE。例如,科学家们把一个基因中具有类似分子效应的突变定义为一个突变子集,然后把这类基因携带者作为一类病人进行治疗,从而估计这类突变的疾病风险。
突变发生率、突变效应和人类疾病的相互作用
任何疾病都有一组潜在的、能增加疾病风险的突变。对于大多数孟德尔遗传病来说,涉及的突变主要是能够影响一个基因编码的蛋白发生改变。对于基因异质性疾病,相关基因可能多达数百个。考虑到可能存在一系列突变会影响该疾病的表现度和严重程度,涉及的基因可能比想象的还要多。然而,目前由于样本大小不足,因此不足以验证这一理论。
孟德尔疾病通常发病早且严重,因此致病突变的致病性和有害程度是紧密相关的。具有更多突变的、复杂且常见的疾病,往往晚发,例如2型糖尿病和心血管疾病,并且病人之间的遗传结构可能大不相同。也许这反映了一个事实:效应较大的新生突变和罕见突变,是这些疾病的疾病负担的主要来源。相反,虽然突变多发于编码序列,然而全基因组关联分析信号却大多数集中于脱氧核糖核酸酶I超敏反应的调控序列。因此,常见疾病相关突变的效应相对于致病性往往弱得多。此外,全基因组关联分析的许多突变不大可能具有很大危害,否则在人群中不可能达到很高的等位基因频率,也不可能被科学家们检测到。
为了说明突变模式和疾病之间的关系的多样性,在这里我们介绍三个例子。第一个例子,由非同义突变引起的疾病的突变谱具有高度异质性,精氨酸和甘氨酸残基的变化在这种突变中占~30%(图3A)。这主要是由于精氨酸和甘氨酸密码子一般以CpG二核苷酸作为初始端,因此突变发生率更高。发生在精氨酸密码子处的CpG突变会导致氨基酸变化,这对蛋白结构具有极强的破坏性。因此,特定密码子的内在突变和它所具有的生化功能,会形成致病的非同义突变的突变谱。
第二个例子,如上所述,随着父亲育龄增加,突变率有很大的增加。针对~205个亲子(亲子鉴定)的11000多个新生突变的全基因组测序显示,年轻父亲的孩子复制时机具有明显倾向性(图3B)。因为早期复制的基因组区域的基因密度和转录活性的水平较高,这种倾向性减少了编码区新生突变的比例。年长的父亲的孩子,除了突变率整体提高,这种倾向性的缺失还导致基因编码区突变比例增加(图3B)。
最后,科学家们发现,癌症中某些体细胞突变更容易发生在特定的生殖细胞单倍型中。复制时机数量性状基因座(eplication timing quantitative trait loci, rtQTL)已被证实能够影响复制时机个体差别。图3C展示了一个rtQTL能影响JAK2基因复制时机,JAK2的突变概率依赖于单倍型(图3C)的情况。因此,这种生殖细胞突变会局部影响复制时机,反过来又可能影响与某些癌症相关的一种基因的体细胞突变率。
展望未来
最近科学家们在发现和解读人类突变的进展上又带来了无数的新问题、新挑战和新机遇。新生突变的研究揭示了目前在塑造突变谱的基本生物学机制方面存在的空白。突变的常规检测,需要包含更多的内容,例如突变聚集、环境影响和复发突变等。研究者们应致力于发现突变的潜在机制,从而更全面地理解突变如何发生,发生频率是多少。
图3 突变模式和疾病的关系。(A) ~4000个致病非同义突变发生在各个氨基酸上的概率。由于精氨酸密码子富含CpG,精氨酸突变率高非常正常。(B) 横轴是距离新生突变的距离,纵轴是基因复制时间的早晚。左图显示,育龄更年轻的父亲(<28岁)的孩子的突变偏向发生于晚期复制的基因序列。育龄相对大的父亲的孩子并没有表现出明显的复制时机倾向。由于这种年轻父亲和年长父亲的孩子基因复制时机存在差异,育龄相对大的父亲的孩子在蛋白质编码区的突变积累速率更快(右图)。(C) JAK2 基因复制时间数量性状基因座(更高的读取深度与序列的早期复制相关)可能会影响体细胞突变率。注:这里两组之间平均复制时间(作为基因型的函数)具有明显差异,数据来自160个人。
由于基因测序的质量不断提高,成本不断下降,我们正面临着重大机遇。我们预期,在未来几年内,全基因组测序能确定的生殖细胞突变数目将成倍增长,上千或上百万的新生突变将被逐一解读。此外,准确地解读单个细胞(体内或体外)的全基因组,将进一步加深我们对体细胞突变发生率和模式的理解。突变目录的不断丰富——我们预测人体基因组可能会有~1010个替换突变,能加深我们对突变过程的理解,同时加深我们对突变的分子功能、有害性和致病性的认识。
此外,科学家们的研究兴趣还包括:更好地界定生殖细胞和体细胞突变的遗传变异,这类遗传变异是如何增加疾病负担的,以及个性化地预测个体患某类疾病的概率。如果编码DNA修复通路元件的基因上的基因突变会增加个体癌症的发生率,突变的遗传变异就可以理解了。例如,有证据表明,欧洲人口的生殖细胞TCC → TTC的替换发生率比其他洲高50%,这一突变是恶性黑色素瘤中最常见的体细胞突变。虽然不确定这一关联是否与紫外线照射有关,但结果很惊人,这表明突变率会在更短的时间范围里发生变化,从而影响个人和群体罹患特定疾病的概率。
最后,我们预计,大规模并行的实验方法(包括一些基于基因组的编辑技术)将促进蛋白编码区和调控区域中各种突变的DME和DFE测量。这两者的确定也帮助了DPE的确定,使科学家们能把基因治疗真正用于临床。
人类基因突变研究进入了一个令人振奋的新时代。虽然相当多的技术上、计算上和概念上的挑战仍然存在,但随之而来的发现对解读人类的进化史、人类疾病的模式和患病率以及最基本的生物过程的关键性机制有重大意义。
四、癌症和正常细胞的体细胞突变
在生命周期中,体细胞会不断积累基因突变。其中大部分突变都不会对人体造成显著的影响,但某些突变却能改变关键的细胞功能。发生在生命早期的体细胞突变可导致发育障碍,而整个生命阶段的基因突变的不断积累则会导致癌症出现,并加速身体老化。基因组测序彻底改变了我们对癌症形成中的体细胞突变的认识,并让我们得以详细地了解了突变的发生过程和癌症驱动基因。然而,正常细胞逐渐演变为癌细胞的机制还有待进一步探明。下文简要概括了5年来我们从癌症基因组测序中获得的经验和教训,并讨论了它们对我们认识癌症演化和老化的意义。
尽管我们体内不断积累的体细胞突变大部分都是无害的,但偶然也会有那么一两个害群之马”(突变)影响了基因或调控元件,从而诱发表型改变。其中一小部分突变可以给细胞带来选择性优势,让它们择优生长或通过克隆而存活下来。我们采用“驱动突变(driver mutation)”来表示细胞群的正向选择突变;采用“伴随突变(passenger mutation)”来表示没有造成表型改变,或者对克隆没有选择优势的生物学影响的突变。体细胞进化的一个终产物是癌症,这种疾病是由于细胞的自发克隆无法执行正常体细胞的行为功能,并且不受细胞增殖的外源性限制而发生的。
体细胞突变与癌症的渊源
癌症来自于单个异常细胞的克隆扩张。1914年,癌细胞存在染色体异常这个发现,成为突变与癌症互相关联的首个证据之一。随后,人们发现许多致癌化学物质能诱导基因突变,从而进一步支持了癌症是体细胞突变的结果这个说法。将癌细胞的DNA片段导入正常细胞会造成细胞恶性转化,以及转化基因中的致癌基因的鉴定,这再次强有力地证明体细胞突变会导致癌症出现。上述研究工作让人们发现了首个癌基因,它就是会导致癌症出现的功能获得性突变。同时,对遗传性癌症的研究又让我们发现了肿瘤抑制基因,这些基因因被生殖细胞突变或体细胞突变抑制而失活。
由于体细胞突变和癌症之间存在联系,所以肿瘤被看作达尔文进化的一个范例。在这个过程中,细胞通过体细胞突变和正向/负向选择而获得癌症标记。这个思路成为理解癌症演化的一个广为接受的观点,但我们仍然缺少定量正常细胞演变为癌细胞的不同因子的作用的信息。
过去10年里,高通量DNA测序使对超过10,000个肿瘤外显子和2500个癌症全基因组的系统性测序成为可能。这完全颠覆了我们对癌症遗传学的认知,并且让我们得以发现以前不认识的癌基因和新的突变标记,从而对癌症演化有了全新的见解。
癌症突变进程
突变来自于DNA复制错误或DNA损伤(DNA损伤修复不当或未修复)。DNA损伤的原因多种多样,包括外源因子(化学物质、紫光光和离子辐射)、内源因子(活性氧、醛或有丝分裂错误),以及与DNA修复或基因组编辑相关的酶等。另外,病毒和内源性反转录转座子都可以导致DNA序列发生插入突变。
不同突变过程的突变率因肿瘤和癌症类型而各有差异(图1A)。尽管突变数目各不相同,但是大部分癌症都携带了1000至20,000个体细胞点突变,并且携带了几个乃至几百个插入、删除和重排等突变。通常,小儿脑肿瘤和白血病的突变体数目最少,而诱变剂诱发的肿瘤,例如肺癌(烟草诱发)或皮肤癌(紫外线诱发)的突变体数目最多。尽管这些突变体的数目有多有少,但都属于比较常见的突变数目范围,然而对于某些癌症来说,修复通路受损或染色体完整检查点的缺失则会导致突变率的急剧增大。这些突变过程最终表现为点突变率升高、微卫星不稳定、或染色体不稳定等。
鉴于此,无论外源还是内源的突变过程均让不同的癌症发展成不同的程度。尽管在某些组织内,癌症突变体和癌症的发病率主要受到外部诱变剂的影响,但是内部因素,例如组织内细胞分裂,则似乎会在引发其它癌症方面占主导地位(图1A)。
图1 癌症基因组体细胞突变光谱图。(A) 20种肿瘤的突变负荷和不同突变过程的相互作用。根据每一种肿瘤的突变负荷,将样品细分至十分位数。(上图)突变负荷的中位数用点图(碱基替换和小规模的插入-缺失)表示;橙色棒状物代表所有样品的中位负荷。数据来自The Cancer Atlas(TCGA)(http://cancergenome.nih.gov/)。(下图)不同突变标记的平均百分比以堆栈柱状图来表示。数据来自L.B.Alexandrov。(B) 癌症基因组(Catalogue of Somatic Mutations in Cancer, cosmic)中几个突变标记的相关的突变光谱图。热图表示每个三核苷酸的相对比率。
癌症基因组中的突变标记
不同的突变过程都会在它导致的癌症基因组上留下特定的突变模式,即突变标记(mutational signature)。这些突变模式让我们得以鉴定已知或未知的突变过程,并且可以定量这些突变过程对癌症基因组的影响。还可用于描述对特定突变过程的作用的特征,包括:1) 突变类型;2) 局部的基因序列;3) 这些作用对基因组不同部位的影响;4) DNA修复情况;5) 在癌症演化过程中发生作用的时机。
通常来说,一个突变过程只会诱发一种类型的体细胞突变;例如,致癌物马兜铃酸只会诱发A>T碱基置换。相反,乳腺癌、卵巢癌和胰腺癌的同源重组基因BRCA1 或BRCA2 缺失则会诱发碱基置换、中等规模的插入-缺失突变,以及大规模的染色体复制和缺失。
突变通常富集于某段特定序列。例如,紫外线会导致嘧啶二聚体出现,对嘧啶二聚体的错误修复会在CpC或TpC二核苷酸处诱发C>T突变。另外,酶损伤造成的突变则会根据酶的特性而发生于不同的DNA序列。人类癌症其中一个最普遍的突变标记是由APOBEC家族蛋白造成的DNA脱靶效应,这种效应会导致在胸腺嘧啶碱基前出现C>T或C>G碱基替换(图1B)。
某些突变过程在基因组中的分布差异巨大。点突变率根据基因组的不同而不同,并且在表达水平较低、染色质受阻抑,以及晚期复制区段突变率较高。我们在人类进化以及正常细胞的体细胞突变中都能看到这种突变模式。
其中某些突变可能是因为关闭的染色质区段里错配修复受到约束而诱发的。相反,其它突变过程则经常富集于开放的染色质区段。
我们可以推测修复过程对突变体分布的作用。与非转录链的情况相比,转录偶联修复可减少转录链的突变体数目。在某些外源DNA损伤(例如紫外线或接触烟草)中也可见到转录偶联修复现象。与BRCA1/2 缺失相关的中等规模的插入缺失通过微同源介导的末端连接(MMEJ)出现一个修复标记。因为这条MMEJ通路在没有发生同源重组的情况下也可以修复双链DNA断裂。
最后,有时我们可以从基因组数据中获取关于突变过程的不同时间事件的信息。让人意外的是,在癌症演化过程中的某些突变事件是一次灾难性的事件(例如染色体碎裂,即单次事件中发生的大量的成百上千个基因重排)。我们现在已经可以在体外单个细胞分裂中重现染色体碎裂。其它同时发生的大规模突变包括断裂-融合-桥循环、chromoplexy(形容可能驱动肿瘤间断演变的基因组重排),以及大量点突变(kataegis)等。(Kataegis,即在小区域基因组中出现大量突变的异乎寻常的过程)。相反,其它突变过程的突变率似乎随着时间的积累慢慢趋于稳定。
通过研究癌症基因组的突变模式,我们可以逐渐揭示癌症中许多已知和未知的突变过程的作用机制。而这些成果反过来又可以帮助我们找出预防某种癌症突变的方法。
体细胞突变的正向选择
在癌症基因组数以万计的突变中,通常只有少量突变(驱动突变)成为正向突变。绝大部分的突变都是中性突变或轻度有害突变(在驱动突变前或后发生的突变,以及在含有驱动克隆的细胞扩增时发生的突变)。对于多发性疾病患者来说,在基因内或在基因组区段内,与中性突变积累的预期突变率相比,驱动突变的正向选择突变率较高。自从费城染色体被发现以来,突变复发成为了鉴定新型癌基因的强有力的工具。随着数据资源的越发庞大,以发现更多罕见癌症突变基因为目的的背景突变率的精准模型的开发变得日益重要,因为太简陋的模型经常会产生假阳性。
癌症反复突变基因数据库——cancer gene census目前含有572个基因。其中,约90%的突变为体细胞突变,约20%为可导致癌症(家族性癌症)发生的胚系突变。图2显示了20种组织中的198个癌基因的体细胞突变(置换或插入-缺失)频率。图中可见,只有三个基因在泛癌(pan cancer)中的突变频率超过10%,这三个基因和突变频率分别为TP53 (36.1%)、PIK3CA (14.3%),和BRAF (10%)。
大部分的大规模测序研究都采用外显子测序,因此大多数已知的驱动突变都会影响基因组的蛋白编码区域。尽管目前越来越多的研究采用全基因组测序,但是在非编码区获得的驱动突变的数量似乎变小了。不过,还是有些驱动突变,例如发生于高达71%的黑色素瘤、超过一半的膀胱癌和胶质母细胞瘤的端粒酶基因(TERT )启动子区的突变,却可以影响调控区域。这些突变构建了一个新的转录因子-结合基序(transcription factor–binding motif),从而导致了TERT 基因的过表达。非编码区的解构变化同样会促使癌症的发展。例如,由于毗邻免疫球蛋白位点的基因异位而导致淋巴瘤中频繁过表达BCL2 和BCL6 。最近,有报道指出,在某些癌症中,将活性增强子与癌基因放在一起,会让这些基因过表达。
图2 各种肿瘤中复发性突变癌基因的突变频率。这份参考表列出了患者每个基因中携带非同义编码置换或小规模插入-缺失的百分比。数据来自TCGA。不同的颜色表示不同的突变频率。
正常细胞演变为癌细胞
对已识别的癌症的研究为我们了解癌症的时空演化提供了很多线索,但仍然有很多未解之谜。从表面看,一个克隆似乎必须获得几个驱动突变才能转变为癌;但是,人们认为正常细胞的突变率是不足以在一个细胞中产生足够的驱动突变而致癌的。目前人们提出了两种并不相悖的解释:细胞可以通过高度突变(突变子假说)和/或早期驱动突变诱发克隆扩张,从而增加细胞进一步发生驱动突变的风险。通过定量正常组织中的突变率和克隆扩张程度,或许有望解决上述争论。
正常细胞的突变率和突变标记
人类B淋巴细胞、T淋巴细胞和成纤维细胞中的体细胞突变率的数量级估值为2-10个突变/二倍体基因组/细胞分裂。视网膜和肠上皮拥有相似的突变率。因此,正常体细胞内的替换率/细胞分裂可能比生殖细胞高出一个数量级。尽管成体组织中的干细胞分裂率估值还没有定论,而且存在较大差异,但是预计,不同组织的正常细胞无需高度突变便可积累数百乃至数千个碱基置换突变(这个数目与癌细胞的碱基置换数目相差不大)。然而,癌症间各种突变率之间有明显差别。如果未能在正常细胞中发现相同的突变率和突变标记,那么这个结果将可以说明突变率增加在癌症发展过程中起着非常重要的作用。
我们可以通过对正常组织进行系统性测序研究来辨明上述争论。但不幸的是,这些研究仍然面临技术障碍:检测新生突变的单细胞测序的错误率非常高,并且现有技术只能准确地检测出克隆扩增突变。尽管受到种种限制,研究人员最近还是对正常血液和皮肤开展了测序研究。结果显示,这些组织中的体细胞突变率和突变标记与癌症中的相同细胞类型的突变率和突变标记大致相似。
除了点突变,我们对正常组织中的重排率或大规模结构改变知道得并不多。有多个研究已经指出没有癌症的个体的正常细胞也会发生结构突变,包括插入-缺失、拷贝数突变、反转录转座,甚至染色体碎裂等。然而,有争议的是,是否只有癌细胞才会有染色体不稳定性的情况。
正常细胞的正向/负向选择和克隆扩增
人们通过对正常血液和皮肤进行测序研究,加深了对克隆扩增模式与驱动突变的关系的了解。在65岁以上的个体中有大约10%的血液中有驱动突变,这与白血病患者的情况相同。有时,这些突变会迫使细胞扩增,使得大部分血液细胞都来自于突变克隆,但幸运的是,这些血细胞都能行使血液的基本生物学功能。携带这些驱动突变的个体罹患血癌的风险增加,这表明这些驱动突变的克隆就是真正的癌前病变克隆。
步入中年后,暴露于阳光下的皮肤细胞携带了数千个点突变。其中,大约有25%至30%的细胞至少获得了一个驱动突变。鳞状皮肤癌的大部分驱动基因都是正向选择基因,但是个体间克隆的尺寸都在一个限定范围内,并且彼此比较相似,这表明在克隆扩增早期,携带驱动突变的克隆的生长是比较缓慢的。目前人们还不知道限制驱动克隆扩增的机制,但很有可能这个机制会有助于预防癌症的发生。
不同组织的细胞的正向/负向选择以不同的方式发挥作用,这包括提高细胞增殖/分化的相对率;避免细胞处于静息状态、衰老状态或细胞死亡;或在附近定植。一般来说,驱动突变必须在干细胞或增殖细胞内发生,这样才能诱发克隆扩增。例如,上皮、食道和肺部的干细胞有三种分裂形式:不对称分裂为一个干细胞和一个分化细胞、对称分裂为两个干细胞(增殖)或两个分化细胞(分化)(图3A)。完全相同的对称分裂率可以维持一个稳定状态;相反,提高增殖和分化的比率则会诱发指数级别的克隆扩增。TP53 和NOTCH1的驱动突变可以引发这种不平衡状态。另外,即使没有发生细胞选择,一个干细胞也足以发育成肠隐窝,但是隐窝外的扩增就会受到物理限制。在这种组织中,细胞的正向/负向选择似乎表现为干细胞突破限制,在隐窝外部扩增的能力的提高。结直肠癌基因APC 和KRAS 的突变会大大增加隐窝裂变的速度,从而让细胞在邻近区域定植。
癌前病变的条件
“癌前期(precancer)”或“癌前病变(precancerous lesion)”通常都用来描述表现出与患癌风险增加相关的特定的组织学变化的组织。罹患上皮癌之前出现的早期组织学变化包括增生、发育异常,以及组织变形。这些早期变化都会发展成原位癌。原位癌里,肿瘤细胞发生形态学变化, 但尚未侵破基底膜向下浸润生长。癌前病变的范例包括结肠腺瘤性息肉、巴雷特食管(Barrett's esophagus)、乳腺导管原位癌(breast ductal carcinoma in situ, DCIS),以及宫颈上皮内瘤变(cervical intraepithelial neoplasia)等。值得一提的是,这些组织病变进展成癌症的风险是会发生变化的。
图3 早期驱动突变的正向/负向选择和克隆扩增。(A) 皮肤上皮干细胞、食道上皮干细胞以及肺癌上皮干细胞的细胞模型。图中所得结果都是采用正常鼠类表皮作为研究对象获得的数据。(B)图片显示肠上皮突变的克隆扩增的两个步骤。(C)图片显示四个由生命阶段中积累的驱动突变诱发的连续克隆扩增模型。第一个模型(左上角)对应Armitage 和Doll的模型,模型中,只有前5个突变受到速率限制。虽然我们还不了解中间阶段的克隆扩增,但可知的是,它们对年龄发病率统计数据模型的修正和对我们理解癌症演化起着重要作用。
癌前病变条件的基因组学研究可以阐明肿瘤演化的动态变化。从巴雷特食管转变为食管腺癌的过程中,前期病变时大部分驱动基因(除了TP53 和SMAD4 )的突变频率都是相近的。TP53 和SMAD4 在浸润性肿瘤阶段的突变更为频繁。从遗传学角度来说,这表明巴雷特食管是一种晚期癌前病变。乳腺导管内原位癌和浸润性乳腺癌的情况与此相似。
上述发现似乎与癌症演化的阶梯式模型得出的结论一致。在这个模型中,一系列级联事件、基因突变等驱动着一系列的克隆扩增,从而逐渐形成无序的表型。然而,大部分癌症的出现都是没有组织学可见的癌前病变期的,也许这是采用了不同的肿瘤演化模式的缘故。如果驱动突变间强强联手,那么可能直到所有突变发生前都不会出现主要的组织学变化(图3C)。而且,灾难般的突变过程,例如染色体碎裂或端粒酶危机都可能会激发驱动突变的快速积累,导致正常细胞无需中间阶段便可直接转变为恶性细胞。
癌症、老化,以及保护性机制的演化
复杂的、寿命长的多细胞生物几乎不可避免地会患上癌症。事实上,每个生物体的每个细胞都携带有快速增殖的遗传指令和快速增殖的潜力,但是要想进化成多细胞生物就必须要进化出能够抑制上述特性的机制。但是,不幸的是,体细胞突变随时间增长会慢慢积累,再加上在组织水平上会发生正向/负向选择,所以这些保护性机制会受到抑制。
年龄发病率统计数据和每个肿瘤中的驱动事件的数目
时间在肿瘤发生、发展过程中扮演着非常重要的角色。事实上,小于40岁的人群患癌风险约为2%,但是到了80岁,患癌风险则会增至50%(图4A)。然而,若以年龄为X轴,某些常见癌症的发病率为Y轴,那么斜线率可达到4~6(图4B)。早在1954年,人们就根据这些研究结果提出,癌症可能是在整个生命阶段中以恒定速率随机积累的4~6个限速步骤的结果。一直以来,整个限速步骤的数目都存在争议,因为估算的数目并不完全正确,而且克隆扩增模型预测的限速步骤的数目更少,但无论如何,这些发现都影响巨大。在发现了癌症中体细胞突变的作用后,人们提出,至少某些限速步骤是驱动突变,这与Knudson于1971年在研究视网膜母细胞瘤时得出的结论一致。
尽管驱动突变似乎与年龄发病率曲线的限速步骤相关,但它们实质上并不等同。例如,当肿瘤尺寸足够大或者获得高度突变后,多个亚克隆中就会经常发生相似的、或甚至相同的突变,这表明在肿瘤发育的晚期阶段,突变并不会受到限速。同样地,某些限速步骤很可能是非基因突变的,例如表观遗传学变化和肿瘤微环境的变化。
尽管对癌症基因组已经开展了5年的系统测序研究,但是我们还没能鉴定出肿瘤发生所需要的驱动突变的数目。相比鉴定某位患者的突变是驱动突变还是伴随突变,找出突变的所有多发性复发区段就容易多了。对拥有高突变率的肿瘤和非编码突变,或复杂的结构性变化来说,情况也是如此,因为要鉴定驱动突变目前仍然是一个大挑战。
抵御癌症的保护性机制的演化
几百年万来,各个物种已经进化出低癌症发病率的保护性机制。这些机制包括高保真复制、DNA修复通路、细胞衰老、干细胞结构层次、肿瘤抑制基因、免疫监视,以及微环境对细胞行为的调控等。
假如存在抵御癌症的保护性机制,那么为什么还会有癌症出现呢?我们可以在进化论中找到部分答案。进化论指出,对进化的限制可以降低癌症的发病率。最重要的是,若错过了生育年龄,那么正向/负向选择几乎无法避免死亡,所以机体基本上只能进化出降低青年期癌症发病率的机制。但是,这些机制还会受到遗传漂移的抑制,导致人类青年期的癌症发病率根本无法降至~1/10,000以下。最后提一下,对以最大限度提高繁殖成功率的衰老进化来说,正向/负向选择有助于在青年期抑制癌症的发生,但在后期的生命进程中就无能为力了,甚至还会加重晚期的疾病负担。
而且,进化的过程中至少有两个额外的因子会提高癌症的发病率。暴露于陌生的诱变剂,例如烟草烟雾会大大增加罹患某种癌症的风险。另外,人类最近在进化方面的快速变化也许可以解释某种癌症的高发病率。例如,脑部尺寸的增加,以及长骨发育的变化等都可以用来解释儿童脑瘤和骨癌的相对较高的发病率的原因。
综合上述情况和阶梯式癌症模型所得出的结论——癌症发病率按几何级数增长的数据,可以帮助我们解释为什么年青人群尽管癌症发病率很低,但却不为0的缘故;还有助于解释生命晚期癌症发病率快速上升的缘由(图4)。
癌症可能是衰老的一种表现
鉴于癌症与年龄相关,并且会造成晚年患病甚至死亡,所以许多癌症可以被看做是很自然的一种衰老现象。事实上,癌症为我们了解衰老进程提供了一种非常独特的视角,即让我们看到例如体细胞突变这种异常情况的线性积累是如何快速(几何级别)引发育龄期后的病变和死亡的。
多个原理,包括DNA损伤的进行性积累、体细胞突变、线粒体DNA氧化、表观遗传调控逐渐被抑制、染色质解体和/或表达异常等都可以用于解释分子层面的衰老。这些原理以及其它进行性分子降解都会对生物体造成一定的负担,并且,可能可以解释衰老的多种表现。
人们认为体细胞突变除了致癌外,在衰老过程中也扮演着非常重要的角色。有趣的是,几种过早衰老障碍,例如Werner综合征(Werner syndrome, WS)都是由DNA修复缺失导致的。尽管人们还没能破解体细胞突变和衰老之间的关联,但是研究发现,DNA损伤率的增加或者减少会分别促进或减缓细胞和动物模型的衰老进程。总的来说,体细胞突变的积累偶尔会被克隆扩增强化,而且随着时间的流逝可能会阻碍组织行使正常功能。突变可以改变细胞或组织的关键基因、影响DNA修复、激活细胞衰老通路,或改变细胞的基因调控机制,所有这些事件都会促使衰老特征的出现。对衰老组织进行的测序研究应该要进一步阐明体细胞突变在衰老中的程度和作用。
图4 癌症发病率与年龄的关系。(A) 随着年龄增长,患癌风险不断积累。从图片可以看出特定年龄罹患某种癌症的风险。(B) 随着年龄增长,不同癌症发病率(每年每100,000个人中的病例数)的双对数图。图中回归线表示,随着年龄增长,癌症发病率呈几何级增长(不过这种相关性并不十分完美,而且只适用于某些特定的癌症)。k代表斜率。美国癌症发病率数据来自SEER Cancer Statistics Review。SEER,全称Surveillance, Epidemiology, and End Results Program,即美国国家癌病署的“监测、流行病学与最终结果”计划。Cancer Statistics Review的数据来自2008-2012年,并且除非有特别说明,数据采集来自各个人种和两种性别。M,男性;W,女性。
总结
仅仅几年而已,癌症基因组测序就已然颠覆了我们对癌症遗传学的认识。人们对大量已知肿瘤以及了解得不多的肿瘤的测序研究将会继续帮助我们发现新型癌基因和突变标记。开发利用详尽的临床信息将进一步将上述发现与治疗对策和临床成果相结合。另外,我们还需要深入研究非编码元件和结构性变化的驱动突变的程度。全基因组测序和新型统计学模型,在大规模测序的帮助下,将帮助我们解答这些难题。
我们相信,下一个十年我们将会看到正常组织中体细胞突变的系统性分析,并明确它们在癌症演化和衰老进程中的作用。对突变负荷、突变标记、克隆动力学,以及细胞表型的直接研究将帮助我们在流行病学发现和癌症早期演化的机械学理论中架起一座沟通的桥梁。
五、精神科疾病的遗传及基因组学问题
大范围基因组学研究(Large-scale genomic investigations)已经开始向我们揭示分子遗传学在几大常见精神科疾病中的作用,其中既包括效应非常小的(small-effect-size)常见突变,也包括效应很大的罕见突变。这些研究成果同时给我们提供了一些线索,能够帮助我们了解神经生理学的作用机制。虽然这些研究已经取得了一些成果,但同时也表明,精神疾病是一种多样性和复杂程度非常高的疾病,而且我们现在还很难将分子、细胞及神经回路与复杂的人类行为结合到一起。不过无论如何,这些研究成果将有助于我们了解精神疾病的病理、生理机制,帮助我们更好地诊治精神疾病。
最近,有人开始将遗传学发现应用于探究精神疾病的病因,并对现有精神科疾病分类体系提出挑战,在之前,很多人都认为非生理因素也是精神科疾病的重要致病因素。在走了几十年的弯路之后,我们现在已经发现了一些会增加精神疾病发病风险的遗传变异和基因,这些精神疾病包括精神分裂症(schizophrenia, SCZ)、自闭症(autism spectrum disorder, ASD)、抑郁症(major depression)及躁狂抑郁性精神病(bipolar disorder, BPD)。不过这些发现都还不能给上述疾病的发病机制下一个确切的结论。尽管也有遗传学研究证据表明,某些精神疾病的遗传异质性相对较高,但是后续的研究并没能重复出相同的结论。再加上对某些遗传性精神综合症生物学诊断的质疑,让大家都认为行为异常可能无法轻易地用分子遗传学手段加以论证。
最近在精神疾病遗传学方面取得的成绩全都源自分子生物学及遗传学在复杂疾病概念上的进步。比如使用微阵列技术(microarray)对基因组中数百万个单核苷酸多态性位点(single-nucleotide polymorphisms, SNPs)进行研究,我们就可以很容易地对数千人进行全基因组关联研究(genome-wide association studies, GWAS)。足够大的样本量也能够让我们发现疾病与常见变异(即人群中出现几率大于5%的变异)之间的关联。在大部分情况下,通过GWAS分析发现的位点几乎都位于基因组内的调控区域里,而不是位于某一个特定的基因区域内。不过由于很多调控区域都与受调控基因离得非常近,所以研究人员在报道他们的研究成果时一般也都会将距离最近的基因一起提交,认为这些基因就是“致病”基因(但是往往缺乏基因注释信息),我们在本文中也沿用了这一传统。微阵列技术也能帮助我们发现多种比较罕见的染色体结构异常,比如基因拷贝数异常(copy number variation, CNV,即DNA序列变动超过1kb的变异),这种变异与多种精神疾病,比如ASD和SCZ有着密切的关系。最后一点,基因组测序技术的进步让我们有机会对成千上万的人的蛋白质编码区,即全外显子组(whole-exome)进行测序,这就是所谓的全外显子组测序技术(whole-exome sequencing, WES)。这已经相当于全基因组测序的水平了。利用WES技术在蛋白质编码区里发现罕见突变(即出现几率不到0.1%的突变)已经成为了通用的研究手段,这主要是因为有人利用这种策略发现了与ASD和SCZ致病有关的蛋白质编码区突变。虽然这些研究成果还没有向我们展示出一幅完整的精神疾病遗传学图谱(告诉我们有多少遗传位点与精神疾病有关,每一个变异与精神疾病的关系有多密切)(图1),但我们已经掌握了足够的数据,能够得出一定的结论了。
图1 13种精神科疾病遗传分析小结。(A)在一生之中的发病机率最高的几种精神科疾病。其中恐惧症图示表示各种不同恐惧症发病几率的范围。(B)以双胞胎或家庭为基础计算的各种不同精神疾病遗传力估计值。条形图(bars),标准误差(standard error, SE)。(C)以SNP为基础计算的各种不同精神疾病遗传力估计值。条形图(bars),标准误差(standard error, SE)。(D)通过GWAS研究发现的遗传位点。X轴非连续是因为各种疾病相关位点数差异太大。(E)在各研究中达到全基因组范围内显著意义,或P ≤ 0.01的结构变异。(F)y轴代表在大型研究中发现的GWAS相关位点(蓝色所示)和结构变异(红色所示),x轴表示大型研究的入组人数。ANX(any anxiety disorder):焦虑症;AAD(alcohol abuse disorder):酒精依赖症;MDD(major depressive disorder):抑郁症;PHO(any phobia):恐惧症;CON(conduct disorders):行为规范障碍症;SE:标准差;ADHD(Attention deficit hyperactivity disorder):注意力缺陷多动障碍;PTSD(post traumatic stress disorder):创伤后应激综合症;BPD(bipolar disorder):躁狂抑郁性精神病;EAT(eating disorders):厌食症;OCD(Obsessive-compulsive disorder):强迫症;ASD(autism spectrum disorder):自闭症;SCZ(schizophrenia):精神分裂症;TS(Tourette syndrome):抽动秽语综合症。
精神科疾病的多原性(polygenicity)
除了发现特定的突变基因之外,分子遗传学还能够提供很多与精神科疾病遗传力(heritability)相关的信息。分子遗传学技术也已经做出了很多有价值的贡献,为我们揭示了精神科疾病的遗传学背景。SNP位点在多个病例中共同出现的频率就可以表明某种常见性状的遗传性。这种SNP遗传力评估策略就可以对各种假设进行验证,比如很多效应力很小的变异位点对遗传力的影响作用,即精神疾病是否是多种变异共同作用的结果,是否存在多原性。利用这种方法,科研人员们发现了大量与精神疾病发病有关的遗传位点,这些位点共同组成了“常见变异(common variants)”,但是每一个变异的作用都非常小,这一点与其它常见的复杂疾病比较类似。由此我们可以认为,精神科疾病的主要发病风险就是由多种因素共同决定的。与此同时,也可以得出结论认为,SNP遗传力并不能解释所有的预估额外遗传力(estimated additive heritability),这说明一定还有其它我们尚未发现的因素在背后起作用。
多原性意味着有众多效应力非常小的位点,以及少量效应力较大的位点在共同发挥作用,所以如果要彻底了解精神疾病背后的遗传学基础,就得对大量的精神疾病患者人群进行遗传学研究。精神基因组协会(Psychiatric Genomics Consortium, PGC)最近获得的新发现也证明这种策略是切实可行的。PGC的大规模合作模式已经对精神疾病研究领域起到了非常大的影响。但是在样本量规模和表型研究的深度之间总得做一个平衡。受环境因素影响较大的精神疾病,比如躁狂和抑郁症等疾病还需要做更多的临床表型分析研究。对已知风险因素和潜在风险因素加强表型分析和筛查会有助于我们发现遗传因素的作用,最近的CONVERGE GWAS抑郁症研究也已经证实了这一点。
效应力较大变异的作用
大家通常都认为,GWAS分析只能够获得很少的生物学结果,因此,只能够对效应力较大的基因进行研究,才有可能获得有价值的信息。复合孟德尔遗传规律的突变就是致病基因,但是这种致病基因非常少见,而且在精神疾病里几乎找不到它们的踪迹。CNV分析和WES技术也许能够帮助我们发现这种罕见的致病突变。
最近在ASD患者中发现的大效应力生殖细胞新发突变(de novo mutations)证实了这种研究策略的有效性。这也是首次在精神疾病全基因组研究工作中发现的新发突变,该研究证实了这种罕见CNV新发突变在ASD疾病中的作用。研究发现,>500 kb的CNV突变(该片段中含有基因序列)可见于5~7%的无症状ASD患者人群,而在他们的健康兄弟姊妹当中,该突变出现的比例只有1%。在这些CNV突变里,有一些是反复出现的,有一些则源自他们的父母(比如15q11-13或16p11.2),但是没有哪一个CNV突变在ASD患者人群中出现的比例超过1%。对较小CNV突变的研究也发现,遗传性CNV突变的外显率(penetrance)都比较低。
好几种效应力较大的位点(可能是遗传获得,也可能是新发突变)也都能增加SCZ的患病风险。这些位点的表达性各异,外显率也不完整,其中还有一些与ASD、癫痫(epilepsy)、或智力低下等其它精神疾病相关。大片段罕见CNV与BPD、抑郁症、烟酒上瘾、强迫症、多动症(attention deficit hyperactivitity disorder, ADHD)或焦虑症等多种精神疾病的关系还不太清楚,不过与ASD或SCZ却有一定的关系。在ADHD研究工作当中,样本量一直都不太大,而且最强列的信号全都源自同时合并有智力低下问题的患者。在对父母及子女全都患有SCZ或BPD疾病的人群进行研究之后发现,携带大规模罕见新发CNV突变的个体的优势比(odds ratios, OR)会增高5倍。如果将片段规模小于500kb的CNV也考虑在内,那么优势比会更高。但是可信区间也比较大。ASD的情况也差不多,新发突变的作用主要体现在散发病例当中,而不是家族人群中。在家族当中,新发CNV突变的出现几率与对照组相差无几。
想通过WES分析来发现一个罕见的致病突变是非常困难的。因为使蛋白质编码序列发生改变的突变是很常见的,想要通过发现足够多的复发突变来证实其致病基因的身份,就必须对数千个个体进行重复测序。如果研究目标是确定因果关系或新发突变,那么还得对这些个体的父母进行测序。除此之外,是否能够取得成功还要受到被研究疾病的影响。比如对ASD患者来说,两个大型研究一共对将近5000人进行了WES测序分析,结果发现了罕见基因突变对于患病风险的影响作用,还发现有33个基因反复地出现突变,所以这些基因极有可能就是ASD的致病基因。其它数百个突变基因则只在某些个体外显子组内出现过一次,根据这些基因在对照组中出现的情况,估计这些基因的致病作用可能在40%左右。综上所述,根据对精神疾病患者家族的估算,最多有30%的患者可能会携带效应力较大的新发突变基因,可能是SNP,也可能是SV,不论是哪一种突变,在人群中都非常罕见。与CNV突变一样,罕见的遗传性SNP变异也与ASD发病有关,不过其具体影响力有多大,现在还不得而知。
不过对其它精神疾病的遗传学分析却没有这么顺利,我们几乎没有发现与其它精神疾病有关的、同时效应力也比较大的基因。只有对SCZ的研究工作才在某些基因当中发现了一些突变。最初的研究发现有一些新发突变的出现频率有所增加。在患病家族中出现基因功能缺失的次数要比对照组高出3倍(分别为8.7%和2.9%)。不过,后续进行的样本量更大的研究却没能得出同样的结论。而通过WES发现的易感基因也是让科研人员一头雾水。虽然他们发现有突变增多的情况,但是这仅限于几个假定的致病基因内。
据估计,相对更少见的变异(即出现几率不到5%的SNP)可能对Tourette综合症的遗传力起到21%的作用,但是对OCD的遗传力却毫无作用。同样,对于Tourette综合症,我们到目前为止也只在一个家族里发现了一处非常罕见的显性突变。至于抑郁症、焦虑症、药物及烟酒依赖症等其它几种精神疾病,虽然有大量的证据提示我们,这些疾病存在遗传风险,但还是缺乏确切的证据能够证明存在效应力较大的变异在其中发挥作用,这也与各种精神疾病的遗传结构存在差异的特点相吻合。不过良好的实验设计和小型的研究也能够提供一些帮助。
遗传学分类技术可解决各疾病间互相交叉的情况
可以利用SNP数据估算各疾病之间的遗传相关性(比如发现共有变异等)(图2)。有一些疾病之间存在非常明确的共同遗传风险,比如BPD与SCZ之间的相关系数就高达0.68,BPD与抑郁症之间的相关系数则为0.47。在基因组内,有六个重要的位点都与BP合并SCZ表型有关。不过在基因组内,与BP和SCZ都有关系的SNP只见于CACNA1C 、ANK3 和ITIH3-ITIH4 这3个位点内,在MHC 、ODZ4 、TCF4 和其他与BP或SCZ某一种疾病相关的位点里都没有发现这些SNP。因此,对于不同疾病而言,多种疾病风险与GWAS结果的确会存在差异,也会相互重叠,但还是能够发现特异性的致病基因的。
存在于多种不同精神疾病里的罕见的、可遗传突变也可以给在疾病诊断方面存在的相互重叠和特异性问题提供一定的帮助。在进化上受限制的突变、仅在胎儿大脑里表达的基因、许多受脆性X智力障碍蛋白(Fragile X mental retardation protein, FMRP)限制的RNA,这些分子都与ASD、SCZ、智力低下及癫痫等疾病有关。同样地,也只有很少的大规模CNV变异特异性地指向某一种精神疾病。这其中大部分常见的突变,比如22q11-13段缺失突变,就与ASD和SZ发病有关。我们发现的表达水平差异也符合之前的假设,有人认为,能够破坏在进化上相对保守的、效应力较大的突变,并不会导致某种特定疾病的发生,只会增加一大类与智力发育障碍有关疾病的发病风险,因为这类突变会影响大脑的发育。从这个角度看,我们在临床上定义的那些疾病可能只代表了少部分疾病,或者是因为我们的检测手段有限,所以未能发现全部相关的行为异常。除此之外,我们目前所使用的精神疾病分类系统也无法反映大脑功能及结构上的复杂特性。这一观点也促使我们提出了研究领域标准倡议(Research Domain Criteria initiative, RDOC)。根据这份倡议,我们应该根据神经生理机制和遗传学研究成果重新对精神疾病进行分类(图3)。
图2:四种精神疾病的配对遗传关联分析。图中纵轴上表示躁狂抑郁性精神病、精神分裂症、精神分裂症和自闭症这四中精神疾病。横轴表示根据每一组配对疾病中是否都出现同一种SNP而计算出的这一组疾病的遗传相关性。图中垂直虚线表示标准差。BPD:躁狂抑郁性精神病;SCZ:精神分裂症;MDD:抑郁症;ASD:自闭症。
图3:生物学网络中的多种遗传风险因素。单个家族研究、多个家族研究或者病例对照研究等多种研究设计都发现了各种不同的遗传风险因子(图中箭头的大小代表效应量的大小)。将这些研究成果与生物学网络数据相结合,我们就能够估计出在全基因组范围内,这些疾病相关危险因素是否特异性地在某些生物网络中更加多见。如图所示,我们标示出了罕见的,与ASD相关的新发变异,这些变异更多见于图中的黄色单元模块内。该单元模块的功能就是对基因进行协同调控。接下来再借助相关基因知识,就可以对该模块的功能做更进一步的注释。结果发现,这些效应量较大的ASD相关变异与染色质重构、转录调控以及神经发育等功能都息息相关。现在我们已经可以在不同的发育阶段、大脑的不同位置、特定的神经回路或者神经细胞上对神经网络进行精准的研究了。
定义表型
遗传学发现不仅模糊了各个精神疾病之间的界限,同时也模糊了正常状态与病理状态之间的界限。最近的一项研究发现,BPD和SCZ的多原风险与创造力有关。在患者家庭里,未受影响的个体往往也与其患病亲属携带同样的性状,只不过他们还没有达到诊断标准而已,所以这种现象也被称作中间表型(intermediate phenotypes)或内表型(endophenotypes)。尽管有很多人尝试将精神疾病分解成一个个简单的中间体,不过在遗传研究工作中使用定量或定性内表型也取得了一定的成果。在某些情况下,发病时的严重程度或发病年龄是一个很好的风险分层指标,但也不尽然。此外,还有很多有潜力的内表型,比如认知能力、行为、解剖学特征等虽然也都是高度可遗传的,但它们也与这些内表型相关的疾病一样,在遗传学上非常复杂,结构神经成像表型(structural neuroimaging phenotypes)也是如此。当然,如果发现了致病风险基因,对基因型与中间表型之间的关系开展研究,将为我们了解精神疾病的发病机制提供非常大的帮助。
利用在遗传学指导下构建的病理模型了解神经生理学机制
我们之所以想要了解精神疾病背后的遗传学基础,一个主要的原因就是希望在细胞和分子层面了解这些疾病的发病机制,从而开发出更好的治疗方案。尽管利用动物模型对精神疾病进行研究还存在种种局限和不足,但还是构建出了符合孟德尔遗传规律,或者携带效应力较大风险基因的ASD小鼠动物模型,而且这些动物模型也都显露出不错的前景和潜力。很多动物模型与其对应的野生型小鼠相比,无论在行为还是认知能力上都表现出明显的缺陷,在细胞层面和生理表型上也有差异,这些都为我们了解精神疾病的发病机制提供了很好的线索和研究材料。与此同时,干细胞生物学领域的进展也让我们有机会在体外培育出病理神经细胞,并了解其发育历程,这也为精神疾病药物开发和表型筛选提供了一个很好的平台。但即便如此,也还是存在巨大的困难和挑战,比如这些体外“人工制品”的潜力有多大、如何确定细胞类型,以及如何将体外研究结果与真实的人脑发育相匹配等。为数不多的几个利用iPS干细胞诱导分化而来的神经元细胞开展的精神疾病单一原因研究工作也都取得了不错的结果,但是这些研究的样本量都比较小。将活体动物(器官)模型与体外模型结合起来,可能会起到相互弥补和相互补充的作用。
除此之外,在研究精神疾病的过程中,对单一基因的研究和对整体遗传结构(即研究数千个基因彼此之间的相互作用)的研究这两种策略之间本身也是一对矛盾。如果精神疾病只是多种罕见症状的集合,那么研究单个基因的作用就应该是最好、最有效的研究策略。而且我们已经获得了一定的证据证实这种假设,比如我们已经发现在ASD和多种儿童期发病的精神疾病中,有几个效应力非常大的遗传位点就决定了大部分的表型。不过只有很少量的证据表明在SCZ、BPD、抑郁症、药物依赖、焦虑症等其他几种精神疾病里也存在同样的情况。某些药物对某些疾病有非常明显,而且非常特异性的作用,这似乎也可以理解为这些疾病背后都存在共同的发病机制,所以都能够对同一种药物起反应。也许有人不会同意这种观点,尽管用阿司匹林都能够处理感染性疾病或风湿性疾病引起的发热,但他们就是不相信这两种疾病存在相同的致病因素。由于精神疾病里也存在大量的多原现象和明显的遗传异质性,所以认为只存在几种“中枢开关(central switches)”就能决定所有患病风险的观点也遭受了很大的挑战。我们需要用一种不偏不倚的态度去了解,在如此复杂的遗传因素下面,是否存在一条决定了病理过程的走向的相对集中的生物化学通路。
系统遗传学技术( Systems genetics approaches)
精神疾病高度的多原性,以及利用全基因组研究无法找到确定致病基因(当然,也存在少数例外的情况)的现实告诉我们,仅凭对每一个模块单元进行单独的研究和分析,是很难获得发病机制的总体印象的。基因们并非各自独立活动,但是绝大多数的研究模型也都只会同时纳入几个为数不多的相关因素。所以只有在整体网络层面看待大脑功能的系统遗传学研究策略才能够从方法学层面彻底解决问题,才能将各种不同的遗传风险因素与大脑活动机制一一对应起来(图4)。
图4:根据遗传易感性重新修正临床诊断。图上部每一个最大的圆圈代表各种临床疾病,以及不同病种之间各自重叠的情况;每一个大圆圈里的小圆圈则代表了各种风险因素,既包括遗传风险因素,也包括环境风险因素。一旦通过人群研究发现了某种遗传风险因素,就可以反过来再应用于每一个个体,细分出每一个小的类别群体。图底部的两个长椭圆形就是其中的两个例子,它们可以帮助我们更好地理解该研究策略。与目前的临床诊疗水平相比,这种细分策略能够给临床诊治工作提供更加清晰、科学的指导。图中每一个小圆圈的大小表示该变异因素效应力的大小。
最近对ASD和SCZ开展的全基因组研究都告诉我们,这些精神疾病的风险因素全都汇集在相同的几条分子通路上,我们也已经在这些分子通路上发现了很多遗传变异。对于ASD而言,这些通路主要涉及神经发生阶段的转录调控和染色质重构,以及之后在胎儿大脑皮质发育过程中的突触发育和功能构建等几个方面。其它基于蛋白质相互作用的研究策略,以及将蛋白质、基因表达、表型等多种数据相结合的研究策略也都发现了相似的分子通路,即多种ASD相关风险因素全都集中在这几条生理通路或网络上。对SCZ开展的网络研究工作也有类似的发现,前额皮质发育的过程也是SCZ最重要的致病阶段,这也与神经解剖学和生理学研究的结果相吻合。
虽然有证据表明,对于ASD(也极有可能包括SCZ)而言,不论是常见的易感因素,还是罕见的易感因素,均有可能集中于某几条特定的分子和生理学通路上。但还是有很多问题需要进一步阐明,比如我们目前已经发现的那些通路还是太过分散,还需要在蛋白质功能层面和细胞信号层面进行更进一步的细化。只有这样才能够获得更加精确的致病信息。而且,了解这些通路在每一位患者个体层面如何反映了遗传风险,这也是我们了解这些精神疾病发病机制必不可少的信息。
前景展望
我们现在已经有了很好的手段来了解精神疾病背后的遗传学问题,但是到目前为止,我们已经发现的可疑位点对于整个疾病背后庞大的遗传背景而言,还只能算是沧海一粟。除了SCZ和ASD之外,对于其它精神疾病也还没有获得太多有价值的发现,所以还有大量的工作亟待完成。不过,该研究领域正处在一个机会难得的转折点上,我们不要再将眼光局限在某几个基因上,而应该放眼到整体层面,去了解所有基因的功能。当然,更完整的基因和突变信息也可以给我们提供更清晰、更明确的指引,去认识和了解相互之间有重叠的生化通路和神经回路。我们之所以需要一个更加完整的疾病分类是因为需要解决精神疾病异质性的问题,是因为需要了解每一个个体遗传风险组成情况的问题。如何来衡量我们的工作是否取得成功则取决于对每一位患者个体,在每一个已知的风险位点上是否能够做到准确的基因分型,并且是否能够根据神经生理学框架对他们所患的疾病进行分类,这是在下一个十年里我们将要达成的目标(图3)。借助电子医疗病历、远程数据采集、电子医学以及即将到来的人群层面的临床全基因组学研究等多种手段,我们一定可以尽快达到上述目标。
与此同时, 我们还需要开展比较研究(comparative studies)来了解人类和模式系统中大效应力位点的共有或独有的表型作用。在某种程度上,精神疾病的表型必须要能够代表大脑层面中多种(代表共有行为和认知能力表型)不同通路的共有结果。数十年的研究已经发现,在多种不同的遗传综合症中都伴有ASD的临床表现,同时也伴有其它器官的症状,比如Timothy综合症、结节性硬化症(tuberous sclerosis)、Potocki-Lupski综合症、皮质发育不良型癫痫综合征(cortical dysplasia focal epilepsy syndrome)以及脆性X染色体综合症(fragile X syndrome)等。通过WES手段发现的新型综合症也没有例外,这说明ASD的表型复杂程度可能在部分程度上也能够用各种不同的大效应力遗传位点的作用来解释。这种反向作图或基因型先导的研究策略也刚刚开始被用于SCZ和BPD的研究工作当中。此外,现在还不清楚都有哪些遗传因素或环境因素会对携带大部分大效应力位点的人产生影响,决定他们出现各种不同的临床预后。毫无疑问,弄清楚这些位点差异性表达背后的机制将有助于我们发现关键性的病理生理线索。
对代表着疾病背后各种神经生理组成成分的中间表型进行严格的界定也是非常有必要的,因为这有助于制定出对临床治疗更有价值的疾病分类体系,但这也是一项极为困难的工作。利用以数据为基础的方法对患者进行研究可能会取得不错的研究成果,比如可以使用遗传风险评分(genetic risk scores)或以多个风险位点共同作用为基础的孟德尔随机(Mendelian randomization)提炼出疾病与中间表型之间的因果关系。除此之外,特异性作用在神经发育和神经回路(而不是基因)中也是一大优势。技术的进步已经可以让我们在外源性控制条件下对神经回路进行实验,而且大量的实验已经证实,的确有一些神经回路决定了特定的行为。用遗传学模型模拟的神经回路及病理模型也可以对各种假设进行检验,以此来发现一些遗传学证据,提示一些基因与神经功能的关系。
在最基础的神经信息当中,缺失了关键性的一页,即缺少细胞类型多样性的信息以及大脑中分子基础的信息。为了充分了解遗传变异的作用机制,有必要对发育中的大脑和已经成熟的大脑里的分子和细胞信息做一个更加完整、详细的了解。除此之外,因为大部分常见的变异都位于理论上的调控区域里,所以我们需要将现有的细胞及神经回路信息,以及在神经发育的所有阶段的基因的调控信息全都整合起来。诸如大脑计划(Brain Initiative, braininitiative.nih.gov/)、Allen研究院(http://alleninstitute.org)、psychEncode 项目(http://psychencode.org)、基因型组织表达项目(Genotype-Tissue Expression, www.gtexportal.org)和PGC等所有这些大规模协作项目都有利于我们早日实现所有这些目标。
最后,我们还需要强调一下转化的作用。在没有丝毫生物学基础的情况下,对疾病进行研究时也可以利用遗传学信息。过去有一种观点认为,精神疾病是一种纯粹的功能性障碍,不过这一观点不会再受到大家的关注。对于ASD研究而言,我们已经进入到了一个新的时代,遗传学研究信息已经提示了表型的多样性,生物学信息也开始浮现。毫无疑问,在接下来的几年时间里,我们将看到大量与神经精神疾病有关的生物学起源证据。
六、线粒体疾病研究进展及展望
线粒体疾病(Mitochondrial diseases)是最常见,也是最复杂的遗传性疾病(inherited genetic diseases)。但是细胞内既含有线粒体基因组,同时又含有细胞核基因组,这就给研究线粒体疾病带来了困难。不过尽管如此,近几年来科学家们还是在线粒体疾病研究方面取得了不错的进展。对线粒体疾病的进一步了解为线粒体疾病的诊断和预防都提供了不小的帮助,同时也给病人的护理工作带来了极大的帮助。不过还是存在很多的问题,尤其是对那些已经明显表现出线粒体功能障碍相关临床症状,以及很多线粒体疾病相关特异性组织损伤的病人的治疗还明显滞后。本综述将重点介绍近年来在线粒体疾病研究领域取得的最新进展,以及未来必须解决的一些问题。
线粒体疾病是一种非常常见的遗传性疾病,我们在本文中将线粒体疾病定义为线粒体氧化磷酸化(mitochondrial oxidative phosphorylation, OXPHOS)原发性功能障碍。我们知道,线粒体氧化磷酸化是机体生成ATP的主要途径。线粒体电子传递链(mitochondrial electron transport chain)也是人类生存所必需的生化反应,它由CI至CIV这四种复合体,以及辅酶Q(ubiquinone)和细胞色素C(cytochrome c)这两个可移动的电子载体(mobile electron carriers)组成。这套系统在线粒体内产生了一个跨膜的质子浓度梯度,然后复合体V,即FoF1 ATP合酶会利用这种质子梯度合成细胞的能量来源——ATP。这种能够自由移动的呼吸链复合体,以及相应的电子载体和呼吸链超级复合体(respiratory supercomplexes)全都位于线粒体内膜上。
线粒体氧化磷酸化蛋白是细胞内唯一一种受到线粒体基因组及细胞核基因组双重影响的蛋白质。环状的线粒体基因组mtDNA只含有16569个碱基对,但是拷贝数却比较多。线粒体基因组只编码37个基因,其中只有13个基因能够编码蛋白质。这些蛋白质都是参与构成线粒体氧化磷酸化系统的结构蛋白,其它22个基因编码tRNA,还有2个基因能够转录出rRNA。线粒体内的蛋白质包括了OXPHOS复合体的亚单位、OXPHOS复合体的辅因子及组装因子、帮助线粒体DNA复制及表达的因子、线粒体蛋白质合酶,以及由核基因组编码,在细胞质内表达,然后再进入线粒体内的蛋白质。
线粒体疾病的流行病学及临床特征
研究线粒体疾病最大的挑战就是这类患者在临床上的表现千奇百怪,各有不同,会涉及多个不同的器官,引起多个系统出现不同的症状。在我们一生中的每个阶段都有可能成为线粒体疾病患者。在儿童期发病的患者病情往往会非常严重,而且呈进行性发展,这主要是因为核基因组隐性遗传性疾病所致。比如Leigh综合征和Alpers综合征都会表现出明显的神经系统症状,而有些患者则会表现为心脏、骨骼肌或其它器官的异常,这都反映了线粒体疾病的遗传多样性。如果在成年期发病,则主要是由线粒体基因异常所致,虽然孟德尔式遗传性疾病都由常染色体基因显性突变所致,但是诸如由POLG 基因编码的DNA聚合酶γ(DNA polymerase gamma)和由PEO1基因编码的Twinkle解螺旋酶(Twinkle helicase)等线粒体DNA复制元件出现问题也是少儿严重常染色体隐性遗传疾病(autosomal recessive disease)最常见的原因,不过这些突变也会在成年之后引发疾病。与儿童期发病的情况一样,成年之后发病的线粒体疾病也有一些常见的临床表型,比如慢性进行性眼外肌麻痹(chronic progressive external ophthalmoplegia)、由Leber遗传性视神经疾病(Leber hereditary optic neuropathy, LHON)导致的亚急性失明(subacute blindness)、线粒体脑病、乳酸酸中毒及中风样综合征(mitochondrial encephalopathy, lactic acidosis, and strokelike episodes, MELAS)和肌痉挛性癫痫伴破碎红纤维病(myoclonic epilepsy and ragged red fibers, MERRF)等。但还是有很多患者的临床表现并不能非常清晰地归属于某一种综合征,这种情况在非常常见的m.3243A>G突变患者中尤为明显。大约有1/3的线粒体疾病成年发病患者都属于这种情况,所以往往会耽误临床诊断。
在线粒体疾病研究工作当中,另外一个重要的目标就是将某种特定线粒体基因型与组织特异性一一对应起来。有一个很好的例子能够帮助大家更好地理解这个问题,那就是原发性LHON突变(primary LHON mutations)往往都会特征性地伴有视神经障碍。我们假设视网膜神经节细胞(retinal ganglion cells)对这种复合体I突变特别敏感,但是在导致LHON突变的同时也会给其他一部分患者造成严重的肌张力障碍(dystonia),但是并不会影响他们的视觉功能。在线粒体氨酰基tRNA合成酶( mt-aminoacyl tRNA synthetases)发生突变时也经常会观察到这种表型上的差异现象。不过这种有选择性的易感性并不仅限于线粒体疾病,很多神经系统疾病(neurological disorders)也都有这种特点。该领域的研究进展一直非常缓慢,就是因为我们很难获得线粒体疾病模型。目前,用技术手段对线粒体基因组进行修饰还比较困难,而且很多核基因组缺陷动物模型也都不能很好地模拟人类的表型。很明显,线粒体DNA的异质性并不能够解释线粒体疾病如此复杂的组织变异性问题。不过有意思的是,线粒体转录组(mitochondrial transcriptome)也有非常明显的异质性,哪怕在没有患上线粒体疾病的人体里也是如此。现在我们还不太清楚是什么原因导致了这种RNA层面的异质性,但是这也给我们提供了另外一条途径,去了解OXPHOS组份在人体、组织或细胞里的变化情况。
大范围的临床和遗传学异质性意味着我们其实很难真正地了解线粒体疾病的流行病学特征。已经发表的、重点观察儿童线粒体疾病发病率问题的文章表明,线粒体疾病的发病率不会低于6.2人/10万人,在某些同族群体内,发病率可能会比这个数字更高一些,因为在这个群体里常染色体隐性疾病的发病率会高一些。成年发病的线粒体疾病既包括线粒体基因组突变,也包括了核基因组突变。这类疾病在整个高危人群当中的发病率大概在1/4300人左右,而在临床上观察到的情况是,在成年发病的线粒体疾病患者人群中,线粒体DNA发生突变的比例超过了75%。虽然线粒体疾病的分类非常复杂,我们还是在表1中为大家进行了简单的介绍。
表1 线粒体疾病简要分类表
线粒体DNA遗传性疾病
对于携带了线粒体DNA突变的家族而言,一大科技进步让他们拥有了更多的生殖选择,而且也有很多可靠的技术能够帮助他们避免将这种疾病继续遗传下去。这些生殖辅助技术非常重要,因为对于这类线粒体遗传疾病,目前还没有太多好的治疗手段,也无法阻止疾病的进一步发展。对于因为核基因组问题而导致的线粒体疾病,则可将其作为其它核基因组疾病一样对待,也可以利用出生前或植入前的遗传学筛查手段来进行预防。携带病理性线粒体DNA突变的家族面临的困难可能就要大一些,因为线粒体DNA的遗传机制与核基因组不一样,而且遵循着母系遗传的方式。线粒体DNA突变可以是纯合型的(比如绝大多数LHON患者都是纯合型突变),但更多见的情况则是杂合型的。大家都认为,只有当线粒体DNA突变达到一定的程度,超过了阈值,引起生化功能障碍之后才会致病,即细胞内需要足够数量的野生型线粒体DNA来维持线粒体的正常生化功能。这与临床症状也是相吻合的,病情越重,线粒体DNA的异质性也就越高。
在异质性方面,并非所有的线粒体DNA突变的贡献全都一样大。在理解线粒体疾病的病理学机制、诊断及遗传机制时尤其应该注意这一点。线粒体DNA遵循母系遗传规律。而异质性突变的遗传规律非常复杂,存在一个遗传学瓶颈(genetic bottleneck),因为在发育中的胚胎里,细胞中只有少量的线粒体DNA会解螺旋进行复制。对于m.8344A>G和m.3243A>G这样的异质性突变,这种遗传学瓶颈就会导致各个成熟卵母细胞里线粒体DNA的突变程度各不相同。不过也有可能出现单次的、自发出现的大范围线粒体缺失,但这种突变遗传给子代的几率通常都比较小。
据估计,英国每年有可能将严重线粒体疾病遗传给下一代的高危孕妇产下的婴儿大约为152个,而美国则为778个。专业的遗传学咨询对于这些高危孕妇就显得至关重要。遗传咨询师可以向孕妇及其家人明确地告知相应的风险,帮助他们做出生殖选择。其中就包括及时终止妊娠或者使用其他健康人捐赠的卵子细胞,但是这种捐赠卵子的数量是有限的,而且很多妈妈还是希望能够有一个自己的亲生子女。很多家庭在接受完遗传咨询之后都会决定顺其自然,尽管他们也知道这样做会有一定的风险,他们的子女可能会是一个线粒体疾病患者。很多高危女性也会在绒毛阶段(chorionic villus stage)接受出生前遗传学诊断,或者进行羊膜穿刺,来了解她们的宝宝是否携带了线粒体DNA突变。植入前遗传学诊断(Preimplantation genetic diagnosis,PGD)是对1个或2个只有3天龄的卵裂球细胞进行分析、检测的技术。该技术正在被越来越多的人使用,它可以降低某些线粒体突变DNA被遗传给子代的风险,也已经成为了一项线粒体DNA突变携带妇女可以选择的妊娠筛查技术。此外,TLAEN及其它基因组编辑技术(genetic editing techniques)也将有望降低胚胎线粒体DNA突变的水平。这更具吸引力,但是由于线粒体突变DNA的异质性太高,线粒体DNA总拷贝数可能会达不到让我们终止妊娠的指标,这些技术也不适合对线粒体DNA纯合突变进行改造。
对于那些突变异质性比较高或携带有同质突变(homoplasmic mutations)的女性,目前的选择还非常有限,只有使用其他健康人捐赠的卵细胞,或者领养这两种方式。也许很快也会出现线粒体捐赠。所谓线粒体捐赠(Mitochondrial donation)是一种体外受精技术(in vitro fertilization, IVF),是将处于有丝分裂中期、极体期或原核期的卵细胞或受精卵的细胞核转移到捐赠的、去核卵细胞或受精卵细胞当中的一项技术(图1)。这些技术已经在动物模型上取得了成功,也在人类卵细胞上成功地操作过。这种新技术能够预防线粒体疾病继续遗传给下一代,但是却会带来很多伦理上的问题,也不太可能被大面积地广泛采用。在英国,经过了激烈的伦理争论、向公众咨询意见以及独立的科学审查之后,出台了新的线粒体捐赠管理办法草案,该草案于2015年2月经过国会两院讨论之后,于2015年3月正式通过,成为一项法案,由英国人类受精与胚胎管理局(Human Fertilisation and Embryology Authority)具体执行。
核遗传线粒体疾病
在线粒体疾病研究领域里,有一个研究方向近年来也取得了非常重要的研究进展,就是因为他们大量运用了新一代的测序技术,发现了很多符合孟德尔式遗传规律的线粒体疾病的相关基因,并对这些基因编码的蛋白质做了一系列的鉴定。孟德尔式遗传疾病就非常适合用这种方法进行研究,因为用候选基因技术(candidate gene approaches)是很难解决遗传学上异质性如此大的疾病所表现出来的各种临床表型的。
图1 线粒体捐赠技术。线粒体捐赠包含两种情况,即将患有线粒体遗传疾病(图中粉红色所示)妇女的卵母细胞或受精卵细胞的细胞核转移到一个其他人捐赠的健康的、去核的(图中蓝色所示)卵母细胞或受精卵内。图中绿色所示的是健康捐赠者细胞内的线粒体DNA。(A)处于有丝分裂中期的核转移技术包括从捐赠者细胞中去除核物质,同时将线粒体疾病患者细胞内的核物质移入捐赠细胞,并完成之后的受精和继续发育。(B)原核转移技术,即在受精卵形成之后,将线粒体疾病患者受精卵细胞内的原核组织转移至去核的捐赠受精卵内。
使用线粒体蛋白质组学(mitochondrial proteome)技术就要容易得多。因此,如果在一系列检查中发现了某一个OXPHOS生化信号出现了问题(比如缺少一个或几个OXPHOS功能),并且能够定位到线粒体中的特定位置,那么再与生物信息学技术相结合,就能够确定出哪几个基因可能出现了问题。针对所有线粒体基因外显子(也被称作线粒体外显子组Mitoexome)的外显子捕获及测序技术(exon capture/sequencing),以及全外显子组测序技术(whole-exome sequencing, WES)都已经应用于临床科研工作当中,对发病较早、病情严重的线粒体疾病患者进行测序研究。科研人员们推测这种疾病可能类似于常染色隐性遗传疾病,不过有一部分线粒体疾病患者,尤其是成年发病的迟发型患者可能就不太适合用这种筛查策略进行研究。通过对大量儿童期发病的线粒体疾病患者进行测序研究之后,发现这种研究策略的诊断效率大概在20~60%之间。对于小规模的家族或单发的病例,使用强大的新一代仪器,以及突变体筛选策略,也能够进行诊断,为产前筛查和遗传学咨询服务。最近,WES技术也已经成功地应用于成年发病的线粒体疾病患者人群,用于寻找这些人的遗传问题。
除了能够进行分子诊断之外,使用WES技术还可以让我们对线粒体疾病的发病机制以及基本的线粒体生化通路有一个更好的认识和了解。这对于那些因为线粒体内翻译机制出了问题,导致线粒体内蛋白合成机制障碍,使得OXPHOS功能系统性紊乱的患者尤为重要。这种线粒体蛋白合成机制障碍就包括线粒体mRNA转录体处理机制障碍、线粒体核糖体及翻译机器组装及功能障碍、线粒体tRNA转录后修饰障碍,以及线粒体氨酰基tRNA合成酶功能障碍等(图2)。
图2 核基因异常能够导致多种线粒体OXPHOS功能障碍。图中展示了多条线粒体基因及生化作用途径。其中很多都与线粒体翻译途径中的关键组份有关。研究发现,人类线粒体疾病与OXPHOS途径活性障碍有关。图中红色表示的是由新一代大规模全外显子组测序研究发现的突变致病基因。
根据利用慢病毒将野生型的候选基因导入线粒体之后是否能够拯救线粒体的表型,来判断该基因是否是致病基因,这是目前进行致病基因判定的金标准。线粒体ARS酶缺陷具有很多线粒体疾病的特点,在同一条生化途径中如果有多个不同的基因发生突变,就会引起身体大范围的功能障碍,比如中枢神经系统和其它器官的病理表现。可对于有些基因,在基因型及表型之间是具有非常明确的关系的,尤其是与神经影像学之间。比如6型小脑发育不良(pontocerebellar hypoplasia type 6)就与RARS2 基因突变有关,丘脑及脑干脑白质病(leukoencephalopathy)则与EARS2 基因突变有关。
最有吸引力的一组疾病则与核基因编码的线粒体tRNA修饰酶有关。到目前为止,科学家们已经发现了30多个不同的线粒体tRNA修饰位点,这些位点都是保证蛋白质能够正确翻译的关键因素。这些修饰酶的突变也同样具有组织和器官特异性。比如,MTO1和GTPBP3蛋白突变几乎无一例外地都会与心肌病(cardiomyopathy)相伴。对线粒体疾病进行线粒体核糖体分析也会进一步揭示线粒体疾病的发病机制,这也会让科研人员们有机会开发出新的治疗手段和策略。
通过对线粒体疾病患者进行WES分析,又发现了一些之前我们认为与线粒体功能无关,或者没有明确的证据表明这些是线粒体蛋白的蛋白质。研究发现,这些蛋白质其实都是线粒体疾病致病蛋白。比如,我们之前一直认为FBXL4蛋白只存在于细胞核内,不过现在发现,线粒体DNA中该蛋白编码基因拷贝数大量减少就与早发型线粒体脑病(early-onset mitochondrial encephalopathy)有关。
研究还发现了一些治疗线粒体疾病的新方法。ACAD9 基因编码一种线粒体β氧化酶,这种酶同时也在复合体1的生物合成过程中起到了关键的分子伴侣作用。该基因突变,同时伴有复合体1缺乏时,用核黄素(riboflavin)治疗能够起到一定的作用。此外,神经变性疾病基因SPG7 和AFGL32 也都被发现与迟发型线粒体疾病复杂的神经系统表现有关,具体表现为进行性的眼外肌麻痹(progressive external ophthalmoplegia)和小脑共济失调(cerebellar ataxia )。
虽然WES研究已经被成功地应用于符合孟德尔式遗传规律的线粒体疾病研究工作当中,但还是存在一些问题。比如迟发型线粒体疾病是发病人数最多的一组疾病,但是就不太适合用WES技术进行分析,全基因组测序能够发现基因拷贝数变异(copy number variations, CNVs)和外显子捕获技术不能发现的内含子突变。不过究竟应该在什么时候进行WES诊断,目前还存在争论,毕竟还存在很多其它的检测手段,比如对线粒体酶活性进行检测的功能性测试等。对于父系血缘关系亲密的家族,WES技术应该是首选技术,优先于肌肉活检。很明显,在某些情况下,这些检测还会对我们的基因注释工作有所帮助。
线粒体疾病的治疗
目前,线粒体疾病的治疗还相当困难。对于大部分患者而言,还只能通过预防,或者针对糖尿病、心血管疾病或癫痫等合并症开展对症治疗来进行处置。所以很多科研人员都在努力开发新的、有效的治疗方法,或者预防线粒体疾病继续遗传给后代的技术。
正如前文所述,有一些比较罕见的遗传缺陷是可以用某些特定的治疗手段进行处理的,尤其是不能自己合成辅酶Q的患者。如果给他们口服辅酶Q营养补充剂就可以起到很好的治疗效果,同样,用核黄素补充疗法治疗ACAD9蛋白缺乏的患者也会收到不错的治疗效果。有很多药物或治疗手段都被看做是有效的治疗方法,也有很多报道称,使用营养素、维生素、抗氧化剂等“食疗”手段能够治好线粒体疾病。但是真正经过科学的设计、设置有对照的临床试验结果却寥寥无几。这主要是因为很难招募到足够多的、临床症状相似的(或基因型相似的)线粒体疾病患者参加临床试验。不过现在有了患者群和登记处,将有望解决这个问题。接下来,我们将给大家介绍几种非常有潜力的线粒体疾病治疗方案(图3)。
减少代谢压力,增加线粒体生物合成
很多OXPHOS问题都表现为细胞内NAD+/NADH比值降低,这就使许多与NAD+有关的酶的活性也随之降低。能够激活重要转录因子(这些转录因子能够促进线粒体生物合成调控基因的表达)的SIRT1和SIRT3乙酰化酶会进一步放大这种影响。对缺乏Twinkle解螺旋酶的小鼠动物模型(即deletor小鼠)使用NAD+前体物质烟酰胺核糖(nicotinamide riboside, NR)进行治疗,能够明显增加小鼠肌肉及棕色脂肪组织里NAD+的含量。由于之前观察到在线粒体功能发生障碍时,维持足够的NAD+水平也非常重要,所以在动物实验中发现,对消耗NAD+的多聚二磷酸腺苷磷酸化酶(poly adenosine diphosphate ribose phosphorylase, PARP1)的活性加以抑制,也能够有效地治疗线粒体功能障碍。不过目前尚无相关人体实验结果的报道。增加线粒体数量也有助于缓解线粒体功能障碍,因为在增多的线粒体当中,恢复的那一部分线粒体功能也足以弥补不足的OXPHOS活性。
但还存在一个关键的问题,那就是如何诱导PGC1同形异构体,这是掌管线粒体增殖的重要因子。线粒体增殖因子,比如pan-PPAR激动剂苯扎贝特(bezafibrate)、多酚类物质白藜芦醇(polyphenols resveratrol)、表儿茶酚(epicatechin) 以及核糖核酸(ribonucleotide)AICAR等数量很多。围绕这些增殖因子在改善线粒体功能障碍效果方面的文献结论也非常复杂,往往都会有互相矛盾的结果出现,所以还需要更进一步的研究。此外,体育锻炼也可以促进线粒体生物合成,而且这还是一项安全的措施,对线粒体疾病患者大有裨益。
图3 多种治疗线粒体疾病的可能方案。图中蓝色表示的是异常的线粒体。其中含有多种线粒体DNA(图中黑色表示的是正常的线粒体DNA,红色表示的是异常的线粒体DNA)或异常的核基因产物。可以通过线粒体替换(棕色所示)进行治疗;也可以对氧化酶或某个NADH亚基——脱氢酶进行替换和改造,从而绕过异常的氧化磷酸化机制和抗氧化的辅酶Q衍生物;还可以通过再编码途径在胞内表达正常的线粒体蛋白,并使其重新进入线粒体(即异位表达线粒体蛋白)来恢复异常的线粒体功能,治疗线粒体疾病。虽然这种方案还存在争议,不过相关的研究也正在进行当中。
提高OXPHOS效率或者提高线粒体蛋白质合成系统的效率
大部分细胞色素C都松散地结合在阴离子型心磷脂(anionic lipid cardiolipin)上,而这种磷脂绝大部分都位于线粒体内膜上。不过还是有一小部分细胞色素C会借助疏水作用与阴离子型心磷脂进行结合,导致其构象发生改变,最终激活细胞色素C过氧化酶,使心磷脂氧化。这就会使线粒体内膜曲度变小,形成线粒体嵴,使细胞色素C从内膜上脱落,从而降低电子传递效率,细胞最终会因此凋亡。体外研究发现,有一种不太常见的四肽衍生物SS-31(又名Bendavia)能够定位于线粒体上选择性地与心磷脂结合,来抑制其疏水作用,从而增强OXPHOS的效率。缺血再灌注损伤(ischemic reperfusion injury)的大鼠动物实验发现,这种化合物对线粒体的结构也有很好的保护作用,这也提示在损伤之后,线粒体能够更快地产生更多的ATP。
很多线粒体疾病都是因为tRNA编码基因突变导致的,所以线粒体蛋白的合成和OXPHOS都会出现异常。这些突变常常都会使线粒体tRNA失稳。在酵母细胞里,线粒体亮氨酸tRNA合酶能够与线粒体基质里的RNA结合,并对RNA起到保护作用。在体外培养的人体细胞实验中发现,在细胞内过表达人同源基因C末端的69个氨基酸残基肽链就足以让异常的线粒体tRNA保持稳定,使线粒体蛋白质合成效率提高,从而部分恢复线粒体的氧化磷酸化功能。我们更推荐使用小分子筛查策略寻找能够使线粒体tRNA稳定的新药。
恢复线粒体DNA的稳态或者改变线粒体DNA的异质性
线粒体神经胃肠型脑肌病(Mitochondrial neurogastrointestinal encephalomyopathy, MNGIE) 是由于胸腺嘧啶磷酸化酶(thymidine phosphorylase)缺陷所导致的一种疾病,而胸腺嘧啶磷酸化酶能够促使胸腺嘧啶和脱氧尿嘧啶分解。如果继续合成这些核苷酸则会使dNTP出现不平衡的状况,即线粒体基质内TTP增多,dCTP水平降低。如果向MNGIE小鼠的肝脏内转染并表达人胸腺嘧啶磷酸化酶,就会让小鼠体内多个(但不是全部)组织的核苷水平恢复至正常的平衡状态。虽然MNGIE小鼠动物模型也有其局限性,但该研究结果还是让人非常兴奋的,也已经有人计划开展相关的人体临床试验项目,为那些不适合开展干细胞移植的患者寻找其它治疗方案。
还有一种线粒体疾病是与核苷酸代谢不平衡有关的,这主要是因为缺少了胸腺嘧啶激酶2(thymidine kinase 2, TK2)的活性。胸腺嘧啶激酶2这种线粒体基质蛋白能够使脱氧嘧啶磷酸化,生成TMP和dCMP。常染色体隐性遗传疾病患者能够在一生中的任何时间发病,不过通常都会在儿童时期,以明显的神经肌肉系统症状,以及线粒体DNA缺乏为表现发病。已经有人对TK2缺乏的小鼠动物模型开展研究,并获得了令人激动的研究成果,即在TK2缺乏小鼠出生之后就给它们服用dTMP和dCMP这两种脱氧嘧啶,这样就能在小鼠不同组织内部分恢复线粒体内TTP的浓度,以及线粒体DNA的水平和OXPHOS组份的水平。不过由于此时小鼠的血脑屏障已经发育完全,所以脑内的效果还不是那么明显。但是TK2缺乏小鼠经过这种治疗之后寿命却有了明显的延长。而且这种疗法非常简便,所以对于缺乏TK2活性的线粒体疾病患者应该具有非常大的潜力。
线粒体DNA突变异质性较高的患者,致病突变常常都是隐性的,只有当60%以上的线粒体DNA全都携带该突变之后,才会表现出临床症状。最近对体外培养人体细胞也进行了DNA切除研究,有人使用TALEN(即TAL效应子核酸酶)特异性地切断致病突变(缺失或点突变)线粒体DNA,也有人使用锌指核酸酶(zinc finger nucleases)破坏致病突变(单碱基缺失或点突变)线粒体DNA,他们都取得了不错的成果。接下来就应该借助AAV病毒载体,在线粒体疾病动物模型体内表达这些核酸酶,看看其治疗效果了。
那么基因组编辑技术能否修复异常的线粒体DNA呢?CRISPR-Cas9基因组编辑技术是目前的热门技术。Cas9是一种RNA引导的核酸内切酶,借助人工设计的RNA“向导”就可以实现超高的特异性。虽然在人体线粒体的基质内有大量的RNA,但到目前为止,还没有发现任何的RNA分子具备某种特定的线粒体功能。即便不考虑这一点,也已经有人报道了能够向线粒体内转运的RNA载体,并且详细地介绍了在线粒体上的RNA转入通路。所以用CRISPR-Cas9基因组编辑技术对线粒体基因组进行改造在技术上是可行的,然后再借助无纠错功能的NHEJ DNA修复机制,就可以实现线粒体DNA基因敲除。虽然哺乳动物线粒体DNA好像很少见同源重组修复功能,但也还是有可能借助CRISPR-Cas9基因组编辑技术实现基因敲入,这就可以对更多的线粒体疾病进行治疗了。
总结
近五年来,我们在线粒体疾病研究领域取得了非常不错的进展。线粒体疾病在遗传学上,以及在临床上的复杂特性都一直使其成为医学研究领域中一处让人生畏的未知领域,直到最近才有所改变。这主要是因为我们取得了令人瞩目的成果,比如建立起了大规模的患者群,使用新一代测序技术对之前无法诊断的患者进行了科学研究,构建了线粒体疾病动物模型,在伦理、科学和立法层面也规范了线粒体捐赠行为,而且还开发出了多种潜力巨大的治疗策略。我们有理由相信,接下来的几年也会同样精彩,会继续发现那些无法用WES技术识别的遗传缺陷,了解线粒体疾病的组织特异性发病机制,能够预测疾病的进展等。最后,也是最重要的就是,为所有线粒体疾病开发出有效的治疗手段也将成为现实。
参考文献
- Laura M. Zahn & John Travis. (2015) Hunting mutations, targeting disease. Science ,349(6225): 1470-1471.
- Kelly Servick. (2015) Can 23andMe have it all. Science , 349(6225): 1472-1477.
- Jocelyn Kaiser. (2015) Who has your DNA-or wants it. Science , 349(6225): 1475.
- Jay Shendure & Joshua M. Akey. (2015) The origins, determinants, and consequences of human mutations. Science , 349(6225): 1478-1482.
- Iñigo Martincorena and Peter J. Campbell. (2015) Somatic mutation in cancer and normal cells. Science , 349(6255): 1483-1489.
- Daniel H. & Jonathan Flint. (2015) Genetics and genomics of psychiatric disease. Science , 349(6255): 1489-1493.
- Robert N. Lightowlers, Robert W. Taylor, Doug M. Turnbull. (2015) Mutations causing mitochondrial disease: What is new and what challenges remain? Science , 349:1494-1499.