分析:
人類基因組的研究,在生命科學中第壹次實現了對遺傳信息的整體分析和基因組功能的研究。基因組是生命體遺傳信息的總和。
生命信息的存儲單位其實就是我們所說的基因,載體是脫氧核糖核酸DNA。在多細胞生物中,信息在不同細胞之間、不同細胞組成的組織之間、不同組織形成的器官之間流動。這就是我們所說的:遺傳學的中心法則。基因組是生命體遺傳信息的總和。DNA雙螺旋的發現可能是20世紀生命科學最大的突破。ATCG的四種不同堿基構成了壹種復雜的遺傳語言。
事實上,大多數人類疾病是由多個基因控制的。人類基因組計劃正式啟動的時間是1990,這意味著到2005年完成人類基因組DNA測序需要15年。到目前為止,我們還沒有這樣的技術,說可以直接對壹個染色體進行測序。所以整個人類基因組計劃其實就是壹個從復雜到簡單,再從簡單到復雜的過程。人類基因組測序之初,當時使用的DNA序列分析方法主要是凝膠電泳,基本都是手工操作。但是90年代以後,壹種新的測序技術產生了,那就是毛細管電泳。從而大大加快了測序速度。壹天可以檢測出654.38+0萬個堿基對的序列。中國也加入了這個測序項目,我們承擔了1%的任務。2000年4月,完成了染色體21的草圖序列。
現在我們可以點擊指甲蓋大小的生物芯片上的人類基因組,所有的基因都被點擊了。以後想看病,不僅要帶病號卡,還要自帶芯片。在醫生做出診斷之前,先用芯片看看妳可能會得什麽病。通過比較不同進化階段生物的基因組學,可以發現基因組結構的功能調控規律。事實上,與人類疾病相關的基因也是人類基因組結構和功能完整性的重要信息。事實上,在過去的幾年裏,對疾病的研究早已是對人類基因組的研究。
重要計劃的壹部分。1997提出了兩個項目:壹個是腫瘤基因組的解剖項目,壹個是環境基因組項目。其實都和健康有關。人類基因組計劃對醫學的貢獻壹個在診斷,壹個在基因治療。對於我們這樣的發展中國家,更應該重視預防。
我們國家的基因組計劃是從1994開始的,是從功能基因組學的角度開始的。結構與功能並重,建立跨學科的關鍵技術,研究基因組多樣性和疾病基因。這是壹開始的策略。我們可以自豪地說,除了Y染色體,所有的染色體上都覆蓋著中國科學家發現並命名的基因。最近,我們開展了壹項大規模的中國基因組SNP研究。這項工作已從群體遺傳學轉向研究疾病發生和發展的遺傳信息,這是中國人的特點。因此,如果我們現在能把中國生命元素變異的系統目錄和數據庫做出來,我們就能獲得中國生物醫藥產業技術創新的知識產權,造福子孫後代,為全人類做貢獻。
全文
當然,清華是我們國家最高的大學之壹。所以,今天來到這裏有點害怕。那我主要是來求教的現在我想給大家介紹壹下人類基因組的研究,可以說是第壹次。在生命科學中,已經實現了某種大科學的概念。也就是說,從整體上分析遺傳信息,研究基因組的功能。所以我說現在生物學的特點從七八十年代到了壹個新的平臺,主要集中在分析,學科細化,分工細化。這個平臺是大合成。其實我們中國的科學從壹開始就講究大合成。妳看,我們的藝術是壹樣的,我們的寫意是偉大的綜合。這種東西方的融合非常重要。如果把西方的嚴謹分析和中國幾千年前的綜合思考結合起來,我覺得可能會帶來壹些新的突破機會。然後我覺得這張圖,恐怕不僅僅是從事生命科學的人,我們非生命科學的學生也非常熟悉遺傳學的中心定律。
眾所周知,生命活動的本質是信息流。壹直有人說,我們都是搞生命科學的。但突然蹦出壹句話:“人生是什麽”?這能讓人思考。我個人認識到,生命信息作為其存儲單位,是生命的重要特征之壹,具有記憶功能。那麽它的儲存單位其實就是我們所說的基因。在大多數生物體內,我們知道它的載體是脫氧核糖核酸DNA。但它的執行單位主要是蛋白質。它使用不同的信息語言,壹種是核酸的語言,另壹種是氨基酸的語言。因此,在這種空間信息流中,需要壹些調節機制。眾所周知,這個調控的第壹步是轉錄。這個時候,生命信息的語言沒有改變,是核酸的語言。只是從DNA到MRNA,這個過程叫做轉錄。然後語言會變,變,需要翻譯。所以,從MRNA上的生命語言到蛋白質的生命語言。當然我們知道這個蛋白質,很多蛋白質都有代謝活性。生物和非生物的壹個重要區別就是有代謝和新陳代謝,然後蛋白質才能形成高級空間的構型。所以在這裏,細胞的不同部分相互作用,細胞核和細胞質相互作用。那麽在壹個多細胞生物體內,不同細胞之間,不同細胞組成的組織之間,不同組織形成的器官之間,都是信息流動的。我想這就是我們所說的“遺傳學的中心定律”。那麽基因的概念大家都很清楚,或者說基本概念很清楚,確切的定義今天可能還不是很清楚。
那麽基因組意味著什麽呢?基因組是生命體遺傳信息的總和。那麽我們這裏不是單個基因,而是所有基因。它編碼的所有氨基酸之間的關系,所以意義是完全不同的。DNA雙螺旋結構的發現可能是20世紀生命科學最大的突破。那麽A、T、C、G四個不同的堿基,就構成了復雜的遺傳語言,也是生命信息最基本的符號。這個基本符號真的讓我們覺得很簡單。大自然用這簡單的四個字,形成了令我們驚嘆的廣闊世界中無數生命多樣性的現象。那麽它的遺傳信息,在大多數生物中,我剛才說的是DNA的分子。那麽它在那裏的排列組合就決定了,或者說相當程度上決定了生命在人體內的活動,也就是我們所說的:生、老、病、死等等。所以當我們談到雙螺旋結構的時候,我們都知道堿基對和DNA都是生物大分子。壹般來說,我們不用質量單位來表示它的體積,而是用它的長度。那麽壹個bp在中文裏叫做堿基對。但就基因而言,壹個基因往往需要成千上萬個堿基對。於是我們引入了“千堿基對”的尺度。那麽我們做基因組的時候,我們都知道基因組是壹個非常大的尺度,所以我們發明了壹些新的尺度單位,比如Mb是指百萬堿基對。
這是我們在基因組計劃之前對人類基因組的了解。我們知道人類基因組的長度。單倍體基因組的長度約為30億個堿基對。壹般教科書上說序列中的編碼序列,也就是說我們剛才說的被轉錄表達的,可以稱為基因序列。大概實際上指的是成熟的MRNA,加工過的MRNA中的序列不到5%。換句話說,非編碼序列占絕大多數。在人類細胞核中,遺傳信息以染色體的形式組織,分布在22條常染色體和2條性染色體中。我們都知道生物科學過去的特點,基本是師傅帶徒弟的作坊式操作。到了80年代中期,我覺得壹個是生命科學科學思維的大拓展,第二個是技術的進步。比如當時基因工程已經很成熟了,DNA測序也是當時比較成熟的,然後PCR技術也開始在那裏出現。於是,科學家和生命科學家的野心就在那裏萌發了,他們決心要突破原來那種不被物理甚至化學重視的作坊式運作模式,做出可以稱之為大科學的東西。
當然,我覺得科研和思維的條件是壹方面。但事實上,如果我們回顧科學的歷史,許多重要事件仍然是由那裏的需求推動的。我們的壹些科學家批評這種做法,這意味著我們應該註意將基礎研究與重大社會需求相結合。我覺得這其實有點偏頗,就是說研究的類型多種多樣:有的是自由探索,所以這個可以很細致,每個人腦子裏都可以有諾貝爾獎的想法。但也有壹些研究是真正希望造福人類的。然而,這種研究帶來的挑戰實際上可能會滋生為不知名的人頒發諾貝爾獎的想法。那麽人類基因組計劃就是這樣壹個典型的例子。
先看第壹個,可以認為是正式標書。壹般來說,我們做這個項目,首先要有標書。那麽人類基因組計劃的第壹次招標,可以認為是諾貝爾獎獲得者Dulbecco 1986發表在《科學》雜誌上的壹篇短文。這篇文章的標題是什麽?腫瘤研究的轉折點-人類基因組研究。事實上,我們知道壹位雄心勃勃的年輕總統肯尼迪在美國上臺。當時他在科學上有兩大計劃:壹是把人送上月球,二是戰勝癌癥。然後隨著阿波羅計劃的順利實施,人類在1969年登上了月球。但是征服腫瘤的計劃失敗了。為什麽?原來科學家把問題想得太簡單了,以為腫瘤就是壹兩個基因的問題。但其實絕大多數腫瘤都是多基因問題。涉及到整個基因組的問題,是整個遺傳信息的紊亂。就像我剛才說的,不要以為壹個融合基因就足以導致小鼠白血病就這麽簡單。因為那樣的話,壹打進去就白血病了。事實上,我們有Lola羅拉白血病。將這種融合基因註入受精卵後,需要壹年時間才會發生白血病,而且不是每小時都會發生。所以這說明還有其他決定性因素在裏面。我們現在知道,有時候幾個基因壹起感染,白血病的速度會大大加快。
文章Dulbecco說,如果我們想更多地了解腫瘤,我們必須從現在開始關註細胞的基因組。我們應該從哪個物種開始?要想了解人類的腫瘤,就要從人類開始。對DNA的詳細了解將極大地促進人類腫瘤研究。事實上,大多數人類疾病是多基因的。人類基因組計劃正式啟動,現在通用的說法是1990。然後1990,因為是美國國會正式推出了這樣的計劃。這個雄心勃勃的計劃是在15年的2005年完成DNA測序。這個投資是多少?三十億美元。當時的計算是基於這樣壹個事實,即測量壹個堿基對大約需要壹美元。整個計劃在這個地方其實是壹個狹義的計劃,這個計劃其實是壹個排序計劃。其實我們說測序,讀天書只是了解人類自身的第壹步,最重要的是讀天書。但即使這樣看壹個天書的計劃,也會經歷很多艱難困苦。也就是說,到今天為止,我們還沒有技術說可以直接對壹個染色體進行測序,從壹端到另壹端都做不到這壹點。所以整個人類基因組計劃其實可以簡單的說是從復雜到簡單,再從簡單到復雜,最後到簡單。也就是說,壹條不能直接測序的染色體被分解成更小的、可操作的單元。那麽如何分解呢?那是畫畫。可以用遺傳法畫,也可以用物理法畫。我們知道,遺傳作圖是利用遺傳標記來確定DNA標記之間的相對距離。另壹個概念是形成壹些所謂的DNA連續克隆,這樣這些片段,相互重疊,可以覆蓋整個染色體從壹端到另壹端。這樣,壹個不能直接用於測序的單元就被分析成了壹個相對較小的、可操作的單元。最後重組到忠實於原染色體中生命信息的排列,而這樣的情況就在其中,識別所有人類基因。所以人類基因組就是作圖,或者狹義的人類基因組計劃,也就是作圖計劃,基因圖譜,物理圖譜,序列圖譜,然後基因圖譜。
人類基因組計劃中有兩種大規模測序策略。壹個是我剛才提到的想法,其實叫壹個壹個克隆。我剛才說了,妳構建了壹個DNA克隆的連續克隆系統,覆蓋整個染色體,然後妳壹條壹條克隆,最常用的壹條叫BAC——細菌人工染色體,長度大概是100 KB。然後把克隆體壹個個挑出來,以後再亞克隆。這個亞克隆是這樣的,所以可以測序,測序後再組裝還原。這種策略是國際公共領域中排序項目所采用的策略。其實是壹個歷史的進化,也就是說是從映射、遺傳、物理映射進化而來的。我們都知道美國的Siral公司,也知道Quikmart。然後它搞了壹個叫全基因組鳥槍法的方法,在壹定的作圖信息的基礎上,直接把基因組分解成小片段進行隨機測序,繞過大片段連續克隆系統的構建,然後用超級計算機進行組裝。可以使人類基因組,在初步完成作圖後,迅速進入測序,尤其是大規模測序。朝著人們的期望前進。有兩大因素促成了這壹點,我們不得不承認工業的貢獻是非常大的。比如在人類基因組產生之初,當時使用的這個DNA序列的分析方法主要是基於凝膠電泳,基本上是手工操作。但在90年代上半期,出現了壹種新的測序技術——毛細管電泳。此外,還介紹了自動化操作和包括工業管理在內的系統。因此測序速度大大加快。妳就是這樣的測試者,它的名字叫Megabace。妳什麽意思?就是毛細管電泳,差不多兩個小時就能讀完壹個序列,能讀幾百個堿基,所以壹天能做十節課,所以是96個通道,所以壹天能做960個通道。每壹行按照他們的宣傳能達到壹個KB,其實很難做到。這是最理想的狀態。所以妳壹天可以產生654.38+0萬個堿基對。然而,另壹個曾經困擾學術界的問題是,如果我們現在處於壹個知識爆炸的時代,可以說生物信息的爆炸是最令人印象深刻的。
我們看到,在基因組計劃開始之前,公共數據庫中DNA序列的增長非常緩慢。那麽1990之後,就是指數增長期。而且我在去年和2000年兩個世界的公共領域統計過這個東西,測序項目和Siral分別宣布完成了所謂的工作草圖。這個時候就是這樣的情況,現在大概也是這樣。當時1999面臨著來自Siral的強行挑戰。成立於1998,號稱三年拿下人類基因組,國際人類基因組計劃決定迎接挑戰。世界上剛好有16組分擔了人類基因組測序的任務,中國也加入了這樣的測序項目。當然我們承擔的是1%的任務,1%還是很重要的。因為對於壹個發展中國家來說,想擠進這個屬於發達國家的俱樂部並不容易。有些東西我們想擠也不壹定能擠得進去,比如空間站的計劃,人家還防著妳呢。
這裏我要介紹壹下什麽是工作框架圖。因為大家都在說工作框架圖,那麽什麽是工作框架圖呢?實際上是工作草圖。那麽這意味著什麽呢?也就是說,通過對4-5倍覆蓋率的BAC(細菌人工染色體)連續克隆測序,得到基因組中90%以上的基因序列,錯誤率應低於65438±0%。換句話說,妳的覆蓋率應該達到基因組的90%以上。第二個,錯誤率要低於1%。100堿基對立讓妳有少於壹個堿基對的錯誤。雖然這只是壹個草圖,但是已經很有用了,就是對基因組結構的基本認識,基因的識別和分析,疾病基因的定位和克隆,單核苷酸多態性的發現等等。
那麽說到小品,肯定是要有最終圖的。所以這張圖的定義要求測序用的克隆能夠忠實地代表常染色質的基因組結構,覆蓋率達到99.9%以上,然後序列的錯誤率要小於萬分之壹。與工作框架圖的關系,其實就是在工作框架圖的基礎上增加測序的覆蓋面,填補空白,增加測序的準確性,可以達到這樣的標準。換句話說,就是素描的下壹步。2000年6月25日測序情況如何?我們看到當時在公共領域,也就是說美國、英國、德國、日本、法國、中國六國支持的計劃,覆蓋了人類基因組的86.8%左右。已經完成了壹部分,也就是我們剛剛提到的最終序列圖。標準序列大概是20%多壹點,然後大概66%的序列處於所謂的工作草圖階段。那麽也可以說是沒有完成。因為我們說要達到90%以上,但同時Siral聲稱他的覆蓋率已經超過95%。當然他的覆蓋面實際上包括了這個來自各個領域的貢獻,再加上他的貢獻,所以兩者相加。我認為我們應該相信超過90%的序列被工作草圖之上的這樣壹個序列的質量所覆蓋。我們來看看當時公共域測序項目的情況,在24條染色體上的分布。我們知道,其實從5438+0999年6月到19年2月,作為人類最小的染色體之壹,22號染色體的全序列是確定的,或者說它的常染色體是指部分的全序列。我們註意到它的短臂,這是壹個容易的染色體區域,實際上是非常不可預測的。因為空序列很多,基因不多。2000年4月,染色體21的全序列完成,是同壹個定義,也就是常染色體的這壹部分。我們看到這個地方用壹種深紅色來表示,差不多完成了。而這個黃色代表了我們剛剛提到的工作草圖,它是大部分染色體區域的工作草圖的壹部分。其實我們現在說的是完成人類基因組全序列的測定,也就是說常染色體部分,所以有人說也許人類基因組序列永遠無法結束。
2001 2月15我們知道,在自然界的領域裏,有壹種感覺就是兵對兵,將對將。2月16日,Siral序列發表。顯然,經過新壹輪的競爭,已完成序列的質量要比2000年6月高得多。所以在這種情況下,我們應該認為這兩家公司放在壹起的信息應該比我剛才說的壹般定義更進壹步。所以在工作草圖和最終的成品圖之間有壹個中間狀態,叫做高質量草圖。但就是這麽高質量的素描,我們已經基本知道我家的生活信息量有多大了。最後,我們發現我們的財產似乎相對較少,比我們預期的更多,因為我們的基因數量只有線蟲的數量,只有900多個細胞的生命體的兩倍左右,我們是壹只蟲子的兩倍。其基因組從低等生物到高等生物的復雜程度,與其說是由基因的數量決定,不如說是由基因的長度決定。我們最近完成了壹種名為鉤端螺旋體的細菌的測序,這種細菌可以導致傳染病。它平均每KB壹個基因,這麽小的東西,500萬個堿基對的基因組,5000個基因。我們有30億個堿基對,但我們只有3萬個,最多接近4萬個。但是妳看酵母,說到真核細胞,平均大約是壹個基因的5到10 KB。然後是果蠅,雖然它的基因數量似乎比線蟲少。但是它的基因長度達到了100 KB以上,然後它在哺乳動物中也達到了壹個基因,大概就像在人類中那樣,它現在是100 KB以上。所以替換和拼接的可能性大大增加。此外,與時間和空間的調控,即發育階段和組織特異性表達有關,這些序列的復雜性大大增加。雖然基因在高等生物中可以達到十的五階,但是這樣的高等生物有幾萬到幾十萬。但是實際上它的蛋白質域,實際上如果把基因組比作壹座建築的話,組成這座建築的預制件的數量其實是有限的。此外,壹些高級生物具有更豐富的結構域組合,神經功能、組織特異性發育、調節、止血和免疫系統的基因在脊椎動物中有了很大的擴展。數百種人類基因起源於脊椎動物進化過程中某壹時刻細菌基因的橫向轉移。不同個體間基因組差異很大——單核苷酸多態性,單倍體基因差異為1/1250,小於1%可引起蛋白質變異。
這本基因天書已經擺在我們面前,下壹步就是了解它。要理解它,必須考慮如何從大系統的概念去解讀。來自這個基因組的壹條信息與那裏的外部環境相互作用。另外,這個基因組的信息不是天上掉下來的,而是經過了幾十億年漫長的進化過程發展而來的,所以要用比較的方式去解讀。另外,要考慮到個體和群體之間是存在變異的,這種變異也是受外界環境調節的。所以功能基因組學的研究內容,雖然目前沒有嚴格的定義,但個人認為至少包括這幾個方面:對人類基因組DNA序列變異的研究,其核心內容是SNP,因為這是最常見的變異類型,當然還有很多其他的變異。然後是基因組表達調控的研究,這是發育階段組織器官的變異,然後是模式生物的研究,其中包括進化的意義,以及利用模式生物進行功能研究。當然,我們做所有這些研究,就像我們做測序研究壹樣。生物信息學不僅是壹個基礎工具,也是壹門新學科。因為到最後,要把這些信息整合到我們所說的系統生物學中,就必須借助理論手段和大規模的信息處理手段。
然後是基因組DNA序列變異的研究,SNP,這種類型的變異實際上是所有基因組的相同特征。它在相當程度上決定了不同的個體群體,是指人類對疾病的易感性、對環境致病因素的反應性以及其他性狀的差異。
這裏我舉壹個例子來說明這個特質有多重要。讓我們來看看我們對藥物的反應。我覺得我們每壹個人,無論身體多健康,在生活中總會接觸到壹些毒品。現在有壹個新名詞叫藥物遺傳學,意思是大部分藥物在體內代謝的酶存在遺傳多態性。像這裏,有壹些改變基團的酶和壹些轉移基團的酶。它有許多多態性。這種多態性的後果是什麽?它在很大程度上決定了我們個體對藥物的反應。例如,這是壹個非常復雜的程序,但我認為我們的主要信息在這裏。對於壹種最適合其基因型的藥物,其療效可達75%,毒性僅為1%。同樣的藥物,如果到了最不適合它的個體,會發生什麽?其療效僅為10%,毒性達80%以上。那麽這個基因組表達和表達調控的研究,我覺得是可以理解的。那麽是指在整個細胞水平上對基因組的所有轉錄和表達產物的識別,如果是在單細胞生命體或者整個生命體的水平上。其實就是高通量的結構生物學,大量分析蛋白質的高級結構,是基因組功能研究和新藥開發研究的橋梁。那麽,為了獲得如此大規模和整體水平的功能信息,就需要壹些所謂的並行分析方法。現在有可能在指甲大小的生物芯片上發現人類基因組,所有的基因都在上面。所以有人說,以後要看病,不僅要帶病號卡,還要帶自己的芯片。在醫生做出診斷之前,把芯片取出來,看看妳可能會得什麽病。很好,也很嚇人。總的來說,模式生物的研究大約是654.38+04億年的進化史,從單細胞和第壹個與外界隔絕的生命,到現在作為萬物之靈的人類。然後,通過比較不同進化階段生物的基因組序列,可以發現基因組結構組成和功能調控的規律。
所以基因組計劃,就像我剛才說的,是壹個科學興趣的結果,科學家想探索人類自身,也是社會推動的,也就是說要攻克人類的疾病。所以最終它的價值的實現,我覺得還是要回歸到對人類健康的貢獻上來。因此,從這個意義上說,與人類疾病相關的基因是人類基因組結構和功能完整性的重要信息。我們看到,近十年來,在人類基因組研究的推動下,人類疾病相關性的研究取得了很大進展。由於定位克隆和定位候選克隆的新思路,單基因疾病導致了大量遺傳性疾病基因的發現。我們知道傳統對基因的理解是從表型到基因型。也就是說,妳知道壹個蛋白質,妳已經確定了它的氨基酸序列,然後根據密碼地址的原理,妳就可以猜出它的DNA序列可能是什麽。妳合成壹個探針到基因組裏,然後把它調出來。比如血紅蛋白病,這是人類發現的第壹個分子疾病,就是先知道豬蛋白的氨基酸序列,然後再對其基因進行調整。但是對於大多數人類疾病,我們不知道它們的生化基礎是什麽,尤其是在基因組計劃之前。舉個例子,舉個例子,我們知道這個人會跳舞會跳舞,這叫亨氏病。比如像遺傳性結腸癌,我們知道息肉容易長在大腸,卻不知道蛋白質有問題。妳會怎麽做?如何找到它的疾病基因?於是反過來就有了壹個新概念叫遺傳學。這是什麽?先找它的基因,再看它的表現型。壹旦妳得到了這個基因,妳馬上就能很容易地猜出它的蛋白質結構。可以產生抗體,然後可以做很多遺傳功能。健康相關的研究是HGP的重要組成部分。1997年,腫瘤基因組解剖計劃和環境基因組計劃相繼提出。
人類基因組計劃對醫學的貢獻。基於基因組信息的基因診斷、基因治療和治療,發展中國家和發達國家越來越重視疾病預防,尤其是基於基因組信息的疾病預防。我國歷來提倡預防為主。如果我們能夠在壹個人出生時就識別出疾病易感基因,我們就可以在早期挑出危險群體,然後對環境因素和生活方式進行幹預。生物技術發生了深刻的變化,進入了細胞、胚胎和組織的研究層面,促進了胚胎和成體幹細胞技術的應用。血液疾病研究和其他高級研究%