當前位置:江苏十一选五号码遗漏 > 核心期刊 > 基礎科學 > 地球物理學 > 生物信息學論文范例欣賞(共4篇)正文

江苏十一选五任三遗漏:《生物信息學論文范例欣賞(共4篇)》

江苏十一选五号码遗漏 www.pypna.com 來源:UC論文網2017-11-28 10:20

摘要:

  生物信息在各個生命科學相關領域的作用日顯突出,但是生物信息學的研究范圍與人才類型尚不清晰,更缺乏相應的人才培養方案及成熟的科學研究體系。下面是千里馬論文網的小編整理的關于生物信息學論文的范例,歡迎大家閱讀參考。


  第一篇:生物信息學技術在病原生物學中的應用


  病原生物學是研究病原生物的生物學特性、致病性、免疫性及機體和周圍環境相互作用關系的一門學科。也是基礎醫學中的一門重要學科。(傳染性疾病、寄生蟲病、腫瘤等)


  病原生物是指在自然界中能夠給人類和動、植物造成危害的微小生物。存在于土壤、空氣、水、織物表面、人類和動物的體表及與外界相通的腔道中。(胃和腹腔中有微生物嗎?)病原生物包括病原微生物與寄生蟲兩大部分。生物信息技術是以生命科學為基礎,利用生物(或生物組織、細胞及其他組成部分)的特性和功能,設計、構建具有預期性能的新物質或新品系,以及與工程原理相結合,加工生產產品或提供服務的綜合性技術。而我們當下的最大目標就是將兩者結合起來,創造出更加美好的一門科學藝術。


  1當今我們面臨的現狀


  雖然隨著我們當今世界醫學逐漸的發展,很多病理狀況都能得到很好的控制,我們的健康指數也越來越高,人們的壽命也越來越長。但是我們還是存在著一些病毒無法控制,影響我們的生命健康,所以我能不能夠滿足現在的狀況,應當積極的向上發展,了解更多的生物信息學知識,把生物信息學知識更廣闊的運用與病原生理學中,讓更多的病毒能夠得到很好的抑制,解決我們現實生活中的一些疑難雜癥。而這些疑難雜癥影響了我們十分長久的時間,相信我們其中的有些人也曾經因為這些而感受過悲痛,或許是我們最親愛的人受到這些疾病的傷害,也或許是我們自己親身體驗過這種傷害。無論是哪種,我們都希望他能夠不再發生在我們身邊,這就要求我們一起共同努力了,讓我們的醫學科科技技術得到更好的提升,造福于世界的全人類,這些技術的發展就全靠當下的我們來努力實現,所以我們要加倍努力,更好地了解相關的一些知識,讓這些知識既可以豐富我們自己,還可以治療更多人的疾病,這也是我們做的一個善事,相信我們看到很多人因為我們的科技成就而不再痛苦時,我們也會相當的高興和滿足,很有成就感,讓那些痛苦的人因為我們不而不再感到痛苦吧,


  2如何將兩者更好地聯系起來


  隨著社會的不斷發展,我們對生命質量的追求也越來越高,所以我們的研究方面也大大的擴展,如何才能讓我們生活在更加安全,幸福呢?隨著生物科學技術的迅猛發展,生物信息數據資源的增長呈現爆炸之勢,同時計算機運算能力的提高和國際互聯網絡的發展使得對大規模數據的貯存、處理和傳輸成為可能,生物科學技術的迅猛發展。讓我們看到了許多希望,生物信息技術讓我們可以更加快,是的了解到一些生物信息,了解這些相關的信息后才可以使我們將生物信息技術與病原生物信息技術相結合起來。然后一起創造出一門更加新穎的科,讓前者在后者中可以得到更高泛的應用。所以我們要盡可能將其聯系到病原體微生物上。微生物幾乎遍及任何地方。所以我們要做到對他的防護與扼殺,微生物產生的各種影響也是不容忽視的,微生物產生的疾病幾乎變及各科,所以我們大部分疾病都是由微生物所引起的,由此可見,他的力量是多么的強大,現在的我們如果把它遏制住,那是不是我們的很多疾病是不是就會消失呢?21世紀是以分子生物學為代表的生命科學的時代,近年來發展起來的分子生物學基因診斷技術在醫學、遺傳學等各個領域廣泛應用,推動著現代醫學由細胞水平向分子水平、基因水平發展,形成了分子微生物學,使人們對微生物的認識逐漸從外部結構特征轉向內部基因結構特征,微生物的檢測也相應的從生化免疫方法轉向基因水平的檢測。探針雜交技術的發展及其應用,由此可見,我們的生物信息技術最近發展十分快速,已經用到了各個方面,但是生物信息技術在我們的病原生物學技術中的應用還是十分有限的,還是需要我們繼續發揚光大在病原生物學技術中的影響力,病原生物學與生物信息技術相結合后,相信我們對病原生物學的研究會更加深入,更加廣泛。更加的令人容易懂,而將兩者結合起來可以更好的讓我們進行科學研究,研制出最新的科學技術,讓我國的醫學的到很好的發展。更多的疾病都能得到解決,我們的生命質量可以得到更好的提升,我們身邊的死別會更加少一些,我們的生活也會更加的幸??燉?。所以我們目前的最主要任務就是讓兩者更加密切的聯系起來,做到最好的。


  3我們應該如何做


  我能帶責任也是十分重大的,因為這件事關乎所有人的健康。當今還存在著許多對身體造成威海的影響因素,所以我們要努力把這些因素都抹平,把這些不好的因素都扼殺在搖籃中,讓我們的生活生命更加長久,更加美滿幸福的生活著,所以我們要努力的學習科學文化知識。從小樹立強大的目標,為我們樹立的這些問題而不斷奮斗去努力實現,相信我們的美好生活會在不久之后將會實現,我們也會研究出更加新穎,有實踐能力的科學,對人們的身體健康不會造成任何負方面的影響。我們每天都可以展現最美麗,最自信最大方的我們。我們也應當積極的宣傳相關知識信息。讓更多的人了解到相關信息知識,更多的人對此方面產生濃厚的興趣,開始對其產生研究模式,全民參與到其中,我們的研究范圍也會更加的廣泛,研究成果也會越來越多,我們面臨的疾病問題也會更多的得到解決,所以,這件事關乎到我那個人,我們每個人都有職責讓我們的這個社會發展的越來越好。讓我們一起努力吧!


  4結語:


  讓生物信息學技術在病原生物學技術中更好的應用是我們當今最主要的目標,也是我們每個人都應該去努力實現了目標,而兩個技術的相結合,將會產生一個十分強大的影響力,其研究成果將會讓我們的疾病發生率大大的減少,更多的不治之癥也可以得到很好的解決。老百姓會減少去醫院的花銷費用,更多的錢用于自己的生活娛樂享受,人民生活的會更加幸福,這難道不是我們想要的嗎?


  作者:張甲由等


  第2篇:大麻CBDA1基因的生物信息學分析


  大麻(Cannabissativa)是一年生草本植物,起源于我國,在南北朝時期人們就開始種植和使用大麻,大麻是我國傳統經濟作物,主要用于紡織、建材、造紙、藥用、食用、飼料、工業原料等方面[1]。大麻植株中含有多種活性物質,主要分為兩大類,即大麻酚類化合物和非大麻酚類化合物。目前,研究最多的是大麻酚類化合物,主要包括四氫大麻酚(tetrahydrocannabinol,THC)、大麻酚(cannabinol,CBN)、大麻二酚(cannabidiol,CBD)、大麻萜酚(cannabigerol,CBG)、大麻環萜酚(cannabichromene,CBC)等。THC是由以色列Weizmann科學研究所的YechielGaoni和RaphaelMechoulam于1963年首次分離得到[2],并于次年確定其化學結構。THC是大麻中最重要的活性物質,具有神經?;ぷ饔?,可用于治療癌癥引起的嘔吐[3],但THC具有致幻作用,因此大麻在多國被禁止種植。四氫大麻酚酸合成酶(Tetrahydrocannabinolicacidsynthase,THCAS)是THC合成途徑中的關鍵酶,最早在1995年由Taura等[4]從大麻幼葉中分離出,并于2004年成功克隆了該酶的基因[5],隨后在2012年研究了該酶的結構和功能[6]。與THC不同的是,CBD是大麻中的非成癮性成分,能阻礙THC對人體神經系統影響,并具有治療癲癇、抗痙攣、抗炎、抗焦慮等藥理活性[7-10]。因此,高CBD含量的藥用大麻成為當今研究的一個熱點。而大麻二酚酸合成酶(Cannabidiolicacidsynthase,CBDAS)是CBD合成途徑中的關鍵酶,最早在1996年由Taura等[11]從墨西哥纖維大麻中分離得到,并于2007年通過逆轉錄獲得其cDNA[12]。但是CBDAS的結構和功能至今還未報道,該研究以CBDA合成酶基因為研究對象,采用生物信息學方法對CBDA合成酶基因編碼蛋白質序列的理化性質、結構特征、修飾位點等進行預測和分析,以期為今后深入研究和利用CBDA合成酶提供重要的理論依據和研究基礎,同時為大麻作物遺傳改良提供參考。


  1材料與方法


  1.1材料


  以大麻品種Carmen的大麻二酚酸合成酶基因(CBDA1)(LOCUSKJ469374)為研究對象,對其完整的CDS序列編碼的氨基酸序列、蛋白質理化性及功能結構域進行預測與分析。


  1.2方法


  利用ExPASy軟件中的Protparam程序對CBDAS蛋白的氨基酸序列長度、分子量大小及等電點等進行分析;利用ProtScale工具分析CBDAS蛋白的親疏水性;利用TMHMMServerv.2.0和SignalIP4.1工具分析CBDAS蛋白的跨膜結構域及信號肽;利用ProtCompv.9.0工具對CBDAS蛋白的亞細胞定位進行分析;利用PROSITE模體數據庫對CBDAS蛋白進行motif預測;利用SMART工具分析CBDAS蛋白的保守功能域;利用NetPhos2.0Server和NetNGlyc1.0Server分析其蛋白質翻譯后修飾位點;利用GOR(GarnierOsguthorpeRobsonMethod)對蛋白的二級結構進行性分析;利用SWISSMODEL服務器同源模擬構建CBDAS的三級結構。


  2結果與分析


  2.1CBDA1基因編碼蛋白的氨基酸組成


  氨基酸的種類、排列順序及數量直接影響蛋白質的功能。CBDA1基因的CDS序列編碼蛋白質的氨基酸序列為:


  CBDAS由544個氨基酸組成,分子式為C2834H4343N743O792S21,分子量為62168.42,理論等電點為8.81。CBDAS包含20種常見氨基酸(表1),其中疏水性氨基酸占48.8%,親水性氨基酸占51.2%,堿性氨基酸占13.6%,酸性氨基酸占94%,且含有21個含硫氨基酸,說明該蛋白中存在二硫鍵。由于CBDAS序列的N末端是Met,該蛋白估計半衰期為30h(哺乳動物網織紅細胞,體外)、>20h(酵母,體內)、>10h(大腸桿菌,體內)。CBDAS的不穩定指數Ⅱ為30.57,屬于穩定蛋白[13]。脂肪族氨基酸指數為88.31。


  2.2CBDA1基因編碼蛋白的親/疏水性分析


  疏水作用能驅動蛋白質的肽鏈壓縮成球狀結構,對于維持蛋白質的空間構象十分重要。氨基酸發生變化可導致蛋白質親/疏水性的改變,而親/疏水性的變化直接影響蛋白質的結構以及功能。此外,通過了解肽鏈中不同肽段的疏水性,可以對跨膜蛋白的跨膜結構域進行預測,為蛋白二級結構的預測及功能結構域的分選提供重要的參考依據。因此,分析蛋白質的親/疏水性具有十分重要的意義。通過ProtScale在線工具對CBDAS進行親/疏水性分析,結果見圖1,在第15位氨基酸出現最高值2.566,即疏水性最強,在第453位氨基酸出現最低值-3.556,即親水性最強。整體看CBDAS的疏水性和親水性氨基酸分布均衡,但預測結果顯示CBDAS的親水性指數平均值(GRAVY,表示蛋白質的溶解度)為-0.202,所以CBDAS更偏向是一個親水蛋白[14]。由圖1可知,在前29個氨基酸位置出現一個較強的疏水區域(score>1.5),且疏水區域較寬,在這個位置有可能出現一個跨膜結構。


  2.3CBDA1編碼蛋白的跨膜結構分析


  跨膜結構是蛋白質通過與膜內在蛋白的靜電相互作用和氫鍵鍵合作用與膜結合的一段氨基酸片段,一般由20個左右的疏水氨基酸殘基組成,主要形成α-螺旋??縋そ峁褂蚴悄ぶ械鞍子肽ぶ嘟岷系鬧饕課?,固著于細胞膜上起“錨定”作用[15]??縋そ峁褂虻腦げ夂頭治齠雜諏私獾鞍字實慕峁?、功能以及在細胞中的作用部位具有重要意義。在目前的基因組數據中,有20%~30%的基因產物被預測為膜蛋白,它們在生物體中擔負著多種功能。因此,有效、準確地預測跨膜區和跨膜的方向對指導跨膜蛋白的結構和功能的研究具有重要意義。利用跨膜預測服務器TMHMMServerv.2.0對CBDAS進行分析,結果見圖2,該蛋白存在一個潛在的跨膜區(第1~28位氨基酸),其中第1~4位氨基酸位于膜內,第5~27位氨基酸為跨膜的螺旋結構,第28位以后的肽鏈主要在細胞膜外發揮其生物學功能。由于該跨膜結構位于蛋白質的N端,推測其極可能為一個信號肽結構。蛋白質序列的其他位置不存在跨膜結構,因此,該蛋白屬于跨膜蛋白。


  2.4CBDA1基因編碼蛋白的信號肽分析


  信號肽是蛋白質的一個片段,一般由5~30個氨基酸殘基組成[16],并大致分為3個區段:N端為帶正電荷的氨基酸;中間為由20個或更多的以中性氨基酸為主組成的疏水核心區,能夠形成一段α-螺旋;C端含有小分子氨基酸,是被信號肽酶裂解的部位,亦稱加工區。信號肽在蛋白分泌的過程中起重要作用[17],主要負責引導新合成蛋白質的跨膜、轉移和定位,把蛋白質引導到細胞不同的亞細胞器內發揮其生物學功能。通過SignalIP4.1工具進行分析[18],結果表明(圖3),CBDAS的N末端包含1個由28個氨基酸殘基組成的信號肽,切割位點在第28和29個氨基酸殘基之間,其平均值S為0801,當平均值S>0.500時,可判斷該蛋白為分泌蛋白,說明CBDAS是一種分泌蛋白。


  2.5CBDA1基因編碼蛋白的亞細胞定位


  細胞中蛋白質合成后經蛋白質分選信號引導被轉運到特定的細胞器中,部


  分蛋白質則被分泌到細胞外或留在細胞質中,只有轉運到正


  確的部位才能參與細胞的各種生命活動[19],如果定位發生


  偏差,將會對細胞功能甚至生命產生重大影響。了解蛋白質的亞細胞定位信息,可以為推斷蛋白質的生物學功能提供必要的幫助,同時對蛋白質的其他研究如相互作用、進化等也能提供必要的信息。利用ProtCompv.9.0對CBDAS進行亞細胞定位分析,結果顯示,該蛋白質位置的積分預測為細胞外(分泌),得分9.4,說明該蛋白主要在細胞外發揮其生物學功能。


  2.6CBDA1基因編碼蛋白motif分析


  PROSITE數據庫收集了生物學有顯著意義的蛋白質位點和序列模式,并能根據這些位點和模式快速、可靠地鑒別一個未知功能的蛋白質序列應該屬于哪一個蛋白質家族。利用PROSITE對CBDA1編碼蛋白進行motif預測,結果如圖4所示,CBDAS含有1個FAD-PCMH結合域,位于第77~251位氨基酸(TTPKPLVIVTPSHVSHIQGTILCSKKVGLQIRTRSGGHDSEGmsYISQVPFVIVDLRNMRSIKIDVHSQTAWVEAGATLGEVYYWvnEKNESLSLAAGYCPTVCAGGHFGGGGYGPLMRSYGLAADNIIDAHLVNVHGKVLDRKSMGEDLFWALRGGGAESFGIIVAWKIRLVAV)。CMH型FAD結合結構域是由2個α-β亞結構域組成:1個由α螺旋包圍的3個平行的β鏈(B1~B3)組成,并被包含在含有5個反平行β鏈的第2子結構域(B4~B8)[20]。2個子域可以適應它們之間的FAD輔因子[21]。在PCMH蛋白中,輔酶FAD也共價連接到位于C末端催化結構域FAD結合結構域之外的酪氨酸[22]。除CBDAS外,目前發現大麻的四氫大麻酚酸合成酶(THCAS)、細菌UDP-N-乙炔烯醇丙酮酰葡萄糖還原酶(UDP-N-acetylenolpyruvoylglucosaminereductase,EC1.1.1.158)、脊椎動物烷基二羥基丙二酸合酶(alkyldihydroxyacetonephosphatesynthase,EC2.5.1.26)、真核乳酸脫氫酶D(Dlactatedehydrogenase,EC1.1.2.4)和細菌一氧化碳脫氫酶(Carbonmonoxidedehydrogenase,EC1.2.99.2)的結構中也含有PCMH型FAD結合結構域。推測CBDAS同THCAS一樣屬于氧化還原酶家族,FDA是CBDAS酶活性的必需輔因子。


  2.7CBDA1基因編碼蛋白的保守功能域分析


  保守結構域指生物進化或1個蛋白家族中不變或相同的結構域,具有重要功能。采用SMART工具推測,CBDAS蛋白中只含有1個低復雜度區域(lowcomplexityregion,LCR):GGHFGGGGYG,位于第182~191位氨基酸。


  2.8CBDAS蛋白翻譯后修飾位點分析


  真核生物中的多肽及蛋白質分子經核糖體合成后大多需翻譯后修飾,才能確保蛋白質發揮其正常的生物學功能[23]。常見的蛋白質翻譯后修飾有磷酸化和糖基化2種。磷酸化是由蛋白質激酶催化將ATP或GTPγ位的磷酸基轉移到底物蛋白質氨基酸殘基(Ser、Thr、Tyr)上,是生物體內一種普通的調節方式[24],蛋白質磷酸化修飾的作用主要體現在以下3個方面:一是通過磷酸化修飾改變了受體蛋白質的活性,蛋白質磷酸化或去磷酸化修飾起到開啟或關閉蛋白質活性的作用;二是磷酸化蛋白質參與植物體內信號的傳導;三是影響蛋白質間的互作,由于在氨基酸殘基上結合或失去了磷酸基團,從而改變了受體蛋白質的結構,影響了該受體蛋白質與其他蛋白質間的互作。細胞中蛋白質磷酸化水平是一個動態的變化過程,其細微差異都可能導致細胞代謝水平上的變化。因此,蛋白質磷酸化對植物生長發育的影響是全方位的。糖基化通常修飾天冬酰胺的N端,其氨基酸特征序列為Asn-X-Ser-Thr(X是除Pro外的任一種類氨基酸)[25]。N-糖基化與植物蛋白質正確折疊、細胞凋亡、器官發育及信號轉導等生物學功能密切相關[26]。通常胞外分泌蛋白、膜整合蛋白及構成內膜系統的可溶性駐留蛋白大多需要經過N-糖基化修飾。利用NetPhos2.0和NetNGlyc1.0對CBDAS進行預測,結果表明該蛋白存在23個磷酸化位點、6個N-糖基化位點(表2、3)。


  2.9CBDA1基因編碼蛋白的二級、三級結構分析


  目前最好的單序列預測程序能夠達70%左右,比如基于informationtheory的GOR準確度達69.7%[27],利用GORIV對CBDAS的二級結構進行預測,結果如圖5顯示,CBDAS蛋白由α-螺旋、β-折疊和無規卷曲組成,分別占整個肽鏈的21.88%、26.29%和51.84%。


  利用SWISSMODEL蛋白質三維結構建模工具構建的CBDAS的三維結構模型,如圖5所示。建模過程中共有168條模板和目標序列相匹配,通過啟發式分析過濾得到29個模板,主要有Tetrahydrocannabinolicacidsynthase(四氫大麻酚酸合成酶)、PollenallergenPhlp(花粉過敏原Phlp)、berberinebridgeformingenzyme(小檗堿橋形成酶)、Reticulineoxidase(纖維素氧化酶)、alkyldihydroxyacetonephosphatesynthase,peroxisomal(烷基二羥基乙酸磷酸酯合成酶,過氧化物酶)。CBDAS的三級結構也是參考這29個模板模擬構建的,其中與THCAS[28]的同源性最高,為83.95%。


  3討論與結論


  利用生物信息學對目的基因進行功能預測是當前國際上研究的熱點之一,也是發現和研究新基因的一個重要手段。生物信息學與傳統的通過RT-PCR方法進行克隆分析基因的方法相比,具有快捷、針對性強、成本低等優點。生物信息學能針對未知功能基因,采集數據,歸納分析,預測基因功能,挖掘基因潛在的研究線索,可為科學研究提供啟示和方向指導。對于蛋白質而言,其生物學功能才是最終的研究目的。通過多種生物信息學工具分析CBDA1基因編碼的蛋白序列,發現該基因編碼544個氨基酸,等電點為8.81,N端包含1個信號肽,而含有信號肽的蛋白質一般都是分泌到細胞外。CBDAS的亞細胞定位結果也證實了該蛋白是一種穩定的分泌蛋白,主要在胞外發揮其生物學功能。THCAS的二級結構豐富,包含了α-螺旋、β-折疊和無規卷曲,含有許多蛋白質修飾及活化位點,如磷酸化位點、糖基化位點、FDA結合位點等,暗示該蛋白可能在體內受多種因子的調控,具有接受細胞信號并做出反應,實現其生物學功能的潛能。這些結果對正確認識和理解蛋白質結構、定位、功能等均有重要的指導意義。


  作者:常麗等


  第3篇:論生物信息學人才培養與學科發展


  生物信息學是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅猛發展,二者相互交叉形成的一門新學科。生物信息的發展大致經歷了前基因組時代、基因組時代和后基因組時代。目前其主要研究內容已經從對DNA和蛋白質序列比較、編碼區分析、分子進化轉移到大規模的數據整合、可視化,比較基因組學、代謝網絡分析、基因表達譜網絡分析、蛋白質技術數據分析處理、蛋白質結構與功能分析以及藥物靶點篩選等[1]。隨著高通量實驗手段的飛速發展,海量數據大量生成,如何從這些數據中挖掘出有用信息進一步指導實驗或者對實驗結果進行合理分析,是降低研究成本與周期,推動生命科學相關研究快速發展的必需工具。


  雖然生物信息學已經成為目前極其熱門的系統生物學研究手段,但是人們對生物信息學的定義十分模糊,該方面研究人才也相對稀缺,不少高校都沒有設置相關專業與課程。生物信息相關科學研究也出現形式多樣、百花齊放的模式,許多學校也沒有注意到該學科具有高度交叉性的特點,缺少相應的扶持政策,使我國生物信息領域的發展始終滯后于國際水平。因此,如何在各生命相關學科內對生物信息學進行精準定位,并針對不同培養階段的學生設置相應的課程進行定向培養,對于學生與學科發展都有著極大的推動作用。


  1生物信息學研究范圍


  生物信息研究主要分為4類,即“算法開發、數據處理、數據分析、數據庫構建”。第一,算法開發。算法開發是為了解決某個生物學問題設計相應的數學算法,涉及編程語言的使用和對該生物學問題的深度理解。第二,數據處理。數據處理主要指對包括各種類型轉錄組數據在內的高通量數據進行處理,獲得包括差異基因在內的初步數據分析結果。這部分研究具有高度程式化的特點,可以對各個分析步驟涉及的算法進行深入開發,進而與“算法開發”接軌;也可以借助現有算法并將其高度整合,構建解決某一問題的pipeline。該方面研究多以生物信息學服務為目的,是目前許多公司中生物信息學工作的主要內容。第三,數據分析。該方面研究較分散、類型眾多,根據不同研究目的與數據類型,分析方法多種多樣,往往需要研究者對生物學問題具備較多的背景知識與理解,掌握多種公共數據庫與數據分析工具,是目前高??蒲兇畛I婕暗納鐨畔⒀芯坷嘈?。第四,數據庫構建。該方面研究往往針對已有的數據進行整合、存儲,是現代生物學研究數據積累的重要手段,往往需要專業人員進行數據更新與維護,可以涉及簡單的數據分析??楣菇?,既適合科學研究也適合商業服務。


  2生物信息學人才分類


  作為生命科學與計算機科學的交叉學科,生物信息人才需要具備兩個領域的知識,對人才的知識架構要求較高,但是不同培養方向的人才對各部分知識結構的需求也不盡相同。根據生物信息學研究的4種類型,生物信息學人才的培養目標、學科來源與就業導向可以做以下歸類。


  2.1算法開發人才


  對算法開發類人才的培養目標是培養能夠熟練運用各種編程語言,靈活運用各種包括機器學習在內的算法、思路,根據具體生物學問題設計解決該問題的數學方法與工具的人才。在實際應用中,對這類人才的編程水平、算法與邏輯思維要求較高。因此,該類人才比較適于對來自數學、計算機相關專業的學生進行定向培養。在課程設置上,在強化編程語言與算法設計的同時,需要對生物學基本知識進行培訓,為研究者快速、深刻地了解目標問題,準確地設計問題解決方案奠定理論知識基礎。算法開發人才在高??蒲杏肫笠笛蟹⒅芯⒒幼攀種匾淖饔?,也是生物信息學研究的中流砥柱。


  2.2數據處理人才


  對數據處理類人才的培養目標是培養能夠利用各種現有數據分析工具對龐大的原始數據進行預處理,獲得可供下游生物學分析使用的初始數據的人才。這類研究主要針對高通量數據的處理,人才需要對該實驗過程的基本原理、分析過程與現有算法及其優劣了如指掌;需要具備Linux等計算機系統的操作技能,可以對海量數據進行靈活批量處理。該類人才既可以來源于計算機也可以來源于生物學背景的學生,在課程設置上要照顧兩方面知識的交叉培訓。在我國,數據處理人才仍然是生物信息行業的主流,特別是在企業界該類人才更是供不應求。


  2.3數據分析人才


  對數據分析人才的培養目標是培養能夠利用公共數據庫信息或實驗所得數據挖掘有用信息,獲得有價值的生物學結論或者為下游分子生物學實驗提供指導的假設性結論的人才。該類人才需要善于使用各種數據庫及數據分析軟件并掌握一到兩門簡單的高級編程語言,能夠根據各研究課題的目的和需求設計數據分析步驟與流程,能夠對結果有深刻的理解與把握。由于這類人才需要對生物學問題具有深刻的認識和理解,學生宜來源于生物相關專業。對該類學生的培養除了介紹一些常用高級編程語言、數據庫與分析工具外,更需要注重介紹各類生物學問題的解決方案和相應的方法選擇。數據分析人才在各種生命相關的科學研究當中都必不可少,是降低研究盲目性、縮短研究周期、提高研究水平的重要推動力之一。


  2.4數據庫構建人才


  對數據庫構建人才的培養目標是培養能夠將現有數據整合、構建成一個便于檢索、分析的數據庫的專業人才。這類人才的培養不局限于生物學專業,但是其在生物學領域的應用成為生物信息學研究的重要內容之一。隨著海量數據的不斷生成,如何將數據組織成一個便于檢索、便于分析的存儲??槭歉美嘌芯咳瞬判枰餼齙暮誦奈侍?。對于這類人才的培養,數據庫基本知識與必要的編程技能是培養的重要內容;此外,如何低成本地維護、更新數據庫也是這類人才需要具備的基本技能。公司與高校對這類人才的需求從未間斷,特別是本身能夠不斷產生高通量數據的企業或科研機構。


  3生物信息學的人才培養


  我們在高?;肪誠綠溉瞬排嘌蛻婕暗獎究粕脫芯可嘌礁黿錐?。


  3.1生物信息學本科生培養


  本科生培養是對學生相關專業的基礎技能培訓,同時肩負著激發學生對該學科學習興趣的任務。針對該特點作者提出以下教學建議。第一,由于學生未來職業發展的定向性較差,因此教學內容應該涵蓋生物信息學的4種類型,讓學生對該學科有一個充分、正確的認識。第二,單方面教學內容不宜過深,以避免學生產生對該學科的畏懼心理。第三,理論與實踐相結合,寓教于樂。生物信息學是一門應用型科學,一定要與實踐相結合才能達到教學目的。對于每一類生物信息學研究,都應給予相應的應用案例,最好每一部分由長期從事相關研究的老師擔任,這樣學生可以及時將學習內容與未來應用相關聯,既增強了教學實用性也提高了學生的學習積極性。


  3.2生物信息學研究生培養


  研究生培養是對學生研究能力的培養,同時是對學生的專業定向與深度培訓。此時的學生培養除了教學還包括科學研究,與老師和專業的接觸機會也大大增加。針對該階段的培養特點,筆者認為該時期應該確定某一生物信息學研究方向,有針對性地對學生進行專業化培養。為此,以下培養方式可供參考。第一,這一時期的教學培養應該借助“課程整合”的概念與優勢,根據需要和學生知識結構選擇合適的課程進行培訓。學校應該支持跨學科、跨學院選課機制,支持研究生選修本科生課程,并且對這些學生的考察方式與標準做適當調整。由于該階段學生已經開始接觸具體科研課題,且課程培養輔助于科學研究,因此應當借鑒許多發達國家的培養方式,讓研究生導師制定相關考核方式并對學生進行單獨考核。第二,鼓勵學生自學相關專業知識,培養學生獨立學習與探索的能力。在該方面許多發達國家也有著很多值得借鑒的經驗。比如,老師給學生指定一本書或相關資料讓學生自學,最后老師出題進行考核;開設討論性課程,給定學生討論話題,由學生自主搜集材料、學習并與課程其他學生分享,學生考核由課程老師根據其在分享學習成果中表現出的學習效果以及在討論中的積極性與正確性來評判。


  4生物信息學的科研發展


  生物信息學作為一個服務性交叉學科,是一個完整生物學研究歷程的重要組成部分,需要和其他特別是實驗性研究相結合才能最大程度地發揮功能,推動相關研究的發展。


  目前高校主要存在兩種生物信息學研究模式。一種是獨立的生物信息學研究團隊,偏向于計算機與數學方向。這類團隊大多與實驗性團隊有著戰略性合作關系,要么是開展“算法開發、數據分析”等工作,然后其開發的算法、提出的生物學假設等由實驗性團隊使用或驗證;要么是對實驗性團隊產生的結果進行“數據分析”與“數據庫構建”。另一種是綜合型生物信息學研究團隊,偏向于生物學研究,擁有自己的實驗平臺,可以圍繞某特定生物學問題,開展包括“數據分析”等在內的全套研究。第一種方式的科研運轉模式相對簡單,招生來源也比較明確,但是由于涉及深度合作,發展方向、水平與速度受到合作伙伴的限制;以第二種方式存在的團隊雖然可以靈活自主地把控自己的研究方向與成果,但是由于交叉性很強,如果想要得到長久發展,需要得到學校相應的靈活政策支持,比如,允許跨學院招生或者學院間聯合培養學生等。


  5結語


  由于生物信息學是一門典型的交叉、新興學科,高校需要在人才培養上給予一定靈活性,體現“課程整合”在學生培養中的優勢。由于生物信息學具備服務性和多樣性的特點,高校需要制定相應靈活地招生與培養策略才能促進生物信息學與其他實驗性科學的深度融合,成為各生命科學相關研究的有利武器,推動相應科學研究的順利開展。


  作者:戴曉峰


  第4篇:計算機算法在生物信息學中的應用綜述


  0引言


  生物信息學(Bioinformatics)作為一門新興的交叉學科,是隨著生命科學和計算機科學的高速發展而出現的。它通過充分利用生物學、信息學、數學、物理學、統計學以及計算機網絡等工具或手段,對大量生物數據信息進行有效的闡明和分析,使之成為具有相應生物意義的生物數據信息。其涵蓋了基因組信息的獲取、處理、分配、存儲等多個方面,通過對生物信息的比較和分析,從而獲取基因編碼以及核酸和蛋白質結構功能等信息,是最具活力和發展前景的學科之一。然而,生物信息學在我國由于起步較晚,加之其自身呈現出的數量多、計算量大等特征,使生物信息學面臨著計算瓶頸?;詿?,筆者結合自己的工作實踐,對計算機算法在生物信息學中的應用進行探討,以期為在生物信息學中進行有效的數據挖掘提供理論支持。


  1生物信息學中常用的計算機算法


  算法作為計算機科學的一個重要分支,在計算機科學中居于核心地位。在信息時代,算法作為解決問題的重要工具之一,其通過輸入符合規范的信息,從而在短時間內快速獲取所需要的輸出,現已在各個領域得到了廣泛應用。在生物信息學中,計算機算法的應用也對生物信息學的發展起著積極推動作用。生物信息學中常用的計算機算法主要包括以下幾種:


 ?。?)分治法。分治法即在解決大的問題實例時,通過將該問題實例分解為具有相同問題的幾個小的問題實例,再采用遞歸方法依次對這些小的問題實例求解,然后將所得的解合并,從而得出大的問題實例的解。分治法主要應用于合并排序、最近對和凸包問題等領域。而在生物信息學中,可以通過分治法來分析處理序列比對以及序列聯配等問題。其中,序列比對在生物學中是最為常見的問題之一,通過PSW-DC算法、生物序列比對算法,在分而治之方法理念的指導下,將Query序列劃分成幾個片段,再分配給對應的處理器,然后并行地按照Smith-Waterman算法和目標序列進行對比,最終根據相應規則的擴展過程得到最優化的序列匹配[1]。


 ?。?)圖算法。圖算法指通過特制的線條算圖求得問題實例解的一種便捷算法。圖作為一種非線性結構,極具復雜性。因此,圖算法無論是在工程、人工智能、數學領域,還是在生物信息學、計算機科學領域均得到了廣泛應用。其中,在生物信息學中,運用圖算法能夠解決很多生物信息學問題,例如:DNA測序、蛋白質測序等。


 ?。?)貪婪算法。貪婪算法指在一定標準下,通過制定一系列步驟構造問題實例的解,并從眾多解中選取局部最優的一個。選取不具有撤銷性,因而依此選取直至全局達到最優。在生物信息學中,貪婪算法主要應用于解決基因組重排、反序排列等問題[2]。該算法在生物信息學中的應用不僅能夠使問題得到最優解,而且具有較高的運算速度,是一種有效且可行的計算機算法。


 ?。?)動態規劃算法。動態規劃算法是指將大的問題實例分解為若干小的、類似的、交錯的子問題實例,通過從下到上的遞推方式求得最優值,并將子問題實例的解進行有效存儲,防止重復計算子問題,從而得到問題最優解決方案的一種算法策略。將動態規劃算法運用到生物信息學中,能夠有效地分析并處理數據之間的重疊性以及相關性等特點,因此主要應用于DNA序列比較、局部及全局序列聯配、多重聯配、基因預測及填充表達缺失數據等問題中[3]。


  2計算機算法在生物信息學中的典型應用


  2.1基因表達數據分析


  基因表達數據分析一直是生物信息學研究的熱點和難點。在當今的工作實踐中,往往采用計算機算法中的聚類分析對基因表達數據進行分析處理,通過把表達規律相近的基因聚成一類,從而找出相互之間有關聯的基因,并分析基因功能。計算機算法可以通過基因的轉錄調節網絡,觀察基因的表達模式隨環境變化或在藥物作用下作出的相應改變,闡明基因相互間的調節作用,并對基因的啟動子加以研究,分析具有相同表達模式的同類啟動子的組成特性。計算機算法中的聚類分析作為分析基因表達數據的重要方法之一,不僅能夠發現基因間的線性關系,而且能夠找出基因間的非線性關系,因而逐步得到廣大研究者的認可[4]。


  2.2基因組序列信息分析


  生物信息學中的基因組序列并不是基因的簡單排列,而是具有特定的組織和信息結構,并經過長期演化形成的結果,是基因充分發揮其應有功能所必需的基礎條件之一。利用計算機算法對基因組序列信息進行分析,并預測相關功能位點是近年來的主要研究方向之一。分析基因組序列信息通常采用從頭算法和比較同源列法兩大類。其中,從頭算法是基于統計學的方法,它是指通過識別蛋白質編碼基因的性質及特征,對外顯子、內含子和基因間的區域進行有效區分;而比較同源列法則是通過將基因信息與數據庫中的基因信息進行同源比較,從而找出新基因。在新的DNA序列中,一般除基因外,還包含許多與核酸結構特征有關聯的其它信息,這些信息對DNA與蛋白質或RNA之間的相互作用具有決定性影響,而運用計算機算法搜索與已知蛋白質、表達序列標簽相似的區域,并對其進行編碼,是生物信息學中分析基因組序列信息最為理想的算法之一。


  2.3生物序列差異與相似性分析


  在生物信息學中,分析生物序列的差異和相似性是最基本且重要的操作之一,通過對生物序列差異和相似性的分析比較,能夠及時得到生物序列中的結構、功能以及進化等方面信息。一般而言,結構、功能和生物序列間呈現出相互制約的關系,結構由生物序列決定,而功能又由結構決定。在分析生物序列差異和相似性中采用計算機算法,能夠快速達到研究目的。其中,目的之一即通過生物序列之間的相似性,發現相似的結構及功能。當然也有特殊情況,例如:幾乎沒有任何相似之處的生物序列,不僅分子構成的空間形狀相同,而且功能也相同;目的之二即通過對比生物序列之間的相似性,對生物序列間的同源性進行判斷,并依此推斷生物序列間的進化關系。在分析生物序列的差異和相似性的過程中,常用的計算機算法主要為Needleman-Wunsch動態規劃算法、Smith-Waterman算法以及支持向量機算法等。


  2.4遺傳數據分析


  在生物信息學研究中,由于基因結構、組序列信息以及生物序列的復雜性,要求在對遺傳數據信息的分析過程中運用計算機算法。具體而言,可以借用一些可視化工具,將基因以圖、樹、鏈和方體等形式表現出來,從而提高相關工作人員對基因信息以及基因模式的理解。而知識發現作為發現遺傳數據最有力的可視化工具之一,能夠對遺傳數據進行充分挖掘,對轉錄調控基因組水平也能起到積極影響。


  2.5蛋白質結構與功能預測


  蛋白質的生物功能是由蛋白質結構決定的,因此在生物信息學中對蛋白質進行研究時,應當首先了解蛋白質結構。隨著現代科技的進步,預測蛋白質結構與功能的方法和手段均有了很大進步,但在具體操作過程中依然遠遠滿足不了實際需要,這從一定程度上為計算機算法的推廣應用提供了契機。將計算機算法運用于蛋白質結構與功能預測中,不僅對研究蛋白質結構與功能間的相互關系起著至關重要的作用,而且對蛋白質工程以及蛋白質設計的進展能起到積極促進作用。通常而言,預測蛋白質結構主要包括對蛋白質二級結構以及空間結構進行預測。其中,二級結構預測屬于模式識別問題,通過運用計算機算法能夠有效判斷氨基酸殘基形狀,而在空間結構預測時采用計算機算法,能夠以蛋白質序列為出發點,判斷亞細胞定位、糖基化位點、信號肽剪切位點等與蛋白質功能有關的特征。


  3研究展望


  隨著生物信息學的發展,我國專家學者對生物信息學的重視程度不斷提高,而計算機算法的推廣應用也在一定程度上為生物信息學的發展提供了新的契機。但從生物信息學的總體發展情況來看,仍和國際水平有很大差距,需要在未來研究中特別注意如下兩方面問題:


 ?。?)專業人才培養。生物信息學作為一門新興學科,要求相關從業人員既要具備扎實的生物學知識,又要具有較高水平的計算機學科技能,但縱觀我國生物信息學的從業人員現狀,存在著嚴重的人才斷層及人才匱乏現象,從而對計算機算法在生物信息學中的應用產生了一定制約。因此,要求在后期的研究過程中,注重專業人才的培養,有效解決人才匱乏的現狀,為計算機算法在生物信息學中的應用提供強大的人才支持。


 ?。?)計算機算法應用范圍拓展。隨著人類基因組計劃的啟動以及計算機科學水平的提高,計算機算法在生物信息學中的應用已取得了初步進展,在分析基因表達數據、基因組序列信息、生物序列差異和相似性、遺傳數據,以及預測蛋白質結構與功能等方面發揮了重大作用。但生物信息學包含的內容極其豐富,因此要求在后期的研究過程中,應當有計劃地擴大計算機算法在生物信息學中的應用范圍,使計算機算法的價值得到最大限度的發揮,為生物信息學研究的有效開展提供強有力的技術支持。


  4結語


  生物信息學作為一門生物學與計算機科學交叉融合的新興學科,其核心是生物學,基本工具則是計算機科學。因此,要求生物信息學相關研究人員在工作實踐中,加強各學科之間的溝通、合作,充分把握計算機算法在生物信息學中的應用,從而解決生物信息學中信息數量多、計算量大等問題,推動生物信息學的進一步發展。


  作者:劉奇付等

相關
期刊

核心期刊推薦