留學(xué)加拿大紐芬蘭紀(jì)念大學(xué)建立識(shí)別細(xì)菌啟動(dòng)子的新通用型方法
啟動(dòng)子一般位于轉(zhuǎn)錄起始位點(diǎn)的上游,是RNA聚合酶(RNAP)識(shí)別、結(jié)合和開始轉(zhuǎn)錄的一段DNA序列。原核生物的啟動(dòng)子主要由兩個(gè)分散的保守序列組成:Pribnow盒/TATA盒(又稱-10區(qū)),位于轉(zhuǎn)錄起始位點(diǎn)上游5-10bp,一般由6~8個(gè)堿基組成,富含A和T;-35區(qū),位于轉(zhuǎn)錄起始位點(diǎn)上游35bp,一般由10個(gè)堿基組成。σ因子是細(xì)菌的DNA結(jié)合調(diào)控蛋白,介導(dǎo)了RNAP和啟動(dòng)子的特異性結(jié)合。在過去的幾十年中,細(xì)菌啟動(dòng)子的計(jì)算機(jī)預(yù)測方法層出不窮,如bTSSfinder、BPROM、G4PromFinder、PePPER、PromPredict、MULTiPly、SELECTOR、iPromoter-BnCNN、IBPP、iPromoter-2L和iPro70-FMWin等。但是,這些預(yù)測方法大都是針對(duì)大腸桿菌E.coli或有限的幾個(gè)菌種設(shè)計(jì)的,從而限制了它們的通用性。另外,這些方法只能對(duì)幾百核苷酸序列,而不是在基因組水平上進(jìn)行預(yù)測。
2021年11月17日,Genome Biology在線發(fā)表了加拿大紐芬蘭紀(jì)念大學(xué)Lourdes Peña-Castillo團(tuán)隊(duì)題為“Promotech:a general tool for bacterial promoter recognition”的方法論文。該研究建立了識(shí)別細(xì)菌啟動(dòng)子的新通用型方法Promotech,它可以有效地預(yù)測各種細(xì)菌的啟動(dòng)子;通過和其他5個(gè)預(yù)測方法進(jìn)行比較,研究人員發(fā)現(xiàn)Promotech的表現(xiàn)更加優(yōu)異。
啟動(dòng)子通常位于轉(zhuǎn)錄起始位點(diǎn)(TSS)的上游。利用已發(fā)表的TSS圖譜,該研究收集了各種細(xì)菌的27,766個(gè)啟動(dòng)子序列進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,并使用11,615個(gè)啟動(dòng)子序列進(jìn)行檢測。研究人員進(jìn)一步利用隨機(jī)森林(random forest,RF)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)算法分別建立了多個(gè)Promotech模型(Figure 1)。AUPRC和AUROC數(shù)值表明,RF-HOT模型最優(yōu)。學(xué)在加拿大
該研究進(jìn)一步利用TSS上游-39至0位置的序列,對(duì)RF-HOT模型分別進(jìn)行了以雜質(zhì)和排列為基礎(chǔ)的特征重要性分析,結(jié)果顯示TSS上游-8至-12位置的A和T核苷酸對(duì)啟動(dòng)子的識(shí)別尤其重要;表明RF-HOT模型已獲得正確識(shí)別啟動(dòng)子Pribnow盒(TATAAT)序列的能力(Figure 2)。另外,在基因組水平上,RF-HOT模型同樣表現(xiàn)優(yōu)異。
Figure 2.RF-HOT模型以雜質(zhì)(上)和排列(下)為基礎(chǔ)的特征重要性顯示的核苷酸在TSS上游位置的數(shù)值
最后,該研究比較了Promotech和其他方法(bTSSFinder,G4PromFinder,BPROM,MULTiPly和iPro70-FMWin)在多菌種啟動(dòng)子預(yù)測方面的表現(xiàn);結(jié)果顯示,Promotech的RF模型表現(xiàn)最好。另外,該研究顯示,即使和E.coli啟動(dòng)子的專用預(yù)測方法相比,Promotech的RF-HOT模型也不輸。這些結(jié)果表明,Promotech可以預(yù)測各種細(xì)菌的啟動(dòng)子。留學(xué)加拿大
結(jié)論
該研究利用機(jī)器學(xué)習(xí)建立了一種可以預(yù)測各種細(xì)菌啟動(dòng)子的新通用型方法Promotech,并且它可以直接在基因組水平上進(jìn)行預(yù)測,無需分割成序列小片段。但是,對(duì)于E.coli,研究人員仍推薦使用E.coli啟動(dòng)子的專用預(yù)測方法。同時(shí),歡迎大家在研究其他菌種的時(shí)候使用Promotech。
更多留學(xué)干貨內(nèi)容,歡迎繼續(xù)關(guān)注學(xué)在加拿大官網(wǎng)及美國留學(xué)網(wǎng)。
更多留學(xué)規(guī)劃問題歡迎免費(fèi)咨詢學(xué)在加拿大
更多留學(xué)干貨內(nèi)容,歡迎關(guān)注學(xué)在加拿大官方微信號(hào)或者小助手
微信小助手
微信企業(yè)號(hào)
更多留學(xué)申請規(guī)劃問題歡迎掃碼聯(lián)系小助手免費(fèi)咨詢獲取干貨資料包
>>手機(jī)用戶,可以直接點(diǎn)我進(jìn)行微信在線咨詢
學(xué)在加拿大官方咨詢熱線
400-609-1118
最新資訊 查看更多>>
最新問答 查看更多>>
熱門標(biāo)簽 查看更多>>