專題成果報告 胺基酸功能預測開發環境
DESCRIPTION
專題成果報告 胺基酸功能預測開發環境. 指導教授 : 歐昱言 971508 邱彥豪 971520 邱顯鈞. 前言. 隨著生物資訊的發展,蛋白質序列的 資料庫 變得非常 龐 大 ,大部分的蛋白質我們仍然未知它們的功能,所以取得 蛋白質序列且了解它們的功能是生物學家努力想要達到的 目標,生物學家必須透過實驗 ( 如結晶法 ) 來確定蛋白質的 功能。 透過實驗,我們發現眾多經過實驗確定的蛋白質序列, 當胺基酸排列相似的時候,它們的功能也類似,某些時候 甚至可以做為判斷的依據,但現行實驗技術成功率低且成 本昂貴,於是透過電腦分類龐大資料的想法便應運而生。. 目的. - PowerPoint PPT PresentationTRANSCRIPT
專題成果報告胺基酸功能預測開發環境
指導教授 :歐昱言
971508 邱彥豪971520 邱顯鈞
前言隨著生物資訊的發展,蛋白質序列的資料庫變得非常龐大,大部分的蛋白質我們仍然未知它們的功能,所以取得蛋白質序列且了解它們的功能是生物學家努力想要達到的目標,生物學家必須透過實驗(如結晶法)來確定蛋白質的功能。透過實驗,我們發現眾多經過實驗確定的蛋白質序列,當胺基酸排列相似的時候,它們的功能也類似,某些時候甚至可以做為判斷的依據,但現行實驗技術成功率低且成本昂貴,於是透過電腦分類龐大資料的想法便應運而生。
目的我們希望透過我們所開發的環境能使生物學家利用電腦快速分類龐大的原始蛋白質序列資料,再使用分類器預先預測出某一胺基酸區段在未知蛋白質內所代表的功用並加以分類。
架構資料取得
分類器分析結果
資料處理
序列剖析
1.序列相似度篩選
2.標記胺基酸功能區段
PSSM(Position-specific scoring matrix)
開發功能我們的程式能
1.自動處理下載來的資料2.快速的做序列相似度篩選3.標記胺基酸功能區段4.產生 PSSM檔案5.快速產生能進分類器的檔案格式
一 .資料取得
二 .資料處理在原始的資料中,紀錄蛋白質序列的所有資訊,我們為了預測胺基酸區段在未知蛋白質內所代表的功用,必須擷取胺基酸區段的位置,再將此位置標記在蛋白質序列上。
三 .序列剖析PSSM(位置加權矩陣 ):具有相似化學特性的胺基酸之間會互相取代,每行列代表各胺基酸取代的可能,會以一加權值表示,值越大則表示此胺基酸能被取代的可能性越大。
四 .產生結果Select_pssm:最終,以 PSSM當作屬性產生出來的libsvm檔即可用分類器做分類了。
範例 : 1.下載
2.將所需資訊擷取
3.相似度篩選
4.標記胺基酸功能區段
5. 用 PSSM產生出 libsvm格式
6.分類器 :Weka
1.IBK-3NN
2.J48
分類器 :QuickRBF
Center5000
報告結束
謝謝大家 !