Biopython簡介學習手册

Published on 2023-04-20 00:10:05 · 中文 · English · بالعربية · Español · हिंदीName · 日本語 · Русский язык

Biopython是主要用於生物資訊學領域的開源python工具。 本教程介紹了Biopython軟體包的基礎知識,生物資訊學概述,序列操作和繪圖,種群遺傳學,聚類分析,基因組分析,與BioSQL資料庫的連接,最後總結了一些應用示例。

面向讀者

本教程是為有志於使用python作為程式設計工具的生物資訊學程式設計領域的專業人士而準備的。 本教程旨在使您熟悉Biopython概念及其各種功能。

前提條件

在繼續本教程中給出的各種類型的概念之前,假定讀者已經瞭解生物資訊學。 除此之外,如果讀者對Python程式設計有一定的瞭解,這將非常有助於學習本教程。

教程目錄

Biopython是Python的最大,最受歡迎的生物資訊學軟體包。 它包含許多用於常規生物資訊學任務的不同子模組。 它由Chapman和Chang開發,主要使用Python編寫。 它還包含C代碼,以優化軟體的複雜計算部分。 它可以在Windows,Linux,Mac OS X等操作系統上運行。
基本上,Biopython是python模組的集合,這些模組提供處理DNA,RNA和蛋白質序列操作的功能,例如DNA字串的反向互補,尋找蛋白質序列中的基序等。 它提供了很多解析器,可以讀取所有主要的遺傳資料庫 如GenBank,SwissPort,FASTA等,以及在python環境中運行其他流行的生物資訊學軟體/工具(如NCBI BLASTN,Entrez等)的包裝程式/介面。 它具有兄弟專案,例如:BioPerl,BioJava和BioRuby。

1. 特徵

Biopython是可移植的,清晰的並且具有易於學習的語法。 下面列出了一些突出的功能 -
解釋性的,互動式和面向物件的。 支援FASTA,PDB,GenBank,Blast,SCOP,PubMed/Medline,ExPASy相關格式。 處理序列格式的選項。 管理蛋白質結構的工具。 BioSQL-SQL表的標準集合,用於存儲序列以及功能和註釋。 訪問在線服務和資料庫,包括NCBI服務(Blast,Entrez,PubMed)和ExPASY服務(SwissProt,Prosite)。 訪問本地服務,包括Blast,Clustalw,EMBOSS。

2. 目標

Biopython的目標是通過python語言提供對生物資訊學的簡單,標準和廣泛的訪問。 下面列出了Biopython的特定目標 -
提供對生物資訊學資源的標準化訪問。 高品質,可重用的模組和腳本。 可在集群代碼,PDB,NaiveBayes和Markov模型中使用的快速數位操作。 基因組數據分析。

3. 好處

Biopython只需很少的代碼,並具有以下優點 -
提供用於聚類的微陣列數據類型。 讀取和寫入Tree-View類型的檔。 支援用於PDB解析,表示和分析的結構數據。 支援在Medline應用程式中使用的日記數據。 支援BioSQL資料庫,該資料庫是所有生物資訊學專案中廣泛使用的標準資料庫。 通過提供將生物資訊學檔解析為特定格式的記錄物件或序列加特徵的通用類的模組,來支援解析器開發。 清除基於食譜樣式的文檔。

4. 樣本案例研究

讓我們來看看一些用例(種群遺傳學,RNA結構等),並嘗試瞭解Biopython在該領域如何發揮重要作用:
人口遺傳學
種群遺傳學是對種群內遺傳變異的研究,涉及對種群中基因和等位基因頻率隨時間和空間變化的檢查和建模。 Biopython提供了用於種群遺傳學的Bio.PopGen模組。 該模組包含收集經典種群遺傳學資訊的所有必要功能。
RNA結構 DNA,RNA和蛋白質是我們生活中必不可少的三個主要生物大分子。 蛋白質是細胞的主力軍,並作為酶發揮重要作用。 DNA(去氧核糖核酸)被認為是細胞的「藍圖」。。 它攜帶了細胞生長,吸收營養和繁殖所需的所有遺傳資訊。 RNA(核糖核酸)在細胞中充當“ DNA影印件”
Biopython提供了Bio.Sequence對象,這些物件代表核苷酸,DNA和RNA的構建基塊。