2020年秋学期 - 生命動態のデータサイエンス / DATA SCIENCE FOR GENOME DYNAMICS
|
B3206 生命動態のデータサイエンス DATA SCIENCE FOR GENOME DYNAMICS |
基盤科目-データサイエンス科目-データサイエンス2 Fundamental Subjects - Subjects of Data Science - Data Science 2 2 単位 |
| 実施形態 | 完全オンライン |
| 開催日程 | 秋学期 火曜日2時限 |
| 担当教員 | 鈴木 治夫(スズキ ハルオ) |
| 関連科目 |
前提科目(関連): B3217 |
| 開講場所 | SFC・TTCK |
| 授業形態 | 実習・演習 |
| 履修者制限 |
履修人数を制限する Only the selected students can take this course. |
| 履修条件 |
生物学に関する基本的な知識を持っていること。 You have a basic understanding of biology. 「データサイエンス基礎」の単位を修得していること。またはデータサイエンス科目認定試験に合格していること。 In order to register the Subjects of Data Science, students need to earn credits for "Basics of Data Science" or pass the "Data Science Qualification Examination" |
| 使用言語 | 英語 |
| 連絡先 | haruo@sfc.keio.ac.jp |
| 授業ホームページ | https://github.com/haruosuz/DS4GD |
| 同一科目 | |
| 学生が利用する予定機材/ソフト等 | |
| 設置学部・研究科 | 総合政策・環境情報学部 |
| 大学院プロジェクト名 | |
| 大学院プロジェクトサブメンバー | |
| ゲストスピーカーの人数 | 2 |
| 履修選抜・課題タイプ=テキスト登録可 | true |
| 履修選抜・選抜課題タイプ=ファイル登録可 | false |
| GIGAサティフィケート対象 | true |
| 最終更新日 | 2020/08/24 14:42:58 |
科目概要
配列解析は、ゲノム(DNA)やタンパク質(アミノ酸)などを表す様々なテキスト配列を分析する幅広い分野である。生物配列解析には、ゲノム構造の決定、タンパク質コード領域(遺伝子)の同定、遺伝子機能の予測、系統関係の推定、祖先配列の再構築などが含まれる (Coghlan, 2011; Hall, 2017)。最近の研究は、ゲノム解析と系統解析により新型コロナウイルスの拡散と進化を追跡できる可能性を示した ([https://nextstrain.org/])。配列解析の手法は、生物学の分野のみにとどまらず、写本の系譜(Barbrook et al, 1998)や音楽の類似性評価 (Savage et al., 2018) などにも使用されてきた。このように、配列データ解析に必要なテキスト処理スキルは、他の分野のデータ解析にも適用できる。
この科目では、配列データの解析に使用される主要なツールとデータベースを紹介し、それらを組み合わせて生物学的な問いに取り組む方法を説明する。解析の例として、公共データベースからのタンパク質やDNA配列の取得、DNA配列の統計解析(長さ、GC含量、連続塩基組成、塩基組成の局所変動)、ペアワイズ配列アラインメント(ドット・プロット、グローバル配列アラインメント、ローカル配列アラインメント)、多重配列アライメント、系統推定などが含まれる。
あらゆる分野の学生が、配列解析手法を応用して、独自の分野(生物学、言語、写本、音楽など)の問題解決に取り組む。
Sequence analysis is a broad field, covering any kinds of analyses of textual sequences; e.g. those representing genomes (DNA) and proteins (amino acids). The biological sequence analyses include determining genome structures, identifying protein-coding regions (genes), predicting gene function, inferring phylogenetic relationships, and ancestral reconstruction (Coghlan, 2011; Hall, 2017). Recent studies showed that genomics and phylogenetics can track spread and evolution of novel coronavirus ([https://nextstrain.org/]). The sequence analysis methods have been used not only in the field of biology, but also in genealogy of manuscripts (Barbrook et al., 1998) and quantitative evaluation of melodic similarity (Savage et al., 2018). Thus, text-processing skills necessary to analyze sequence data can be applied to the analysis of data in other fields.
This course will provide the introduction to the main tools and databases used in the analysis of sequence data and explains how these can be used together to answer biological questions. Examples of analysis include retrieving DNA and protein sequences from public databases, DNA sequence statistics (length, GC content, DNA words, and local variation in base composition), pairwise sequence alignment (dotplot, global sequence alignment, and local sequence alignment), multiple sequence alignment, and phylogenetic inference, etc.
Students from all disciplines will use the sequence analysis methods to tackle problems in their fields (biology, language, manuscript, music, etc.).
授業シラバス
主題と目標/授業の手法など
この授業では、コンピュータ実習を通して、配列データ解析に必要な実践的なテキスト処理スキルを習得する。R言語 ([https://www.r-project.org/])、その他のオープンソースのツールとデータベースを使用する。履修者は、生物配列解析の例題を実行し、独自の分野の課題に取り組む。
This computer laboratory course will provide students with practical text-processing skills needed for analyzing sequence data. We will use R ([https://www.r-project.org/]) and other open-source tools and databases. The students will test examples in biological sequence analyses and then tackle problems in their own fields.
教材・参考文献
1) Avril Coghlan - A Little Book of R For Bioinformatics, 2011, 73p. [https://a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/]
2) Hadley Wickham, Garrett Grolemund - R for Data Science, 2016, 520p. [https://r4ds.had.co.nz/] ; 黒川 利明 (訳), 大橋 真也 (技術監修). Rではじめるデータサイエンス, O'Reilly Japan, 2017年10月, 480p. https://www.oreilly.co.jp/books/9784873118147/
3) Andrew Beckerman, Dylan Childs, and Owen Petchey - Getting Started with R: An Introduction for Biologists, 2nd Edition, Oxford University Press, 2017, 240p. http://r4all.org/books/ ; 富永大介 (翻訳). Rをはじめよう生命科学のためのRStudio入門, 羊土社, 2019年03月12日, 254p. https://www.yodosha.co.jp/yodobook/book/9784758120951/
4) Barry G. Hall - Phylogenetic Trees Made Easy: A How-To Manual, 5th ed, Sinauer, 2017/12/15, 310p. https://www.redshelf.com/book/806872
5) Yinglin XiaJun SunDing-Geng Chen - Statistical Analysis of Microbiome Data with R, 2018, 505p. https://link.springer.com/book/10.1007/978-981-13-1534-3
6) Barbrook, A., Howe, C., Blake, N. et al. The phylogeny of The Canterbury Tales. Nature 394, 839 (1998). [https://doi.org/10.1038/29667]
7) Patrick E. Savage, Charles Cronin, Daniel Müllensiefen, Quentin D. Atkinson. Quantitative evaluation of music copyright infringement. Proceedings of the Folk Music Analysis 2018 Workshop [http://fma2018.mus.auth.gr/files/papers/FMA2018_paper_4.pdf]
提出課題・試験・成績評価の方法など
最終レポートと口頭発表に基づいて総合的に評価する。
This class will be graded based on final report as well as oral presentation.
履修上の注意
授業計画
第1回 イントロダクション
[Introduction]
以下のトピックを扱う:
- マイクロバイオーム
- 抗生物質耐性
- 可動遺伝因子:プラスミド、ウイルス(バクテリオファージ)
- 顧みられない熱帯病
- ゲノムの特徴
We will cover the following topics:
- Microbiome
- Antibiotic resistance
- Mobile genetic elements: plasmid, virus (bacteriophage)
- Neglected Tropical diseases
- Genome signature
第2回 R言語入門
[Introduction to R]
以下のトピックを扱う:
- Rパッケージのインストール
- Bioconductorパッケージのインストール
- Rの起動と終了
- Rで簡単な計算、データの型、ベクトル、リスト、関数、ヘルプ
We will cover the following topics:
- How to install an R package
- How to install a Bioconductor R package
- Running R
- A brief introduction to R
第3回 DNA配列解析 (1)
[DNA Sequence Statistics (1)]
以下のトピックを扱う:
- R言語を用いたバイオインフォマティクス
- NCBIウェブサイトを介したゲノム配列データの検索
- 配列データをRに読み込む
- DNA配列の長さ
- DNA配列の塩基組成
- DNAのGC含量
- DNAの連続塩基
We will cover the following topics:
- Using R for Bioinformatics
- Retrieving genome sequence data via the NCBI website
- Reading sequence data into R
- Length of a DNA sequence
- Base composition of a DNA sequence
- GC Content of DNA
- DNA words
第4回 DNA配列解析 (2)
[DNA Sequence Statistics (2)]
以下のトピックを扱う:
- 続・R言語入門
- Rパッケージseqinrで配列データを読み込み
- GC含量の局所変動
- GC含量の移動解析
- 連続塩基の観測値/期待値
We will cover the following topics:
- A little more introduction to R
- Reading sequence data with SeqinR
- Local variation in GC content
- A sliding window analysis of GC content
- Over-represented and under-represented DNA words
第5回 ゲストスピーカー
[Guest Speaker]
第6回 ゲストスピーカー
[Guest Speaker]
第7回 中間発表
[interim report]
第8回 ペアワイズ配列アラインメント (1)
[Pairwise Sequence Alignment (1)]
以下のトピックを扱う:
- UniProtのウェブサイトからタンパク質配列を取得
- ドットプロットで2つの配列を比較
- BLASTを用いた配列データベース検索
We will cover the following topics:
- Retrieving a UniProt protein sequence via the UniProt website
- Comparing two sequences using a dotplot
- BLAST (Basic Local Alignment Search Tool)
第9回 ペアワイズ配列アラインメント (2)
[Pairwise Sequence Alignment (2)]
以下のトピックを扱う:
- 2つのDNA配列間のグローバル・アライメント
- 2つのタンパク質配列間のグローバル・アライメント
- UniProt配列のアライメント
- 2つの配列間のアライメントの表示と出力
- 2つのタンパク質配列間のローカル・アライメント
We will cover the following topics:
- Pairwise global alignment of DNA sequences using the Needleman-Wunsch algorithm
- Pairwise global alignment of protein sequences using the Needleman-Wunsch algorithm
- Aligning UniProt sequences
- Viewing a long pairwise alignment
- Pairwise local alignment of protein sequences using the Smith-Waterman algorithm
第10回 多重配列アライメント
[Multiple sequence alignment]
以下のトピックを扱う:
- UniProtから複数の配列を取得
- CLUSTALを用いたタンパク質/DNA/mRNA配列の多重アライメントの作成
- 多重アライメントのファイルをRに読み込む
- 多重アライメントの表示
- アラインメントから保存度の低い領域を破棄する
We will cover the following topics:
- Retrieving a list of sequences from UniProt
- Creating a multiple alignment of protein, DNA or mRNA sequences using CLUSTAL
- Reading a multiple alignment file into R
- Viewing a long multiple alignment
- Discarding very poorly conserved regions from an alignment
第11回 系統樹
[Phylogenetic trees]
以下のトピックを扱う:
- タンパク質配列間の遺伝的距離を計算する
- タンパク質配列の無根系統樹の構築
- タンパク質配列の有根系統樹の構築
- 系統樹をNewick形式ファイルとして保存する
- DNA/mRNA配列間の遺伝的距離を計算する
- DNA/mRNA配列の系統樹の構築
We will cover the following topics:
- Calculating genetic distances between protein sequences
- Building an unrooted phylogenetic tree for protein sequences
- Building a rooted phylogenetic tree for protein sequences
- Saving a phylogenetic tree as a Newick-format tree file
- Calculating genetic distances between DNA/mRNA sequences
- Building a phylogenetic tree for DNA or mRNA sequences
第12回 最終発表
[Oral presentation]
第13回 ケーススタディ
[Case Study]
以下のトピックを扱う:
- タンパク質コード配列
- アミノ酸使用とコドン使用
- クラスター分析とヒートマップを用いた連続塩基組成(k-mer頻度)解析
We will cover the following topics:
- Coding sequences
- amino acid usage and codon usage
- Analyzing k-mer frequency using Cluster Analysis and Heat Map
第14回 MetaSUB: 都市マイクロバイオーム解析
[MetaSUB: urban microbiome analysis]
http://metasub.org/projects/
参加は任意です。
http://metasub.org/projects/
Participation is not required, but is appreciated.
第15回 MetaSUB: 都市マイクロバイオーム解析
[MetaSUB: urban microbiome analysis]
http://metasub.org/projects/
参加は任意です。
http://metasub.org/projects/
Participation is not required, but is appreciated.
15回目に相当するその他の授業計画
2019年12月3日 第42回日本分子生物学会年会
2019-12-03 The 42nd Annual Meeting of the Molecular Biology Society of Japan