B3217
バイオインフォマティクスのデータサイエンス
DATA SCIENCE FOR BIOINFORMATICS
基盤科目-データサイエンス科目-データサイエンス2
Fundamental Subjects - Subjects of Data Science - Data Science 2
2 単位
実施形態 完全オンライン
開催日程 秋学期 火曜日3時限
担当教員 鈴木 治夫(スズキ ハルオ)
関連科目 前提科目(関連): B3206
開講場所 SFC・TTCK
授業形態 実習・演習
履修者制限

履修人数を制限する

受入学生数(予定):約 89 人
選抜方法:課題提出による選抜

【課題内容】
バイオインフォマティクス・データスキルを適用したい研究分野(機械学習、画像処理、比較ゲノムなど)を述べてください。課題のタイトルと参考文献も明記してください。



Briefly describe disciplines/fields (e.g. machine learning, image processing, comparative genomics, etc.) in which you would like to apply bioinformatics data skills. Please also state your project title and references.

◯エントリー〆切日時:2020年9月28日(月) 17:00
◯履修許可者発表日時:2020年9月30日(水) 17:00

◯テキスト入力

Only the selected students can take this course.

Number of students in the class (scheduled) : About 89
Pre-registration screening by submitted an assignment

【ASSIGNMENT】
バイオインフォマティクス・データスキルを適用したい研究分野(機械学習、画像処理、比較ゲノムなど)を述べてください。課題のタイトルと参考文献も明記してください。



Briefly describe disciplines/fields (e.g. machine learning, image processing, comparative genomics, etc.) in which you would like to apply bioinformatics data skills. Please also state your project title and references.

* Schedule: TBD

履修条件

生物学に関する基本的な知識を持っていること。
基本的な生物学の用語と概念(例えば、DNA、RNA、タンパク質、遺伝子、ゲノム、分子生物学のセントラルドグマなど)を知っていることが望ましい。この授業で取り上げる例題を理解するために、多くの生物学的知識は必要としない。トピックに馴染みがない場合でも、ざっとWikipediaの記事に目を通せば、例題を理解できるはずである。

You have a basic understanding of biology.
You should be familiar with some very basic biological terms and concepts (e.g., DNA, RNA, proteins, genes, genomes, the central dogma of molecular biology, etc.). All biological examples in the class are designed to be quite simple and don’t require a lot of background in biology. If you’re unfamiliar with any topic, you should be able to quickly skim a Wikipedia article and proceed with the example.

「データサイエンス基礎」の単位を修得していること。またはデータサイエンス科目認定試験に合格していること。

In order to register the Subjects of Data Science, students need to earn credits for "Basics of Data Science" or pass the "Data Science Qualification Examination"

使用言語 日本語
連絡先 haruo@sfc.keio.ac.jp
授業ホームページ https://github.com/haruosuz/introBI
同一科目

学生が利用する予定機材/ソフト等

授業の例題は Mac OS X と Linux 上で動作する。他のオペレーティング・システムはサポート対象外とする(現代のバイオインフォマティクスは主としてUnix系OSに依存しているため)。授業で必要なソフトウェアは全て自由に利用でき、簡単にインストールできる。ソフトウェアのインストールが必要なので、使用するOSのパッケージ管理システム(例えば、Mac OS は Homebrew [https://brew.sh/]) を使うことを推奨する。

All examples in this class work on Mac OS X and Linux -- other operating systems are not supported (because modern bioinformatics relies on Unix-based operating systems). All software required throughout the class is freely available and is easily installable. As software installation is needed, I recommend you to use your operating system’s package management system (e.g., Homebrew for Mac [https://brew.sh/]).

設置学部・研究科 総合政策・環境情報学部
大学院プロジェクト名

大学院プロジェクトサブメンバー

ゲストスピーカーの人数 2
履修選抜・課題タイプ=テキスト登録可 true
履修選抜・選抜課題タイプ=ファイル登録可 false
GIGAサティフィケート対象
最終更新日 2020/08/18 10:37:39

科目概要

この授業では、複雑で大規模なデータセットから情報を探索・抽出するためにバイオインフォマティクス研究者が使用するスキルに焦点を当てる。こうしたデータスキルを学ぶことで、どんなバイオインフォマティクス・データでも(どんなフォーマットの、どんなサイズのファイルでも)扱うことができるようになり、生物学的意味を引き出すためにデータの探究を始めることができる。

授業全体を通して、ロバストで再現性のある手法で研究することの重要性を強調する。再現性とは、自分の研究が他の研究者によって追試されて同じ結果が得られることを意味する。そのためには、作業手順を十分に文書化し、コードとデータを全て公開しなければならない。解析ワークフローを別のマシンで実行して異なる結果が得られた場合、それはロバストでも再現可能でもない。このテーマは、講義の中で繰り返し出てくる。

この授業では、表形式のプレーンテキストデータ形式を主に扱う。表(テーブル)データは、データスキルを磨くのに最適である。将来、他のデータを解析することが目標であっても、表形式のデータは学習に役立つ優れたサンプルデータとなる。表形式データを扱うために必要なテキスト処理のスキルを身につけることは、他のデータ型を扱う際にも応用できる。このように、多様な分野の研究に役立つ計算ツールとデータスキルを学ぶことができる。

あらゆる分野の研究者が、バイオインフォマティクス・データスキルを応用して、独自の分野(生物学、言語、音楽、新型コロナウイルス感染症のパンデミックに寄与した社会的経済的要因など)の問題解決に取り組む。

This class focuses on the skills bioinformaticians use to explore and extract information from complex, large datasets. These data skills give you freedom; you’ll be able to look at any bioinformatics data (in any format, and files of any size) and begin exploring data to extract biological meaning.

Throughout the class, I will emphasize working in a robust and reproducible manner. Reproducibility means that your work can be repeated by other researchers and they can arrive at the same results. For this to be the case, your work must be well documented, and your methods, code, and data all need to be available so that other researchers have the materials to reproduce everything. If a workflow run on a different machine yields a different outcome, it is neither robust nor fully reproducible. These are themes that reappear throughout the class.

This class focuses primarily on handling tabular plain-text data formats. Tabular data is terrific for honing your data skills. Even if your goal is to analyze other types of data in the future, tabular data serves as great example data to learn with. Developing the text-processing skills necessary to work with tabular data will be applicable to working with many other data types. Thus, this class will teach you useful computational tools and data skills that will be helpful in your research.

Researchers from all disciplines will use Bioinformatics Data Skills to tackle problems in their fields (e.g., biology, language, music, socio-economic factors contributing to the COVID-19 pandemic, etc.).

授業シラバス

主題と目標/授業の手法など

この授業では、コンピュータ実習を通して、ロバストで再現可能な研究のためのデータスキルを習得する。

This computer laboratory course will provide students basic data skills for robust and reproducible research.

教材・参考文献

1) バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究, オライリージャパン (2020/9/19), 520p.
Vince Buffalo. Bioinformatics Data Skills: Reproducible and Robust Research With Open Source Tools, O’Reilly, 2015, 538p.
[https://www.oreilly.com/library/view/bioinformatics-data-skills/9781449367480/]

提出課題・試験・成績評価の方法など

最終発表とレポートによって判定する。

This class will be graded based on final report as well as oral presentation.

履修上の注意

授業計画

第1回 イントロダクション
[Introduction]

データスキルを身につけてバイオインフォマティクスを学ぶことが最適なアプローチである理由を紹介する。また、ロバストで再現性のある研究について述べる。

I introduce why learning bioinformatics by developing data skills is the best approach. I also describe robust and reproducible research.


第2回 バイオインフォマティクス・プロジェクトの準備と管理
[Setting Up and Managing a Bioinformatics Project]

プロジェクト・ディレクトリ(ファイル)の準備と管理の方法を学ぶ。慎重に整理されたプロジェクトから始めることで将来、多くの手間を省くことができる。また、プレーンテキストでプロジェクトを文書化する際に便利なフォーマットであるマークダウンについても学ぶ。

以下のトピックを扱う:
- プロジェクト・ディレクトリの構造
- プロジェクトの記録
- ファイル処理を自動化するためのデータ編成
- マークダウン

We’ll look at how to set up and manage a project directory (files). Starting out with a carefully organized project can prevent a lot of hassle in the future. We’ll also learn about documentation with Markdown, a useful format for plain-text project documentation.

We will cover the following topics:
- Project Directories and Directory Structures
- Project Documentation
- Organizing Data to Automate File Processing Tasks
- Markdown for Project Notebooks


第3回 Unixシェル再入門
[Remedial Unix Shell]

バイオインフォマティクスのための中級Unix講座として、必須の概念(パイプ、リダイレクト、標準入出力ストリームなど)を学ぶ。

We explore intermediate Unix in bioinformatics. This is to make sure that you have a solid grasp of essential concepts (e.g., pipes, redirection, standard input and output streams, etc.).


第4回 バイオインフォマティクス・データ
[Bioinformatics Data]

バイオインフォマティクス・プロジェクトのデータを扱う。大量のデータをダウンロードし、データを圧縮し、データの整合性を検証し、データを再現可能な形でダウンロードする方法について説明する。

以下のトピックを扱う:
- バイオインフォマティクスデータの取得
- データの整合性:チェックサム
- データの差分を見る
- データの圧縮と圧縮データの操作
- ケーススタディ:再現性のあるデータのダウンロード

We’ll look at data in bioinformatics projects: how to download large amounts of data, use data compression, validate data integrity, and reproducibly download data for a project.

We will cover the following topics:
- Retrieving Bioinformatics Data
- Data Integrity: Checksums
- Looking at Differences Between Data
- Compressing Data and Working with Compressed Data
- Case Study: Reproducibly Downloading Data


第5回 Unixデータツール
[Unix Data Tools]

Unixのデータツールを使ってプレーンテキストのファイルやストリームを自由に操作するスキルを身につける。それぞれのツールを個別に学び、より高度なパイプラインやプログラムへと積み上げていく。

以下のトピックを扱う:
- Unixシェルによるテキストデータの検査と操作:head, tail, less, wc, ls, cut, grep, sort, uniq, join, awk, sed
- 高度なシェル技法:サブシェル、名前付きパイプとプロセス置換

We develop the skills to freely manipulate plain-text files or streams using Unix data tools. We’ll learn each tool separately, and cumulatively work up to more advanced pipelines and programs.

We will cover the following topics:
- Inspecting and Manipulating Text Data with Unix Tools: head, tail, less, wc, ls, cut, grep, sort, uniq, join, awk, and sed
- Advanced Shell Tricks: Subshells, Named Pipes and Process Substitution


第6回 シェルスクリプト、パイプライン、並列処理
[Shell Scripting, Writing Pipelines, and Parallelizing Tasks]

データ処理パイプラインをロバストで再現性のある方法で書く方法を紹介する。特に、Bashスクリプトと、Unixツール(find と xargs)を使ったファイル操作を学ぶ。

以下のトピックを扱う:
- Bashスクリプト入門
- ロバストなBashスクリプトの作成と実行
- 変数とコマンドライン引数
- 条件分岐:if 文と test コマンド
- for 文とグロブ
- find と xargs を用いたファイル処理の自動化

We look at how to write data-processing scripts and pipelines in a robust and reproducible way. We’ll look specifically at Bash scripting, manipulating files using Unix powertools like find and xargs.

We will cover the following topics:
- Basic Bash Scripting
- Writing and Running Robust Bash Scripts
- Variables and Command Arguments
- Conditionals in a Bash Script: if Statements
- Processing Files with Bash Using for Loops and Globbing
- Automating File-Processing with find and xargs


第7回 中間発表
[interim report]


第8回 ゲストスピーカー
[Guest Speaker]


第9回 ゲストスピーカー
[Guest Speaker]


第10回 ゲストスピーカー
[Guest Speaker]


第11回 ケーススタディ:再現性のあるデータ解析
[Case Study: Reproducibly Analyzing Data]


第12回 最終発表
[Oral presentation]


第13回 R言語入門
[Introduction to the R Language]

探索的データ解析(Exploratory Data Analysis; EDA)技法の学習を通して、R言語を紹介する。Rで可視化やデータの要約を行い、自分のデータを探索できるようにする。

I introduce the R language through learning exploratory data analysis (EDA) techniques. You will use R to explore your own data using techniques like visualization and data summaries.


第14回 相互ベストヒットによるオーソログの迅速同定
[Quickly finding orthologs as reciprocal best hits]

比較ゲノムでオーソログ遺伝子を推定するための代替法として相互ベストヒット(Reciprocal Best Hits; RBH)を紹介する。

I introduce Reciprocal Best Hits (RBH) as a common proxy to infer orthologs in comparative genomics.


第15回 MetaSUB: 都市マイクロバイオーム解析
[MetaSUB: urban microbiome analysis]


[http://metasub.org/projects/]
参加は任意です。


[http://metasub.org/projects/]
Participation is not required, but is appreciated.


15回目に相当するその他の授業計画

2019年12月3日 第42回日本分子生物学会年会

2019-12-03 The 42nd Annual Meeting of the Molecular Biology Society of Japan