B3210
統計解析
STATISTICAL ANALYSIS
特設科目
Special Seminars
2 単位
実施形態 完全オンライン
開催日程 秋学期 月曜日1時限
担当教員 馬場 国博(ババ クニヒロ)
関連科目 前提科目(推奨): B3101,B3104
開講場所 SFC
授業形態 講義、実習・演習
履修者制限
履修条件

「データサイエンス基礎」の単位を修得していること。またはデータサイエンス科目認定試験に合格していること。

In order to register the Subjects of Data Science, students need to earn credits for "Basics of Data Science" or pass the "Data Science Qualification Examination"

使用言語 日本語
連絡先 baba@sfc.keio.ac.jp
授業ホームページ
同一科目

学生が利用する予定機材/ソフト等

R言語

R language will be used.

設置学部・研究科 総合政策・環境情報学部
大学院プロジェクト名

大学院プロジェクトサブメンバー

ゲストスピーカーの人数 0
履修選抜・課題タイプ=テキスト登録可 false
履修選抜・選抜課題タイプ=ファイル登録可 false
GIGAサティフィケート対象
最終更新日 2020/07/22 08:11:51

科目概要

この授業では「統計基礎」の内容を踏まえ、データサイエンスの理論と実践の定着と応用的理解を目的とする。現状について問題を発見し、その解決のために収集したデータを元に仮説やモデルを構築し、それに対する検証を行って問題を解決する能力を養う。
具体的には、線型モデルの応用的な話題(残差分析や変数選択、ロジスティック回帰、一般化線形モデルなど)、様々な多変量解析の手法(主成分分析、判別分析、分散分析、因子分析など)を扱う。

Based on “Introduction of Statistics”, this course will enhance student’s understanding of the theories and practices of data science and develop the following statistical abilities: discovering the problems of the current status, hypothesizing and building the models based on data, and verifying them. It will focus on applicative topics of linear models (analysis of residuals, model selection, logistic regression, and generalized linear model etc.) and the various methods of multivariate analyses (principal component analysis, discriminant analysis, variance analysis, factor analysis etc.).

授業シラバス

主題と目標/授業の手法など

多変量のデータをそのままで解釈することは難しい. そこで, そのデータに含まれる情報をなるべく損失が少ないように低次元に落として解釈し, また個体の分類に役立たせることが多変量解析の最大のねらいである. その手法には多々あるが, この講義では外的基準のある手法として「分散分析」「線形回帰分析」「ロジスティック回帰分析」「判別分析」などを, 外的基準のない手法として「主成分分析」「因子分析」「クラスター分析」といった手法を取り上げ, それらの解析法を体得することによって, データを様々な角度から眺める能力を養う. 解析のためのツールとしてR言語を用いる. 理論と実践の両立を目指す.

It is difficult to interpret the multivariate data as they are. Therefore, the greatest aim of multivariate analysis is to interpret the data after reducing them into several low dimensions to lessen the loss of information. As a result, classification is made easier. There are various methods to realize the reduction, and they can roughly be divided into two categories. One uses variance analysis, linear regression analysis, logistic regression analysis, and discriminant analysis, which have external criteria. The other uses principal component analysis, factor analysis, and cluster analysis without external criteria. Students are expected to study these methods to improve their ability to view the data from various perspectives. Both theories and practices will be covered in this course. R language will be used as a tool of analysis.

教材・参考文献

参考書:本橋永至著『Rで学ぶ統計データ分析』オーム社
参考書:松井秀俊 他著『統計モデルと推測』講談社

提出課題・試験・成績評価の方法など

授業内に適宜出題する演習や課題、及び最終レポートまたは期末試験によって評価する

Graded on regular reports and the final report or examination.

履修上の注意

R言語を使用する

R language will be used.

授業計画

第1回 イントロダクション / 分散分析の基礎
[Introduction / Basics of ANOVA (analysis of variance)]

本講義の概略の説明, 一元配置分散分析, 統計的仮説検定の復習,
χ2乗分布, t分布, F分布の復習

Introduction of this class, One-way layout,
Review of statistical test, Review of chi-square, t, and F distributions


第2回 分散分析の実践
[Further topics of ANOVA]

二元配置分散分析, R言語を用いた演習

Two-way layout, Exercises using R-language


第3回 重回帰分析の基礎
[Basics of multiple regression analysis]

正規線形モデル, 最小二乗法と最尤法, 推定量の性質,
回帰係数の推測

Normal linear regression model, Least squares method,
Maximum likelihood method, Properties of estimators,
Inference of regression coefficients


第4回 重回帰分析の応用
[Further topics of multiple regression analysis]

みかけの相関, 偏相関, 多重共線性, Rを用いた演習

Spurious correlation, Partial correlation, Multicollinearity,
Exercises using R


第5回 重回帰分析の実践
[Basics of variance analysis]

モデル選択, AIC, 変数選択法, Rを用いた演習

Model selection, AIC, Methods of variable selection, Exercises using R


第6回 ロジスティック回帰分析
[Logistic regression analysis]

ロジスティック回帰モデルの理論と実践

Theory of logistic regression analysis, Exercises using R


第7回 ポアソン回帰モデル・一般化線形モデル
[Poisson regression model and Generalized linear model]

ポアソン回帰モデルと一般化線形モデルへの拡張, Rを用いた演習

Theory of Poisson regression model, Generalization to generalized linear model
Exercises using R


第8回 主成分分析
[Principal component analysis]

相関係数行列, 分散共分散行列からの主成分の導出, 主成分得点,
因子負荷量, Rを用いた演習

Theory of principal component analysis, Exercises using R


第9回 因子分析の基礎
[Basics of factor analysis]

因子分析の考え方, 因子負荷量の推定(主因子法と最尤法)

Principal factor analysis, Maximum likelihood factor analysis


第10回 因子分析の実践
[Further topics of factor analysis]

因子の回転, 因子得点の推定, Rを用いた演習

Rotation of factors, Estimation of factor scores, Exercises using R


第11回 判別分析
[Discriminant analysis]

線形判別, 2次判別, 正準判別分析, Rを用いた演習

Linear, quadratic, and canonical discriminant analysis, Exercises using R


第12回 クラスター分析
[Cluster analysis]

階層的手法, 様々なクラスター間の距離と鎖状効果, k-means法
Rを用いた演習

Hierarchical methods, Various distances between clusters, K-means method,
Exercises using R


第13回 演習・課題・レポート
[Exercise using R ]


第14回 演習・課題・レポート
[Exercise using R ]


第15回 演習・課題・レポート
[Exercise using R ]


15回目に相当するその他の授業計画

課題・レポート