2020年秋学期 - ビジネスのデータサイエンス / DATA SCIENCE FOR BUSINESS
|
B3203 ビジネスのデータサイエンス DATA SCIENCE FOR BUSINESS |
基盤科目-データサイエンス科目-データサイエンス2 Fundamental Subjects - Subjects of Data Science - Data Science 2 2 単位 |
| 実施形態 | 完全オンライン |
| 開催日程 | 秋学期 火曜日1時限,火曜日2時限 |
| 担当教員 | 桑原 武夫(クワハラ タケオ) |
| 関連科目 |
前提科目(推奨): 90578 前提科目(関連): 14090,14080 |
| 開講場所 | SFC |
| 授業形態 | 講義、実習・演習、グループワーク |
| 履修者制限 |
履修人数を制限する Only the selected students can take this course. |
| 履修条件 |
「データサイエンス基礎」の単位を修得していること。またはデータサイエンス科目認定試験に合格していること。 In order to register the Subjects of Data Science, students need to earn credits for "Basics of Data Science" or pass the "Data Science Qualification Examination" |
| 使用言語 | 日本語 |
| 連絡先 | kuwahara@sfc.keio.ac.jp |
| 授業ホームページ | |
| 同一科目 | |
| 学生が利用する予定機材/ソフト等 |
PC / R-言語 Personal Computer / R-language |
| 設置学部・研究科 | 総合政策・環境情報学部 |
| 大学院プロジェクト名 | |
| 大学院プロジェクトサブメンバー | |
| ゲストスピーカーの人数 | 0 |
| 履修選抜・課題タイプ=テキスト登録可 | false |
| 履修選抜・選抜課題タイプ=ファイル登録可 | false |
| GIGAサティフィケート対象 | |
| 最終更新日 | 2020/08/27 09:04:50 |
科目概要
データマイニングは、ビジネスのためのデータサイエンスの中核をなす技術であり、さまさまな分野における実務家の関心を集めている。今日、ほぼすべての組織がデータを収集し、意思決定や政策策定に役立てていると言っても過言ではない。
インターネット、電子商取引、販売時点機器の副産物として得られることから、電子的なデータ収集は、コストがかからず広く普及している。データマイニングは、そうしたデータを生かすビジネス・インテリジェンスのための技術として急速に発展している。主として、統計学と人工知能の分野から生まれたものである。
本コースでは、データマイニングの技術を検討するとともに、R言語を用いた演習を行うことによって、実践的な分析力を身につけることを目的としている。
Data mining has gained an interest among business practitioners in a variety of fields. Almost every organization collects data, which can be analyzed in order to support making better decisions and improving policies.
Electronic data capture has become inexpensive and ubiquitous as a by-product of innovations such as the internet, e-commerce, point-of-sale devices. Data mining is a rapidly growing field that is concerned with developing techniques to assist managers to make intelligent use of these repositories. The field of data mining has evolved from the disciplines of statistics and artificial intelligence.
In this course, we will examine data mining methods and provide an opportunity for hands-on exercises with algorithms for data mining using R-language software and cases.
授業シラバス
主題と目標/授業の手法など
ITの進化によって、膨大かつ多様な情報・データがあらゆるところに蓄積され、アクセス可能となりました。さらに、ソーシャルメディアの急成長で、文章や動画といった定性的データも容易に集められるようになっています。
そこで期待が高まっているのが、ビッグデータから有益な情報を“掘り起こす” データマイニングです。複雑で大量のデータを解析し、視覚化・パターン化することで、消費者の購買行動予測や、マーケティング戦略立案に役立てることできます。
本年度は、データマイニング技術の中から、アソシエーション・ルール分析、決定木モデルによる予測、および、情報量基準によるクラスター分析(階層的方法)を扱います。本講義では、講義と演習(主としてグループワーク)を組み合わせて、実践力を身につけることを目的とします。ツール、プログラムの開発も行います。
With the evolution of IT, vast and diverse information and data is now stored and accessible everywhere. Furthermore, the rapid growth of social media has made it easier to collect qualitative data such as text and video.
This is where data mining, which is the mining of useful information from big data, comes in handy. Analyzing large amounts of complex data and visualizing and patterning it into patterns can be useful for predicting consumer purchasing behavior and developing marketing strategies.
This year's course covers association rule analysis, prediction by decision tree models, and cluster analysis by information criterion (hierarchical method), among other data mining techniques. The objective of this course is to provide students with practical skills through a combination of lectures and exercises (mainly group work). We will also develop tools and programs.
教材・参考文献
1) Matthew A. Russell著(奥野陽他訳), 2011, 入門ソーシャルデータ - データマイニング、分析、可視化のテクニック, オライリー・ジャパン
2) Pieter Adriaans and Dolf Zantinge 著 , 山本英子 / 梅村恭司 訳 , データ マイニング ,共立 , 1998 (Pieter Adriaans and Dolf Zantinge , Data Mining , Addison WesleyLongman, 1996)
3) 青木繁伸, 2009, Rによる統計解析, オーム社
4) 間瀬茂, 2007, Rプログラミングマニュアル, 数理工学社
5) 石田基広, 2008, Rによるテキストマイニング入門, 森北出版
6) 岡田昌史, 2011, Rパッケージガイドブック, 東京図書
7) 荒引健他, 2013, R言語上級ハンドブック, シーアンドアール研究所
8) R Foundation http://www.r-project.org
9) 統計数理研究所 http://cran.ism.ac.jp
10) MeCabプロジェクト http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
11) RMeCabプロジェクト http://rmecab.jp/wiki/index.php?RMeCab
12) R、R言語、R環境 http://www1.doshisha.ac.jp/~mjin/R/
13) RjpWikiプロジェクト http://www.okada.jp.org/RWiki/
14) Rによる統計処理 http://aoki2.si.gunma-u.ac.jp/R/
提出課題・試験・成績評価の方法など
1)個人レポート
2)グループで行うミニ・プロジェクトと発表、および、そのレポート
3)出席状況を含む平常点も考慮します。
1) Personal Report
2) Mini-projects and presentations in groups, and reports on them
3) Normal scores, including attendance, will also be considered.
履修上の注意
本講義においては、分析を行う際に、プログラミングを行うことが必要となります。「既存のツールの利用」だけでは、課題やグループワークを遂行することはできません。本講義で中心的に使用するR言語を用いたプログラミングについては、基本的な解説とサポートはしますが、受講前に、プログラミングについての初歩的な講義(他のプログラム言語でもよい)や、「統計解析」などR言語を使用する講義を受講するなどして、慣れておくことを推奨します。
In this course, programming is required to perform the analysis. It is not possible to carry out assignments and group work simply by using existing tools. We provide basic explanations and support for programming in R, which is the main language used in this course, but it is recommended that you get used to it by attending lectures on programming (other programming languages are acceptable) or lectures on statistical analysis and other R languages before attending the course.
授業計画
第1回 第1週前半 イントロダクション、R言語のインストールと基本操作(講義と演習)
[1st week - 1st half: Introduction, Installation of R-language and Basic Operations ]
1) 本講義の概要と課題の説明
2) グループ分け
3) R言語のインストールと設定、および、動作確認
2) R言語の基本操作
1) Introduction: The Aim of this course
2) Grouping
3) Installation of R-language and settings
4) R-Language: Basic operations
第2回 第1週後半 R言語によるプログラミング入門(講義と演習)
[1st week - 2nd half: First step to R-language programming ( Lecture and Exercise) ]
R言語によるプログラミング入門
Introduction to Programming by using R-language
第3回 第2週前半 アソシエーション・ルール(講義)
[2nd week - 1st half: Association Rule (Lecture) ]
1) アソシエーション・ルールの概要
2) 抽出されるルールの特徴
3) ルール抽出を抽出する方針、仕組み
1) Overlook: Association Rule
2) Characteristics of Extracted Rules
3) Apriori Algorithm
第4回 第2週後半 アソシエーション・ルール(演習)
[2nd week - 2nd half: Association Rule (Exercise)]
1) アソシエーション・ルール分析の実行
2) データ収集方法
3) トランザクション・データの作成
4) ルールの評価基準と選択
1) Execution: Association Rule Analysis
2) Data Collection
3) Transaction Data
4) Rule Mining
第5回 第3週前半 情報量分析
[3rd week - 1st half: Analyzing the amount of Information]
1) 情報量
2) 関連情報量
1) Amount of Infromation
2) Mutual Amount of Information
第6回 第3週後半 情報量分析(演習)
[3rd week - 2nd half: Analyzing the amount of Information (Exercise)]
情報量分析演習
Calculation: Amount of Information
第7回 第4週前半 クラスター分析(講義)
[4th week - 1st half: Cluster Analysis based on Amount of Information]
情報量分析によるクラスター分析
1) Introduction
2) Algorithm
第8回 第4週後半 クラスター分析(演習)
[ 4th week - 2nd half:Cluster Analysis based on Amount of Information (Exercise) ]
情報量分析によるクラスター分析(演習)
Execution: Cluster Analysis based on Amount of Information
第9回 第5週前半 コレスポンデンス分析(講義)
[5th week - 1st half: Correspondence Analysis]
1) 相関比
2) コレスポンデンス分析
1) Correlation ratio
2) Correspondence Analysis
第10回 第5週後半 コレスポンデンス分析(演習)
[5th week - 2nd half: Correspondence Analysis (Exercise)]
コレスポンデンス分析の実行と結果の解釈
Execution of Correspondence Analysis and Interpretation of results
第11回 第6週前半 決定木(講義)
[ 6th week - 1st half: Decision Tree ]
1) 決定木とは
2) 分類木と分岐の基準(カイ2乗値、ジニ係数、情報利得比)
3) 回帰木と分散比
4) 適用上の注意
5) 最終発表の準備
1) Intorduction: Decision Tree
2) Classification Tree and Partition Criterions
3) Regression Tree
第12回 第6週後半 決定木(演習)
[6th week - 2nd half: Decision Tree (Exercise)]
1) 決定木の実行
2) 枝刈りと停止基準
3) 交差検証法
4) 最終発表の準備をします。
1) Execution: Decision Tree Models
2) Pruning and Stopping Rules
3) Cross Validation
第13回 第7週前半 プロジェクト成果:最終報告会(1)
[7th week - 2nd half: Final presentation (1) ]
ミニ・プロジェクトの成果を発表するとともに報告書を作成します。
第14回 第7週後半 プロジェクト成果:最終報告会(2)
[7th week - 2nd half: Final presentation (2)]
ミニ・プロジェクトの成果を発表するとともに報告書を作成します。
第15回 ミニ・プロジェクトについてのレポート作成・提出
[Report on Mini Project]
15回目に相当するその他の授業計画
ミニ・プロジェクトについてのレポート作成・提出
Report on Mini Project