こんにちは。ぽんぽこです。Schooで面白い授業があったのでメモφ(..)
東京大学名誉教授 松原望先生の統計学の講義です。朝早起きしてちょこちょこ見てます。
エンジニアのためのベイズ統計学(全10回)
この授業では、ベイズ統計学の基礎概念からはじまり、具体的な事例を元にExcelやRでの実演を交えながら企業・団体の情報システム管理・設計者、エンジニアの実務に活きる、教養としてのベイズ統計学を学びます。
初心者にもわかりやすいように説明されていますが、全体像を把握するにはうってつけでしょう。ちょっとでも統計分析に興味がある方は見ても損はないと思います。
まずはこんな感じで使うんだ〜というのを知ることから始めるのも大事なことですよね。興味が湧くことってすごく大切です。
わかりやすい動画なので仕事への応用のアイディアが湧いてくるかも・・・?
以下は10回分の授業の個人的なメモです。1つの授業は60分程なので気楽に見れました。(2倍速で見ると1つの授業は30分!)
この記事の内容は?
- 1 エンジニアのためのベイズ統計学
- 1.1 1限目:エンジニアのためのベイズ統計学-基本原理-
- 1.2 2限目:エンジニアのためのベイズ統計学-「スパム」情報をシャットアウト-
- 1.3 3限目:エンジニアのためのベイズ統計学-ワイン銘柄を当てる-
- 1.4 4限目:エンジニアのためのベイズ統計学-レコメンド機能-
- 1.5 5限目:エンジニアのためのベイズ統計学-人に優しい新薬開発とベイズ統計学-
- 1.6 6限目:エンジニアのためのベイズ統計学-カルマン・フィルタを用いる意思決定-
- 1.7 7限目:エンジニアのためのベイズ統計学-ベイジアン・ネットによる「人工知能」-
- 1.8 8限目:エンジニアのためのベイズ統計学-コンピュータによる「あいまい表現」-
- 1.9 9限目:エンジニアのためのベイズ統計学-ベイズの定理で勝つコンピュータ・ゲーム-
- 1.10 10限目:エンジニアのためのベイズ統計学-遺伝子のベイズ分析-
- 2 おわりに
エンジニアのためのベイズ統計学
1限目:エンジニアのためのベイズ統計学-基本原理-
こんな感じで進んでいきます。初回はかなり易しめの内容です。(ただし非常に重要!)
今回は基本原理の説明がメインです。難しい数式は全く無いです。
- 確率についての簡単な説明
- サイコロを例にした話
- 宝くじの話
- ベイズの定理とは?
- 定理の例を紹介 実際にエクセルで計算してみる
- 重要キーワード 事前確率 事後確率
- レコメンドへの応用 これも実際にエクセルで計算
質疑応答で特に面白かった質問はこれ。
- ベイズ主義派と頻度主義派の違いは?
2限目:エンジニアのためのベイズ統計学-「スパム」情報をシャットアウト-
2限目は興味ある人も多いのではないでしょうか。「スパムメール」や「スパムフィルタ」に関係した内容です。スパム情報をシャットアウトする技術とベイズ統計学の話です。
今回もエクセルでちょこっと計算します。ちなみにウイルスはスパムメールに含まれません。
- そもそもスパムメールとは?
- スパムフィルタとは?
- 広告・宣伝だから敵視は良くない?
- フィルタの仕組み原理を解説 (ベイズの定理と絡めて)
- ある言葉(返品や破格)がスパムとなる確率の説明 エクセルを使って計算
- スコア化について(スパム・スコア)
- 対数(log)についてのおさらい
- logを使えば掛け算が足し算として扱える
- スパム判定をエクセルでlogを使って計算
- 正常メールとスパムメールのスパム・スコアの分布から考える
- スパマーの対抗策とは
- 対抗策にフィルターの対抗策とは
馴染みのある内容だとイメージしやすいですね。
3限目:エンジニアのためのベイズ統計学-ワイン銘柄を当てる-
ワインの銘柄を数値情報から当てます。
分析方法としては、
- ベイズ統計学
- 多変量解析
- データマイニング
の3つを扱います。
流れはこんな感じです。
- 人工知能とソムリエについて 化学組成と感覚情報が結びつけば・・・
- ワインの組成はどうなっているか 例:アルコール/リンゴ酸・・・
- 今回は3つのワインの銘柄を当てる ネッビオーロ/バルベラス/グリニョリーノ
- 今回はこんな成分がある
- 分析方法の説明
- ベイズ線形判別分析(LDA)についての説明
- 例として植物のアヤメ(Iris)の品種判別についての説明
- エクセルを用いてアヤメの分析を説明(ベイズ)
- 次は多変量解析で分析してみる(R)
- ①線形判別分析
- ②クラスター分析
- ③データマイニング
- それぞれについて簡単にR上のグラフで説明
気になった質疑応答です。
- どの分析手法を選んで行くべきか
- クラスター分析と自己組織化マップの違い
4限目:エンジニアのためのベイズ統計学-レコメンド機能-
今回から実践編。身近な題材を取り扱います。まずはレコメンド機能(オススメ機能)からです。
ネットショップなどではよく見かける機能ですね。
授業の流れはこんな感じで進みます。
- レコメンドシステムの説明
- レコメンド機能が役に立ったこと/不都合だと思ったこと
- 機能説明:2つに分類される⇒ コンテンツベース/協調フィルタリング
- コンテンツベースの説明:数式を使わず棒を使った直感的な説明
- 協調フィルタリングの説明:アイテムベース型/ユーザーベース型
- レコメンドシステムと単純ベイズ分類について
- 具体的なデータを用いてエクセル上で解説
面白かった質問。
- 33332と22221に人は似ていると言えるか?(数値は一致しないけど、傾向は似ている・・・)
次回は薬の話。これに統計学がどう役立つかという内容です。
5限目:エンジニアのためのベイズ統計学-人に優しい新薬開発とベイズ統計学-
これまで
- 1,2,3限:概要
- 4限:レコメンド機能
ときて、今回は
- 5限:医薬開発
です。
医薬開発と統計学の関わりは深いですね。
今回の授業の流れは以下のような感じで進みます。
医療ITでも活躍したい人も知っておいた方が良い知識です。
- 医薬の大切さについて
- 薬の効能を測るとは? 医学/生化学/生物統計学/その他
- 最近の統計学の応用分野 マーケティング/医学・医薬/金融・投資/人工知能/その他
- みんなはどんな薬を飲んでる?
- 解熱鎮痛剤の典型例
- 医薬の条件は?効果があること、安全なこと、できれば高価でないこと
- 統計学による実験のデータ分析が欠かせない
- 治験段階での開発の進め方 フェーズ1/フェーズ2/フェーズ3
- 医薬の統計学演習 この新薬は効くか?
- エクセルで実践 エクセルの機能「データ分析」でt検定を行う
- マーカーの結果は正しいか?
- マーカーをベイズ統計学でやってみる
- 「適応的」臨床実験法
- 臨床実験で活躍するベイズ統計学
次回はカルマンフィルタでについての授業です。
6限目:エンジニアのためのベイズ統計学-カルマン・フィルタを用いる意思決定-
全10回の6回目です。折り返しです。
今回はGPSや自動車の自動運転に関する話ですね。リアルタイムで蓄積されるデータに対して統計学をどう使っているのかという話です。
用語的にはカルマンフィルタがメインです。
GPS自動運転や自動運転といったエンジニアリング的な話も多めです。
授業のメモです。こんな感じで進んでいきます。
- 周囲何もない海の上ではどのように位置を把握する?
- 鳥はどうして「渡り」の経路を知っているのか?鳥はGPSの天才
- 鳥なりの地図、天体の位置、磁気を感知、周囲の環境を観察
- 地球儀を用いて航路の最短距離の説明
- 最初のGPS=電波航行システム
- 双曲線
- GPS、NAVSTAR
- GPSの仕組みの解説
- 誤差もある、リアルタイムで処理も必要⇒カルマンフィルタ
- カルマンフィルタの説明
- ベイズの定理を適用
- 実際にカルマンフィルタをエクセルで適用
- 自動運転の開発レベル国際基準
- 自動運転はできる?大量のデータをリアルタイムで処理する必要がある
7限目:エンジニアのためのベイズ統計学-ベイジアン・ネットによる「人工知能」-
7限目はベイジアン・ネットによる「人工知能」についての講義です。
人工知能というキーワードから統計学に興味を持った方も多いのではないでしょうか。
シャーロック・ホームズはベイズ統計学を実践しているという話も。
授業の流れに沿ったメモです。
- 原因を推理する「ベイジアン・ネットワーク」
- むずかしい原因推理:身近な会話から
- ビッグデータの活用して原因を探る
- ベイズの定理を適用
- 原因と結果のネットワーク
- シャーロックホームズの数理的推理
- ホームズの推理を矢印で説明
- データがあれば診断もベイズの定理でAIに
- エクセルを用いて病気の原因の確率を求める
- 原因と結果の方向が分からない場合はどうする?
- 統計ソフトのRを使って、フィットの良いところを探して方向を決める
- 例:低体重児が生まれる原因
以上、原因と結果をビッグデータを分析(ベイジアンネット等)して有用な結論を導きだそうという講義でした。
次回は「あいまい表現」に関する話です。
8限目:エンジニアのためのベイズ統計学-コンピュータによる「あいまい表現」-
今回は「あいまい表現」です。ファジー論理とからめた内容です。
- ファジー論理とは?
- 曖昧な会話例をいくつか紹介
- 「論理」の説明
- ファジー論理の基礎
- ファジー理論の生活応用:ファジー洗濯機
- ファジー理論の生活応用:ファジー地下鉄運転(ファジー制御)
- メンバーシップ関数とファジー理論
- エクセルで具体例を解説
- 基礎評価と感情評価
9限目:エンジニアのためのベイズ統計学-ベイズの定理で勝つコンピュータ・ゲーム-
今回はゲームとベイズの定理についての話です。
- ゲームとは?遊びゲーム/社会ゲーム/戦略ゲーム
- ゲームの基礎とゲームの利得について
- 利得のマトリックス
- ゼロ・サム
- じゃんけんゲーム(バトル系):エクセル
- じゃんけんの数学的分析
10限目:エンジニアのためのベイズ統計学-遺伝子のベイズ分析-
いよいよ最後の授業です。最後は遺伝子のベイズ分析についてです。
- DNAの説明
- 塩基、二重螺旋、細胞、染色体、T/A/G/C、RNA
- 暗号解読について
- 公開鍵暗号
- 生命の設計図=DNAの遺伝暗号
- ゲノムプロジェクト
- ベイズ統計学の応用
- 例:大腸がん vs 正常組織
- 遺伝子診断と遺伝子治療
おわりに
以上、全10回の講義(のメモ)でした。
様々な分野との統計学/ITの関わりを知ることができました!