dackdive's blog

新米webエンジニアによる技術ブログ。JavaScript(React), Salesforce, Python など

UoPeople の MATH1280 Introduction to Statistics を履修した

University of the People の 3 term 目。今度から履修したコースの簡単なメモを残すことにした。
今期(2021-22 term3)は MATH1280 Introduction to Statistics を履修した。

成績は A。CS 1102 より良い...

f:id:dackdive:20220403215545p:plain f:id:dackdive:20220403215312p:plain

コース概要

このコースでは統計学の基礎を学ぶ。統計学というといくらか数学的な知識を必要とする印象があるが、このコース中では数式を使った説明は少なく、代わりにR言語を使ってサンプルデータから平均、分散などの統計量を求めたり、二項分布や正規分布を使ってさまざまな計算を行うなど、手を動かして概要を掴むことに重きがおかれている。

そのため、良い意味では小難しい数学的な話を抜きにして統計学に入門できるが、悪く言うと数学的になぜそうなるのか腹落ちしない部分もあるので、そのあたりもちゃんと理解したい人にとっては消化不良に感じるかもしれない。
(たとえば、二項分布や正規分布確率密度関数などは数式が一切出てこないので、平均や分散も「こういうものである」というふうに覚えるしかない)

具体的に、テキストの各章のトピックはこんな感じ。

  • Chapter 1: Introduction
    • 以下のキーワード
      • population: 母集団
        • an entire collection of persons
      • sampling, sample: 標本
      • statistic: 統計量
        • A statistic is a number that is a property of the sample
      • parameter: 母数
        • A parameter is a number that is a property of the population
    • R の概要
  • Chapter 2: Sampling and Data Structures
    • 度数 frequency、相対度数 relative frequency、累積相対度数 cumulative relative frequency
    • R
      • CSVファイルの読み込みと table
      • データ型 (numeric と factor)
  • Chapter 3: Descriptive Statistics
    • 記述統計 descriptive statistics
    • ヒストグラム
    • 平均 mean と中央値 median
    • 分散 variance、標準偏差 standard deviation
    • 四分位数 quartiles
    • 四分位範囲 interquartile range (IQR) = Q3 - Q1
    • 箱ひげ図 box plot
    • R
      • hist(table$height)
      • var(x), sd(x)
  • Chapter 4: Probability
    • 確率変数 random variable
    • 標本空間 sample space 確率変数が取りうる値の集合
    • (確率変数の) 期待値 expectation と分散 variance
    • R
      • summary(pop.1): データの min/max や Q1, Q3 などを見る
  • Chapter 5: Random Variables
    • 離散確率変数 discrete random variables と連続確率変数 continuous random variable
    • 二項分布 Binomial distribution
    • ポワソン分布 Poisson distribution
    • 一様分布 Uniform distribution
    • 指数分布 Exponential distribution
    • R
      • dbinom, pbinom
      • dpois, ppois
      • dunif, punif
      • dexp, pexp
  • Chapter 6: The Normal Random Variable
    • 正規分布 normal distribution
    • 標準正規分布 standard normal distribution
    • Z 値
    • 正規近似 Normal approximation
    • R
      • dnorm, pnorm, qnorm
  • Chapter 7: The Sampling Distribution

感想

このコースを受けるまでの統計学に関する知識は、以前↓の本を使った勉強会に参加したぐらいだった。

この本と内容的に重複する部分も多く、かつこの本に比べて数式の量は圧倒的に少ないので、数年前に学んだ知識を浅くではあるが振り返ることができたのはよかった。

ただまあ、やっぱり数学的になんでそうなるのかをちゃんと理解したかったなーという気持ちはあって、そこを自主的に学ぶ余裕がなかったのは残念。
受講してみて、やっぱり統計学は面白いなと思ったので、機会があればまた勉強したい。最近は無料でも良質な教材があるようなので。

これとか。

学習時間と難易度

前半 Unit 4 ぐらいまでは週 2,3 時間ぐらい、後半は週 5,6 時間ぐらいは使ってたように思う。Unit 5 で確率変数が登場したぐらいから難易度が格段に上がる感じ。

たしか Unit 4 の Learning Journal で「後半はもっと難しくなるから今までの倍くらいは勉強時間確保するように」みたいなこと書かれてたんだけどほんとにそうなった。

学習メモ

Chapter 3: Descriptive Statistics

f:id:dackdive:20220403224625p:plain

f:id:dackdive:20220403231932j:plainf:id:dackdive:20220403231933j:plain

Chapter 4: Probability

f:id:dackdive:20220403232716j:plainf:id:dackdive:20220403232722j:plain

Chapter 5: Random Variables

f:id:dackdive:20220403232727j:plain

Chapter 6: The Normal Random Variable

f:id:dackdive:20220403232732j:plain

f:id:dackdive:20220404000211j:plainf:id:dackdive:20220404000215j:plain

Chapter 7: The Sampling Distribution

f:id:dackdive:20220403232737j:plainf:id:dackdive:20220403232742j:plain