Machine Learning Week01

Week 1

  1. Supervised Learning 监督学习

    • 分类问题 classification problem
      • discrete output(0,1)
      • features
      • 特征无限多的时候可以用SVM支持向量机
    • 回归问题 regression problem
      • continuous output
  2. Unsupervised Learning 无监督学习

    • clustering algorithm 聚类算法

      • dataset(no label) find structure;根据数据内部关系分类

      • E.g. 网站分类;基因分类;social network analysis;market segmentation;Astronomical data analysis

      • Cocktail party problem:混杂的声音中分离出两种声音

        1
        [W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x')

        *SVD: singular value decomposition 奇异值分解,求解线性方程

        octave做原型,然后迁移到C或JAVA

  3. Model and Cost Function 模型和成本函数

    • 线性回归算法 linear regression

      • training set 训练集

      • m - 训练样本数

        x - 输入变量

        y - 输出变量

        \((x^{i},y^{i})\) - i training example

        \(\theta\) - Parameters

        h - hypothesis,x映射到y的函数 :\(h_{\theta}(x)=\theta_0+\theta_1x\);缩写即\(h(x)\)

        不一定都是线性方程

    • Cost Function 成本函数

      • 度量函数拟合的程度

      • 平方误差成本函数:适用于线性回归

        Hypothesis: \[\min \limits_{\theta_0\theta_1}\frac {1}{2m}\sum \limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\]

        Cost function: \[J(\theta_0,\theta_1)=\frac {1}{2m}\sum \limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\] ----- (Squared Error Function)

        contour plot: 轮廓图;等高线图

  4. Parameter Learning

    • Gradient descent 梯度下降算法

      不断改变\(\theta\)使得J函数变小,得到局部最优点local optimum,convergence收敛

      \[\theta_j:=\theta_j-\alpha\frac {\partial} {\partial \theta_j}J(\theta_0,\theta_j)\quad(for\ j=0\ and\ j=1)\]

      \(\alpha\)是学习速率 learning rate

      • 注意编程中的赋值后会覆盖,所以要桥接一下

      • partial derivatives 偏导数;derivatives 导数

      • 不需要调整α因为导数值越来越小

      • Batch Gradient Descent 批量梯度下降:每step都用到全部的训练样本

      • 高等线性代数:normal equations method正规方程,大数据时梯度下降更好用

Matrices and Vectors

  1. Matrix: rows*columns
    • \(\mathbb{R} ^{2\times3}\) , \(A_{ij}\),
  2. Vector: n*1 matrix
    • \(\mathbb{R}^4\)
  3. \(A\times B\ne B\times A\)
  4. Associative交换律
  5. Identity Matrix: \(I\), \(n\times n\)
    • \(\begin{bmatrix}1&\cdots&0\\\vdots&\ddots&\vdots\\0&\cdots&1\end{bmatrix}\)
    • \(A\cdot I=I\cdot A\)
    • I = eye(2)
  6. Inverse 矩阵的逆:\(A(A^{-1})=A^{-1}A=I\)
    • pinv(A)
    • \(A_{m\times m}\)
    • 0矩阵=奇异矩阵,没有逆矩阵的矩阵是奇异矩阵
    • 高斯消元法求逆:
      • “某行乘以一个数后加到另一行”、“某两行互换位置”、“某行乘以某一个数”,这三种以行做运算的方法
      • 行变换或列变换都可以
      • 增广矩阵\(B=[A|I]=\begin{vmatrix} A_{11} & A_{12} & A_{13}&1&0&0 \\ A_{21} & A_{22}&A_{23}&0&1&0\\A_{31} & A_{32} & A_{33}&0&0&1 \end{vmatrix} \Rightarrow \begin{vmatrix} 1&0&0&A_{11}^{'} & A_{12}^{'} & A_{13}^{'} \\0&1&0&A_{21}^{'} & A_{22}^{'} & A_{23}^{'}\\0&0&1&A_{31}^{'} & A_{32}^{'} & A_{33}^{'} \end{vmatrix}\)
    • 待定系数法
    • 伴随矩阵法$A^* \(,\)A^{-1}=$
      • 将矩阵A元素\(a_{ij}\)所在的第i行j列元素划去后剩余元素按照原来顺序组成n-1阶矩阵所确定的行列式成为元素\(a_{ij}\)的余子式,记为\(M_{ij}\),称\(A_{ij}=(-1)^{i+j}M_{ij}\)为元素\(a_{ij}\)的代数余子式
      • \(A^*\)的第i行j列元素为上面的\(A_{ij}\)
    • LU分解法A=LU,\(A^{-1}=U^{-1}L^{-1}\)
    • SVD分解法
    • QR分解法
  7. Transpose 矩阵的转置:\(A^T\)