Machine Learning Week01
Week 1
Supervised Learning 监督学习
- 分类问题 classification problem
- discrete output(0,1)
- features
- 特征无限多的时候可以用SVM支持向量机
- 回归问题 regression problem
- continuous output
- 分类问题 classification problem
Unsupervised Learning 无监督学习
clustering algorithm 聚类算法
dataset(no label) find structure;根据数据内部关系分类
E.g. 网站分类;基因分类;social network analysis;market segmentation;Astronomical data analysis
Cocktail party problem:混杂的声音中分离出两种声音
1
[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x')
*SVD: singular value decomposition 奇异值分解,求解线性方程
octave做原型,然后迁移到C或JAVA
Model and Cost Function 模型和成本函数
线性回归算法 linear regression
training set 训练集
m - 训练样本数
x - 输入变量
y - 输出变量
\((x^{i},y^{i})\) - i training example
\(\theta\) - Parameters
h - hypothesis,x映射到y的函数 :\(h_{\theta}(x)=\theta_0+\theta_1x\);缩写即\(h(x)\)
不一定都是线性方程
Cost Function 成本函数
度量函数拟合的程度
平方误差成本函数:适用于线性回归
Hypothesis: \[\min \limits_{\theta_0\theta_1}\frac {1}{2m}\sum \limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\]
Cost function: \[J(\theta_0,\theta_1)=\frac {1}{2m}\sum \limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\] ----- (Squared Error Function)
contour plot: 轮廓图;等高线图
Parameter Learning
Gradient descent 梯度下降算法
不断改变\(\theta\)使得J函数变小,得到局部最优点local optimum,convergence收敛
\[\theta_j:=\theta_j-\alpha\frac {\partial} {\partial \theta_j}J(\theta_0,\theta_j)\quad(for\ j=0\ and\ j=1)\]
\(\alpha\)是学习速率 learning rate
注意编程中的赋值后会覆盖,所以要桥接一下
partial derivatives 偏导数;derivatives 导数
不需要调整α因为导数值越来越小
Batch Gradient Descent 批量梯度下降:每step都用到全部的训练样本
高等线性代数:normal equations method正规方程,大数据时梯度下降更好用
Matrices and Vectors
- Matrix: rows*columns
- \(\mathbb{R} ^{2\times3}\) , \(A_{ij}\),
- Vector: n*1 matrix
- \(\mathbb{R}^4\)
- \(A\times B\ne B\times A\)
- Associative交换律
- Identity Matrix: \(I\), \(n\times n\)
- \(\begin{bmatrix}1&\cdots&0\\\vdots&\ddots&\vdots\\0&\cdots&1\end{bmatrix}\)
- \(A\cdot I=I\cdot A\)
- I = eye(2)
- Inverse 矩阵的逆:\(A(A^{-1})=A^{-1}A=I\)
- pinv(A)
- \(A_{m\times m}\)
- 0矩阵=奇异矩阵,没有逆矩阵的矩阵是奇异矩阵
- 高斯消元法求逆:
- “某行乘以一个数后加到另一行”、“某两行互换位置”、“某行乘以某一个数”,这三种以行做运算的方法
- 行变换或列变换都可以
- 增广矩阵\(B=[A|I]=\begin{vmatrix} A_{11} & A_{12} & A_{13}&1&0&0 \\ A_{21} & A_{22}&A_{23}&0&1&0\\A_{31} & A_{32} & A_{33}&0&0&1 \end{vmatrix} \Rightarrow \begin{vmatrix} 1&0&0&A_{11}^{'} & A_{12}^{'} & A_{13}^{'} \\0&1&0&A_{21}^{'} & A_{22}^{'} & A_{23}^{'}\\0&0&1&A_{31}^{'} & A_{32}^{'} & A_{33}^{'} \end{vmatrix}\)
- 待定系数法
- 伴随矩阵法$A^* \(,\)A^{-1}=$
- 将矩阵A元素\(a_{ij}\)所在的第i行j列元素划去后剩余元素按照原来顺序组成n-1阶矩阵所确定的行列式成为元素\(a_{ij}\)的余子式,记为\(M_{ij}\),称\(A_{ij}=(-1)^{i+j}M_{ij}\)为元素\(a_{ij}\)的代数余子式
- \(A^*\)的第i行j列元素为上面的\(A_{ij}\)
- LU分解法A=LU,\(A^{-1}=U^{-1}L^{-1}\)
- SVD分解法
- QR分解法
- Transpose 矩阵的转置:\(A^T\)