最大似然估计-机器学习原理

给定随机变量的分布和未知参数，利用观测到的样本计算似然函数。

选择最大似然函数的参数作为参数的估计量。

最大似然估计的基本原理：极大化似然函数

假设样本{$$X_1,X_2,...X_n$$}服从概率密度函数$$f_\theta(x)$$,其中$$\theta=(\theta_1,\theta_2,....\theta_k)$$是未知参数。

当固定x的时候，$$f_\theta(x)$$就是$$\theta$$的函数，我们把这个函数称为似然函数，记做$$L_x(\theta)$$

似然函数不是概率，是概率密度函数在x固定时候，$$\theta$$的可能性的函数。[^1]

假设$$x = (x_1,.....x_n)$$是样本的观测值，呢么整体样板的似然函数就是：

$$L_x(\theta)=\coprod_{i=1}^{n} L_{x_i}(\theta)$$

这是一个关于$$\theta$$的函数，选取是的$$L_x(\theta)$$的最大化的$$\theta^{'}$$作为$$\theta$$的估计量。

最大化似然函数，相当于最大化似然函数的对数$$lx(\theta)=ln(Lx(\theta))$$,一般我们求解似然函数或者对数似然函数的驻点的方程

$$\frac{\mathrm{d} l_x(\theta))}{\mathrm{d} \theta}=0$$或者$$\frac{\mathrm{d} L_x(\theta))}{\mathrm{d} \theta}=0$$ 由于$$L_x(\theta)$$中包含连乘，转化对数好求解。

然后判断整个驻点是否是最大点（求解驻点可以采用牛顿法或者梯度下降法）。

机器学习原理