xlsta进行lda分析

Sklearn文档-1.2 。线性和二次判别分析方法线性判别分析方法(判别_分析,线性判别分析)和二次判别分析方法(判别_分析 。

1、常用降维方法之PCA和LDAPCA本质上是以方差最大的方向作为主要特征,对每个正交方向上的数据进行“解耦”,即使它们在不同的正交方向上不相关 。方差最大的维度是主成分 。主成分分析是一种常见的线性降维方法 。高维数据通过线性投影映射到低维数据 。期望新特征的方差在投影维度上尽可能大,方差越大,特征越有效,生成的新特征之间的相关性越小 。

【xlsta进行lda分析】计算样本的协方差矩阵,然后将协方差矩阵分解成特征值 , 取最大n个特征值对应的特征向量构造投影矩阵 。再举个栗子:我们举个简单的例子来说明PCA的过程 。假设我们的数据集有10个二维数据(2.5,2.4),(0.5,0.7),(2.2,2.9),(1.9,2.2),(3.1 , 3.0),(2.3 , 2.7),(2,1.6),(1,

2、基于LDA主题模型的短文本分类VSM(向量空间模型)是信息检索领域最经典的分析模型之一 。短文本采用VSM模型 , 即每个短文本表示为一个向量,向量的值用TF-TDF表示 。给出了符号的一些定义:短文本集SD = {sd1,sd2 , ...,sdM}},m为短文本总数 , 叙词表V = {v1,V2,... , VN},n是字数 。短文本sdi∈SD的向量表示为V (I) = (W (I) 1,w(i)2,...,w(i)N),其中w(i)k是单词vk∈V在sdi中的权重,通常用TF-IDF表示,tfki代表vk 。

3、潜在狄利克雷分配(LDALatent Dirichlet Assignment(LDA)作为基于贝叶斯学习的主题模型,是Blei等人在2002年提出的潜在语义分析和概率潜在语义分析的扩展 。LDA广泛应用于文本数据挖掘、图像处理、生物信息处理等领域 。LDA模型是文本集生成的概率模型 。假设每个文本由主题的多项式分布表示,每个主题由单词的多项式分布表示 。特别地,假设文本的主题分布的先验分布是狄利克雷分布,主题的词分布的先验分布也是狄利克雷分布 。

LDA的文本集的生成过程是:首先随机生成一个文本主题分布,然后根据文本的主题分布在文本的每个位置随机生成一个主题,再根据主题的单词分布在那个位置随机生成一个单词,直到文本的最后一个位置,生成整个文本 。重复上述过程,生成所有文本 。LDA模型是一种带有隐藏变量的概率图模型 。在模型中,每个话题的词分布、每个文本的话题分布、文本每个位置的话题都是隐变量;文本中的每一个平民词汇都是一个观察变量 。

    推荐阅读