word2vec-机器学习原理

机器学习原理

Word2Vec简介

Word2vec是一个用于处理文本的双层神经网络。它的输入是文本语料，输出则是一组向量：该语料中词语的特征向量。虽然Word2vec并不是深度神经网络，但它可以将文本转换为深度神经网络能够理解的数值形式。

Word2vec的应用不止于解析自然语句。它还可以用于基因组、代码、点赞、播放列表、社交媒体图像等其他语言或符号序列，同样能够有效识别其中存在的模式。

为什么呢？因为这些数据都是与词语相似的离散状态，而我们的目的只是求取这些状态之间的转移概率，即它们共同出现的可能性。所以gene2vec、like2vec和follower2vec都是可行的。

Word2vec的目的和功用是在向量空间内将词的向量按相似性进行分组。它能够识别出数学上的相似性。Word2vec能生成向量，以分布式的数值形式来表示词的上下文等特征。而这一过程无需人工干预。

给出足够的数据、用法和上下文，Word2vec就能根据过去经验对词的意义进行高度准确的预测。这样的预测结果可以用于建立一个词与其他词之间的联系（例如，“男人”和“男孩”的关系与“女人”和“女孩”的关系相同），或者可以将文档聚类并按主题分类。而这些聚类结果是搜索、情感分析和推荐算法的基础，广泛应用于科研、调查取证、电子商务、客户关系管理等领域。

Word2vec神经网络的输出是一个词汇表，其中每个词都有一个对应的向量，可以将这些向量输入深度学习网络，也可以只是通过查询这些向量来识别词之间的关系。

Word2vec衡量词的余弦相似性，无相似性表示为90度角，而相似度为1的完全相似则表示为0度角，即完全重合

机器学习原理

Word2Vec简介

神经网络与深度学习

机器学习实战

吴恩达cs229

Lua编程入门

Linux命令大全搜索工具

写给人类的机器学习