机器学习——单词计数向量
1、在用sklearn实现单词计数向量之前,下面先简单介绍一下相关知识。
2、让机器代替人力,关键是创建词的表征,该表征可以获取词义、语义关系和不同的上下文种类。
3、表征可以通过词嵌入和数值表征来完成。
4、其中词嵌入就是将文本转换成数字。转换方法不同,数值表征的形式也不同。
5、机器需要数字作为输入,才能执行分类回归这样的任务。然而文本中蕴含着海量的数据,因此我们有必要从中提取出有用的东西,并创建应用。
6、单词向量计数就是基于频率的词嵌入。
7、一稍僚敉视个包含D篇文档{D1,D2…..DD}的语料库C,包含有N个不同的单词。这N个单词就组成了词典。计数向量矩阵M的形状是D x N。矩阵M的每一行,是单词出现在D(i)中的频率。
8、在了解了计数向量的相关知识后,下面开始用sklearn实现。
9、导入相关模块如图示:
10、创建实验数据如图示:
11、实例化计数向量转化类,如图示:
12、将生成的数据转化稀疏矩阵类型,如图示:
13、使用接口get_feature_names可以查看每个不重复的单词背作为索引,如图示:
14、查询结果如图示:
15、为了更加直观的观察的数据,将稀疏矩阵转换为array,如图示:
16、转换之后的结果如图示:
17、以上就是单词计数向量在sklearn中的实现。
18、在单词计数向量中,会存在者一些不是很重要但是在文章中出现的次数有比较频繁的词,在后欹爸葛端续对模型训练数据会产生较大的影响。因此一般不会采用单词计数向量。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:81
阅读量:86
阅读量:28
阅读量:88
阅读量:36