Mathematica数据可视化:[22]文本处理实战

2025-10-23 03:58:43

1、我们的目标是创建小说[爱丽斯漫游仙境]中单词频率的条形图, 所用数据集为软件自带(当然是英文) . 当然第一步就是将文本数据导入, 然后划分成单个的字符. 不过这里有个小技巧, 就是在导入之前, 先查看一下文本都有那些属性, 可以发现一个非常有帮助的属性 "Words" 格式导入, 这样做的话, 可以节省大量的自己来划分单词的时间了. 

Mathematica数据可视化:[22]文本处理实战

2、 在文本分析中,有一类符号,单词可以忽略, 符号包括句号、逗号,或者其它标点符号, 单词比如来讲:a, I,  and, of , to, they, the, it, you 等等, 因为他们通常没有什么信息, 称之为 停用词 (stop words), 现在我们定义一些符号和停用词来, 等会处理的时候, 先把符号类这些过滤掉. 

Mathematica数据可视化:[22]文本处理实战

3、再来将停用词删除, 看看结果如何, 会出现什互言么异常问题. 

Mathematica数据可视化:[22]文本处理实战

4、哇哦, 确实出现了一些问题, 原因在于某些单词中的 i 为当做人称代词的主格删除掉了. 怎么解决呢? 要把处理的过程稍微倒斤佛槐回去一点, 换种方法重新处理一下. 

Mathematica数据可视化:[22]文本处理实战

5、现在再从 temp2 中删除掉这些停用词. 请注意, 这里用的 DeleteCases 普通的模式处理函数蕉叮. 

Mathematica数据可视化:[22]文本处理实战

6、现在, 做一点统计的工作就可以进行绘图了. 当然观察图形之中还是出现了一些无意义的单词: she, was , 原因就是我们之前定义停用词的集合并未包含该词的原因, 不过这并不是重点, 我只是拿来说明问题. 

Mathematica数据可视化:[22]文本处理实战

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢