Mathematica数据可视化:[23]文本处理实战2
1、第一步文本数据的导入, 导入之前查看一下相关的属性, 总是一个不错的尝试. 可以看到直接可将整个文本按照 Text 格式导到系统中来, 尝试导入, 并且观察出现的问题.
2、你会发现, 导入的只是一堆乱码, 这种情况在我们处理文本的时候常常会遇到的, 如何去解决此类问题呢? 根本原因就在于源文件的字符编码和软件默认导入的编码并不相符, 这种情况下, 我们导入的时候需要设置导入时候所要用到的解码选项 CharacterEncoding . 现在再次导入, 就可以正确的导入文本数据了.
3、我们的这个例子的目的是想查找某个关键的词, 然后在整篇的文档之中将该词高亮显示出来. 怎么去做呢? 我们先来看看 text 是什么类型呢? 它是 String, 是属于原子的表达式. 考虑用 StringSplit 按照此关键词(比如 微笑), 然后将 2个为一组分割(偏移为 1 ). 并且定义一个自定义的函数, 计算每个关键词出现的左边文本(20个字符)和右边文本:
4、我们将这个些内容组装起来, 你就会发现最后的结果, 将纯函数作用到每分组上, 关键字以蓝色字体突出显示.
5、一般而言, 我们在文本分析当中, 会编写很多脚本来进行分析过滤, 如果遇到有重用可能的代码, 不妨将其封装, 写成函数的形式, 以后再次处理类似的数据, 也会非常方便. 我们现在动手把上述的代码写成函数.
6、最后, 我们再玩一下这个文本的数据集合, 就结束本经验了. 显示"微笑'在整篇文章中的位置.
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:40
阅读量:157
阅读量:111
阅读量:149
阅读量:175