Mathematica数据可视化：[23]文本处理实战2

2026-04-22 09:18:56

1、第一步文本数据的导入, 导入之前查看一下相关的属性, 总是一个不错的尝试. 可以看到直接可将整个文本按照 Text 格式导到系统中来, 尝试导入, 并且观察出现的问题.

2、你会发现, 导入的只是一堆乱码, 这种情况在我们处理文本的时候常常会遇到的, 如何去解决此类问题呢? 根本原因就在于源文件的字符编码和软件默认导入的编码并不相符, 这种情况下, 我们导入的时候需要设置导入时候所要用到的解码选项 CharacterEncoding . 现在再次导入, 就可以正确的导入文本数据了.

Mathematica数据可视化：[23]文本处理实战2

3、我们的这个例子的目的是想查找某个关键的词, 然后在整篇的文档之中将该词高亮显示出来. 怎么去做呢? 我们先来看看 text 是什么类型呢? 它是 String, 是属于原子的表达式. 考虑用 StringSplit 按照此关键词(比如微笑), 然后将 2个为一组分割(偏移为 1 ). 并且定义一个自定义的函数, 计算每个关键词出现的左边文本(20个字符)和右边文本：

Mathematica数据可视化：[23]文本处理实战2

4、我们将这个些内容组装起来, 你就会发现最后的结果, 将纯函数作用到每分组上, 关键字以蓝色字体突出显示.

Mathematica数据可视化：[23]文本处理实战2

5、一般而言, 我们在文本分析当中, 会编写很多脚本来进行分析过滤, 如果遇到有重用可能的代码, 不妨将其封装, 写成函数的形式, 以后再次处理类似的数据, 也会非常方便. 我们现在动手把上述的代码写成函数.

Mathematica数据可视化：[23]文本处理实战2

6、最后, 我们再玩一下这个文本的数据集合, 就结束本经验了. 显示"微笑'在整篇文章中的位置.

Mathematica数据可视化：[23]文本处理实战2

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。