如何从美剧字幕中提取单词

2025-10-26 00:50:07

1、首先观察源文件,查找规律

我找到的规律是:

英文字幕结束后跟着一个“换行符”(我提前把标点符号 删及连续多个多余的换行符除了),然后是中文字散联幕,然后再一个“换行符”

如果我能够搜索 “任意英文字母沟仗”+“换行符”+任意0个或者多个字符+“换行符”,就可以定位文中的所有中文字幕,而且躲开英文字幕。

如何从美剧字幕中提取单词

2、下一步看如何实现上述想法。

查看 替换框内可以用哪些 特殊字符

注意:是否勾选“使用通配符”,可以使用的特殊字符是不一样的

因为中文字幕长度不确定,所以我必须要用到“*”这译荡伐个可以定位“0个或者多个任意字符”的功能,故要想实现上述构想,我只能勾选“使用通配符”

如何从美剧字幕中提取单词

3、但是勾选“使用通配符”后,特殊字符 内没有“段落标志”选项,即无法使用^P来查找文中的换行符……

进一步查找发现,在勾选“使用通配符”的情况下,可以使用^13来查找段落标志。

如何从美剧字幕中提取单词

4、构建搜索式

在查找框内输入如下公式:

[a-z]^13*^13

上式中“[a-z]”表示查找a-z中任意一个字符(英文都跑不出这26个字母)

“^13”表示换行符

“*”表示0个或者多个任意字符

“^13”表示换行符

完全满足以上组合次序要求的就是每一行中文字幕

用“空白”进行替换即可删除所有中文字幕,但是有个后遗症:最后一个单词的最后一个字母会被删除……

如何从美剧字幕中提取单词

5、解决上述问题的办法比较笨了,

用a 替换 [a]^13*^13

用b 替换 [b]^13*^13

用c 替换 [c]^13*^13

用d 替换 [d]^13*^13

用e 替换 [e]^13*^13

用f 替换 [f]^13*^13

用g 替换 [g]^13*^13

…………

以此类推

麻烦?可以用宏命令对上述重复性的步骤进行自动替换了

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢