如何从美剧字幕中提取单词
1、首先观察源文件,查找规律
我找到的规律是:
英文字幕结束后跟着一个“换行符”(我提前把标点符号 删及连续多个多余的换行符除了),然后是中文字散联幕,然后再一个“换行符”
如果我能够搜索 “任意英文字母沟仗”+“换行符”+任意0个或者多个字符+“换行符”,就可以定位文中的所有中文字幕,而且躲开英文字幕。

2、下一步看如何实现上述想法。
查看 替换框内可以用哪些 特殊字符
注意:是否勾选“使用通配符”,可以使用的特殊字符是不一样的
因为中文字幕长度不确定,所以我必须要用到“*”这译荡伐个可以定位“0个或者多个任意字符”的功能,故要想实现上述构想,我只能勾选“使用通配符”

3、但是勾选“使用通配符”后,特殊字符 内没有“段落标志”选项,即无法使用^P来查找文中的换行符……
进一步查找发现,在勾选“使用通配符”的情况下,可以使用^13来查找段落标志。

4、构建搜索式
在查找框内输入如下公式:
[a-z]^13*^13
上式中“[a-z]”表示查找a-z中任意一个字符(英文都跑不出这26个字母)
“^13”表示换行符
“*”表示0个或者多个任意字符
“^13”表示换行符
完全满足以上组合次序要求的就是每一行中文字幕
用“空白”进行替换即可删除所有中文字幕,但是有个后遗症:最后一个单词的最后一个字母会被删除……

5、解决上述问题的办法比较笨了,
用a 替换 [a]^13*^13
用b 替换 [b]^13*^13
用c 替换 [c]^13*^13
用d 替换 [d]^13*^13
用e 替换 [e]^13*^13
用f 替换 [f]^13*^13
用g 替换 [g]^13*^13
…………
以此类推
麻烦?可以用宏命令对上述重复性的步骤进行自动替换了
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:182
阅读量:110
阅读量:80
阅读量:98
阅读量:123