查看原文
其他

语料库技术 | 语料降噪(干货收藏!)

黄书婷 翻译技术教育与研究
2024-09-09


01案例描述

在构建语料库的过程中,我们常常会发现收集到的语料有着众多格式问题,这时候就需要进行语料降噪,又称语料清理。语料降噪是指消除语料中多余的字符或影响语料对齐的字符、公式、图表等,以提高语料库统计分析的效用。最常见的问题包括语料中多余的空行、多余的空格、全半角标点转换及非正常断行等,如图1、2所示。

图1 多余空格、空行、全半角标点混用


图2-2 多余空格、非正常断行

02解决方案
工具一:Word

工具描述:

Word的强大降噪功能体现在“查找和替换”中的“特殊格式”上。在语料降噪实践中,最常见的“特殊符号”为段落标记(^p)、手动换行符(^l)、任意字符(^?)、任意数字(^#)、任意字母(^$)等。


具体实践:

  1. 删除多余空行

    1. “查找和替换”功能

    2. 在“查找内容”里点击特殊格式→段落标记(P)或直接输入^p

    3. 在“替换为”保留空白

    4. 点击替换,重复这一步骤直至没有多余空行

图3 使用word删除多余空行

  1. 删除多余空格:

    1. 在“查找内容”里输入两个空格

    2. 在“替换为”里输入一个空格

    3. 点击替换,重复这一步骤直至没有多余空行

    4. 注意*中英文文本不同,英文文本保留一个空格,中文文本不保留空格

图4 使用word删除多余空格

  1. 全半角标点符号混用:

    1. 首先选中“搜索选项”内“区分全/半角”

    2. 在“查找内容”里输入中文输入法下的标点

    3. 在“替换为”里输入英文输入法下的标点

    4. 点击替换,若需半角符号转为全角符号,则“查找内容”和“替换内”对调

    图5 点击“区分全/半角”


图6 从全角标点符号转为半角标点符号



工具二:EmEditor等文本编辑器+正则表达式


更多时候,我们需要处理的是txt格式文件,这时候就需要使用如Emeditor或者Editpad Pro等文本编辑器来清理语料。


工具描述:

EmEditor是一款功能非常强大的文本编辑器,具备文本检索、降噪、分割、合并、对比、提取等功能,同时语料速度处理快,软件简洁大方,没有绑定的付费项目。


图7 EmEditor安装界面



正则表达式”是什么?一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为"元字符"),通常被用来检索、替换符合某个模式/规则的文本


具体实践:

  1. 删除多余空格/解决全半角标点混用问题

    1. 导入txt文件

    2. 点击“搜索”→“替换”

    3. 和word查找替换的步骤是一样的

图8 EmEditor的搜索替换界面


图9 删除多余空格/解决全半角标点混用问题




  1. 去除标点前的多余空格

    图10 标点前出现多余空格


    1. 在“查找”处输入\s+([[:punct:]])

    2. “替换”处输入\1

    3. 点击“替换”

    4. 这里要注意,不是所有标点前的空格都要删除,所以在查找替换的时候避免直接“替换全部”

图11 去除标点前的多余空格


图12 需要保留的空格


  1. 删除英文语料中的中文信息/中文语料中的英文信息

图13 英文语料中出现中文

    1. 在“查找”处输入[一-龟]+或[A-Za-z]+

    2. “替换”处留白

    3. 点击“全部替换”

图14 删除英文语料中的中文信息


  1. 删除多余空行/缩进

图15 多余的缩进、空行示意

    1. 在“查找”处输入^[\s\t\n]*

    2. “替换”处留白

    3. 点击“全部替换”

图16 删除多余的空行/缩进


图17 删除后效果示意图


  1. 非正常断行

当文本较为简单,只有一个段落中有非正常断行时的处理方法: 


图18 非正常断行示意


      在“查找”处输入\r\n

      “替换”处留白

      点击“全部替换”

    图19 删除非正常断行


    图20 删除后效果示意图


    当文本较为复杂,有两个以上的段落出现非正常断行时,如果直接输入\r\n替换,则会把所有段落变为一个段落,不符合我们的需求,这时候就要采用较为曲折的方法:

    1. 在“查找”处输入^\s+,“替换”处输入@@,点击“全部替换” ,这一步是为了保留段落标记(图21)

    2. 在“查找”处输入\r\n,“替换”处保留空白,这一步是为了删除非正常断行(图22)

    3. 现在两个段落合并为一个段落(图23)

    4. 在“查找”处输入@@,“替换”处输入“\r\n”,这一步是为了把原先的@@标记替换为换行符,实现换行(图24)

    5. 最终成果如图25所示

    图21把行首的空白符换成自己的符号@@


    图22 删除非正常断行


    图23 删除所有非正常断行后,两个段落合并为一


    图24 删除@@,替换为换行符


    图25 最终成果


    1. 语法纠错

      1. 在打开的文本页面上单击右键

        选择进行拼写检查

      图26 打开EmEditor的拼写检查


      工具三:大语言模型


      图27 待解决的问题:标点前的多余空格


      Prompt

      中文:“将文本中的全角标点转化为半角标点,去掉多余空格”

      英文:in the following passage, please change full-angle marks into half-angle ones and delete any unnecessary space

      1. 文心一言

      图28 文心一言的处理效果

      1. Perplexity


      图29 Perplexity的处理效果




      大数据模型的不足:字数限制、无法批量处理;不同的大数据模型有着不同的文件格式限制


      图30 文心一言的文档要求


      图31 Perplexity的文档要求


      总结:在构建语料库的过程中,语料清理是个较为繁琐枯燥却又必不可少的流程。虽然可用的工具有很多,如word,文本编辑器+正则表达式调整,又或是大语言模型一步到位,但为了谨慎起见,还要对文本进一步观察,看有没有“漏网之鱼”。总之,语料的加工是一项非常细致的工作,也是建设语料库,进行语料库研究的基础性工作。语料加工的越精细,将会为后期的数据统计和分析提供可行的依据,减少误差。


      03参考资源

      《语料库与翻译》管新潮、陶友兰著,复旦大学出版社。

      https://zhuanlan.zhihu.com/p/580795277

      https://zhuanlan.zhihu.com/p/580795298

      EmEditor中文版官网下载链接:https://zh-cn.emeditor.com/


      特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


      原创来源:北外CAT课程-语料库技术-2024春-小组成员:曹瑞恩 卓书妙 黄书婷

      推文编辑:李丹

      审核:陈毅强  陈杲


      文章推荐:


      收藏|翻译专业学生翻译技术学习推荐书目

      【01】听说Perplexity改变外语教育?你会用吗?

      【02】Microsoft Office和WPS中大语言模型插件初探

      【03】国内大语言模型对比——基于翻译问题或翻译案

      【04】教你如何使用 Copilot 

      【05】ChatGPT 和 Gemini 达到专八水平了吗?

      【06】国外主流翻译APP

      【07】国内主流翻译APP工具

      【08】在Trados中利用TM做预翻译

      【09】平行语料库在口译实践中的应用

      【10】语料库探索之语料对齐及分词赋码

      【11】语料处理之语料采集与清洗 

      【12】如何创建应用于Trados的术语库?

      【13】如何使用Trados建立翻译记忆库?

      【14】国内外常见语料工具一览

      【15】翻译人员不容错过的5个权威术语库

      【16】国内外常见CAT工具一览

      【17】AntConc简介及索引工具介绍(一)

      【18】Quicker使用技巧

      【19】Everything:一款“秒”搜文件的神器

      【20】Sketch Engine探索第一弹来袭!

      【21】LancsBox:语料库研究者的必备工具

      【22】TermWiki:术语检索利器

      【23】ABBYY FineReader PDF:文档识别小帮手

      【24】ChatGPT + Word = 高效办公

      【25】如何利用聊天机器人制作双语术语表

      【26】 ChatGPT在译前准备中的应用——术语准备

      【27】投喂语料,提升译文质量

      【28】(一)结合ChatGPT的译前编辑初探

      【29】ChatGPT最新接入word方法(完美debug)

      【30】AI外语写作助手,助力高效写作

      【31】探索ChatGPT在翻译过程中的应用

      【32】中科院学术优化本地部署


      如您喜欢我们的内容,欢迎您点赞、在看、转发,更多问题可后台留言小编哦



      资讯推荐


      WordSmith Tools语料处理软件简介


      点个关注再走吧

      继续滑动看下一个
      翻译技术教育与研究
      向上滑动看下一个

      您可能也对以下帖子感兴趣

      文章有问题?点此查看未经处理的缓存