查看原文
其他

案例演示 | PDF双语文档转换成XLS表格形式

曹瑞恩 翻译技术教育与研究
2024-09-09



1.1纯文字文档

对于纯文字文档,无论内容如何排版(双语双侧对照、一段中文一段英文对照、整篇中文整篇英文对照),首先删除不需要的信息,包括脚注、页码、标题、注释等。这一步可以通过PDF编辑器来完成(Adobe、WPS等),也可以转换后再删除无关信息,但这样会影响转换的正确率。因此建议先删除无用信息再进行转化。



1.1.1左右两栏对照的双语文本

图1-1包含无关内容的左右两栏对照的双语文本


在该案例中,转换使用的软件为Adobe Acrobat,这是一款功能十分强大的软件,可对PDF进行多种处理。Adobe可在Mac系统和Windows系统上使用,但由于目前只能集体购买软件,个人可以在网上找到绿色版本,便足以满足需求(涉及保密内容慎用)!


首先,用Adobe打开要转换的PDF文件,在右侧工具栏选择“导出PDF”。


图1-2在Adobe中选择“导出PDF”


接着直接选择第二个文件类型,便可得到XLS文件,可用Excel直接打开。

图1-3选择导出第二个文件格式


获得的文件在Excel打开如图。这时的XLS文件几乎和原文格式一致,只需修改表格名称和文件名称即可,便可作为一个单机小型语料库。


图1-4转换后的XLS文件


但要注意,XLS文件中可能有一些地方中英文并不对应,例如,本该在一个单元格的内容分成了多个单元格,这时只需把内容全部复制到一个单元格中,删除多余的行便可得到格式正确的文档。


注意:不能合并单元格,合并单元格后下面单元格的信息会被覆盖,所以只能手动复制内容再删除多余的行。


图1-5转换后的文件出现中英文不对应的问题


图1-6手动调整格式


对于该案例类型的文本,可用任何一款PDF处理器转换成XLS表格形式,而不仅限于Adobe,也可尝试在线文件转换器和大数据模型(ChatGPT等)。

Adobe的优点:处理速度快、步骤简单、(破解版)便宜

Adobe的缺点:对原文档格式要求较高、产出的文档可能会有不对齐的情况,需要手动调整。



1.1.2一段中文一段英文对照的双语文本

如果是这类型的源文件,直接转换为XLS表格形式,效果可能不佳,后续处理会很麻烦。


图1-7段落上下对照的PDF文档直接转换为XLS文档


因此,一个笨拙的办法是先把PDF转换成Word文档,进而利用Word自带的“文字转表格”功能,转换为Word中的表格形式,进而转回PDF文档再转成XLS表格形式。PDF转Word文档方法与1.1.1中转成XLS文档类似,只需在格式转换时选择“Word文档”即可。


在Word中,利用自带的“文字转表格”功能把内容转成表格的形式。先选择要转换的内容,然后“插入——表格——文字转表格”。


图1-8 word自带的“文字转表格”功能


设置好转换成表格的格式。


图1-9设置转换后的表格形式


但是转换成表格后,也会出现格式不正确的问题,这是由于原文的格式没有处理好(即从PDF转换而成的Word没有正确分段)。所以在使用“文字转换成表格”功能前,需要手动整理原文格式,建议删除空行,否则空行会被识别为一段。


图1-10转换后的表格格式不对应


图1-11未删除空行的情形


图1-12正确处理后的表格形式


然后把该Word文档转换成PDF文档,再转换成XLS表格形式。

优点:不需要额外多余的软件,只需一个PDF编辑器

缺点:麻烦、费事、消耗人工、更多适用于较短且原文格式良好的文本




1.1.3整篇中文整篇英文对照的双语文本

对于这类型的文本,直接分别把中英文复制到Excel表格中即可建立XLS表格形式文件,但需注意原文的格式正确,包括段落正确分段,没有空行。

优点:简单、不需要额外软件

缺点:对原文格式要求高、内容过多时可能不容易操作



1.2包含图片等多样形式的复杂文本

对于同时有图片、公式、脚注等的复杂文本,例如学术论文等,需要借助更专业和高级的PDF文档处理器。这里介绍的是ABBYY FinerReader PDF,但该软件是付费软件,有7天、100页的免费试用版,同时有Mac和Windows系统版本。(案例展示的为Windows系统版本,且原文本为复杂的段度对照双语文本)


图1-13在ABBYY中打开PDF文件



图1-14打卡界面


在左侧的页面管理中,右键单击页面,选择分析页面,软件可以分析划分当前页面的区域,包括文字区域、表格区域、图片区域等。


图1-15选择“分析页面”


图1-16 “页面分析”后的视图


分析页面后,每一页的不同区域都用不同颜色标注,绿色一般为文字区域,红色一般为图片区域。右键单击图片区域,选择删除,便可将图片区域删除(为选中),只留些文字区域。


图1-17只保留文字区域



留下全部所需文字区域后,便可导出文件。由于案例中的文本为段落对照的复杂文本,因此先导出为Word文档,再用1.1.2中的方法转换成XLS表格形式。


图1-18保存导出文档


如果原文档本身含有所需的表格,便可以选择删除其他区域,保留表格区域,然后直接导出为XLS表格文件。


关于把PDF双语文档转换成XLS表格形式的文档,还可以借助大数据模型,例如ChatGPT 4.0,上传源文件,说明要求,便可获得想要的文档格式。但是,目前大多数可(免费)获取的大数据模型都不具备这一功能,不能直接把PDF文件转为XLS表格文件,但可以把PDF文件中的内容提取进行分列,我们可以手动复制粘贴到Excel表格中,以此形成XLS表格文件。


例如,借助Perplexity,我们把PDF文件内容提取出来,分成两列,然后手动复制粘贴到Excel表格中。


Prompt:Can you transform this file into a xls document with Chinese and English put in two columns separately and with each paragraph occupying one unit?


图1-19利用Perplexity提取PDF文档内容并分列


特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

原创来源/原创作者:北外CAT课程-语料库技术-2024春-小组成员:曹瑞恩  卓书妙  黄书婷

推文编辑:仇旻鸿

审核:程海东  代霄彦


文章推荐:


收藏|翻译专业学生翻译技术学习推荐书目

【01】听说Perplexity改变外语教育?你会用吗?

【02】Microsoft Office和WPS中大语言模型插件初探

【03】国内大语言模型对比——基于翻译问题或翻译案

【04】教你如何使用 Copilot 

【05】ChatGPT 和 Gemini 达到专八水平了吗?

【06】国外主流翻译APP

【07】国内主流翻译APP工具

【08】在Trados中利用TM做预翻译

【09】平行语料库在口译实践中的应用

【10】语料库探索之语料对齐及分词赋码

【11】语料处理之语料采集与清洗 

【12】如何创建应用于Trados的术语库?

【13】如何使用Trados建立翻译记忆库?

【14】国内外常见语料工具一览

【15】翻译人员不容错过的5个权威术语库

【16】国内外常见CAT工具一览

【17】AntConc简介及索引工具介绍(一)

【18】Quicker使用技巧

【19】Everything:一款“秒”搜文件的神器

【20】Sketch Engine探索第一弹来袭!

【21】LancsBox:语料库研究者的必备工具

【22】TermWiki:术语检索利器

【23】ABBYY FineReader PDF:文档识别小帮手

【24】ChatGPT + Word = 高效办公

【25】如何利用聊天机器人制作双语术语表

【26】 ChatGPT在译前准备中的应用——术语准备

【27】投喂语料,提升译文质量

【28】(一)结合ChatGPT的译前编辑初探

【29】ChatGPT最新接入word方法(完美debug)

【30】AI外语写作助手,助力高效写作

【31】探索ChatGPT在翻译过程中的应用

【32】中科院学术优化本地部署


如您喜欢我们的内容,欢迎您点赞、在看、转发,更多问题可后台留言小编哦



资讯推荐


如何将TMX文本转换成txt或word里表格形式或一一对应


点个关注再走吧

修改于
继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存