很多时候我们发现,明明PDF文件是扫描版的,却可以复制其中的文字(偶尔会有错字),这是怎么回事呢?原来这是PDF制作的一种技术,叫“双层PDF”。

双层pdf-编程知识网

双层pdf 

双层PDF格式文件是一种具有多层结构的PDF格式文件,是PDF文件衍生的一种文件,文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件,包含图像层),且其位置上下一一对应。制作过程中,资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别上层是原始图像,下层是识别结果,然后可以直接生成可以检索的PDF文件。这样既可以100%保留原始版面效果,又便于建立索引数据库,进行科学的管理。

参考:双层pdf_百度百科


双层PDF格式文件一般有两种格式的,一、图像型的,可以通过OCR软件经过去污、纠偏和OCR识别,然后再通过制作双层PDF软件直接生成可以检索的双层PDF文件;二、文本型的,最常见的WORD转双层PDF文件,先将WORD文件转成单层的PDF文件,再将单层的PDF文件转成图像文件,然后通过OCR软件OCR识别,然后再通过制作双层PDF软件直接生成可以检索的双层PDF文件。 

参考:双层pdf制作方法与步骤(看这篇就够了)-南闲生活网