从PDF转换到HTML5的三种方法,你用过吗?


发布者 AprilJ  发布时间 1445181856741
关键字 Html5 

1、把PDF字体转换为web字体和可选择的文本

如果你想让文本是可选的,有两种方法可以实现它。第一种方法是把PDF字体转换为Web浏览器的兼容字体,并使用可用的字体得到HTML文本。虽然这是一个很平常的过程,PDF文件格式没有包含浏览器兼容的字体,有很多的注意事项会让精确地转换字体变为一个噩梦。这就是为什么很少看见PDF文件到HTML格式转换的工具能保留字体的原因。

除此之外,PDF文件格式以非常简洁的方式对文本大小,定位和字距调整都有很好的控制。HTML并不是设计用来处理使转换文本变得困难的控制功能,更加精确的转换以及较大HTML文件的转换功能将会被保留。解决办法是在精确度的保留上面作出让步,平均间距超过一整行会比使用单个字符间距更佳。

2、把PDF字体转换为图形和类似图形的文本

如果你唯一的要求是视觉上的完美匹配,那么最好的选择是把PDF文件转换为图形,并输出为图像或者矢量图形。这样的好处是你能得到完美的视觉效果,然而该文件不会产生任何的包含文本。这对搜索引擎不好,也意味着不能够选择和复制或粘贴文

3、把PDF字体转换为图形和类似图形的文本,也会有看不见的真实文本来允许文本选择

如果你需要完美的匹配和文本选择,可以通过写在外面的文字作为形状并把用于选择的看不见的文字层放在顶部来实现。这也意味着可见的文件将会非常完美,任何轻微的不准确的字体或真实的文本定位将会看不见。

有很多的方法可以实现这个功能,例如由于比起把真实的文字放在这里,上述的方法更容易实现,一甚至些工具建还立了它们自己的搜索引擎。其它一些工具使用真实的文本转换为正常的尺寸,然虽然并没有转换字体

你认为哪种是最好的呢?

在我们看来方法一是最好的,虽然它最困难,这就是为什么它最少见的原因了。这就是我们展示PDF到HTML5转换最喜欢的模式。如果你想了解更多,你可以试试我们免费的PDF与HTML的转换器,或者找到更多的关于我们的信息并下载试用版。

本文翻译自blog.idrsolutions.com