如何在Java中将DOCX转换为PDF

自从在Microsoft Word 2003中引入DOCX格式以来，由于其易于编辑和深入的设计选择，DOCX格式一直在全球各地的办公室中享有很高的知名度。当涉及到兼容性，尤其是最终用户的查看一致性时，它的局限性开始显现出来。它的复杂性很快成为一种负担，兼容应用程序的不同版本会给您的艰苦设计带来意想不到的（通常是不幸的）后果。相反，无论设备，操作系统还是应用程序，PDF都具有无所不在的支持和无与伦比的一致显示保真度。不幸的是，要进行编辑时，PDF也不实用。

由于这些优点和缺点，在两种格式之间进行转换仍然非常必要，而且在许多情况下通常很关键。手动将少量DOCX文件转换为PDF格式可能很简单，但是当需要更自动的方法时，肯定不是这种情况。从程序角度看待这种转换，必须解决许多问题。

我们的主要问题是首先解析DOCX文件。主要原因是DOCX非常复杂。此格式的ECMA规范包括惊人的5,000页，并定期添加新功能。再一次，DOCX的选择深度成为一把双刃剑。另一个问题是DOCX文件实际上是包含多个元数据和文档文件的压缩存档。使用“ rels”对这些文件之间的关系进行排序当然不是一件容易的事。而且，我们甚至还没有解决将所有解析后的数据转换成最终PDF的问题。

让我们假设您没有开发时间或预算来从头开始研究整个过程。本教程将向您展示如何通过使用基于云的API来执行从DOCX到PDF的转换来解决这一难题。

我们还将介绍如何使用此API对DOCX文件执行搜索和替换操作。实际上，以编程方式对DOCX文件执行搜索和替换非常困难，因为它直接遇到了前面提到的解析问题。值得庆幸的是，我们的API也可以为我们执行此任务。将所有这些放在一起，将使我们能够利用DOCX的编辑功能轻松创建用于报告，发票，信件等的富文本模板，并通过搜索和替换填充它们，然后将它们转换为PDF格式。因此，我们可以利用DOCX的优势来弥补PDF中缺少编辑选项。

我们今天进行演示的主要目标是在转换中保持最大的保真度。重要的设计选择（如页面布局，表格和注释）将保持不变。话虽如此，让我们开始设置过程。

我们的第一步包括安装API客户端。让我们向我们的Maven POM文件添加一个存储库引用，如下所示：

<repositories>
    <repository>
        <id>jitpack.io</id>
        <url>https://jitpack.io</url>
    </repository>
</repositories>

在添加以下依赖项引用之后，这将允许Jitpack动态编译我们的库：

<dependencies>
<dependency>
    <groupId>com.github.Cloudmersive</groupId>
    <artifactId>Cloudmersive.APIClient.Java</artifactId>
    <version>v3.62</version>
</dependency>
</dependencies>

编译完库之后，我们现在可以将其实现到控制器中了。只需将这些导入命令添加到文件的开头即可。

// Import classes:
//import com.cloudmersive.client.invoker.ApiClient;
//import com.cloudmersive.client.invoker.ApiException;
//import com.cloudmersive.client.invoker.Configuration;
//import com.cloudmersive.client.invoker.auth.*;
//import com.cloudmersive.client.EditDocumentApi;

现在是时候调用我们的第一个函数了，在本例中为convertDocumentDocxToPdf。下面是一些示例代码，演示了如何构造此代码。

ApiClient defaultClient = Configuration.getDefaultApiClient();
// Configure API key authorization: Apikey
ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");
Apikey.setApiKey("YOUR API KEY");
// Uncomment the following line to set a prefix for the API key, e.g. "Token" (defaults to null)
//Apikey.setApiKeyPrefix("Token");

EditDocumentApi apiInstance = new EditDocumentApi();
ReplaceStringRequest reqConfig = new ReplaceStringRequest(); // ReplaceStringRequest | Document string replacement configuration input
try {
    byte[] result = apiInstance.editDocumentDocxReplace(reqConfig);
    System.out.println(result);
} catch (ApiException e) {
    System.err.println("Exception when calling EditDocumentApi#editDocumentDocxReplace");
    e.printStackTrace();
}

尽管不是特别复杂，但在此处遵循一些要求很重要：

有效的DOCX文档应用作我们的inputFile
必须从API实例调用我们的函数
使用可以从Cloudmersive网站免费获得的API密钥。该密钥是免费的，永久有效，将输入文件限制为4MB，并允许从任何Cloudmersive API进行1000次API调用。完成之后，我们就完成了DOCX to PDF的设置。如果进行测试运行，您将看到我们已经可以开始实时转换文档。

现在让我们转向使用DOCX模板创建富文本PDF文档的问题。搜索和替换是动态替换字段以填充这些模板的理想工具。对于单个搜索和替换操作，我们可以使用editDocumentDocxReplace，它将接受ReplaceStringRequest对象。它由一个inputFile（通过字节数组或URL），要搜索的matchString，replaceString和matchCase bool组成，后者确定是否考虑字母大小写。这是一些示例代码，您可以将其用作参考：

ApiClient defaultClient = Configuration.getDefaultApiClient();

// Configure API key authorization: Apikey
ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");
Apikey.setApiKey("YOUR API KEY");
// Uncomment the following line to set a prefix for the API key, e.g. "Token" (defaults to null)
//Apikey.setApiKeyPrefix("Token");

EditDocumentApi apiInstance = new EditDocumentApi();
ReplaceStringRequest reqConfig = new ReplaceStringRequest(); // ReplaceStringRequest | Document string replacement configuration input
try {
    byte[] result = apiInstance.editDocumentDocxReplace(reqConfig);
    System.out.println(result);
} catch (ApiException e) {
    System.err.println("Exception when calling EditDocumentApi#editDocumentDocxReplace");
    e.printStackTrace();
}

那么，如果您需要一次替换大量的字符串怎么办？不必重复调用前面提到的函数，我们可以改用editDocumentDocxReplaceMulti。此函数还接受一个请求对象，该对象包含一个单独的字符串替换请求的数组，每个请求都有自己的matchString和replaceString。这允许快速的字符串替换，使其在与DOCX模板结合使用时特别有用。例如，您可以通过单个函数实时地以诸如名称，地址和日期之类的值填充表单中的所有各个字段。

在该库中，您还可以找到用于标识和填充PDF表单字段，检索和编辑元数据，文件验证以及多种流行文件格式之间的转换的功能。

原文链接：http://codingdict.com

如何在Java中将DOCX转换为PDF

热门标签