html转换为pdf问题及其解决方案
通过word模板转为pdf,经历过很多的技术探索。刚开始使用的是jacob这个插件,缺点是需要安装office,而且每次打开关闭word都很慢。后来改为使用itext+flyingsaucer,itext不支持css,flyingsaucer支持css2.1,使用起来也是特别不顺手,生成的pdf虽然快速,但是样式也是不尽如人意。最后,几经周折,选择了wkhtmltopdf这样一个跨平台的命令行工具,加上freemarker模板引擎,就可以实现从数据库获取数据填充模板,最终生成pdf和word格式的文件了,效率和最终生成的样式,都还算比较令人满意,主要的缺点就是需要再服务器上安装wkhtmltopdf这样一个程序,然后需要设置环境变量,使其能在多个目录下使用。下面主要介绍使用wkhtmltopdf中的坑。
1、” ”占半个汉字字符的问题。
这个问题也是听奇葩的,按正常的html解析来看 它叫不换行空格,全称No-Break Space,它是最常见和我们使用最多的空格,大多数的人可能只接触了 ,它是按下space键产生的空格。在HTML中,如果你用空格键产生此空格,空格是不会累加的(只算1个)。要使用html实体表示才可累加,该空格占据宽度受字体影响明显而强烈。经测试在宋体的情况下, 只占半个字符的宽度。所以有时候通过word生成的html中存在 时,生成的pdf会有错位的情况,这种情况,只需将一个 ,换成两个 就可以了。
2、通过word生成html注意事项
通过word另存为html的时候,在另存为对话框中,应选择筛选过的网页,并且注意在工具->web选项->编码->utf-8,生成的html也不宜立即使用,应使用浏览器器重新打开html,查看样式,一般不尽如人意,此时可以通过右键单击html,选择通过word打开,重新调整格式,再次另存为筛选过的网页,基本上就可以满足需求了。