PDF 查看是正常中文,复制或转 html 出来内容就是乱码,有办法将之转成正常的中文字符吗?
- 0次
- 2021-06-07 08:28:03
- idczone
原因在于 PDF 内存储的是特殊字体
字体文件在这儿:
https://github.com/kefengzhang/alibaba_cop美国服务器y/blob/master/0.ttf
在打开 PDF 看到是:账号 这两个字,选中复制出来是:衠뚽
然后我用 wps 打开,他提供了一个功能 pdf 转 excel,或以转出正常的中文字符
除了 OCR 视别,还有别的方式转换吗?