第一部分 关于pdf文件识词

tony610031 · 发表于 2005-10-24 17:27:00

第一部分关于pdf文件识词
pdf阅读：建议使用adobe acrobat 7.0 Professional简体中文版（只有专业版本才有ocr
功能，而reader版本没有ocr，而且同以前版本比较打开速度快，无专利认证那套东东，文
件大小209M吧。以下简称“Acrobat 7.0 pro”）
下载地址
http://download.winzheng.com/softview/SoftView_2019.htm
注意：在安装acrobat 7.0 pro的时候要选择完全安装或者自定义安装选择安装上
“亚洲语言支持”，因为在“典型”安装时是不安装“亚洲语言支持”的，这在看中文的
时候可能有影响。
针对电子词典：金山词霸2003医学版（以下简称“金山”）
新医药大词典（以下简称“新医药”）
1.所有的pdf文件都不能识词
或者在“金山”和“新医药”都安装的情况下，用其中一个可以识词，另外一个不能识词
，
可以肯定是插件问题。
对于金山
Acrobat Reader 7.0取词：将金山词霸的安装目录下(*:\

rogram Files\Kingsoft\

ower
word 2003\

lugIn *代表你所安装到的盘符，以下同)的Xdict32.API复制到Adobe Read
er 7.0的安装目录*:\

rogram Files \Adobe\Acrobat 6.0Reader\plug_ins 文件夹下即可
。
Acrobat 7.0取词：将金山词霸的安装目录下的Xdict32.API复制到Adobe 7.0的安装目录*
:\

rogram Files\Adobe\Acrobat 7.0\Acrobat\plug_ins文件夹下即可。
如果上述办法仍然无法加入词霸的插件（Acrobat工具栏没有出现词霸的图标），则请到在
中文版acrobat 7.0 pro中设置如下：选择"编辑"菜单中的"首选项"，在弹出的界面的左侧
列表中选中"启动"一项，然后在"启动"面板中将"仅认证增效工具"前的选项去掉，再将右
下角的浏览方式设为单页,最后重启Acrobat reader即可。（好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着，Acrobat Reader 7.0我没装不知道）
6.0版把7.0换成6.0即可。
对于新医药
（截取自其官方网站
http://www.medscape.com.cn/kehufuwu/xcd5.jspjsessionid=PFLNDPBEEPHL）
一般情况下，《新编全医药学大词典》在安装时会将自己的一个插件自动添加到acrobat
reader中去,用户安装词典后即可在pdf文件中使用词典,但是正确添加插件的前提是acrob
at reader是正常安装的,即注册表中有acrobat reader的安装路径。不能取词，可能是注
册表中没有acrobat reader的安装路径,需要手工添加词典的插件到acrobat reader中

解决办法：
第一步：首先找到词典的安装路径,例如默认安装路径,*\program files\kingyee\meddic
\ 找到meddic 文件夹中的plugin文件夹打开,里面有三个文件：RwAcrob4c.api,RwAcrob5
c.api,RwAcrob6c.api;
如果是acrobat reader4.0就拷贝RwAcrob4c.api;
如果是acrobat reader5.0就拷贝RwAcrob5c.api;
如果是acrobat reader6.0就拷贝RwAcrob6c.api; （4，5，6没人用了吧）
如果是acrobat reader7.0也拷贝RwAcrob6c.api;
第二步：找到acrobat reader的安装路径,打开plug_ins文件夹,然后将拷贝的文件粘贴进
来。然后重新启动acrobat reader软件。
第三步：此时一般就可以翻译pdf文件了。如果还是不行,就是acrobat reader还需要设置
一下。
设置方法：
在中文版acrobat 7.0 pro中设置如下：选择"编辑"菜单中的"首选项"，在弹出的界面的左
侧列表中选中"启动"一项，然后在"启动"面板中将"仅认证增效工具"前的选项去掉，再将
右下角的浏览方式设为单页,最后重启Acrobat reader即可（好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着，Acrobat Reader 7.0我没装不知道）。

2.部分pdf文件可以识词，部分不可以。
把握一个原则：pdf文档内容只要可以复制就可以识词。
分以下两种情况：
A：有密码保护：有些虽有密码保护只是不准更改文档，可以复制，内容只要可以复制，就
可以识词，就不用理什么密码了。
对不允许复制的就要用软件去出密码。
去除密码工具PDF Password Remover（推荐使用英文版）
下载地址：
PDF Password Remover v2.2
http://download.winzheng.com/softview/SoftView_26105.htm
PDF Password Remover v2.2 注册机
http://download.winzheng.com/softview/SoftView_26106.htm
软件很容易上手：
注意有些时候文件名比较长或有特殊字符或是中文，可能无法打开，此时将文件名改成数
字的，如“1.pdf”（pdf为扩展名），处理完后再改回原来的文件名就可以了。
B：pdf文件是扫描图片做的，虽无任何限制，但无法复制文档内容。
可参见我在dxy发的帖子
http://www.dxy.cn/bbs/post/view?bid=10&id=3402620&tpg=1&ppg=1&sty=1&age=0#3402
620

这就要用到Adobe Acrobat Pro 7.0的ocr功能，图片格式的PDF可以直接转换成文字PDF，
版面形式不变，转完后直接保存即可。
选择“文档”－－“使用OCR识别文本”
另外针对前面提到的密码保护的图片格式pdf文件，先去除密码后再ocr。（未去除密码前
，ocr功能是灰色的不能用）。
另外有些从网站下载来的文献，会在页眉和页脚加上“Copyright”等字样，此时直接运用
ocr时，会出现提示“acrobat无法在本页执行识别，因为：本页包含可渲染的文本”
针对以上情况，摸索出了一个方法：
先从“高级”－－“导出所用图像”（文中的插图也会按一张图片导出），然后再用acro
bat将导出的图片合并成pdf文件（因为文中的插图也按一张图片导出了，如何合并时不剔
除插图形成的图片的话，合并后插图将会作为单独的一页，因此合并后的文件页码将多于
原始文件），然后再进行OCR就可以成功了。
对于dpi比较低的，可能ocr无法成功
Dxy网友lakshmi回复说
“如果dpi小于600，可以输出成tif文件，用专门的ocr软件校对，推荐汉王文本王”
我未用过。

[系统提示]:
.::本帖子因为[奖励]值得推荐的转帖文章被神经科学论坛管理员a2s2d3实行了：+3金钱 +2经验 的奖惩::.

账号		自动登录	找回密码
密码			注册

第一部分&#32;关于pdf文件识词&#32;

浏览过的版块

第一部分关于pdf文件识词