找回密码
 注册

QQ登录

只需一步,快速开始

查看: 2208|回复: 0

系统整理pdf文件识词与编辑[转] 

[复制链接]
tony610031 发表于 2005-10-24 17:24:00 | 显示全部楼层 |阅读模式
第一部分 关于pdf文件识词
pdf阅读:建议使用adobe acrobat 7.0 Professional简体中文版(只有专业版本才有ocr
功能,而reader版本没有ocr,而且同以前版本比较打开速度快,无专利认证那套东东,文
件大小209M吧。以下简称“Acrobat 7.0 pro”)
下载地址
http://download.winzheng.com/softview/SoftView_2019.htm
注意:在安装acrobat 7.0 pro的时候要选择完全安装或者自定义安装选择安装上
“亚洲语言支持”,因为在“典型”安装时是不安装“亚洲语言支持”的,这在看中文的
时候可能有影响。
针对电子词典:金山词霸2003医学版(以下简称“金山”)
新医药大词典(以下简称“新医药”)
1.所有的pdf文件都不能识词
或者在“金山”和“新医药”都安装的情况下,用其中一个可以识词,另外一个不能识词

可以肯定是插件问题。
对于金山
Acrobat Reader 7.0取词:将金山词霸的安装目录下(*:\rogram Files\Kingsoft\ower
word 2003\lugIn   *代表你所安装到的盘符,以下同)的Xdict32.API复制到Adobe Read
er 7.0的安装目录*:\rogram Files \Adobe\Acrobat 6.0Reader\plug_ins 文件夹下即可

Acrobat 7.0取词:将金山词霸的安装目录下的Xdict32.API复制到Adobe 7.0的安装目录*
:\rogram Files\Adobe\Acrobat 7.0\Acrobat\plug_ins文件夹下即可。
如果上述办法仍然无法加入词霸的插件(Acrobat工具栏没有出现词霸的图标),则请到在
中文版acrobat 7.0 pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左侧
列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将右
下角的浏览方式设为单页,最后重启Acrobat reader即可。(好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)
6.0版把7.0换成6.0即可。
对于新医药
(截取自其官方网站
http://www.medscape.com.cn/kehufuwu/xcd5.jspjsessionid=PFLNDPBEEPHL)
一般情况下,《新编全医药学大词典》在安装时会将自己的一个插件自动添加到acrobat
reader中去,用户安装词典后即可在pdf文件中使用词典,但是正确添加插件的前提是acrob
at reader是正常安装的,即注册表中有acrobat reader的安装路径。不能取词,可能是注
册表中没有acrobat reader的安装路径,需要手工添加词典的插件到acrobat reader中

解决办法:
第一步:首先找到词典的安装路径,例如默认安装路径,*\program files\kingyee\meddic
\ 找到meddic 文件夹中的plugin文件夹打开,里面有三个文件:RwAcrob4c.api,RwAcrob5
c.api,RwAcrob6c.api;
如果是acrobat reader4.0就拷贝RwAcrob4c.api;
如果是acrobat reader5.0就拷贝RwAcrob5c.api;
如果是acrobat reader6.0就拷贝RwAcrob6c.api; (4,5,6没人用了吧)
如果是acrobat reader7.0也拷贝RwAcrob6c.api;
第二步:找到acrobat reader的安装路径,打开plug_ins文件夹,然后将拷贝的文件粘贴进
来。然后重新启动acrobat reader软件。
第三步:此时一般就可以翻译pdf文件了。如果还是不行,就是acrobat reader还需要设置
一下。
设置方法:
在中文版acrobat 7.0 pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左
侧列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将
右下角的浏览方式设为单页,最后重启Acrobat reader即可(好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)。

2.部分pdf文件可以识词,部分不可以。
把握一个原则:pdf文档内容只要可以复制就可以识词。
分以下两种情况:
A:有密码保护:有些虽有密码保护只是不准更改文档,可以复制,内容只要可以复制,就
可以识词,就不用理什么密码了。
对不允许复制的就要用软件去出密码。
去除密码工具PDF Password Remover(推荐使用英文版)
下载地址:
PDF Password Remover v2.2
http://download.winzheng.com/softview/SoftView_26105.htm
PDF Password Remover v2.2 注册机
http://download.winzheng.com/softview/SoftView_26106.htm
软件很容易上手:
注意有些时候文件名比较长或有特殊字符或是中文,可能无法打开,此时将文件名改成数
字的,如“1.pdf”(pdf为扩展名),处理完后再改回原来的文件名就可以了。
B:pdf文件是扫描图片做的,虽无任何限制,但无法复制文档内容。
可参见我在dxy发的帖子
http://www.dxy.cn/bbs/post/view?bid=10&id=3402620&tpg=1&ppg=1&sty=1&age=0#3402
620

这就要用到Adobe Acrobat Pro 7.0的ocr功能 ,图片格式的PDF可以直接转换成文字PDF,
版面形式不变,转完后直接保存即可。
选择“文档”--“使用OCR识别文本”
另外针对前面提到的密码保护的图片格式pdf文件,先去除密码后再ocr。(未去除密码前
,ocr功能是灰色的不能用)。
另外有些从网站下载来的文献,会在页眉和页脚加上“Copyright”等字样,此时直接运用
ocr时,会出现提示“acrobat无法在本页执行识别,因为:本页包含可渲染的文本”
针对以上情况,摸索出了一个方法:
先从“高级”--“导出所用图像”(文中的插图也会按一张图片导出),然后再用acro
bat将导出的图片合并成pdf文件(因为文中的插图也按一张图片导出了,如何合并时不剔
除插图形成的图片的话,合并后插图将会作为单独的一页,因此合并后的文件页码将多于
原始文件),然后再进行OCR就可以成功了。
对于dpi比较低的,可能ocr无法成功
Dxy网友lakshmi回复说
“如果dpi小于600,可以输出成tif文件,用专门的ocr软件校对,推荐汉王文本王”
我未用过。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|生物行[生物导航网] ( 沪ICP备05001519号 )

GMT+8, 2025-6-30 06:38 , Processed in 0.023148 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表