|
第一部分 关于pdf文件识词 pdf阅读:建议使用adobe acrobat 7.0 Professional简体中文版(只有专业版本才有ocr 功能,而reader版本没有ocr,而且同以前版本比较打开速度快,无专利认证那套东东,文 件大小209M吧。以下简称“Acrobat 7.0 pro”) 下载地址 http://download.winzheng.com/softview/SoftView_2019.htm 注意:在安装acrobat 7.0 pro的时候要选择完全安装或者自定义安装选择安装上 “亚洲语言支持”,因为在“典型”安装时是不安装“亚洲语言支持”的,这在看中文的 时候可能有影响。 针对电子词典:金山词霸2003医学版(以下简称“金山”) 新医药大词典(以下简称“新医药”) 1.所有的pdf文件都不能识词 或者在“金山”和“新医药”都安装的情况下,用其中一个可以识词,另外一个不能识词 , 可以肯定是插件问题。 对于金山 Acrobat Reader 7.0取词:将金山词霸的安装目录下(*:\ rogram Files\Kingsoft\ ower word 2003\ lugIn *代表你所安装到的盘符,以下同)的Xdict32.API复制到Adobe Read er 7.0的安装目录*:\ rogram Files \Adobe\Acrobat 6.0Reader\plug_ins 文件夹下即可 。 Acrobat 7.0取词:将金山词霸的安装目录下的Xdict32.API复制到Adobe 7.0的安装目录* :\ rogram Files\Adobe\Acrobat 7.0\Acrobat\plug_ins文件夹下即可。 如果上述办法仍然无法加入词霸的插件(Acrobat工具栏没有出现词霸的图标),则请到在 中文版acrobat 7.0 pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左侧 列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将右 下角的浏览方式设为单页,最后重启Acrobat reader即可。(好像acrobat 7.0 pro默认的 就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道) 6.0版把7.0换成6.0即可。 对于新医药 (截取自其官方网站 http://www.medscape.com.cn/kehufuwu/xcd5.jspjsessionid=PFLNDPBEEPHL) 一般情况下,《新编全医药学大词典》在安装时会将自己的一个插件自动添加到acrobat reader中去,用户安装词典后即可在pdf文件中使用词典,但是正确添加插件的前提是acrob at reader是正常安装的,即注册表中有acrobat reader的安装路径。不能取词,可能是注 册表中没有acrobat reader的安装路径,需要手工添加词典的插件到acrobat reader中
解决办法: 第一步:首先找到词典的安装路径,例如默认安装路径,*\program files\kingyee\meddic \ 找到meddic 文件夹中的plugin文件夹打开,里面有三个文件:RwAcrob4c.api,RwAcrob5 c.api,RwAcrob6c.api; 如果是acrobat reader4.0就拷贝RwAcrob4c.api; 如果是acrobat reader5.0就拷贝RwAcrob5c.api; 如果是acrobat reader6.0就拷贝RwAcrob6c.api; (4,5,6没人用了吧) 如果是acrobat reader7.0也拷贝RwAcrob6c.api; 第二步:找到acrobat reader的安装路径,打开plug_ins文件夹,然后将拷贝的文件粘贴进 来。然后重新启动acrobat reader软件。 第三步:此时一般就可以翻译pdf文件了。如果还是不行,就是acrobat reader还需要设置 一下。 设置方法: 在中文版acrobat 7.0 pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左 侧列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将 右下角的浏览方式设为单页,最后重启Acrobat reader即可(好像acrobat 7.0 pro默认的 就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)。
2.部分pdf文件可以识词,部分不可以。 把握一个原则:pdf文档内容只要可以复制就可以识词。 分以下两种情况: A:有密码保护:有些虽有密码保护只是不准更改文档,可以复制,内容只要可以复制,就 可以识词,就不用理什么密码了。 对不允许复制的就要用软件去出密码。 去除密码工具PDF Password Remover(推荐使用英文版) 下载地址: PDF Password Remover v2.2 http://download.winzheng.com/softview/SoftView_26105.htm PDF Password Remover v2.2 注册机 http://download.winzheng.com/softview/SoftView_26106.htm 软件很容易上手: 注意有些时候文件名比较长或有特殊字符或是中文,可能无法打开,此时将文件名改成数 字的,如“1.pdf”(pdf为扩展名),处理完后再改回原来的文件名就可以了。 B:pdf文件是扫描图片做的,虽无任何限制,但无法复制文档内容。 可参见我在dxy发的帖子 http://www.dxy.cn/bbs/post/view?bid=10&id=3402620&tpg=1&ppg=1&sty=1&age=0#3402 620
这就要用到Adobe Acrobat Pro 7.0的ocr功能 ,图片格式的PDF可以直接转换成文字PDF, 版面形式不变,转完后直接保存即可。 选择“文档”--“使用OCR识别文本” 另外针对前面提到的密码保护的图片格式pdf文件,先去除密码后再ocr。(未去除密码前 ,ocr功能是灰色的不能用)。 另外有些从网站下载来的文献,会在页眉和页脚加上“Copyright”等字样,此时直接运用 ocr时,会出现提示“acrobat无法在本页执行识别,因为:本页包含可渲染的文本” 针对以上情况,摸索出了一个方法: 先从“高级”--“导出所用图像”(文中的插图也会按一张图片导出),然后再用acro bat将导出的图片合并成pdf文件(因为文中的插图也按一张图片导出了,如何合并时不剔 除插图形成的图片的话,合并后插图将会作为单独的一页,因此合并后的文件页码将多于 原始文件),然后再进行OCR就可以成功了。 对于dpi比较低的,可能ocr无法成功 Dxy网友lakshmi回复说 “如果dpi小于600,可以输出成tif文件,用专门的ocr软件校对,推荐汉王文本王” 我未用过。
[系统提示]: .::本帖子因为[奖励]值得推荐的转帖文章被神经科学论坛管理员a2s2d3实行了:+3金钱 +2经验 的奖惩::. |
|