做个网摘的高手 2006年网页资料我都要
作者: 来源:中关村在线 添加时间:2006-5-24 15:43:11一、去伪存真留文本
在一些优秀的论坛或网页中看到自己很感兴趣的内容,当然要保存下来。但是有些论坛由于版权等原因,为了防止网友随意复制,会做一些手脚。比如“http://nettu.net/cgi-bin/topic.cgi?forum=6&topic=542&show=0”,看起来没什么,但如果选中其中的文字,就会发现原来里面隐藏着与背景颜色同色的无用字符(如图1)/如果我们想复制其中的代码或帖子内容,会将许多无用的东西一起复制过来。如何解决这个问题?

去伪存真留文本
1.如此轻松——原来注册就可以
很多论坛和站点都和本例相似,对没有注册的用户万般刁难。只要注册后登陆,一切烦恼一扫而光!如果注册了仍然不行,请继续看下文。
2.复杂内容——找工具来帮忙
如果要复制的内容较多,而且其中有很多空行,上面的方法就显得捉肘见襟了。可以尝试使用下面的方法:
(1)Word处理很轻松
首先将你需要的内容全部复制下来,当然摆脱不了其中的无用字符了。打开Word,将复制的内容粘贴。选择“编辑→替换”命令,在替换对话框中,点“高级”按钮,然后在“格式”中选择“字体”(如图2),在“字体颜色”中选择网页背景颜色(本例中是白色)(如图3),点“确定”。在“搜索范围”中选“全部”,然后再点“全部替换”按钮。关闭替换对话框,无用的字符是不是已经没有了!

Word处理很轻松

调节颜色
(2)文字识别也拿手
如果系统中没有安装Word,仅仅为了简单的复制去弄个Office,未免有些兴师动众。其实我们还可以通过迂回战术把它复制下来。这里我们需要另一个小工具——Mini Ocr汉字显示字体识别软件。
首先把需要的内容捕捉下来,如果文章很短,则键盘上的PrintScreen键就完全可以胜任了。如果文章较长,可以用PrintScreen键分多次捕捉,或使用HyperSnap-DX等专业截图软件进行截取。
接着要对捕捉的图片进行简单的处理。我们只需要保留文章内容,其它的所有无用信息都可以切走,然后将这幅图保存,图像格式可以是BMP、GIF或者JPG。
运行Mini Ocr,点“打开图像文件”,选择刚才处理过的图像;接着点“文字识别”,软件自动开始识别。根据文本内容的多少,识别的时间也不尽相同。识别完成之后,会弹出“耗时XXX秒”的对话框。点“确定”,我们需要的东西就在眼前,赶紧点击“保存结果”把它保存下来吧!
经过以上几个简单步骤就得到了我们需要的资料,是不是很爽?
第 1 页,共 2 页 [1] [2]
站内搜索