日本看板
广告位招租 详细信息请联系 jkanban@gmail.com キャンペーン中!


 
标题: google 的tesseract OCR
admin (蕨菜)
一代文豪
Rank: 5Rank: 5Rank: 5Rank: 5Rank: 5


UID 1
精华 1
积分 13091
帖子 4647
威望 170
金钱 23190
慈善捐款(日元) 400
阅读权限 200
注册 2007-3-25
 
发表于 2008-3-12 16:52  资料  个人空间  短消息  加为好友 
google 的tesseract OCR

http://sourceforge.net/projects/tesseract-ocr/

Google在几个月前,静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎--事实上,是重新发布--这款名为Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从从此尘封。

数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

在修复了最重要的数个漏洞后,Google两个月前认为,Tesseract OCR已经足够稳定,可以重新以开源软件方式发布。

目前,Tesseract OCR功能依旧十分羸弱:只支持英文,尚不包括版面分析模块,处理多栏内容纰漏甚多,甚至对彩色文档的识别率也存在识别率下降问题。然而,Tesseract已经成为目前精确最高的开源OCR工具,性能远强于其他开源同类软件。

Google开发人员在Blog里向HP的开源决定表示致敬。

故事远没有结束,Google已经开始在网站上招聘高级OCR技术工程师,值得我们注意的是,Google在这段招聘启示下写道:“Google currently "reads" almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)

HP的Tesseract失败了,原因很简单--OCR开发成本高,市场小,竞争激烈。

Google的Tesseract呢?

Google拥有最精英的工程师们,Google拥有不断扩充的版权PDF资源,Google拥有强大的搜引擎网络平台支持,最重要的--Google将免费提供Tesseract,将无偿开放API和开源内容,让所有用户轻易使用,让所有程序员能够驻足所为。

可以预见的是,如果Google继续推动Tesseract OCR的开发,Google将有足够的能力全面改写文字保存的方式,将有能力建造起一个完善、共享、合法的数字书籍系统,推动整个人类社会的信息化进程。

然而,我们也应该充分认识到数字化书籍进程所面临的困难以及相关一系列社会、政治、经济、法律因素,况且与我们关系最为密切的中文OCR技术开发要复杂得多。

星星之火可以燎原,我们且观且待,视Google未来如何解决印刷品数字化所面临的诸多难题。



米Googleは,オープンソース・コミュニティSourceForge.netで文字認識(OCR)エンジン「Tesseract」を公開した。 Google最上級技術リード(Uber Tech Lead)のLuc Vincent氏が米国時間8月,公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。

 Tesseractは,米Hewlett-Packard(HP)が1985~1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校(UNLV)が1995年に開催したOCRソフトウエアの精度を評価するコンテストで,トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから,「Tesseractはほこりをかぶっていた」(Google)。

 その後「HPの関係者がTesseractをお蔵入りさせるよりも公開した方がよいと考え」(Google),UNLVの情報科学研究所と共同で 2005年にオープンソース化した。Googleはバグ修正などで協力し,2006年1月27日にSourceForge.netに登録した。

 現在Tesseractが認識可能な文字は白黒2値で表現された英語だけで,グレイ・スケールやカラーの文書には対応していない。ページ・レイアウト解析モジュールも備えていないので,複数段組の文書はうまく処理できない。さらに,現時点で入手可能な最高クラスのOCR製品と比べると,認識精度が落ちるという。ただしVincent氏は「欠点はあるものの,Tesseractの認識精度はオープンソースOCRのなかで最も高い」としている。

 米メディア(CNET News.com)によると,Tesseractのほとんどの部分はApacheオープンソース・ライセンスが適用されているものの,一部に商業利用を制限する第2のライセンスが付加されているという。








http://www.cnblogs.com/polugen/archive/2006/10/31/545255.html

http://www.comicer.com/stronghor ... %D7%B0/%C9%BE%B3%FD

顶部
www.facebooks.jp 在日帅哥美女花名册 www.i-kanban.com 日本大众点评网 www.rakudoor.com 乐道 www.j-price.com 日本价格网
 



当前时区 GMT+9, 现在时间是 2008-8-30 08:20

    本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.5.0  © 2001-2007 Comsenz Inc.
清除 Cookies - 联系我们 - 日本看板 - Archiver