作为信息的最重要载体,电子文档处理的研究引起人们极大的兴趣。在任何文档处理系统中,预处理极为重要,其效果好坏会严重地影响其它模块的工作。特别是灰度图像二值化效果的好坏,对识别效果以及其后的一切处理都有相当大的影响。原因之一是,任何物理传感输入都是灰度图像,文档处理系统的大多数模块却仅仅处理二值图像,图像二值化是必不可少的。此外,图像二值化本身也是数字图像处理中重要的基本问题。
本文首先介绍完整的文档处理系统以及其预处理模块,然后将重点放在二值化问题上,给出图像阈值化方法的综述,并对全局阈值化、局部动态阈值化等方法的优点和缺点给出评价。本文尤其针对灰度变化比较复杂的文档图像,提出了一种改进的动态阈值化算法,并以仿真实验与以往的全局方法进行了比较,证实所发展新方法的优势。本文对该新算法在具体应用中会遇到的问题也做了估计,并提出解决相应问题的基本原则。
第一章 文档图像预处理概述
1.1 文档图像处理系统介绍
物质、能量、信息,是客观世界中的三大要素。而文档作为信息的载体,在社会生活中占有着十分重要的地位。通常,我们可以把存储在计算机中或纸上的一切具有阅读意义的信息甚至承载着信息的纸统称为文档。文档可以分为两大类:文字/符号和图形/图像。
为了能够更加简便有效地使用和管理信息,自二十世纪六十年代以来,人们进行了大量关于文档处理系统的研究。文档可以通过文档处理系统进入计算机,从而使得人们能够方便地对它们进行存储、管理、传输。文档处理涉及到很多领域,主要有光学字符识别(OCR),文档分析和理解,文档数据库,自然语言理解等等。
- kuaful - 博客园
更详细信息,请点击查看原文。