“数+”数字识别与图片对比

文档更新于2022-03-02 19:14|4.5分(高于98%的文档) |388|91

资
源
介
绍

一、项目背景移动互联网、智能手机以及社交网络的发展带来了海量图片信息，根据 BI五月份的文章， Instagram每天图片上传量约为 6000万张；今年 2月份WhatsApp每天的图片发送量为 5亿张；国内的微信朋友圈也是以图片分享为驱动。不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字，成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点：第一，从用户读取信息的习惯来看，相比于文字，图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息；第二，从图片来源来看，智能手机为我们带来方便的拍摄和截屏手段，帮助我们更快的用图片来采集和记录信息。但伴随着图片成为互联网中的主要信息载体，难题随之出现。当信息由文字记载时，我们可以通过关键词搜索轻易找到所需内容并进行任意编辑，而当信息是由图片记载时，我们却无法对图片中的内容进行检索，从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式，却降低了我们的信息检索效率。在这个环境下，计算机的识别技术就显得尤为重要。模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人 (及某些动物 )对事物的学习、识别和判断能力，因而受到了很多科技领域研究人员的注意，成为人工智能研究的一个重要方面。对于图片信息的识别主要分为两部分，一部分是图像识别，另一部分是字符识别。字符识别是模式识别的一个传统研究领域。从 50年代开始，许多的研究者就在这一研究领域开展了广泛的探索，并为模式识别的发展产生了积极的影响。字符识别一般可以分为两类，联机字符识别和光学字符识别 (OpticalCharacter Recognition， OCR)或称离线字符识别。图像识别是计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说，图像识别就是计算机如何像人一样读懂图片的内容。借助图像

识别技术，我们不仅可以通过图片搜索更快的获取信息，还可以产生一种新的与外部世界交互的方式，甚至会让外部世界更加智能的运行。百度李彦宏在2011年提到 “全新的读图时代已经来临 ”，现在随着图形识别技术的不断进步，越来越多的科技公司开始涉及图形识别领域，这标志着读图时代正式到来，并且将引领我们进入更加智能的未来。在过去的数十年中，研究者们提出了许许多多的识别方法。按使用的特征不同，这些方法可以分为两类 :基于结构特征的方法和基于统计特征的方法。结构特征通常包括圆、端点、交叉点、笔划、轮廓等，统计特征通常包括点密度的测量、矩、特征区域等，一般来说，两类特征各有优势。例如，使用统计特征的分类器易于训练，而且对于使用统计特征的分类器，在给定的训练集上能够得到相对较高的识别率，而结构特征的主要优点之一是能描述字符的结构，在识别过程中能有效地结合几何和结构的知识，因此能够得到可靠性较高的识别结果。图像识别技术不仅作为我们的辅助工具存在，为我们自身的人类视觉提供了强有力的辅助和增强，带给了我们一种全新的与外部世界进行交互的方式。我们可以通过搜索找到图片中的关键信息；可以随手拍下一件陌生物体而迅速找到与之相关的各类信息；可以将潜在搭讪对象拍下提前去她的社交网络了解一番；也可以将人脸识别作为主要的身份认证方式等。这些应用虽然看起来很普通，但当图像识别技术渗透到我们行为习惯的方方面面时，我们就相当于把一部分视力外包给了机器，就像我们已经把部分记忆外包给了搜索引擎一样。这将极大改善我们与外部世界的交互方式，此前我们利用科技工具探寻外部世界的流程是这样：人眼捕捉目标信息、大脑将信息进行分析、转化成机器可以理解的关键词、与机器交互获得结果。而当图像识别技术赋予了机器“眼睛”之后，这个过程就可以简化为：人眼借助机器捕捉目标信息、机器和互联网直接对信息进行分析并返回结果。图像识别使摄像头成为解密信息的钥匙，我们仅需把摄像头对准某一未知事物，就能得到预想的答案。就像百度科学家余凯所说，摄像头成为连接人和世界信息的重要入口之一。

“数+”数字识别与图片对比

文库账号登录