如何检测图像中的文本

发布于:2021-01-23 00:00:12

0

71

0

JavaScript 检测 tesseract

图片是一种很好的交流方式,但通常情况下,图片被用来在社交媒体和广告中传播文字。图像中的文本也存在可访问性问题。事实上,由于各种原因,能够检测图像文件中的文本是很重要的。让检测图像中的文本成为可能的惊人的开源工具是tesseract OCR!

我建议使用自制软件安装tesseract:

brew install tesseract

要运行tesseract从图像中读取文本,可以在命令行中运行以下命令:

tesseract ~/Downloads/MyImage.png ~/Downloads/MyImage.txt -l eng

上面的命令将检测到的英文文本(-l eng)提取到一个文本文件(MyImage.txt)中。这个过程非常快,并且支持几十种语言。

让我们来看看下面的例子:

{xunruicms_img_title}

检测到以下文本:

International ‘Champions Cup ~- TOUR SQUAD #AFCTour2018 CECH MUSTAFI GUENDOUZI oziL LENO SOKRATIS NELSON IWOBI MARTINEZ MAVROPANOS SMITHROWE = NKETIAH BELLERIN OSEI-TUTU WILLOCK PEREZ KOLASINAC ELNENY RAMSEY LACAZETTE CHAMBERS MAITLAND-NILES MKHITARYAN AUBAMEYANG HOLDING

有许多不同编程语言的实用程序可以插入tesseract的功能,但了解底层工具是很重要的!tesseract是一个令人难以置信的工具,如果你需要一个开源工具来检测图像中的文本,你应该利用它!