オープンソースなOCRソフトTesseractを試してみた。

以下のサイトからソフトをダウンロード

Home

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

私の環境は64bitなので、
tesseract-ocr-w64-setup-v4.1.0.20190314 (rc1) (64 bit) resp.
をクリックしダウンロード。

日本語の辞書データ？が必要ですので以下のサイトからダウンロード

GitHub - tesseract-ocr/tessdata: Trained models with fast variant of the "best" LSTM models + legacy models

Trained models with fast variant of the "best" LSTM models + legacy models - tesseract-ocr/tessdata

jpn_vert.traineddata
jpn.traineddata
の２つのファイルをダウンロードしをC:\Program Files\Tesseract-OCR\tessdataにコピー

コマンドプロンプトから以下のコマンドを実行し対応言語を確認てみます。
"c:\Program Files\Tesseract-OCR\tesseract.exe" --list-langs

eng
jpn
jpn_vert
osd

使い方
"c:\Program Files\Tesseract-OCR\tesseract.exe" 画像ファイルのパス出力テキストファイルのパス -l jpn

TesseractはCUIなコマンドですのでPowerShellから呼び出すスクリプトを作成してみました。
スクリプト実行すると当サイトのロゴを文字認識して出力してくれます。

<#
.SYNOPSIS
Tesseract-OCRを試してみた。
<CommonParameters> はサポートしていません

.DESCRIPTION
Webサイトからダウンロードした画像ファイルを文字認識してみる。

.EXAMPLE
PS>.\Test-Tesseract-OCR.ps1


#>


# tesseract.exeのパス
$tesseract_exe = Join-Path $env:ProgramFiles '\Tesseract-OCR\tesseract.exe'

$scriptPath = $PSCommandPath

# OCRの実行
function Exec-OCR
{
    param (
        [string]$in
    )

    # テンポラリファイル
    $TmpFile = New-TemporaryFile
    $out = $TmpFile.FullName

    $sp = (Get-Item -LiteralPath $scriptPath)
    # 標準出力のパス
    $log_path = Join-Path $sp.DirectoryName ($sp.BaseName + ".log")
    # 標準エラーのパス
    $err_path = Join-Path $sp.DirectoryName ($sp.BaseName + ".err")

    


    # -FilePath 実行ファイルのパス
    # -ArgumentList 実行ファイルの引数
    # -Wait コマンドの終了をまつ。
    # -PassThru 結果をオブジェクトで返す。
    # -RedirectStandardOutput 標準出力
    # -RedirectStandardError 標準エラー
    # -NoNewWindow ウィンドウを新たに開かない
    $proc = Start-Process -FilePath $tesseract_exe "${in} ${out} -l jpn" -Wait -PassThru -RedirectStandardOutput $log_path -RedirectStandardError $err_path -NoNewWindow

    $result = ""
    switch ($proc.ExitCode) {
        0 {
            # echo "成功"
            $result = Get-Content -Encoding UTF8 ($out+".txt")
        }
        default {
            # echo "失敗"
        }
    }


    # テンポラリファイルを削除
    rm $TmpFile
    rm ($out+".txt")

    return $result
}

# ロゴの画像ファイルをダウンロード
$uri = "https://maywork.net/wp/wp-content/uploads/2018/10/logo.png"
$localpath = ".\logo.png"
Invoke-WebRequest -Uri $uri -OutFile $localpath

$result = Exec-OCR $localpath
echo $result

# 画像ファイルを削除
rm $localpath

結果

迷 惑 堂 本 舗
創 業 平 成 参 拾 年

コメント