C# OCR 辨識圖片文字

安裝套件

先使用 NuGet 安裝 Tesseract 套件,或是使用 .NET CLI 執行以下指令安裝
	
dotnet add package Tesseract
    

下載語言資料檔案

開啟 GitHub 上的 tesseract-ocr/tessdata 儲存庫,將要辨識的語言的檔案下載下來,本篇使用英文做示範,下載 eng.traineddata 檔案,檔案大小為 22.3 MB

將下載下來的語言檔案放到同一個資料夾中,例如 tessdata 資料夾內。

程式碼

    
// 要辨識文字的圖片
string imagePath = "C:\\Users\\ruyut\\Downloads\\1.png";

// 指向 tessdata 資料夾, language 參數填入語言
using var engine = new TesseractEngine(@"C:\Users\ruyut\Downloads\tessdata", "eng", EngineMode.Default);

// 讀取圖片
using var img = Pix.LoadFromFile(imagePath);
using var page = engine.Process(img);

// 顯示遍釋出的文字
string text = page.GetText();
Console.WriteLine($"文字: {text}");
    

留言

張貼留言

如果有任何問題、建議、想說的話或文章題目推薦,都歡迎留言或來信: a@ruyut.com