C# OCR 辨識圖片文字

C# OCR 辨識圖片文字

日期： 10月 26, 2024

安裝套件

先使用 NuGet 安裝 Tesseract 套件，或是使用 .NET CLI 執行以下指令安裝

	
dotnet add package Tesseract

下載語言資料檔案

開啟 GitHub 上的 tesseract-ocr/tessdata 儲存庫，將要辨識的語言的檔案下載下來，本篇使用英文做示範，下載 eng.traineddata 檔案，檔案大小為 22.3 MB

將下載下來的語言檔案放到同一個資料夾中，例如 tessdata 資料夾內。

程式碼

    
// 要辨識文字的圖片
string imagePath = "C:\\Users\\ruyut\\Downloads\\1.png";

// 指向 tessdata 資料夾， language 參數填入語言
using var engine = new TesseractEngine(@"C:\Users\ruyut\Downloads\tessdata", "eng", EngineMode.Default);

// 讀取圖片
using var img = Pix.LoadFromFile(imagePath);
using var page = engine.Process(img);

// 顯示遍釋出的文字
string text = page.GetText();
Console.WriteLine($"文字: {text}");

留言

Things In Life2024年10月27日晚上7:16:00
感謝分享~
回覆刪除
回覆

張貼留言

如果有任何問題、建議、想說的話或文章題目推薦，都歡迎留言或來信: a@ruyut.com