Hiện nay có không ít phần mềm trên máy tính hỗ trợ nhận diện văn bản từ các tệp tin thuộc định dạng hình ảnh hoặc file PDF có thể kể đến như PDF Editor hay Image Scanner to Text… Thế nhưng đối với trường hợp bạn muốn giải quyết nhanh nhu cầu của mình mà không muốn mất thời gian cài đặt phần mềm thì hãy đến với các công cụ trực tuyến chẳng hạn như NewOCR thì cũng là một sự lựa chọn vô cùng tiện lợi.
NewOCR là một công cụ trực tuyến đơn giản hỗ trợ nhận diện văn bản trực tiếp từ các tệp tin thuộc định dạng hình ảnh như JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu cho đến các file nén như Unix, bzip2, bzip, gzip… NewOCR sử dụng công nghệ nhận dạng ký tự quang học (OCR) nhờ vậy mà có khả năng xác định các ký tự vô cùng chính xác (kể cả tiếng Việt) trong nhiều điều kiện khác nhau điều mà nhiều phần mềm, công cụ khác không thể làm được hoặc cho ra kết quả thiếu chính xác.
Bên cạnh đó, NewOCR cũng một số tính năng cho phép người dùng chỉnh sửa đoạn văn bản được nhận dạng trên một khung soạn thỏa đơn giản và chỉnh sửa online tại thông qua Google tài liệu. Nếu bạn muốn lưu trữ đoạn văn bản được trích xuất cũng có thể sử dụng NewOCR để tải về bằng các định dạng thông dụng mà nó hỗ trợ như .TXT, .DOC hay .PDF…
Hướng dẫn trích xuất văn bản từ hình ảnh hoặc tệp PDF online bằng NewOCR
Bước 1: Truy cập vào liên kết bên dưới để đến với công cụ nhận diện văn bản trực tuyến từ hình ảnhtrực tuyến – NewOCR:
Bước 2: Bấm vào nút chọn Tệp để mở thư viện lưu trữ tìm chọn tài liệu cần thực hiện từ thiết bị của bạn. Ngoài ra bạn còn có thể lựa chọn thêm các ngôn ngữ khác ngoài mặc định là Vietnamese.
Sau đó lựa chọn một trong 2 hình thức sử dụng qua 2 nút bên dưới bao gồm:
- Upload: Chỉ tải lên
- Upload + OCR: Tải lên và chỉnh sửa
Chờ trong giây lát, kết quả của bạn sẽ hiển thị ở trang tiếp theo. Kéo xuống dưới cùng bạn sẽ thấy hình ảnh tệp tin và một khung soạn thảo chứa văn bản được trích xuất từ tài liệu mà bạn đã tải lên. Ở đây cũng có một số tính năng khác như:
- Download: Tải đoạn văn bản về với các định dạng Plain Text (.TXT), Microsoft Word (DOC), Adobe Acrobat (PDF)
- Copy to Clipboard: Sao chép
- Google Translate: Chuyển sang Google dịch
- Bing Translator: Chuyển sang Bing dịch
- Paste Online: Dán
- Edit Online: Chỉnh sửa bằng hệ thống Google tài liệu.
Lưu ý: Đối với các file tài liệu có nội dung dài, văn bản sẽ được chia thành nhiều trang.
Nhìn chung NewOCR chỉ là một công cụ nhận diện và chỉnh sửa văn bản từ hình ảnh hoặc file PDF trực tuyến rất đơn giản. Nếu bạn muốn có nhiều tính năng hơn, giao diện chuyên nghiệp hơn mà vẫn không cần phần mềm thì hãy sử dụng công cụ Google tài liệu.
Created by CB MONKEY
Post a Comment