[Thông báo]Giải thưởng cho các bài viết hay về Hoàng Sa, Trường Sa và Biển Đông của Quỹ NCBĐ
[Thông báo]Thông tin tiếp thị đặt quảng cáo tại website hoangsa.org(HSO)
[Thông báo] Tuyển điều hành viên quản lý box cho HSO

Liên hệ quảng cáo info@hoangsa.org

User Tag List

Trang 1 trong 2 12 Cuối cùngCuối cùng
Kết quả từ 1 tới 10 trên 14
  1. #1
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    Thảo luận về cách số hóa các tài liệu đã scan

    Các tài liệu đã scan thường ở dạng file ảnh nên nếu có điều kiện chúng ta hãy chuyển nó thành file text (có thể copy ,past được),vì các lý do sau đây:
    +Có thể trích đoạn,post lên web
    +Các công cụ tìm kiếm có thể biết được nội dung tài liệu
    +Giúp người đọc dễ dàng hơn trong việc đón nhận thông tin,tài liệu scan rất gây khó chịu khi đọc

    Giới thiệu về phần mệm VnDOCR 4.0
    VnDOCR 4.0 Professional

    Bạn cần tổng hợp thông tin từ nhiều loại giấy tờ, sách báo ư ? Thật là đơn giản nếu như bạn đã có một bộ Máy tính, Scanner (máy quét) thì hãy mua Phần mềm Nhận dạng chữ Việt in VnDOCR 4.0, tức là bạn đã tiết kiệm được rất nhiều công sức cũng như tiền bạc.

    Môi trường
    + PC với hệ điều hành Windows 9x, Windows ME, Windows 2000, Windows XP hoặc Windows NT, Tiện ích : Bộ gõ chữ Việt và bộ phông ABC, VNI, Unicode..

    Thông tin đưa vào
    + Quét trực tiếp các loại sách báo, văn bản qua máy quét (scanner).

    + Đọc và xử lý hơn 30 dạng tệp tin ảnh phổ dụng nhất như PCX, BMP, TIF, GIF, JPG, ...

    Có thể nhận dạng trực tiếp tài liệu quét qua scanner, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang.

    Có thể là các dạng tệp tin của Microsoft Word (.doc), tệp ký tự ASCII (.txt), Rich Text Format (.rtf), *.xls (đối với bảng biểu).

    Độ chính xác 99 % ! VnDOCR cũng nhận dạng các tài liệu đã qua Photocopy.
    http://www.vndocr.com/home/Products.asp?ProductID=2

  2. #2
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    Sau đây là loạt bài viết trích dẫn từ trang Quansuvn.net
    Hướng dẫn sử dụng VnDocR 4.0. Người viết : kien098

    Các bạn có thể tải về ở đây

    http://quansuvietnam.googlepages.com/home

    Tải VN DocR 4.0 ở đây :

    http://www.vndocr.com/home/Products.asp?ProductID=2

    *

    Vì Vn DocR 4.0 chỉ nhận dạng được 3 trang/1 lần. Các bạn có thể dùng các phần mềm sau để cắt nhỏ file ảnh ra :

    ** Dùng phần mềm này để cắt ảnh ra làm đôi (1 file ảnh chứa 6 trang sách)
    http://www.coolutils.com/Tiff-Paging

    ** Chỉnh sửa lại bản Word sau khi nhận dạng : sau khi nhận dạng, bản text chỉ xếp theo đúng trang sách (bản giấy) độ tầm 2/3 bản Word. Muốn chỉnh sửa cho hợp với bản Word, ta làm như sau :

    Dùng Ctrl+H (Sử dụng Find and Replace trong word)
    - Find what: gõ ^p
    - Replace with: (bỏ trống), gõ dấu cách
    Rồi chọn Replace all, ok là xong!
    Sửa bởi littlehorsefish : 03-08-2009 lúc 05:26 PM

  3. #3
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    Việc chuyển từ bản in sang bản điện tử có thể có nhiều chiến sĩ chưa biết, nhất là những tân binh, nên tôi biên soạn bài viết này để các bạn tham khảo

    Nguyên liệu cần có thể "số hóa" một bản in là

    1. Máy scanner (các bạn có thể scan ở các dịch vụ Internet_giá tham khảo 500 đ /bản)
    2. Phần mềm nhận dạng: hiện chỉ có VNdocr, theo tôi bạn nên dùng version 4.0, tôi đã thử 2.0, 3.0 và tôi quyết định chọn 4.0 vì có nhiều tính năng vượt trội. Hiện chỉ có bản Demo, bản full có giá khoảng 8 triệu. Bản Demo cho nhận dạng nhưng không cho copy.
    Down tại: http://www.vndocr.com/home/Products.asp?ProductID=2
    3. Phần mềm copy: để qua mặt VNdocr 4.0 ta cần có phần mềm copy, tôi đề nghị các bạn dùng Aqua Deskperience (Aqua) (bản Trial dùng thử 30 ngày) down tại : www.deskperience.com/aqua

    Sau khi có đầy đủ vũ khí, bạn tiến hành các bước sau









    Nhưng cách nhanh nhất vẫn là kéo thả. Aqua chỉ là một lựa chọn

    Trên đây chỉ là những bước thực hiện cơ bản nhất. Mong các bạn trao đổi thêm nhiều kinh nghiệm nữa.

  4. #4
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    1. Sử dụng phần mềm AbbyyFineReader

    - Bước 1: Sau khi khởi động chương trình, vào menu Tools -> Options -> Chọn thẻ Scan/Open và chọn như hình sau:



    Sau đó chọn OK.


    - Bước 2: Chọn Scan Image




    - Bước 3: Sau khi chọn Scan Image sẽ xuất hiện cửa sổ sau




    Chọn Custom Settings và Click vào Adjust the quality of the scanned picture




    Chọn Resolution (DPI) là 400 rồi chọn OK

    Sau đó chọn Scan để quét.


    - Bước 4: Sau khi quét xong ta có kết quả ở hình dưới




    - Bước 5: Chọn hết các file ảnh rồi chọn File -> Save Result -> Save Images sẽ xuất hiện cửa sổ sau. Chọn như hình vẽ rồi Save.




    Sau đó ta sẽ xoá hết các file trong abby để thực hiện quét trang mới.


    Có thể download phần mềm AbbyyFineReader tại đây.

  5. #5
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    2. Sử dụng VnDOCR 2.0


    - Bước 1: Sau khi cài đặt xong, vào Công cụ -> Tuỳ chọn và thực hiện như hình vẽ




    - Bước 2: Mở file ảnh đã quét bằng phần mềm ABBYY và thực hiện nhận dạng.

    Ấn vào tạo vùng mới



    Chọn vùng cần nhận dạng




    - Bước 3: Nhận dạng





    Có thể download phần mềm VnDOCR 2.0 tại đây: VnDOCR 2.0

  6. #6
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    3. Đưa vào file word

    Sau khi đã nhận dạng xong, chỉ việc copy các phần đã được nhận dạng vào word. Sau đó tuỳ vào phiên bản VnDOCR mà có thêm phần chuyển bảng mã hay không.

    Nếu là VnDOCR 2.0 thì cần phải thêm một bước chuyển mã từ Vni sang Unicode. Việc chuyển mà từ Vni sang Unicode thực hiện rất dễ dàng với nhiều phần mềm khác nhau như: Unikey, VietUni, Vietkey Office...


    Trong quá trình sửa lỗi chính tả, nếu bác nào muốn đưa hết các dòng lên đầy một dòng trong trang word thì có thể sử dụng chức năng Find and Replace trong word:
    - Find: ^p
    - Replace: dấu cách
    Sau đó, chọn Replace all.

  7. #7
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    Em bổ sung thêm 1 chút về ưu nhược điểm của VnDOCR 2.0 và 4.0

    1. VnDOCR 2.0
    - Ưu điểm: không hạn chế số trang ảnh tif
    - Nhược điểm: chỉ chuyển được thành 2 bảng mã TCVN và Vni, không có bảng mã Unicode; nhận dạng không tốt bằng VnDOCR 4.0.

    - Phải mất công dùng Unikey để chuyển mã từ VNi sang Unicode


    2. VnDOCR 4.0
    - Ưu điểm: chuyển được thành mã Unicode
    - Nhược điểm: giới hạn số trang ảnh tif khi nhận dạng (chỉ nhận dạng tối đa 3 trang)

    - 4.0 nhận file tiff bất kỳ và dung lượng phải từ 200PX trở lên

  8. #8
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    Sau khi làm cuốn "Lịch sử lữ 101 ...", nhận dạng bằng VnDoc 4.0 Demo, tôi có 1 số mẹo nhỏ sau, đã được áp dụng có hiệu quả.

    I - Với VnDOCR, xin đừng dạy dỗ gì hết, cứ để tự nhiên. Ai đã lỡ dạy rồi thì xóa tận gốc, vào thư mục đã cài mà xóa, rồi cài lại!

    II - Sửa chính tả ngay trên VnDOCR là dễ nhất!

    III - Sau khi có bản word thô, dùng Find and Replace để tìm và thay thế toàn bộ những kí hiệu sau:
    1. thay " " (2 khoảng trắng) = " " (1 khoảng trắng)
    2. thay " ." (1 trắng và dấu chấm) = "." (1 dấu chấm)
    3. thay " ," (1 trắng và dấu phẩy) = "," (1 dấu phẩy)
    ----------------------------------------------------
    4. thay ".^p" (1 chấm và ^p) = "xxx" (đề nghị thế )
    5. thay "^p" (không có chấm) = " " (1 khoảng trắng)
    6. thay "xxx" = ".^p^p" (1 chấm và 2 lần ^p)
    đúng ra chỉ 1 lần ^p thôi, nhưng do yêu cầu dễ đọc khi post bài nên thêm 1 lần ^p nữa!

    * Hãy xem kết quả đạt được!
    * Xin nhắc lại là tôi làm với VnDOCR 4.0 Demo. Các bản 2.0, 3.0 chưa làm nên không biết kết quả như thế nào!
    * Cuối cùng, thực hiện đúng tuần tự các bước trên để tránh có kết quả không như mong đợi.

  9. #9
    Ngày gia nhập
    Nov 2007
    Bài gửi
    1.334
    Post Thanks / Like
    Tủ sách biển Đông
    100
    Uploads
    35
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    "Dạy" cho VnDOCR 4.0 demo trong việc nhận dạng những từ hay sai.

    Việc dạy này chỉ thích hợp cho nhận dạng những tài liệu dài. Nếu vài trang thì sửa bằng tay là nhanh nhất!

    Bắt đầu nhé!

    1 - Hãy vào thư mục cài đặt VnDOCR 4.0, tìm file train.trn - đây là file lưu trữ các thông tin về việc "dạy" nó. Bạn hiểu rằng khi bạn "dạy" thì sẽ được ghi vào đây. Thế cho nên mỗi khi bạn nhận dạng 1 cuốn sách bạn nên có 1 file train.trn khác nhau. Dùng chung lẫn nhau, thí dụ là bạn nhận dạng 1 cuốn sách cũ nát, chữ nhòe, bạn huấn luyện cho nó rồi đem nhận dạng cuốn khác thì kết quả đôi khi còn tệ hơn !
    Vậy đề nghị bạn cất cái file train.trn đó đi, khi cần thì lôi ra dùng lại.

    2 - Bạn xóa cái file train.trn đó để bắt đầu huấn luyện nó cho 1 cuốn sách mà bạn muốn nhận dạng.

    3 - Việc huấn luyện thì cứ vào trong chương trình mà làm, tôi nghĩ mọi người đều rõ.

    Tuy nhiên có 1 số "kỹ thuật" nhỏ sau mà theo tôi là đáng để ý:
    - khi dạy, bạn dùng font ABC để gõ - với chữ Việt có dấu thì bạn để nó là tiếng Anh chứ không để chữ việt thường hay hoa!
    - Khi save lại thì nó hỏi save ở đâu và có hai hàng lựa chọn - bạn hãy chọn hàng địa chỉ ghi đơn giản là "train.trn" thì các thông tin được dạy dỗ mới lưu lại.
    - Bạn dạy nó trùng nhiều quá hay lỡ tay dạy sai thì sao thì sao? Xóa nó đi! OK, ở đây có 1 mánh nhỏ để xóa! Đầu tiên muốn xóa thì mở mục "Xử lý/Soạn thảo tệp học". Chọn chữ cần xóa rồi bấm xóa! Đơn giản quá phải không? Bạn save nó lại giống như trên! Bạn làm vài lần và xem lại thấy hình như mỗi lần save thì số lượng chữ được dạy tăng lên gấp đôi?
    Mánh đơn giản là trước khi save lại bạn hãy mở thư mục chứa file train.trn và xóa nó đi!

    * Lưu ý là 1 số lỗi không thể sửa được, và bạn đừng mất công dạy làm gì, dạy xong nó vẫn sai như thường! Bản demo mà!

  10. #10
    Ngày gia nhập
    Dec 2009
    Bài gửi
    45
    Post Thanks / Like
    Tủ sách biển Đông
    2
    Uploads
    0
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)
    chính xác, o có j bàn cãi

Bookmarks

Quyền hạn Gửi bài

  • Bạn không thể gửi chủ đề
  • Bạn không thể gửi trả lời
  • Bạn không thể gửi đính kèm
  • Bạn không thể sửa bài của mình
  •