Viettel OCR - Công nghệ đẩy nhanh quá trình số hóa tại Việt Nam

Đào Công
25/06/2021 14:01
D

Giúp doanh nghiệp tiết kiệm 90% thời gian nhập liệu so với cách làm thủ công, độ chính xác đạt đến 99% - đó là những kết quả đã được xác thực khi áp dụng Viettel OCR trong các ngành Tài chính - Ngân hàng, Bảo hiểm, Y tế, GTVT,...

Tài liệu giấy được quét chuyển đổi sang dạng văn bản sử dụng công nghệ OCR. Đồ họa: Đào Công

OCR và sức mạnh ngầm của một công nghệ xử lý “big data”

Trong thế giới số có một thuật ngữ gọi là "Dark data" – "Dark data" là dữ liệu không có cấu trúc, chưa thể sử dụng được nếu không qua xử lý, phân tích, sắp xếp. Nếu data tăng lên với cấp số nhân thì trong đó phần được cho là “dark data” tăng lên theo cấp số mũ.

Điều này đòi hỏi con người phải sẵn sàng các giải pháp xử lý dữ liệu lớn và siêu lớn. Vai trò của dữ liệu là đặc biệt quan trọng, nhưng việc khai thác, tối ưu dữ liệu trở thành tài sản có giá trị lại không hề đơn giản.

Trong khoảng 3 năm gần đây, giải pháp số hoá văn bản OCR trở nên hấp dẫn với nhiều doanh nghiệp bởi sức mạnh xử lý dữ liệu của nó. Nhưng ít ai biết, từ những năm đầu của thế kỷ XX, nhà vật lý Emanuel Goldberg đã phát triển một maáy đọc các ký tự và chuyển đổi chúng thành mã điện báo tiêu chuẩn được gọi là “Máy tính thống kê” để tìm kiếm số lưu trữ trong vi phim (microfilm) bằng cách sử dụng một hệ thống nhận diện mã quang học.

Năm 1931 ông được cấp bằng sáng chế của Hoa Kỳ số 1.838.389 cho phát minh của mình và sau đó đã được mua lại bởi IBM. Cùng thời, Edmund Fournier d'Albe đã phát triển Optophone, một máy quét cầm tay khi di chuyển trên một trang in, tạo ra các âm tương ứng với các chữ cái hoặc ký tự cụ thể.

Đây chính là nền móng đầu tiên của việc tự động hóa lưu trữ hồ sơ, mang “dữ liệu tối” ra ánh sáng bằng cách tạo ra các dữ liệu có cấu trúc (bảng SQL) từ thông tin phi cấu trúc (văn bản, bảng biểu, hình ảnh...) và tích hợp dữ liệu đó với cơ sở dữ liệu có cấu trúc hiện có.

IBM đã nhanh chóng mua lại bằng sáng chế của Emanuel và tiếp tục nghiên cứu, phát triển. Cho đến năm 2002, việc có thể sử dụng OCR ngay trên điện thoại di động và máy tính để bàn thông qua điện toán đám mây được coi là một bước ngoặt.

Tại Việt Nam, mặc dù OCR được tiếp cận sau nhưng đến nay đã đạt được những kết quả tương đương với thế giới trong việc xử lý ngôn ngữ Tiếng Việt (các công ty công nghệ lớn trên thế giới thường tập trung xử lý ngôn ngữ Tiếng Anh).

Năm 2020, theo quy định của Thông tư 23/2019/TT-NHNN, các dịch vụ ví điện tử, thanh toán trung gian phải xác thực tài khoản người dùng qua CMND, hay các quy định liên quan đến mở tài khoản của NHNN là động lực thúc đẩy Doanh nghiệp nhanh chóng ứng dụng OCR để trích xuất thông tin, tự động hóa quá trình nhập liệu và xét duyệt thông tin.

Trước nhu cầu lớn, thị trường mở rộng, chính sách của nhà nước thúc đẩy chuyển đổi số là động lực để Trung tâm Không gian mạng Viettel đã tập trung nghiên cứu, đóng gói bộ giải pháp OCR trên cơ sở kết hợp các công nghệ:

  • Sức mạnh của Viettel OCR còn đến từ công nghệ học sâu (Deep Learning) đem lại kết quả nhận dạng trên 99% đối với chữ in, trên 90% đối với chữ viết tay và lên tới 98% đối với việc trích xuất thông tin theo trường, vượt trội so với các nhà phát triển cùng lĩnh vực trên thị trường từ 4-5%.Công nghệ nhận dạng ký tự quang học (OCR) cho phép nhận dạng tài liệu dạng PDF, dạng ảnh, văn bản giấy…;
  • Công nghệ xử lý ngôn ngữ tự nhiên (NLP) tự động hiệu chỉnh thông tin đảm bảo độ chính xác cao về mặt ngữ nghĩa

Trải nghiệm tính năng Viettel OCR

Năm 2020 - cuộc dấn thân của Viettel OCR để giải quyết những case study cụ thể

Tháng 10/2020, trước đầu bài của Công ty Cổ phần giao thông số Việt Nam (ePass) về việc triển khai mở tài khoản thu phí không dừng với tham vọng phủ rộng đến 4 triệu xe ô tô trong giai đoạn bùng nổ thị trường của dịch vụ này, Viettel OCR nhanh chóng đưa ra “lời giải” bằng việc xử lý quét tự động ~5.000 bộ hồ sơ/ngày với độ chính xác lên tới 98%, áp dụng cho đa dạng các loại giấy tờ như: CMND, Bằng lái xe, Đăng ký xe, Đăng kiểm, Đăng ký kinh doanh... chuyển đổi thành dạng ký tự số có thể tìm kiếm, chỉnh sửa và lưu trữ dễ dàng. Có thể nói, cuộc “dấn thân” của OCR đóng góp phần vào tốc độ tăng trưởng thần tốc của ePass. Tính đến tháng 7/2020 đã có 800.000 tài khoản người dùng.

Demo hệ thống Viettel OCR quét giấy tờ khách hàng đăng ký sử dụng thẻ ePass

Với ngành tài chính ngân hàng, theo nghiên cứu của PricewaterhouseCoopers (PwC), trung bình, một tổ chức Tài chính phải trả 20 USD để gửi một hồ sơ, và khoảng 120 USD để tìm một hồ sơ bị thiếu theo cách thủ công. Thế nhưng, với mô hình OCR được thiết kế và lắp đặt đúng cách, doanh nghiệp sẽ có nguồn dữ liệu “sạch” ngay từ đầu, dễ dàng chỉnh sửa và đồng bộ hóa.

Đặc biệt, dữ liệu được sắp xếp hệ thống hóa giúp dễ dàng quản lý và tái sử dụng trong kho dữ liệu lớn của doanh nghiệp, hỗ trợ hầu khắp các mẫu giấy tờ như: chứng minh nhân dân, hợp đồng, biên lai, mà còn là giấy vay tiền, báo cáo tài chính,…

Tác động của công nghệ sẽ biến những quy trình từ rườm rà, phức tạp trở nên tối giản, tự động và chính xác. Viettel OCR dễ dàng tích hợp và triển khai trên các hệ thống như CMS, ERP, CRM… thông qua các API mở.

Piyush Gupta, CEO Ngân hàng DBS đã từng nói: Tại DBS, chúng tôi hoạt động ít giống một ngân hàng mà như một công ty công nghệ hơn – đây có lẽ là xu hướng có tính chất toàn cầu và đang dần hình thành tại Việt Nam.

Đầu năm 2021 - OCR đồng hành giải quyết bài toán khó cho ngành Dược

Công nghệ số không chỉ dừng lại ở công nghệ mà nó đang làm thay đổi cách thức vận hành ở cấp độ căn bản tại một tổ chức. Đầu năm 2021, Viettel OCR khởi động một dự án có tính đặc thù trong một ngành đặc biệt – đó là Y TẾ.

Với lượng dữ liệu siêu khủng, yêu cầu bảo mật nghiêm ngặt và tri thức ngành cao, Viettel OCR đang tham gia vào quy trình đăng ký lưu hành thuốc (tại Cục Quản lý Dược) và quy trình đăng đăng ký công bố/đăng ký quảng cáo thực phẩm bảo vệ sức khỏe (tại Cục An toàn thực phẩm).

Trước khi sử dụng Viettel OCR, Cục Quản lý Dược và Cục An toàn thực phẩm tiếp nhận xử lý các hồ sơ ở dạng bản cứng, doanh nghiệp cần đặt lịch hẹn và nộp trực tiếp tại trụ sở. Ít ai biết Cục quản lý Dược đã từng phải sử dụng nhiều phòng làm việc chỉ để lưu trữ số lượng giấy tờ khổng lồ đó. Thời gian xử lý hồ sơ kéo dài gây tốn kém về nhân lực và thời gian.

Ứng dụng vào thực tế, Viettel OCR tham gia số hoá các hồ sơ đăng ký thuốc tại Bộ phận một cửa bằng cách kiểm tra tính thống nhất và tính đúng đắn của hồ sơ, hỗ trợ các chuyên gia thẩm định giấy tờ pháp lý, dược lý như: mẫu nhãn, hướng dẫn sử dụng, giấy phép thành lập văn phòng đại diện, giấy chứng nhận đủ điều kiện kinh doanh dược, hồ sơ kỹ thuật và theo dõi các quy định liên quan đến việc đáp ứng điều kiện kinh doanh thuốc (GMP, CPP, GLP,…). Thông tin được đối chiếu tự động từ Đơn đăng ký đến tài liệu chứng minh, từ đó cảnh báo các trường hợp sai lệch, không trùng khớp.

Giai đoạn 2, Viettel OCR rà soát, thẩm định 35 loại hồ sơ với các định dạng khác nhau và gần 60 trường thông tin sẽ được trích xuất, tạo hệ thống thông tin điện tử (metadata) hỗ trợ tra cứu, tìm kiếm, chỉnh sửa và lưu trữ. Ứng dụng công nghệ xử lý ngôn ngữ tự nhiên sẽ hỗ trợ kết quả trả về đúng ngữ nghĩa hơn và có thể kết nối với kho thông tin biệt dược gốc đồ sộ.

Kết quả thu được thật ấn tượng: tốc độ nhập liệu của OCR cao hơn 50-60 lần so với cách làm thủ công; những căn phòng giấy tờ giờ thu gọn trong một vài máy chủ; nhu cầu duy trì tài liệu giấy gần như không còn, số giờ lao động tiết kiệm được là không hề nhỏ, độ chính xác ngày càng cao với cơ chế huấn luyện học máy.

Nói về lợi ích khi ứng dụng giải pháp Viettel OCR, ông Hoàng Trung Hiếu – Giám đốc sản phẩm chia sẻ: “Các tài liệu trong bộ hồ sơ đăng ký đến từ nhiều quốc gia khác nhau. Do đó ngôn ngữ là một rào cản đáng kể trong quá trình thẩm định hồ sơ. Việc chuyển đổi các tài liệu trong hồ sơ sang dạng văn bản có thể chỉnh sửa, tìm kiếm được giúp các chuyên viên dễ dàng dịch và tra cứu thông tin”

Ông Hoàng Trung Hiếu – Giám đốc sản phẩm Viettel OCR

Không chỉ cơ quan nhà nước, các doanh nghiệp tham gia và các quy trình đăng ký là đối tượng được hưởng lợi nhiều nhất trong việc chuyển đổi số, sử dụng công nghệ thực hiện các việc thủ công có tính chất lặp đi lặp lại thay con người.

Viettel OCR giúp nâng cao trải nghiệm của các doanh nghiệp, mang đến sự chuyên nghiệp, hạn chế những cảm xúc tiêu cực trong giao tiếp giữa người - người; mọi giao tiếp giữa chính quyền và doanh nghiệp sẽ được thực hiện và lưu trữ trên hệ thống.

Giải pháp nhận dạng ký tự quang học tiếng Việt – OCR do Tập đoàn Viettel phát triển. Viettel OCR cho phép nhận dạng và trích xuất chính xác các ký tự từ hình ảnh và file PDF thành văn bản.

Sản phẩm giúp doanh nghiệp giải quyết các bài toán như số hóa văn bản và tự động hóa quy trình trong thời đại công nghệ số.

Giải pháp nhận dạng ký tự quang học tiếng Việt – OCR đã được trao giải 3 ở hạng mục Giải pháp số xuất sắc trong Giải thưởng Make in Vietnam năm 2020 do Bộ TT&TT tổ chức

Theo Tạp chí Điện tử

Bình luận

Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết

Gửi bình luận

Tin cùng chuyên mục

Kingston Technology tiếp tục dẫn đầu thị trường mô-đun DRAM

Kingston Technology tiếp tục dẫn đầu thị trường mô-đun DRAM

OpenAI sắp ra mắt mô hình Orion mạnh gấp 100 lần

OpenAI sắp ra mắt mô hình Orion mạnh gấp 100 lần

Cách để giảm thiểu rủi ro lỗi phần mềm hệ thống

Cách để giảm thiểu rủi ro lỗi phần mềm hệ thống

ASUS Zenbook S 14 (UX5406) vừa ra mắt có gì?

ASUS Zenbook S 14 (UX5406) vừa ra mắt có gì?

Snapchat for Business ra mắt tại Việt Nam, mở ra cơ hội tiếp cận 850 triệu người dùng toàn cầu

Snapchat for Business ra mắt tại Việt Nam, mở ra cơ hội tiếp cận 850 triệu người dùng toàn cầu

Chip 5nm kết hợp AI và thị giác cho xe tự lái : Hai công nghệ, ba hướng phát triển

Chip 5nm kết hợp AI và thị giác cho xe tự lái : Hai công nghệ, ba hướng phát triển

ENGAGE Asia 2024 công bố loạt chiến lược và sáng kiến ​​AI mới

ENGAGE Asia 2024 công bố loạt chiến lược và sáng kiến ​​AI mới

Duolingo chính thức đưa trí tuệ nhân tạo (AI) vào nền tảng

Duolingo chính thức đưa trí tuệ nhân tạo (AI) vào nền tảng

Bosch Rexroth trình diễn giải pháp Nhà máy thông minh tại Automation World Vietnam 2024

Bosch Rexroth trình diễn giải pháp Nhà máy thông minh tại Automation World Vietnam 2024

MobiFone ra mắt MobiAI: Bình dân hóa trí tuệ nhân tạo tại Việt Nam

MobiFone ra mắt MobiAI: Bình dân hóa trí tuệ nhân tạo tại Việt Nam

Microchip giới thiệu giải pháp đồ họa toàn diện cho môi trường MPLAB Harmony v3 và Linux

Microchip giới thiệu giải pháp đồ họa toàn diện cho môi trường MPLAB Harmony v3 và Linux

DarkFlash DY470 ATX: sự kết hợp hoàn hảo giữa thiết kế, tính năng và hiệu suất làm mát

DarkFlash DY470 ATX: sự kết hợp hoàn hảo giữa thiết kế, tính năng và hiệu suất làm mát

Tin mới cập nhật

Keysight và Adi hợp tác cùng phát triển phương pháp đo kiểm GMSL

Keysight và Adi hợp tác cùng phát triển phương pháp đo kiểm GMSL

 Công nghệ thông minh chấm dứt cơn khát của 'Bọ cửa máy bay'

Công nghệ thông minh chấm dứt cơn khát của 'Bọ cửa máy bay'

Black FireDay: Sale Bỏng Tay - Chốt Mua Ngay

Black FireDay: Sale Bỏng Tay - Chốt Mua Ngay

Keysight hợp tác với Siemens EDA để hỗ trợ các thiết kế vô tuyến thế hệ tiếp theo

Keysight hợp tác với Siemens EDA để hỗ trợ các thiết kế vô tuyến thế hệ tiếp theo

Thúc đẩy phát triển và ứng dụng các công nghệ vô tuyến băng rộng tại Việt Nam

Thúc đẩy phát triển và ứng dụng các công nghệ vô tuyến băng rộng tại Việt Nam

Thúc đẩy chuyển đổi số, chuyển đổi xanh hướng tới phát triển bền vững

Thúc đẩy chuyển đổi số, chuyển đổi xanh hướng tới phát triển bền vững

Vingroup chính thức thành lập Công ty Cổ phần VinRobotics

Vingroup chính thức thành lập Công ty Cổ phần VinRobotics

Mobifone tiếp tục lọt Top 100 nơi làm việc tốt nhất Việt Nam 2024

Mobifone tiếp tục lọt Top 100 nơi làm việc tốt nhất Việt Nam 2024

An ninh mạng tại Việt Nam đang bị đe dọa nghiêm trọng

An ninh mạng tại Việt Nam đang bị đe dọa nghiêm trọng

Hệ sinh thái 'Người - Xe - Nhà' của Xiaomi giúp thúc đẩy đà tăng trưởng

Hệ sinh thái 'Người - Xe - Nhà' của Xiaomi giúp thúc đẩy đà tăng trưởng

Pythaverse đổi mới giáo dục STEM với AI và Metaverse tại Robothon Quốc tế 2024

Pythaverse đổi mới giáo dục STEM với AI và Metaverse tại Robothon Quốc tế 2024

Trường Đại học Điện lực tổ chức Hội nghị sinh viên nghiên cứu khoa học năm 2024

Trường Đại học Điện lực tổ chức Hội nghị sinh viên nghiên cứu khoa học năm 2024

Tin đọc nhiều

Kingston Technology tiếp tục dẫn đầu thị trường mô-đun DRAM

Kingston Technology tiếp tục dẫn đầu thị trường mô-đun DRAM

Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?

Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?

Người dùng phản ánh sự cố hiển thị hình ảnh trên Facebook.

Người dùng phản ánh sự cố hiển thị hình ảnh trên Facebook.

Sử dụng trí tuệ nhân tạo lọc nội dung độc hại với trẻ em trên Internet

Sử dụng trí tuệ nhân tạo lọc nội dung độc hại với trẻ em trên Internet

Cuộc khủng hoàng nguồn cung chip toàn cầu có thể kéo dài đến năm 2023

Cuộc khủng hoàng nguồn cung chip toàn cầu có thể kéo dài đến năm 2023

Hacker tuyên bố nắm được bí mật của Apple

Hacker tuyên bố nắm được bí mật của Apple

CEO Sun Bohan: Huawei cam kết đồng hành cùng ngành ICT Việt Nam

CEO Sun Bohan: Huawei cam kết đồng hành cùng ngành ICT Việt Nam

Pi và "Pi network" có hoàn thành giấc mơ thành "tỉ phú" của người dùng Việt

Pi và "Pi network" có hoàn thành giấc mơ thành "tỉ phú" của người dùng Việt

News Showcase - Bước đi "khôn ngoan" của Google trước dự luật mới của Australia

News Showcase - Bước đi "khôn ngoan" của Google trước dự luật mới của Australia

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

Video xem nhiều

Đại học Miami tạo ra cảm biến chất lượng không khí phát hiện Covid-19

Đại học Miami tạo ra cảm biến chất lượng không khí phát hiện Covid-19

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Thông điệp lan tỏa mùa dịch COVID-19

Thông điệp lan tỏa mùa dịch COVID-19

Clip: Khuyến cáo đối với người lao động, người làm việc, người bán hàng tại khu dịch vụ trong dịch Covid-19

Clip: Khuyến cáo đối với người lao động, người làm việc, người bán hàng tại khu dịch vụ trong dịch Covid-19

Cỗ xe lai phản lực tăng tốc từ 0 - 1010 km/h trong 50 giây tham vọng phá kỷ lục thế giới

Cỗ xe lai phản lực tăng tốc từ 0 - 1010 km/h trong 50 giây tham vọng phá kỷ lục thế giới

“Rắn tiên tri” dự đoán đội tuyển Việt Nam thắng Thái Lan

“Rắn tiên tri” dự đoán đội tuyển Việt Nam thắng Thái Lan

Pretzel - Bánh quy cây: Biểu tượng văn hoá châu Âu với nhiều tranh cãi về nguồn gốc

Pretzel - Bánh quy cây: Biểu tượng văn hoá châu Âu với nhiều tranh cãi về nguồn gốc

Làm thế nào để nâng cao tương tác giữa loa và phòng nghe hiệu quả

Làm thế nào để nâng cao tương tác giữa loa và phòng nghe hiệu quả

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Chiếc điều hòa cá nhân này của Sony là tất cả những gì bạn cần để sống sót qua mùa hè nóng nực

Chiếc điều hòa cá nhân này của Sony là tất cả những gì bạn cần để sống sót qua mùa hè nóng nực

Những gì bạn muốn biết về 5G

Những gì bạn muốn biết về 5G

5G thay đổi tương lai của bạn như thế nào?

5G thay đổi tương lai của bạn như thế nào?

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G
04/03/2022
Chip xử lý A15 Bionic của Apple có gì mới
15/09/2021
Sex Education mùa 3 được Netflix công chiếu vào 17/9
14/09/2021
iPhone 13 không thay đổi nhiều về ngoại hình, camera được nâng cấp mạnh
13/09/2021
Cách xem trực tiếp sự kiện ra mắt iPhone 13 và Apple Watch 7
10/09/2021
VNEID của Bộ Công an khác các ứng dụng đang được vận hành?
10/09/2021
'Cái tôi' thời 4.0 và tính hai mặt của mạng xã hội
04/09/2021
'Muôn màu' cảm xúc của trẻ trong ngày khai giảng online
24/08/2021
Chủ tịch Chu Ngọc Anh giải toả 'ách tắc' về Giấy đi đường cho người dân Thủ đô
10/08/2021
Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?
02/08/2021
6 bộ phim hay nhất để xem trên VieON
29/01/2021
Bắc Ninh: Không ký kết triển khai dự án Owifi 5G với CSE Singapore
27/06/2020
Bị World Bank cấm dự thầu 7 năm, công ty Sao Bắc Đẩu thừa nhận sai sót
27/06/2020
Wefinex - Mô hình hoạt động đa cấp "đội lốt" đầu tài chính trên mạng internet
10/06/2020
Khai trừ MISA khỏi Câu lạc bộ Chữ ký số và Giao dịch điện tử Việt Nam
27/05/2020
Chuyển đổi số - Nên hiểu như thế nào cho đúng
25/05/2020
Chống thất thu thuế là thách thức lớn đối với nền kinh tế số
29/04/2020
Cách chuyển tập tin sang máy tính mới
10/11/2019
VNPT, MobiFone, VTC sẽ hoàn thành cổ phần hóa trước năm 2021
20/08/2019
5G thay đổi tương lai của bạn như thế nào?
26/07/2019
Nhận diện hành vi lừa đảo trên không gian mạng
25/07/2019
Truyền hình OTT - Hướng đi mới của các “nhà Đài”
24/07/2019