Kiểm tra đạo văn DoIT: Nâng cao tính nghiêm túc trong học tập và nghiên cứu
Hệ thống kiểm tra đạo văn có tên DoIT do nhóm nghiên cứu của Trường Đại học Công nghệ, ĐHQGHN xây dựng với hai nội dung chính là kiểm tra trùng lặp văn bản và sửa lỗi chính tả.
- Phần mềm chống gian lận tuyển sinh 2020 được Bộ GD-ĐT tiến hành áp dụng
- "Cha đẻ" của phần mềm diệt virus McAfee đối mặt với tội danh lừa đảo với hành vi "thổi giá" tiền ảo
Trước việc nhiều trường Đại học ở Việt Nam phải mua các phần mềm kiểm tra đạo văn của nước ngoài để đánh giá bài làm hay các sản phẩm học thuật của người học.
Hạn chế của phần mềm ngoại là chỉ bán theo số lượng lớn tài khoản cho các đơn vị với chi phí bản quyền cao nên những người có nhu cầu kiểm tra cá nhân lại không thể sử dụng.
Kiểm tra trùng lặp và sửa lỗi chính tả và cả ký tự bất thường
Để tạo ra phần mềm trong nước, dễ dàng sử dụng bằng tiếng Việt, nhóm nghiên cứu bao gồm các giảng viên và sinh viên của Trường Đại học Công nghệ, ĐHQGHN đã nghĩ đến xây dựng phần mềm chống đạo văn.
Anh Nguyễn Ngọc Sơn, cựu sinh viên Trường ĐH Công nghệ, thành viên nghiên cứu chính và đang làm việc tại Công ty Cổ phần Metis cho biết, cái khó nhất và quan trọng nhất làm nhóm nghiên cứu phải ‘đau đầu’ chính là ‘làm sao để có thể phát hiện sự tương đồng trong văn bản trên hàng terabytes dữ liệu trên Internet mà vẫn phải đảm bảo chất lượng, tốc độ kiểm tra cũng như khả năng chịu tải trên một hạ tầng phần cứng bị giới hạn.
Qua 4 phiên bản khác nhau, nhóm đã xây dựng và phát triển hoàn thiện được hệ thống hỗ trợ nâng cao chất lượng tài liệu DoIT phục vụ nhu cầu sử dụng của hàng nghìn thầy cô, sinh viên mỗi năm.
Không chỉ được tích hợp khả năng kiểm tra chính tả, kiểm tra bài tập theo nhóm, hỗ trợ nhiều loại định dạng văn bản khác nhau và có thể áp dụng triển khai nội bộ cho các đơn vị, điểm vượt trội nhất của phần mềm này là khả năng xử lý tiếng Việt.
Nhờ phát triển được một thuật toán riêng, sử dụng độ đo bất đối xứng nên việc kiểm tra, tính điểm trùng lặp giữa một câu văn ngắn và một câu văn dài trở nên chính xác hơn; hệ thống cũng phát hiện được cả những ký tự ẩn bất thường trong văn bản mà học viên có thể sử dụng để ‘lách luật’.
Kết nối xây dựng cộng đồng chia sẻ dữ liệu
Điểm mấu chốt nhất của phần mềm kiểm tra đạo văn không chỉ là công nghệ xử lý dữ liệu lớn mà chính là cơ sở dữ liệu (CSDL) để hệ thống có thể so sánh. Với những phiên bản đầu tiên, dữ liệu để nhóm nghiên cứu của ĐH Công nghệ kiểm tra đến từ những kho tài liệu phổ biến tại Việt Nam như Wikipedia, tailieu.vn hay 123doc. Đồng thời, nhóm cũng xây dựng một hệ thống riêng để có thể tự động phát hiện và thu thập nguồn dữ liệu mới.
Dù đang có khoảng hơn 300 triệu dữ liệu tiếng Anh và 50 triệu dữ liệu tiếng Việt, thì nguồn quan trọng nhất và cũng là dữ liệu mà nhóm thực sự muốn làm giàu cho CSDL, chính là các khóa luận, luận văn, luận án... từ các trường đại học.
"Dữ liệu nội sinh sẽ có giá trị cao hơn rất nhiều dữ liệu trôi nổi trên Internet, bởi có những giới hạn: Ví dụ như người dùng tải lên thì mình mới lấy được và nhiều trang web cũng không chia sẻ miễn phí đầy đủ nội dung các tài liệu", nhóm nghiên cứu cho biết. Nếu không có bộ CSDL đủ lớn, phần mềm phát hiện đạo văn dù có tối tân đến đâu cũng không thể phát huy hết hiệu quả.
Thực tế này cũng có thể thấy ngay cả với việc Việt Nam áp dụng Turnitin - phần mềm có CSDL học thuật đồ sộ với tổng cộng khoảng 45 tỷ trang web, hơn 337 triệu bài làm của sinh viên và hơn 130 triệu bài viết từ các cuốn sách và các ấn bản học thuật, thì cũng gặp phải hạn chế do không thể cập nhật CSDL của tất cả các trường đại học, cơ sở nghiên cứu trong nước bởi vẫn có quá ít các đơn vị sử dụng.
Đây cũng chính là mục tiêu mà nhóm nghiên cứu Trường ĐH Công nghệ hướng đến: Xây dựng được một cộng đồng liên kết và chia sẻ dữ liệu giữa các đơn vị đào tạo. Khi có CSDL như vậy, việc phát hiện sự trùng lặp sẽ chính xác hơn rất nhiều.
Nhóm đang liên tục cải tiến phần mềm như nghiên cứu để loại trừ các câu văn phổ thông (ví dụ lời cảm ơn, phụ lục) trong trùng lặp văn bản, đồng thời tiếp tục phát triển thêm các phần mềm liên quan đến dữ liệu, tri thức và giáo dục như Simidoc, EasyCheck, VOJS.
Hệ thống nâng cao chất lượng tài liệu DoIT đã được sử dụng ở khoảng 15 trường như ĐH Quốc gia Hà Nội, ĐH Luật, ĐH Vinh... và được người dùng cá nhân từ 60 trường trải nghiệm.
Mỗi ngày, vào thời điểm cao điểm như mùa nộp khóa luận, hệ thống DoIT xử lý từ 700 đến hàng nghìn tài liệu với tốc độ xử lý trung bình cho khoảng 50 trang là 1 phút.
Theo Tạp chí Điện tử
Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết
Gửi bình luận