Sau khi xem xét các bộ dò ngôn ngữ tự động và những từ dài nhất, trường hợp của tiếng Việt khá đặc biệt, chủ yếu là do ngôn ngữ này gần như hoàn toàn được cấu tạo từ những từ ngắn, không quá 6 chữ cái. Những từ dài hơn thỉnh thoảng xuất hiện hầu như chỉ là từ mượn.
Theo Wikipedia, từ dài nhất (theo định nghĩa này) là "nghiêng", nghĩa là "nghiêng". Điều khiến tôi chú ý là cách diễn đạt trong câu này, vì nó ngụ ý rằng "nghiêng" là từ thuần Việt duy nhất có 7 chữ cái, và không có từ thuần Việt nào có 8 chữ cái trở lên. Có hàng trăm từ tiếng Việt khác nhau có 6 chữ cái, ví dụ như "Nguyễn" (thường gặp hơn cả Smith), "trưởng" (trưởng), "khuynh" (nghiêng). Liệu có đúng là "nghiêng" và các từ đồng nghĩa của nó là những từ thuần Việt duy nhất có bảy chữ cái không?
Về mặt kỹ thuật, tiếng Việt phân tách chuỗi chữ cái ở cấp độ từ gốc, và mỗi từ gốc là một âm tiết trong tiếng Việt. Đối với người chưa quen, dường như mọi từ thuần Việt đều chỉ có một âm tiết. Tiếng Việt thực tế chứa một tỷ lệ cao các từ ghép, trông giống như các từ được phân tách bằng dấu cách.
Có một nguồn trực tuyến liệt kê tất cả các từ thuần Việt (về mặt kỹ thuật, các từ gốc một âm tiết) của tiếng Việt. Tôi đã chạy một chương trình Python đơn giản sắp xếp và phân loại từng từ tiếng Việt theo độ dài. Tôi đã sử dụng ba danh sách được sử dụng trong các chương trình hoặc dự án nghiên cứu thực tế (7184-source, 7884-source, tất cả các âm tiết). Đây là kết quả của tôi:
Độ dài 7184-source 7884-source Tất cả các âm tiết 1 48 74 60 2 855 1028 1216 3 2937 3172 5708 4 2372 2560 6872 5 832 887 3442 6 139 157 670 7 1 6 6 8+ 0 0 0Có bằng chứng rõ ràng cho thấy "nghiêng" là từ thuần Việt có 7 chữ cái. Trong 7884-source, các từ có bảy chữ cái là 'kilôgam', 'kilômet', 'nghiêng', 'nghiênh', 'nghuếch', 'đpctntư'. Hai từ đầu rõ ràng là từ mượn, từ thứ tư và thứ năm có thể bị viết sai chính tả. Từ cuối cùng là vô nghĩa. Trong danh sách tất cả các âm tiết, sáu từ có bảy chữ cái đều là các từ đồng nghĩa của "nghiêng".
Sau khi tìm kiếm trong nhiều từ điển chữ Nôm, cuối cùng tôi đã tìm thấy một ví dụ thứ hai về một từ thuần Việt có bảy chữ cái. Đó lại là một từ đồng nghĩa của "nghiêng", lần này với dấu ngã: "nghiễng". Nguồn gốc của nó là từ "Tam Thiên Tự", và "nghiễng" thậm chí còn có chữ Nôm tương ứng: 覡 (nghĩa là "phù thủy"). Tôi tìm thấy nguồn này từ Facebook.
Tính đến nay, tôi đã tìm thấy thêm một từ (từ gốc), cùng với chữ Nôm tương ứng, gồm bảy chữ cái. Tôi nghĩ "nguyêng", "nghiêch", "thuyêng" có vẻ hợp lý, nhưng tôi không thấy bằng chứng nào về sự tồn tại của chúng. Vui lòng bình luận nếu bạn tin rằng "nghiêng" là những từ thuần Việt không ghép duy nhất có bảy chữ cái, hoặc nếu có bằng chứng trái ngược.
Link nội dung: https://cdspvinhlong.edu.vn/chu-cai-ghep-tieng-viet-a31677.html