Việc xử lí TÊN RIÊNG TIẾNG VIỆT với TƯ CÁCH là MỘT BIỂU GHI trong MẠNG TỪ TIẾNG VIỆT [1]
TRƯƠNG THỊ THU HÀ [2]
NGUYỄN PHƯƠNG THÁI [3]
1. Dẫn nhập
Mạng từ là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa/ loạt đồng nghĩa tri nhận (set of cognitive synonyms; synset), mỗi loạt đồng nghĩa này thể hiện một khái niệm riêng biệt; các loạt đồng nghĩa khác nhau gắn kết với nhau nhờ các quan hệ ngữ nghĩa. Trong các mạng từ hiện có (Mạng từ tiếng Anh, Mạng từ châu Âu, v.v.) có nhiều kiểu quan hệ ngữ nghĩa khác nhau nhưng những quan hệ chủ yếu có tác dụng kết nối các loạt đồng nghĩa lại với nhau là quan hệ bao thuộc, quan hệ tổng phân và quan hệ trái nghĩa. [2, tr. 6].
Quan hệ bao thuộc và quan hệ tổng phân là hai quan hệ tồn tại ở trong hệ thống danh từ của mạng từ. Hai quan hệ này chính là hai quan hệ chứa các tên chung/ danh từ chung lẫn tên riêng/ danh từ riêng. Tên riêng nói chung và tên riêng chỉ người nói riêng của bất cứ ngôn ngữ nào cũng phản ánh không chỉ những đặc điểm riêng biệt của mỗi ngôn ngữ mà còn phản ánh đặc điểm riêng của mỗi nền văn hoá. Thêm vào đó, việc xây dựng mạng từ nói chung, Mạng từ tiếng Việt nói riêng có những đặc thù riêng biệt khác với việc biên soạn từ điển truyền thống nói chung, từ điển điện tử nói riêng, do vậy, để xây dựng Mạng từ tiếng Việt thành công cần phải có thêm những kĩ thuật, thao tác riêng cho mỗi hạng mục, trong đó bao gồm cả hạng mục thu thập và xử lí tên riêng chỉ người. Vì thế, bài viết này tập trung trình bày những kĩ thuật và thao tác cụ thể để thu thập và xử lí tên riêng chỉ người (người Việt) – một thực thể phản ánh những dấu hiệu riêng biệt của ngôn ngữ và văn hoá Việt Nam – trong tiếng Việt của Mạng từ tiếng Việt.
___________
[1] Bài viết này được Đề tài Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt mã số KC.01.20/11-15 tài trợ.
[2] TS, Viện Từ điển học và Bách khoa thư Việt Nam – Viện Hàn lâm Khoa học Xã hội Việt Nam.
[3] TS, Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội.
2. Mạng từ và Mạng từ tiếng Việt
2.1. Mạng từ của một ngôn ngữ, nói chung, vừa là một cuốn từ điển ngữ văn vừa là một cuốn từ điển bách khoa phổ thông tổng hợp. Do vậy, nó vừa xử lí các đơn vị ngữ nghĩa như các từ điển ngữ văn thông thường vừa cung cấp các thông tin theo kiểu chủ đề. Là từ điển ngữ văn, nó phải làm việc với các thông tin ngôn ngữ. Là từ điển bách khoa, nó phải làm việc với các thông tin bách khoa. Vì vậy, mạng từ phải thu thập và xử lí các tên riêng/ danh từ riêng.
2.2. Hơn nữa, về mặt lí thuyết, đối với mạng từ, có hai điểm cần chú ý. Thứ nhất, mạng từ giống như một bộ từ vựng tinh thần bao gồm cả tên chung/ danh từ chung và tên riêng/ danh từ riêng. Vì thế, trong mạng từ, cần phải thu thập và xử lí các tên riêng/ danh từ riêng bên cạnh tên chung/ danh từ chung. Thứ hai, mạng từ không được tổ chức theo hình thức từ, mà cụ thể là sắp xếp các từ theo alphabet như từ điển ngữ văn thông thường, mà mạng từ được tổ chức theo các quan hệ nghĩa, thành các lớp lang phạm trù khác nhau, tôn ti phân loại khác nhau. Quan hệ bao thuộc và quan hệ tổng phân ở trong hệ thống danh từ của mạng từ thể hiện rõ nhất điều này. Hai quan hệ này, nói chung, được tổ chức hay bắt đầu từ những thực thể tên riêng cụ thể.
2.3. Mạng từ tiếng Việt dự định xây dựng 30000 loạt đồng nghĩa, với 50.000 đơn vị từ vựng, trong đó có 30.000 đơn vị từ vựng là từ tiếng Việt thông dụng. [4, tr. 22] Ước tính số lượng biểu ghi loạt đồng nghĩa bao thuộc cấp trên trực tiếp có loạt đồng nghĩa được thể hiện bằng tên riêng (tức có quan hệ trường hợp) mà Mạng từ tiếng Việt phải thu thập là khoảng 500 loạt với trên 1.000 tên riêng. (Phiên bản 3.0 của Mạng từ tiếng Anh đã thu thập 945 biểu ghi loạt đồng nghĩa bao thuộc cấp trên trực tiếp có loạt đồng nghĩa được thể hiện bằng tên riêng). Số lượng loạt đồng nghĩa tổng phân cấp trên trực tiếp có loạt đồng nghĩa được thể hiện bằng tên riêng (trong quan hệ bộ phận và quan hệ thành viên) mà Mạng từ tiếng Việt phải thu thập cũng lên tới vài trăm loạt, tương đương quan hệ bao thuộc.
3. Những kĩ thuật và thao tác thu thập và xử lí tên riêng chỉ người trong Mạng từ tiếng Việt
Qua khảo sát các mạng từ hiện có, tên riêng có thể chia thành hai loại. Loại thứ nhất là tên người; và loại thứ hai là tên chỉ các thực thể không phải là người như địa danh, các sự vật, sự kiện, quá trình cụ thể,… Do khuôn khổ có hạn, bài viết này không thể đưa ra các giải pháp cụ thể để thu thập và xử lí tên riêng nói chung mà chỉ có thể tập trung đưa ra các giải pháp thu thập và xử lí tên người, cụ thể là tên người Việt.
3.1. Xét theo vị trí tồn tại trong mạng từ, các tên riêng được ghi nhận trong mạng từ nằm ở quan hệ bao thuộc với tư cách là nghĩa thuộc cuối cùng ở trong dãy quan hệ bao thuộc, và nằm ở quan hệ tổng phân với tư cách là nghĩa phân cuối cùng của dãy quan hệ tổng phân. Tất cả các tên riêng tồn tại trong mạng từ đều là những thực thể ngôn ngữ nằm ở nút lá/ nút con cuối cùng của một trong hai dãy quan hệ ở danh từ này. Ngay cả trong trường hợp khi tra mạng từ, cơ cấu nghĩa của từ hiện ra như ví dụ in nghiêng dưới đây, thì tên riêng đó vẫn được dẫn xuất từ một trong hai quan hệ ở danh từ này. Chẳng hạn, loạt đồng nghĩa tên riêng thuộc biểu ghi thứ nhất và biểu ghi thứ hai trong ví dụ dưới đây là hai nghĩa thuộc/ nút con trường hợp cuối cùng của một nghĩa bao/ nút mẹ cấp trên của loạt {họ, họ hàng, họ tộc, tộc}; loạt đồng nghĩa tên riêng thuộc biểu ghi thứ ba là nghĩa thuộc trường hợp của nghĩa bao của loạt {triều đại, triều đình, triều, nhà}; loạt đồng nghĩa tên riêng thuộc biểu ghi thứ tư là nghĩa thuộc trường hợp của nghĩa bao của loạt {nguyên thủ quốc gia, lãnh tụ quốc gia}.
3.2. Về bản chất, tên riêng chỉ người rất khác tên chung, do đó, cần có riêng giải pháp và kĩ thuật xử lí dành cho nó. Có mấy điểm cần lưu ý khi thu thập và xử lí tên riêng tiếng Việt như sau:
3.2.1. Thứ nhất, đó là thu thập và xử lí những tên riêng có hình thức từ trùng với tên chung. Trên thực tế, trong mạng từ, không phải tên riêng nào cũng được ghi nhận. Có mấy điều kiện để chọn lọc tên riêng để đưa vào mạng từ. Điều kiện thứ nhất, trong Mạng từ tiếng Anh, chỉ tên riêng nào có hình thức từ trùng với hình thức từ của tên chung thì mới được ghi nhận. Tuy nhiên, tình hình trong tiếng Việt lại khác. Vì đa số tên riêng trong tiếng Việt có hình thức từ trùng với hình thức từ của tên chung, nếu ghi nhận hết các tên riêng thì Mạng từ tiếng Việt sẽ có kích cỡ rất lớn. Tuy nhiên, điều đáng nói là việc ghi nhận tất cả các tên riêng này không có ý nghĩa gì cho nên không cần ghi nhận tất cả các tên riêng trong tiếng Việt. Vậy ta cần điều kiện chọn lọc thứ hai: chỉ có tên riêng nào có chỉ vật đáng chú ý, đặc trưng, đại diện hay điển hình cho một lớp loại đặc biệt nào đó vốn gắn chặt, đi liền với bản thân lịch sử, xã hội, văn hoá và con người, dân tộc Việt Nam mới được ghi nhận. Điều này cũng có nghĩa là cái tên riêng được ghi nhận đó phải là một trong số những tên gọi cùng gọi tên cái thực thể có thật ngoài hiện thực thuộc về một phạm trù phân loại nào đó trong tiếng Việt. Kết hợp hai điều kiện này, ta thấy danh sách tên riêng là yếu tố bao thuộc trường hợp phải thu thập sẽ không nhiều. Như thế, có thể xem điều kiện thứ nhất là điều kiện cần còn điều kiện thứ hai là điều kiện đủ.
Ví dụ, cho một số tên riêng (giả sử là tên người) như Hồ, Ngọt, Nam, Bắc, Zin, Po, Lina,… Áp dụng điều kiện thứ nhất ta thấy bốn tên gọi đầu thoả mãn điều kiện, vì chúng có hình thức từ trùng với tên chung. Áp dụng điều kiện thứ hai, ta thấy chỉ có tên riêng đầu tiên có thể được ghi nhận ở trong Mạng từ tiếng Việt. Như vậy, tên riêng Hồ sẽ đi vào mạng từ với tư cách là một từ đầu mục với nhiều nội dung khác nhau. Ở đây, có thể tạm hình dung vỏ âm thanh Hồ hiện diện trong Mạng từ tiếng Việt qua 12 biểu ghi sau, trong đó có bốn biểu ghi tên riêng:
{Hồ, họ Hồ}. tên một họ của người Việt, như Hồ Quý Ly.
{Hồ, họ Hồ}. tên gọi một họ của người Việt, đặt theo tên gọi của Bác Hồ cho một số dân tộc thiểu số như dân tộc Bru-Vân Kiều, Ca-dong.
{Hồ, triều Hồ, nhà Hồ, triều đại Hồ}. tên gọi một triều đại phong kiến Việt Nam, có sau nhà Trần.
{Hồ Chí Minh, Nguyễn Ái Quốc, Nguyễn Tất Thành, Hồ, Bác Hồ}. Chủ tịch nước đầu tiên của nước Việt Nam Dân chủ Cộng hoà (1890 – 1969).
{hồ, ao, đầm}. nơi đất trũng chứa nước, thường là nước ngọt, tương đối rộng và sâu, nằm trong đất liền.
{hồ}. nhạc cụ hai dây kéo bằng vĩ, tiếng trầm.
{hồ}. cháo loãng, nấu bằng bột gạo.
{hồ}. chất dính quấy bằng bột và nước, dùng để dán.
{vữa, hồ}. hỗn hợp chất kết dính của vôi, hay xi măng, hay thạch cao,… với cát và nước,… dùng để xây, trát.
{hồ}. làm cho sợi dệt hoặc vải thấm đều một lớp nước có pha chất bột hoặc keo.
{hồ}. tiền mà người đánh bạc nộp cho chủ sòng bạc.
{hồ}. cung thứ nhất của gam năm cung [hồ, xự, xang, xê, cống], trong âm nhạc cổ truyền Việt Nam.
3.2.2. Thứ hai, đó là việc thu thập và xử lí những tên riêng đặc biệt, có hình thức từ không trùng với tên chung. Loại này phức tạp hơn. Đối với loại này, có một điểm cần lưu ý là: Vì một chỉ vật có thể có nhiều tên gọi, do đó, về mặt danh học, chỉ vật ấy có bao nhiêu tên gọi thì phải ghi nhận bấy nhiêu tên gọi, nhưng về mặt ngữ nghĩa học từ vựng thì tình hình lại khác, không phải tất cả các tên gọi đều được ghi nhận. Tuy nhiên, mạng từ không phải là sản phẩm của thuần tuý danh học hay thuần tuý ngữ nghĩa học từ vựng.
Về mặt danh học, đứng trên lí thuyết, Mạng từ tiếng Việt có thể phải ghi nhận tất cả các tên gọi, song, về mặt thực tiễn và thao tác thì việc ghi nhận này trong nhiều trường hợp là không khả thi. Chẳng hạn, ta không thể kể hết mấy chục tên gọi và bí danh, bút danh (Hồ Chí Minh, Nguyễn Tất Thành, Nguyễn Sinh Cung, Nguyễn Ái Quốc, Nguyễn, Nguyễn A.Q, Ng A.Q, Ng. Ái Quốc, N.A.Q, N., Wang, N.K., A.N, P.C. Lin, P.C. Line, Line, Q.T, Q.TH, Lê Quyết Thắng, A.G, X.Y.Z, G., Lê Nhân, Lê, Lê Ba, Lê Nông, Lê Thanh Long, L.T., T.L., T.Lan, Tuyết Lan, Thanh Lan, Đin, Tân Trào, Đ.X, C.B, V.K., K.C., C.K., Trần Lực, C.S, Chiến Sĩ, Chiến Đấu, La Lập, Nói Thật, Thu Giang, K.V., Thu Giang, Trầm Lam, Luật sư TH. Lam, Nguyễn Kim, K.O, Việt Hồng, v.v.) của Chủ tịch Hồ Chí Minh vào trong cùng một loạt đồng nghĩa với tư cách là một nghĩa thuộc của nghĩa bao “nguyên thủ quốc gia, lãnh tụ quốc gia”, vì mấy lẽ: một, người làm mạng từ không thể làm được điều này; hai, nếu người làm mạng từ làm được điều này thì bản thân việc này cũng không phát huy được nhiều giá trị như trông đợi đối với người sử dụng mạng từ; ba, việc ghi nhận tất cả các tên riêng này làm cho mạng từ thêm rối rắm và khó kiểm soát về mặt kĩ thuật. Việc ghi nhận tất cả các tên này là nhiệm vụ của những cuốn sách công cụ mang tính chất bách khoa, vì loại sách này có nhiệm vụ làm rõ tất cả những nội dung liên quan đến chỉ vật. Hơn nữa, về mặt ngữ nghĩa học từ vựng, không thể ghi nhận hết các tên gọi ứng cho một chỉ vật khi ta xét chỉ vật ấy theo các góc nhìn khác nhau, nhất là khi xét chỉ vật ấy trong mối quan hệ với thực tế.
Xét tiếp ví dụ trên. Trong các ứng viên tên gọi là các nghĩa thuộc của nghĩa bao “lãnh tụ quốc gia” đã dẫn tên gọi, chẳng hạn, Nguyễn Sinh Cung (và nhiều tên khác nữa) không nên được ghi nhận trong Mạng từ tiếng Việt, vì Nguyễn Sinh Cung biểu nghĩa cho Hồ Chí Minh ở giai đoạn ấu thơ (cho nên người ta mới chỉ nói cậu bé Nguyễn Sinh Cung, chứ không nói chàng trai Nguyễn Sinh Cung hay lãnh tụ Nguyễn Sinh Cung). Như vậy, từ phân tích này, có thể tạm kết luận là Mạng từ tiếng Việt chỉ nên ghi nhận ba ứng viên Hồ Chí Minh, Nguyễn Tất Thành và Nguyễn Ái Quốc.
Như thế, ta có thể đặt điều kiện: chỉ ghi nhận những tên gọi phổ biến, có giá trị đại diện, theo cảm thức bản ngữ để chọn lọc các tên riêng chỉ người cần đưa vào Mạng từ tiếng Việt. Như thế, những tên gọi ít quen thuộc và ít có tính đại diện như N.A.Q, N., Wang, N.K., A.N, P.C. Lin, P.C. Line, Line, Q.T, Q.TH, Lê Quyết Thắng, A.G, X.Y.Z, G., Lê Nhân, Lê, Lê Ba, Lê Nông, Lê Thanh Long, L.T., T.L., T.Lan, Tuyết Lan, Thanh Lan, Đin, Tân Trào, ĐC.S, La Lập, Nói Thật, Thu Giang, K.V., Thu Giang, Trầm Lam, Luật sư TH. Lam, Nguyễn Kim, K.O, Việt Hồng, v.v. không nên được ghi nhận trong mạng từ.
3.2.3. Ngoài hai vấn đề chính đã xét tới ở trên, còn một vấn đề mang tính thuần tuý kĩ thuật là vấn đề sắp xếp các tên riêng chỉ người trong loạt đồng nghĩa. Các tên riêng chỉ người cũng cần được sắp xếp giống như việc sắp xếp các tên chung khác, tức là chúng cũng phải được sắp xếp theo quan điểm tâm-biên, không đánh dấu-đánh dấu. Ví dụ, đối với loạt mà có các ứng viên Nguyễn Ái Quốc, Hồ Chí Minh, Nguyễn Tất Thành hay dép Bác Hồ, dép cao su, dép cau su thì ta phải sắp xếp như sau {Hồ Chí Minh, Nguyễn Ái Quốc, Nguyễn Tất Thành}, {dép cao su, dép cau su, dép Bác Hồ}. Lí do giải thích cho trật tự của loạt thứ nhất là: Hồ Chí Minh, về mặt hình thức và thực tế, là tên gọi chính thức của “lãnh tụ quốc gia” Việt Nam, nên Hồ Chí Minh đứng đầu; Nguyễn Ái Quốc đứng thứ hai vì được biết đến nhiều và gần gũi với tính chất “lãnh tụ” hơn so với Nguyễn Tất Thành. Loạt thứ hai cũng được giải thích tương tự như vậy. Chỉ riêng một điểm cần nói thêm là dép cao su đứng trước dép cau su là vì dép cao su thường được xem là hình thức chuẩn hơn; dép cau su là một lựa chọn trong cách nói của riêng phương ngữ Bắc, do sự lẫn lộn giữa một vài âm vị nguyên âm ngắn một cách hệ thống trong một số vần như au, ay.
4. Kết luận
Trên đây là một số kĩ thuật và thao tác chính trong việc thu thập và xử lí tên riêng chỉ người trong tiếng Việt ứng dụng vào việc xây dựng Mạng từ tiếng Việt. Như đã nói, mặc dù là một nguồn cơ sở dữ liệu từ vựng, làm việc với các đơn vị nghĩa, các hệ thống từ, các quan hệ nghĩa, nhưng mạng từ còn có những tính chất giống như một cuốn từ điển bách khoa. Do vậy, nó còn phải xử lí các thông tin bách khoa ở ngay trong loạt đồng nghĩa và lời định nghĩa loạt đồng nghĩa của mình cũng như phải xử lí các tên riêng gọi tên các thực thể có thật ngoài hiện thực khác. Nói một cách khác, mạng từ còn phải thu thập và xử lí cả tên đất, tên các sự kiện, sự vật,… Đối với mỗi loại tên riêng này, việc thu thập và xử lí chúng ở trong mạng từ đều cần những giải pháp riêng. Các giải pháp cụ thể cho việc thu thập và xử lí các loại tên riêng còn lại sẽ được trình bày trong một công trình khác.
THƯ MỤC THAM KHẢO
A. Tiếng Việt
6. Hoàng Văn Hành – Nguyễn Văn Khang – Hà Quang Năng, Từ tiếng Việt, NXB Khoa học Xã hội, Hà Nội, 1998.
7. Phạm Văn Lam, Hướng dẫn Mạng từ tiếng Việt (phiên bản 2.0), Naiscorp, 2013.
8. Phạm Văn Lam, Vị trí, vai trò của ngữ nghĩa học từ vựng và danh học trong việc xây dựng Mạng từ tiếng Việt, Hướng tới việc xây dựng Mạng từ tiếng Việt, Naiscorp, 2014.
9. Nguyễn Phương Thái – Trần Ngọc Anh – Trương Thị Thu Hà – Nguyễn Văn Hiệp – Phạm Văn Lam – Nguyễn Hoàng Trung, Tổng quan về xây dựng Mạng từ tiếng Việt, Từ điển học & Bách khoa thư, số 4, 2014.
10. Nguyễn Thị Thu Trang, Tìm hiểu Wordnet, áp dụng trong xây dựng từ điển danh từ tiếng Việt, Đồ án tốt nghiệp, Trường ĐH Dân lập Hải Phòng, 2010.
B. Tiếng nước ngoài
11. EuroWordNet, http://www.illc.uva.nl/EuroWordNet/.
12. Christiane Fellbaum, Wordnet-An electronic lexical database, The MIT Press, England, 1998.
13. Virach Sornlertlamvanich, Review on Development of Asian WordNet, Japlo 2009 Year book, 2009.
14. The Global WordNet Associaton, http://globalwordnet.org/wordnets-in-the-world/.
15. Vossen Piek (ed), EuroWordNet: A Multilingual Database with Lexical Semantic Networks, Kluwer, Dordrecht, The Netherlands, 1998.