Phan Nhu: đếm chữ

đếm chữ chính là cách thức Korpuslinguistik làm với văn bản

cấu hình máy tính mạnh, các thuật toán và Statistik (R nhé, tầm này ai chơi SPSS) khiến Informatik kết giao cùng Linguistik tạo ra hai ngành mới là Korpuslinguistik và Computerlinguistik. Cái lõi của cả hai ngành này đều là, nhìn chữ không như chữ, mà biến nó thành số, dựng biểu đồ trên kết quả thực nghiệm và khái quát thành Modell. Đằng sau những con chatbot, AI, Alexa etc. ngoài rất nhiều dòng code thì là một kho dữ liệu ngôn ngữ khổng lồ đã qua annotate, làm sạch, xử lý cắt gọt cho vừa với thuật toán. Thời xa xưa, thuở hồng hoang của corpus, bước Annotation đều là người làm, bằng tay. Sau này thì cho vào máy đọc rồi người soát lại.

empirische Forschung, nghiên cứu thực nghiệm, dựa trên kết quả các phép tính được rút ra từ một cơ sở dữ liệu chọn lọc. Tức là từ một số lượng nhất định của các mẫu nghiên cứu đã được chọn theo tiêu chí đề ra, dưới quan sát và áp dụng những yếu tố và biến số nhất định để tính và rút ra kết quả. Điều tối quan trọng khi làm những nghiên cứu như thế là phải có một Hypothese rõ ràng, dựa trên cảm tính, quan sát hay lý thuyết nào đó. Việc biến chữ thành số, ngoài tách biến chữ ra khỏi ngữ cảnh, thì còn dẫn đến một nguy cơ thảm họa hơn, đó là kiểu gì cũng ra kết quả, dẫu có dùng chương trình, thuật toán nào đi chăng nữa. Nhìn vào đống số ấy thấy được gì thì lại là chuyện khác, hoặc überhaupt chúng có nói được điều gì không?

Kontext, Thema và Genre là ba phạm trù hoàn toàn khác nhau. Khi đếm chữ như thế, Kontext đã bị loại ra triệt để. Một văn bản không mang tính văn học thì dễ phân loại theo Thema hoặc Genre hơn, chính vì thế các Essays, bài báo mới hay được chọn làm dữ liệu cho Korpus. Thế nhưng, cùng với Distant Reading người ta nảy ra ý tưởng đếm chữ cả trong các văn bản văn học, chính xác hơn là trong tiểu thuyết. Sau khi phân loại các tác phẩm theo Thema hoặc Genre xong xuôi, xử lý dữ liệu, bỏ ra hết tất tật các từ thừa không có giá trị nội dung thì những gì còn lại được ném vào một cái hộp, xóc đều lên và chia lại từ đầu. Người ta cũng lấy một Faktor làm chuẩn, tính tỉ lệ xuất hiện của nó trong một văn bản, đem so sánh với tỉ lệ xuất hiện của nó trong cái hộp đã ném toàn bộ tập hợp các từ còn lại vào. Lấy ví dụ câu hỏi ở đây là, liệu Lemma Frau có xuất hiện trong tiểu thuyết tình cảm sướt mướt nhiều hơn các thể loại tiểu thuyết khác hay không?

một Hypothese khác: liệu tập hợp những từ thường được dùng để miêu tả sự buồn và ảm đạm có xuất hiện nhiều trong tiểu thuyết có chủ đề chiến tranh/quân đội hơn so với các tiểu thuyết có chủ đề khác hay không? Giả dụ mệnh đề trên là đúng, thì hẳn Hành khúc Radetzky phải là một câu chuyện rất ít buồn

chúng ta đang di chuyển trong một phạm trù cực kì xa Metapher, Phantasie và nhất là Sinn

Phan Nhu

Tuesday, April 1, 2025

đếm chữ

No comments:

Post a Comment