Sử Dụng CORPUS Để Giải Quyết Các Vấn Đề Từ Vựng Nâng Cao: Phần 1 - Corpus là gì

Học từ vựng để dùng chính xác và tự nhiên trong kỳ thi IELTS là một quá trình phức tạp và đòi hỏi sự nỗ lực và thời gian đầu tư. Nhiều người học IELTS gặp một số khó khăn trong việc học từ vựng nhưng không biết tìm kiếm câu trả lời cho các vấn đề đó khi các từ điển hoặc công cụ tìm kiếm thông thường không cung cấp câu trả lời thỏa đáng. Với mục đích giải quyết các vấn đề này, bài viết phần một này sẽ tìm hiểu về cách sử dụng Corpus - một công cụ hữu ích trong việc học từ vựng IELTS.
author
Trần Xuân Đạo
04/04/2023
su dung corpus de giai quyet cac van de tu vung nang cao phan 1 corpus la gi

Key Takeaways

Corpus là một tập hợp các văn bản được tổng hợp và sắp xếp theo một quy tắc nhất định.

Corpus có thể được sử dụng để: tìm hiểu ngữ cảnh tự nhiên mà từ hoặc cụm từ được sử dụng; tra cứu Collocation; tra cứu về tính trang trọng; và rất nhiều tính năng khác nữa.

Trong việc học từ vựng để thi IELTS, những vấn đề nâng cao như: a) Tìm hiểu các từ mới thông qua việc tra cứu Corpus; b) Xác định cách sử dụng từ mới trong ngữ cảnh thực tế; và c) Luyện tập kỹ năng đọc và viết từ vựng thông qua việc sử dụng Corpus; đều có thể được giải quyết nhờ việc sử dụng Corpus.

Các vấn đề từ vựng nâng cao của người học IELTS

Trong quá trình học IELTS, trên phương diện từ vựng người học có thể gặp một số vấn đề cụ thể sau đây:

  • Sử dụng từ vựng sai ngữ cảnh, thiếu tự nhiên

  • Dùng từ vựng sai cấu trúc ngữ pháp của nó

  • Dùng từ vựng thân mật (informal) vào bài viết trang trọng (formal)

Các vấn đề này đôi khi người học không thể giải quyết hoặc không tìm ra câu trả lời thoả đáng bằng các phương thức bình thường như tìm kiếm trên google hoặc các từ điển kể cả những từ điển Anh-Anh. 

Các vấn đề nêu trên, và nhiều vấn đề khác nữa, có thể được người học giải quyết thông qua việc dùng Corpus hay (dạng số nhiều Corpora).

Corpus là gì?

Khái niệm Corpus

Corpus là một tập hợp các văn bản được tổng hợp và sắp xếp theo một quy tắc nhất định. Các văn bản trong Corpus thường bao gồm các tài liệu đa dạng như sách, báo, tạp chí, tài liệu học thuật, văn xuôi và thơ v.v. Các từ và cụm từ được thu thập từ Corpus có thể được sử dụng để nghiên cứu ngôn ngữ, văn học, xã hội học và nhiều lĩnh vực khác.

Trong lĩnh vực học thuật, Corpus đã trở thành một công cụ hữu ích giúp nghiên cứu ngôn ngữ và văn học. Nhờ vào tính chính xác và đa dạng của các văn bản trong Corpus, các nhà nghiên cứu có thể tìm hiểu và phân tích các thuật ngữ và cụm từ đặc biệt trong một lĩnh vực hoặc ngành nghề cụ thể. Điều này giúp cho các nhà nghiên cứu có thể hiểu rõ hơn về cấu trúc ngôn ngữ và sử dụng các thuật ngữ chính xác hơn.

Các loại Corpus

Trong lĩnh vực ngôn ngữ học và văn học, có nhiều loại Corpus khác nhau được sử dụng để phân tích và nghiên cứu ngôn ngữ. Có nhiều loại Corpus thường được sử dụng trong nghiên cứu ngôn ngữ và cách chúng có thể hỗ trợ người học IELTS. Chúng bao gồm

  • Corpus Tổng hợp: Corpus Tổng hợp là loại Corpus phổ biến nhất trong nghiên cứu ngôn ngữ và văn học. Corpus Tổng hợp bao gồm các tài liệu đa dạng như sách, báo, tạp chí, tài liệu học thuật, văn xuôi và thơ.

  • Corpus Đối chiếu: Corpus Đối chiếu là loại Corpus được sử dụng để so sánh và phân tích sự khác biệt giữa các ngôn ngữ và các phong cách viết khác nhau.

  • Corpus Thời gian: Corpus Thời gian là loại Corpus được sử dụng để phân tích và so sánh sự thay đổi của ngôn ngữ và văn hóa qua thời gian.

  • Corpus Chuyên ngành: Corpus Chuyên ngành là loại Corpus được tập trung vào một lĩnh vực hoặc ngành nghề cụ thể.

Nội dung bài viết này sẽ tập trung vào phân tích cách dùng các Corpus tổng hợp. Khi nói về các Corpus tổng hợp, và xét đặc thù bài thi IELTS Academic, độc giả có thể cân nhắc một số Corpus cụ thể như BASE, BAWE, BNC và COCA.

  • BAWE: BAWE (British Academic Written English Corpus) là một loại Corpus được sử dụng rộng rãi trong nghiên cứu về tiếng Anh học thuật. BASE BAWE chứa các văn bản viết của sinh viên và giảng viên đại học Anh Quốc, bao gồm các tài liệu từ các lĩnh vực như Khoa học, Xã hội học, Nghệ thuật và Kinh doanh. Với BAWE, người học IELTS có thể tìm kiếm và phân tích các từ vựng và cấu trúc câu trong các tài liệu viết học thuật.

  • BASE: BASE (The British Academic Spoken English Corpus) là một Corpus tiếng Anh chứa các cuộc đối thoại và bài thuyết trình của giảng viên và sinh viên đại học ở Anh Quốc. BASE chứa khoảng 160 lần ghi âm cuộc đối thoại giữa giáo viên và sinh viên, cũng như 145 bài thuyết trình của giảng viên. Các cuộc đối thoại và bài thuyết trình trong BASE bao gồm các chủ đề khác nhau như khoa học, kỹ thuật, nghiên cứu xã hội và chính trị. Các cuộc đối thoại và bài thuyết trình trong BASE được ghi âm trong môi trường học thuật, do đó Corpus cung cấp cho người học tiếng Anh những tài liệu thực tế về tiếng Anh học thuật.

  • BNC: BNC (British National Corpus) là một loại Corpus rất lớn và đa dạng, chứa hơn 100 triệu từ viết và nói bởi người Anh trong nhiều thể loại khác nhau như sách, báo, tiểu thuyết, hội thoại, tài liệu học thuật và đàm thoại. Với BNC, người học IELTS có thể tìm kiếm và phân tích các từ vựng và cấu trúc câu trong các tài liệu đa dạng của người Anh.

  • COCA: COCA (Corpus of Contemporary American English) là một loại Corpus được sử dụng rộng rãi trong nghiên cứu về tiếng Anh Mỹ. COCA chứa hơn 560 triệu từ viết và nói bởi người Mỹ trong nhiều thể loại khác nhau như sách, báo, tiểu thuyết, hội thoại, tài liệu học thuật và đàm thoại. Với COCA, người học IELTS có thể tìm kiếm và phân tích các từ vựng và cấu trúc câu trong các tài liệu đa dạng của người Mỹ.

Cách sử dụng Corpus nói chung trong việc học từ vựng IELTS

Trước khi đọc về các cách mà người học có thể sử dụng Corpus, họ cần phải hiểu rõ, bản thân corpus chỉ là một tập hợp các văn bản. Muốn tra cứu hay sử dụng các tính năng phân tích khác, người dùng cần có ứng dụng chuyên cho việc đọc và nghiên cứu corpus như ứng dụng miễn phí AntConc của giáo sư Laurence Anthony, hoặc sử dụng các trang web cho phép làm điều này như https://www.english-corpora.org/coca/ hoặc https://www.lextutor.ca/conc/eng/.

Khi sử dụng các công cụ này, người học sẽ được lựa chọn bộ corpus mà công cụ sẽ dùng để tìm kiếm (ví dụ như dùng trang web lextutor và chọn tìm kiếm theo corpus BAWE (British Academic Written English Corpus). Và ở nội dung bài viết này, để đảm bảo tính nhất quán thì tác giả sẽ minh hoạ xuyên suốt theo trang web  https://www.english-corpora.org/coca/ sử dụng bộ Corpus COCA được đề cập ở trên. 

Đầu tiên, Corpus có thể được sử dụng như một phiên bản lai giữa việc dùng từ điển và dùng google, nơi mà người dùng có thể tìm kiếm từ và cả cụm từ để được thấy cách dùng tự nhiên của chúng.

image-altẢnh: Tra cứu từ vựng “deleterious” - Vốn chỉ có đúng 1 ví dụ trên từ điển Oxford

image-altẢnh: Tra cứu cụm từ ”consider it to be”

Thông qua việc này, người học có thể: đọc được rất nhiều ví dụ về cách dùng từ, xác minh được cách dùng cụm từ của mình có tự nhiên hay chưa, và qua đó có thể nhận ra việc nó có đúng về ngữ pháp hay không.

Thứ hai, người học có thể dùng corpus để tìm từ còn thiếu mà người bản xứ hay dùng theo một cấu trúc nào đó. Ví dụ, khi tìm kiếm với tổ hợp “consider it to be ADJ” tác giả nhận được kết quả là các tính từ thường gặp như sau.

image-altẢnh: Các tính từ được sử dụng sau “consider it to be”

Có thể thấy, qua cách tìm kiếm này người học có thể học được một số collocations rất hữu dụng và thậm chí đôi khi không thể tìm kiếm được kể cả dùng từ điển về collocations. Một số cách tìm kiếm khác được đề xuất để người học tham khảo là như sau: “from ADJ to ADJ”, “PREP NOUN NOUN”, …

image-altẢnh: Tra cứu collocation với tính từ deleterious (có hại), từ này không có trong các từ điển collocation khác.

Một chức năng khác là tra cứu  tính trang trọng của từ hoặc cụm từ. Khi người học sử dụng tính năng tìm kiếm, họ có thể xem được sự xuất hiện của từ hoặc cụm từ họ tìm là thường ở các nguồn nào.

image-altTừ ảnh có thể thấy, hệ thống sẽ phân tích xem từ hay cụm từ được tìm xuất hiện bao nhiêu lần ở các nguồn blog, websites, TV, ngôn ngữ nói, fiction, magazine, tin tức và cuối cùng là nguồn học thuật (ACAD). Dựa vào kết quả hiển thị người học có thể biết được nó có được dùng cho bài luận học thuật hay không. Ngoài ra, người học cũng có thể kiểm tra xem từ vựng này có còn được dùng trong tiếng Anh đương đại hay không nhờ vào việc xem bảng phân bố thời gian ở phía bên phải.

Trên đây là sơ bộ một số lợi ích chính của việc sử dụng Corpus cho việc học từ vựng nói chung và học để thi IELTS nói riêng. Có rất nhiều lợi ích khác mà một corpus có thể đem lại cho người học, điều này tác giả sẽ bàn luận sâu hơn ở trong bài viết tiếp theo.

image-alt

Giải quyết vấn đề từ vựng trong IELTS?

Như đã thấy, trong việc học từ vựng để thi IELTS, những vấn đề nâng cao như: a) Tìm hiểu các từ mới thông qua việc tra cứu Corpus; b) Xác định cách sử dụng từ mới trong ngữ cảnh thực tế; và c) Luyện tập kỹ năng đọc và viết từ vựng thông qua việc sử dụng Corpus; đều có thể được giải quyết nhờ việc sử dụng Corpus. 

Trong việc học từ vựng IELTS, sử dụng Corpus là một cách mà tác giả thấy rất hiệu quả để tìm kiếm và phân tích các từ vựng cần thiết cho kỳ thi. Việc sử dụng Corpus giúp cho người học có thể nắm bắt được cách sử dụng từ mới trong ngữ cảnh thực tế và tăng cường kỹ năng đọc và viết từ vựng. Tuy nhiên tra cứu trên một nền tảng dữ liệu lớn như vậy đòi hỏi nhiều nỗ lực hơn ở người học và họ cũng cần phải sẵn sàng để tự phân tích thông tin hiển thị được, thay vì chờ đợi một đáp án rõ ràng sẽ xuất hiện dễ dàng. 

Kết luận

Bài viết này đã giới thiệu cho độc giả về việc sử dụng Corpus cho việc học từ vựng nói chung và thông qua đó cũng là giải quyết các vấn đề nâng cao khi học từ vựng cho IELTS nói riêng. Tại thời điểm này, người học đã có thể tự mình sử dụng một số tính năng của Corpus như đã được đề cập và đồng thời có thể tự mình trải nghiệm những tính năng hữu ích khác vào việc học của chính mình.

Phần tiếp theo của bài viết sẽ tập trung vào việc ứng dụng Corpus lần lượt vào việc học IELTS Writing và IELTS Speaking một cách cụ thể và chi tiết từ chính trải nghiệm của tác giả.


Tham khảo

"Corpora for Academic English." EAP Foundation, www.eapfoundation.com/vocab/corpora/.

"English-Corpora: COCA." English Corpora: Most Widely Used Online Corpora. Billions of Words of Data: Free Online Access, www.english-corpora.org/coca/.

"Using Corpora for Language Learning and Teaching." TESOL | International Association, www.tesol.org/read-and-publish/bookstore/using-corpora.

"Vocabulary Building: Corpora – The Writing Center • University of North Carolina at Chapel Hill." The Writing Center • University of North Carolina at Chapel Hill, 6 June 2022, writingcenter.unc.edu/esl/resources/vocabulary-building-corpora/.

Bạn muốn trở nên tự tin giao tiếp với bạn bè quốc tế hay nâng cao khả năng giao tiếp trong công việc và thăng tiến trong sự nghiệp. Hãy bắt đầu hành trình chinh phục mục tiêu với khóa học tiếng Anh giao tiếp hôm nay!

Bạn muốn học thêm về nội dung này?

Đặt lịch học 1-1 với Giảng viên tại ZIM để được học sâu hơn về nội dung của bài viết bạn đang đọc. Thời gian linh hoạt và học phí theo buổi

Đánh giá

5.0 / 5 (3 đánh giá)

Gửi đánh giá

0

Bình luận - Hỏi đáp

Bạn cần để có thể bình luận và đánh giá.
Đang tải bình luận...
Tư vấn nhanh
Chat tư vấn
Chat Messenger
1900 2833
Đang tải dữ liệu