Corpus of Contemporary American English – Công cụ tìm collocations trong tiếng Anh

Hướng dẫn sử dụng Corpus of Contemporary American English – một trong những công cụ tìm collocations hữu hiệu trong tiếng Anh. 
author
ZIM Academy
10/05/2021
corpus of contemporary american english cong cu tim collocations trong tieng anh

Để hỗ trợ người học trong quá trình học collocation, bài viết dưới đây sẽ cung cấp cho người học hướng dẫn sử dụng một công cụ có tên gọi là ngữ liệu tiếng Anh (được gọi là Corpus), với tên là Corpus of Contemporary American English – một trong những công cụ tìm collocations hữu hiệu trong tiếng Anh. 

Tìm hiểu thêm về Collocations là gì tại bài viết: Collocation là gì? 

Khái niệm của corpus

Theo Oxford Dictionary of Linguistics, corpus được coi là “một bộ sưu tập những văn bản hoặc lời nói mang tính hệ thống của một ngôn ngữ hoặc nhiều ngôn ngữ khác nhau”. Một corpus sẽ thường chứa rất nhiều các văn bản hoặc lời nói, có thể lên tới hàng triệu từ chỉ trong một corpus. 

Điểm đặc biệt của corpus là đây không chỉ là bộ sưu tập ngôn ngữ với mục đích trưng bày, mà tất cả thông tin trong một corpus đã đều được phân loại và đánh dấu một cách khoa học và có hệ thống. Điều này sẽ giúp người sử dụng corpus có được cái nhìn chi tiết hơn về ngôn ngữ mà họ đang nghiên cứu, cũng như là họ có được cái nhìn khách quan hơn về cách mà ngôn ngữ được sử dụng trong ngữ cảnh ngoài đời thật. 

Corpus được sử dụng có tên là Corpus of Contemporary American English. Đây là một trong những corpus lớn nhất trên thế giới, với tổng cộng hơn 1 tỷ từ tiếng Anh-Mỹ được lưu trữ. Các từ được lấy từ nhiều thể loại đa dạng như kịch bản phim, ngôn ngữ nói, tác phẩm văn học, báo và các văn bản học thuật. Do vậy, corpus này (được gọi tắt COCA) có thể cho người đọc cái nhìn chính xác về cách sử dụng tiếng Anh trong thực tế. Hơn nữa, đây cũng là một corpus được sử dụng rộng rãi bởi các nghiên cứu viên về ngôn ngữ trên khắp thế giới. Vì vậy nên người học có thể hoàn toàn tin tưởng về độ chính xác và độ hữu dụng của công cụ này.

Các bước sử dụng COCA để xác định collocations

Sau đây, bài viết sẽ hướng dẫn người học cách sử dụng COCA như một công cụ tìm collocations. 

Bước 1: Xác định một số thông tin ban đầu

Trước khi đi vào tìm hiểu các collocation, người học trước hết phải xác định rõ ba thứ:

  1. Từ (hoặc cụm từ) gốc. 

  2. Dạng từ của từ đi cùng từ gốc này. Có thể là bất cứ dạng từ nào, từ danh từ cho tới tính từ, động từ cho tới giới từ.

  3. Vị trí của dạng từ so với từ gốc là gì (tức là dạng từ này đứng trước hay đứng sau từ/cụm từ gốc)

Ví dụ: 

  1. Người đọc xác định từ gốc là analyze

  2. Người học muốn tìm các danh từ thường xuất hiện nhất với từ gốc analyze này.

  3. Danh từ này đứng sau từ gốc analyze. 

Bước 2: Truy cập vào website và đăng ký tài khoản.

Trong bước này, người học phải truy cập https://www.english-corpora.org/coca/. 

Trang chủ sẽ được hiển thị dưới dạng dưới đây:

corpus-of-contemporary-american-english-1

Sau đó, người học nhấn vào nút Log In.

Tiếp đó, người học sẽ được đưa tới một trang có dạng như dưới:

corpus-of-contemporary-american-english-2

Tiếp theo, người học nhấn vào nút REGISTER để tiến hành tạo tài khoản.

Sau đó, người học sẽ được đưa đến trang đăng ký tài khoản. Người học phải điền đầy đủ thông tin vào trong tất cả mục để có thể truy cập được vào trang web COCA.

corpus-of-contemporary-american-english-3

(Các mục của trang REGISTER trên COCA)

Bước 3: Nhấn vào mục List trên trang chủ của COCA

Sau khi đã đăng ký, người học có thể sẽ được đưa về trang chủ có dạng: 

corpus-of-contemporary-american-english-4

(Trang chủ của COCA – đã đăng ký)

Người đọc nên đảm bảo rằng ở trình đơn bên trái, mục đã được chọn là LIST.

Bước 4: Gõ từ gốc và dạng từ cần tìm vào ô tìm kiếm.

Trong mục LIST, người đọc gõ từ gốc mình muốn tìm vào ô tìm kiếm.

Ví dụ: Nếu người đọc xác định từ gốc là analyze, thì người đọc gõ từ “analyze” vào ô tìm kiếm.

Tiếp theo, người đọc hãy chọn dạng từ của từ đi cùng từ gốc.

Để biết được danh sách ký hiệu dạng từ bằng cách nhấn nút [POS ?] ở bên cạnh ô tìm kiếm.

Sau đó, người học sẽ thấy một trình đơn thả xuống xuất hiện.

Trong trình đơn này thì người học sẽ thấy ký hiệu viết tắt đầy đủ của các dạng từ mà mình muốn tìm kiếm. 

Dưới đây sẽ là tên đầy đủ của từng ký hiệu quan trọng mà người đọc nên biết:

corpus-of-contemporary-american-english-5

Để chọn dạng từ phù hợp, người học chọn ký hiệu của dạng từ mình muốn tìm kiếm trong trình đơn thả xuống, hoặc có thể tham khảo cột đầu tiên của bảng trên. 

Sau đó, người đọc đặt ký hiệu của dạng từ vào vị trí của nó tương ứng với từ gốc.

Ví dụ: Nếu người học muốn tìm các danh từ đi sau từ gốc analyze, thì người đọc gõ vào thanh tìm kiếm cụm từ có cú pháp như sau:

analyze NOUN

Trong đó:

  • analyze là từ gốc

  • NOUN là ký hiệu cho danh từ

Do người đọc muốn tìm các danh từ đi theo sau từ gốc, nên ký hiệu NOUN được đặt sau từ “analyze” 

corpus-of-contemporary-american-english-6

(Minh hoạ cú pháp được đưa ra ở ví dụ 1)

Ví dụ 2: Nếu người học muốn tìm các tính từ đứng trước từ analysis, thì người đọc gõ vào thanh tìm kiếm cụm từ có cú pháp như sau:

ADJ analysis

analysis là từ gốc

ADJ là ký hiệu cho tính từ

Do người đọc muốn tìm các danh từ đi theo sau từ gốc, nên ký hiệu ADJ được đặt trước từ “analysis”

corpus-of-contemporary-american-english-7

(Minh hoạ cú pháp được đưa ra ở ví dụ 2)

Người đọc nhấn vào nút “Find matching strings” để tìm được kết quả.

Bước 5: Kiểm tra kết quả

corpus-of-contemporary-american-english-8

(Kết quả cho ví dụ 1: analyze NOUN)

Nếu người đọc nhập đúng cú pháp, kết quả như trên sẽ hiển thị.

Ở cột thứ nhất là thứ tự của các từ. Thường thì những cụm từ đứng ở 5 vị trí đầu sẽ là những cụm từ được sử dụng thường xuyên nhất, theo ngữ liệu của COCA.

Cột thứ hai sẽ chứa các hộp để người đọc tick vào. Khi người đọc tick vào hộp tương ứng với một cụm từ thì cụm từ này sẽ được tách thành 2 từ riêng. Người đọc có thể nhấn vào từng từ để xem thống kê chi tiết của từ đó. 

corpus-of-contemporary-american-english-9

(Minh hoạ kết quả sẽ xảy ra khi nhấn vào hộp ở cột 2. Người học có thể nhấn vào hai ô có chứa từ mới được hiển thị mới ở cột 3 để biết chi tiết về từng từ một)

Cột thứ ba là cột chứa thông tin người đọc cần tìm. Điều này có nghĩa là cột này có chứa các cụm từ dưới dạng mà người đọc đã nhập vào thanh tìm kiếm.

corpus-of-contemporary-american-english-10

Ví dụ như trong hình ảnh ở trên, do người đọc đã nhập “analyze NOUN”, nên các kết quả ở cột ba sẽ là các cụm từ bắt đầu bằng từ analyze và kết thúc bằng một danh từ, như là từ “analyze data”.

Như đã nhắc đến ở trên, danh sách các cụm từ được sắp xếp theo thứ tự giảm dần về tần suất xuất hiện. Điều này có nghĩa là những cụm từ đứng đầu danh sách sẽ là những cụm từ thường gặp nhất, và cũng là những cụm từ thường được người sử dụng Anh Mỹ dùng thường xuyên nhất. 

Trong ví dụ trên, có thể thấy rằng danh từ thường xuyên đi cùng với từ “analyze” nhất là danh từ “data”. Theo sau đó là danh từ “site” và “information”.

Người đọc có thể nhấn vào cụm từ để thấy được ví dụ cụ thể cho từng cụm từ một trong cột ba.

Khi nhấn vào một cụm từ trong cột 3, người đọc sẽ được chuyển đến trang có dạng như dưới:

corpus-of-contemporary-american-english-11

 Trong trang này, người đọc có thể thấy được

  • Ngày phát hành văn bản ở cột 2.

  • Dạng văn bản ở cột 3.

Các dạng văn bản:

MAG – Tạp chí

ACAD – Văn bản học thuật

SPOK – Kịch bản nói

NEWS – Tin tức

TV – Kịch bản TV

MOV – Kịch bản phim

WEB – Trang web

BLOG – Các trang blog cá nhân

  • Nguồn của văn bản ở cột 4. Người đọc có thể nhấn vào tên của nguồn để thấy được thông tin về đoạn trích. 

  • Bản dịch của đoạn trích văn bản ở cột 5 và 6. Người đọc sẽ được chuyển tới trang Google Translate.

  • Cột 7 sẽ tách từng từ trong đoạn trích thành một ô mà người đọc có thể nhấn vào. Khi người đọc nhấn vào thì người đọc sẽ được đưa đến một trang có chứa thông tin chi tiết về từ này.

hinh12

(Điều sẽ xảy ra khi người đọc nhấn vào cột 8 – cột có biểu tượng kính lúp)

  • Cột 8 có chứa đoạn trích từ nguồn, trong đó bao gồm cụm từ mà người học đã chọn. 

image-alt

(Đoạn trích nguồn có chứa cụm từ “analyze data”. Cụm từ ”analyze data” đã được in đậm và đánh dấu xanh)

Quay trở lại trang cho kết quả chính. 

hinh13

Hai cột cuối cùng của trang kết quả chính này cho thấy tần suất xuất hiện của cụm từ được hiển thị ở cột 3. Con số càng cao thì tần suất xuất hiện càng lớn. 

Thông thường thì những cụm từ xuất hiện với tần suất nhiều hơn 50 có thể được coi là những cụm từ thường xuyên đi cùng nhau. Tuy nhiên, người học cũng nên kiểm tra kỹ lưỡng cụm từ mà mình quyết định dùng để đảm bảo cụm từ này được sử dụng đúng ngữ cảnh. 

Ví dụ: Đối với từ ANALYZE SITE, người đọc có thể thấy rằng từ ANALYZE thực chất đi cùng với cụm từ SITE USAGE, chứ không chỉ có SITE như kết quả ở ảnh trên đã cho thấy. Do vậy nên người đọc nên cảnh giác về việc sử dụng từ một cách chuẩn xác bằng việc kiểm tra kỹ từ mình chuẩn bị dùng.

hinh14

(Hình minh hoạ cho kết quả mà người học có được khi người học nhấn vào từ ANALYZE SITE)

Những cách xác định collocation khác trong COCA

Ngoài phương thức đã hướng dẫn ở trên, người đọc có thể sử dụng một số các cách khác để có thể xác định collocation.

Sử dụng tính năng Word để tìm collocations

Thay vì chọn List, người đọc có thể nhấn vào mục Word để có thể tìm kiếm nhanh những collocation thường gặp nhất của một từ duy nhất. 

hinh15

(Hình minh hoạ chọn tính năng Word)

Khi nhấn vào phần này, người đọc có thể nhập một từ bất kỳ. Để lấy ví dụ, hình minh hoạ ở dưới đã chọn từ muốn tìm là Analyze.

hinh16

Người đọc sau đó nhấn nút “See detailed info for word” để tiến hành tìm kiếm.

Sau đó, người đọc sẽ nhìn thấy bảng thông tin như ở dưới.

hinh17

Trong đó, mục Collocates có chứa các Danh từ, Động từ, Tính từ và Trạng từ thường xuyên đi cùng với từ gốc mà người đọc đã nhập.

hinh18

Người đọc có thế nhấn vào nút (more) để biết được thêm thông tin. Sau đó, người đọc có thể thấy thông tin như dưới.

hinh19

Tương tự như cách đọc các bảng của trang List, những từ được in đậm và đứng đầu danh sách là những từ xuất hiện cùng với từ gốc một cách thường xuyên nhất. Những từ được in với màu càng đậm thì chúng càng xuất hiện thường xuyên với từ mà người đọc đã nhập nhất.

Sử dụng tính năng Collocates để tìm collocations

Ngoài việc sử dụng tính năng của mục List và mục Word, người đọc cũng có thể sử dụng tính năng chuyên biệt để tìm kiếm các collocation của COCA. Tuy nhiên, COCA khuyến cáo người đọc nên sử dụng tính năng List hoặc Word nếu người đọc muốn tìm các collocation cho một từ. Lý do là vì tính năng Collocates rất chuyên biệt, và có thời gian xử lý lâu hơn rất nhiều so với hai tính năng đã kể trên. Do vậy nên người đọc chỉ nên sử dụng tính năng khi người đọc muốn biết các collocation của các cụm từ.

Trước hết, người đọc phải nhấn vào dấu cộng nằm cạnh nút Browse.

Khi bấm nút đó, một danh sách các chức năng mới sẽ hiện lên.

hinh20

(Danh sách tính năng xuất hiện khi nhấn dấu +)

Sau đó, người đọc chọn Collocations.

Khi nhấn vào Collocations, người đọc sẽ nhìn thấy một mục có dạng như dưới:

hinh21

Trong mục Word/phrase, người đọc chỉ điền từ hoặc cụm từ gốc. Ở mục Collocates, người học điền dạng từ đi cùng với từ/cụm từ gốc mà người đọc muốn tìm. 

Ở ví dụ ở dưới, cụm từ gốc sẽ là “fascinated by”, và người đọc muốn tìm những danh từ đi cùng với từ/cụm từ này.

hinh21

Sau đó, người đọc hãy nhấn vào dòng số ở dưới mục collocates để cho COCA biết rằng khoảng cách giữa từ (hoặc từ đầu tiên trong cụm từ) với dạng từ đã xác định ở ô Collocates là bao nhiêu. Sau đó, người đọc nhấn Find collocates.

Ví dụ 1: nếu người đọc điền từ gốc là “fascinated”, và các Collocates là NOUN, thì nếu người đọc chọn số 1, COCA sẽ hiện các kết quả như:

  • fascinated people

  • fascinated horror

trong đó, các từ “people” và “horror” cách từ gốc “fascinated” khoảng cách là 1 từ. 

Ví dụ 2: Tương tự, nếu người đọc điền từ gốc là “fascinated by” và các Collocates là danh từ, thì nếu người đọc chọn số 1 thì sẽ hiện thông báo lỗi. Điều này xảy ra vì tính năng xác định khoảng cách này được tính từ từ đầu tiên trong cụm từ đã nhập ở mục Collocations. Tuy nhiên, trong cụm từ “fascinated by” thì từ “by” đã nằm ở khoảng cách 1 từ với từ gốc. Vì vậy thông tin người đọc yêu cầu đã trùng với dạng của từ gốc. 

Vậy, để tìm thông tin về các danh từ đứng sau cụm từ “fascinated by”, người đọc chọn ô số 1 và số 2 ở phía bên phải của ô màu xanh. Sau đó, COCA sẽ tìm các danh từ nằm cách từ gốc “fascinated” 2 từ về phía bên phải, và cách cụm từ “fascinated by” 1 từ về phía bên phải. Tức là các kết quả sẽ có dạng:

  • fascinated by people

  • fascinated by history

  • fascinated by science

trong đó, các danh từ “people”, “history”, và “science” đứng cách từ gốc “fascinated by” khoảng cách 1 từ về phía bên phải, và nằm cách từ gốc “fascinated” 2 từ về phía bên phải.

hinh22

(Kết quả có đươc khi người đọc làm theo hướng dẫn được đưa ra ở VD2)

Cách người đọc sử dụng kết quả trong trang kết quả này tương tự hướng dẫn đã đưa ra ở Bước 5 trong mục Các bước sử dụng COCA để xác định collocation. 

Tổng kết

Bài viết trên đã trình bày chi tiết cách người học có thể sử dụng COCA để không chỉ tìm hầu như tất cả mọi collocation cho mọi từ mà mình muốn, mà có thể khai thác được nhiều thông tin hữu ích cho quá trình học hơn. Thông qua việc này, người học có thể nâng cao độ chính xác trong việc sử dụng ngôn ngữ, rồi từ đó giúp người học nâng cao hiệu quả sử dụng tiếng Anh của mình.

Vũ Trọng Hiếu

Bạn muốn trở nên tự tin giao tiếp với bạn bè quốc tế hay nâng cao khả năng giao tiếp trong công việc và thăng tiến trong sự nghiệp. Hãy bắt đầu hành trình chinh phục mục tiêu với khóa học tiếng Anh giao tiếp hôm nay!

Bạn muốn học thêm về nội dung này?

Đặt lịch học 1-1 với Giảng viên tại ZIM để được học sâu hơn về nội dung của bài viết bạn đang đọc. Thời gian linh hoạt và học phí theo buổi

Đánh giá

(0)

Gửi đánh giá

0

Bình luận - Hỏi đáp

Bạn cần để có thể bình luận và đánh giá.
Đang tải bình luận...
Tư vấn nhanh
Chat tư vấn
Chat Messenger
1900 2833
Đang tải dữ liệu