Tác động của Adaptive test đến người học trình độ cao

tac dong cua adaptive test den nguoi hoc trinh do cao

Key takeaways

Adaptive test giúp khắc phục ceiling effect (hiệu ứng trần điểm), mở rộng khả năng phân loại thí sinh trình độ cao.
Bằng cách đưa ra câu hỏi ngày càng khó, hệ thống cho phép thí sinh trình độ cao thể hiện năng lực tối đa và đạt điểm số chính xác hơn.
Điều này không chỉ đảm bảo công bằng mà còn duy trì động lực học tập ở mức cao.

Trong bối cảnh ETS vừa công bố bước ngoặt quan trọng trong việc cải tiến TOEFL iBT với sự xuất hiện của adaptive test, cộng đồng học thuật đặc biệt quan tâm đến tác động của thay đổi này đối với thí sinh ở các trình độ khác nhau. Một trong những nhóm được hưởng lợi rõ rệt chính là thí sinh trình độ cao. Trước đây, những người học xuất sắc thường đối diện với tình trạng ceiling effect (hiệu ứng trần điểm), khi đề thi tuyến tính quá dễ khiến kết quả không phản ánh đầy đủ năng lực thực sự. Adaptive test mở ra khả năng khắc phục hạn chế này: hệ thống sẽ liên tục lựa chọn câu hỏi có độ khó cao hơn, giúp thí sinh trình độ cao có cơ hội chứng minh toàn diện năng lực và đạt được điểm số phân loại chính xác hơn.

Cơ sở lý thuyết

Cơ sở khoa học của Adaptive Test

Computer-Based Test (CBT) là bước đầu tiên trong quá trình số hóa thi cử. CBT chuyển đổi từ hình thức thi giấy truyền thống sang giao diện điện tử, giúp thuận tiện hơn cho khâu tổ chức, giám sát và chấm điểm. Tuy nhiên, về bản chất, CBT vẫn giữ nguyên cấu trúc tuyến tính: tất cả thí sinh phải làm cùng một bộ đề, theo cùng một thứ tự sắp xếp sẵn. Điều này có nghĩa là dù thi trên giấy hay trên máy, thí sinh vẫn không có sự điều chỉnh nào về độ khó của bài thi. Davey và Pitoniak (2006) đã khẳng định rằng CBT chủ yếu mang lại lợi ích hành chính và công nghệ, chứ chưa thay đổi cách đo lường năng lực ngôn ngữ [1]. Do đó, hạn chế lớn nhất của CBT là nó không cá nhân hóa trải nghiệm, dẫn tới việc nhiều thí sinh cảm thấy đề quá dễ hoặc quá khó so với năng lực thật sự.

Ngược lại, Computerized Adaptive Test (CAT) – còn gọi là adaptive test – đại diện cho một bước tiến mang tính đột phá. CAT được xây dựng trên nền tảng Item Response Theory (IRT), một nhánh của tâm trắc học hiện đại. Thay vì đánh giá năng lực chỉ bằng tổng số câu trả lời đúng như trong Lý thuyết kiểm tra cổ điển (Classical Test Theory), IRT quan tâm đến xác suất mà thí sinh có thể trả lời đúng một câu hỏi cụ thể. Xác suất này phụ thuộc vào năng lực tiềm ẩn (latent ability, ký hiệu θ) và ba tham số quan trọng của câu hỏi:

Độ khó (difficulty, b): phản ánh mức độ phức tạp của câu hỏi. Câu hỏi càng khó, thí sinh càng cần mức θ cao hơn để có xác suất trả lời đúng.
Độ phân biệt (discrimination, a): thể hiện khả năng câu hỏi phân biệt rõ ràng giữa thí sinh có năng lực cao và thấp. Một câu hỏi có chỉ số a cao sẽ rất nhạy trong việc tách biệt nhóm trung bình – khá và nhóm giỏi.
Độ may rủi (guessing, c): phản ánh khả năng thí sinh chọn đúng đáp án nhờ đoán mò, đặc biệt quan trọng trong trắc nghiệm khách quan nhiều lựa chọn.

Mối quan hệ giữa θ và ba tham số này được mô tả qua mô hình logistic ba tham số (3PL model). CAT khai thác đặc tính này bằng cách chọn câu hỏi kế tiếp có giá trị thông tin tối đa ở mức năng lực hiện tại của thí sinh. Khi thí sinh trả lời đúng nhiều câu, hệ thống sẽ dần đưa ra câu hỏi khó hơn để “khoanh vùng” chính xác mức θ. Ngược lại, nếu thí sinh trả lời sai, hệ thống sẽ điều chỉnh độ khó xuống để đánh giá chính xác mức năng lực thấp hơn.

Theo Gershon (2014), CAT có thể duy trì hoặc thậm chí nâng cao độ tin cậy đo lường so với CBT, trong khi chỉ cần ít hơn từ 30–50% số câu hỏi [2]. Điều này có nghĩa là thay vì phải làm 60 câu để có điểm chính xác, thí sinh chỉ cần khoảng 30–40 câu. Vừa tiết kiệm thời gian, vừa loại bỏ các câu hỏi quá dễ hoặc quá khó vốn không đóng góp nhiều cho việc đo lường. Nói cách khác, CAT biến mỗi câu hỏi thành một “bước nhảy thông tin” quan trọng trong quá trình ước lượng năng lực, thay vì chỉ là phép cộng điểm như trong CBT [3].

Đọc bài viết: Ứng dụng phương pháp tư duy phản biện để nhận diện và xử lý các loại nhiễu thông tin trong quá trình nghe

Nguyên tắc Differentiation in Assessment

Trong lý thuyết giáo dục, Differentiation in Assessment đề cập đến việc thiết kế đánh giá phù hợp cho nhiều trình độ, nhằm vừa phản ánh đúng năng lực trung bình, vừa đủ thách thức cho nhóm học sinh giỏi. Nếu một bài kiểm tra được thiết kế chỉ ở mức độ trung bình, những học sinh xuất sắc sẽ dễ dàng đạt điểm cao mà không thể hiện hết khả năng.

Trong thi chuẩn hóa, vấn đề này thể hiện rõ qua hiện tượng ceiling effect (hiệu ứng trần điểm): khi quá nhiều thí sinh đạt điểm gần tuyệt đối, bài thi mất khả năng phân loại ở nhóm cao nhất. Hệ quả là trường đại học hoặc nhà tuyển dụng không thể phân biệt rõ ứng viên “giỏi” và ứng viên “xuất sắc vượt trội”. Adaptive test chính là lời giải cho hạn chế này.

Thay vì cố định một bộ đề cho tất cả, CAT “đẩy” thí sinh giỏi lên các câu hỏi khó hơn theo từng bước. Nhờ vậy, điểm số không bị dồn nén ở nhóm trên, mà trải rộng và phản ánh chính xác hơn. Wainer (2000) nhấn mạnh rằng adaptive test làm tăng tính hiệu quả trong phân loại (classification accuracy), đặc biệt quan trọng trong bối cảnh tuyển sinh cạnh tranh cao [3].

Ví dụ, hai thí sinh đều đạt 115/120 trong CBT có thể được phân biệt trong CAT: một người chỉ giỏi ở mức câu hỏi trung bình, người kia còn xử lý tốt các câu hỏi rất khó. Điểm số của CAT sẽ khác nhau, giúp phân loại rõ hơn. Đây chính là ứng dụng trực tiếp của Differentiation in Assessment trong bối cảnh thi quốc tế.

Thiết kế và cơ chế tương tác

Adaptive test không chỉ là một thuật toán chọn câu hỏi, mà còn là một quá trình tương tác giữa con người và hệ thống. Vì vậy, lý thuyết Human-Computer Interaction (HCI) đóng vai trò quan trọng để đảm bảo trải nghiệm thi vừa chính xác vừa công bằng.

Ba khía cạnh chính của HCI trong adaptive test gồm:

Thiết kế giao diện (interface design): Giao diện thi cần trực quan, dễ sử dụng, tránh gây nhầm lẫn. Các yếu tố như đồng hồ đếm ngược, nút chuyển câu hỏi hay thông báo hệ thống phải rõ ràng. Norman (2013) khẳng định rằng một thiết kế giảm tải nhận thức (cognitive load) sẽ cho phép người dùng tập trung vào nội dung chính, thay vì bị phân tâm bởi công cụ [4].
Phản hồi và minh bạch (feedback and transparency): Thí sinh cần hiểu rằng việc gặp câu hỏi khó hơn không đồng nghĩa với làm sai trước đó, mà là do hệ thống đang thích ứng với năng lực cao hơn. Sự minh bạch này giúp duy trì niềm tin và cảm giác công bằng trong suốt bài thi.
Tác động tâm lý (psychological impact): Một số thí sinh có thể cảm thấy lo lắng khi liên tục gặp câu hỏi khó. Thiết kế tốt cần giảm thiểu áp lực này, giữ cho thí sinh ở trạng thái tập trung và bình tĩnh. Ví dụ, hệ thống có thể sắp xếp mức độ khó tăng dần một cách tự nhiên, thay vì thay đổi quá đột ngột, để tránh gây sốc tâm lý.

Mô hình đa giai đoạn thích ứng (Multistage Adaptive Design)

Trong thực tiễn, có hai thiết kế adaptive test phổ biến:

Item-by-item adaptive: hệ thống chọn câu hỏi kế tiếp ngay sau mỗi câu trả lời. Ưu điểm là linh hoạt và phản ánh tức thời năng lực, nhưng nhược điểm là có thể làm nội dung thiếu cân bằng (thí sinh có thể gặp nhiều câu hỏi cùng chủ đề, bỏ sót kỹ năng khác).
Multistage adaptive design (MST): bài thi được chia thành nhiều cụm câu hỏi (testlets). Sau khi làm xong cụm đầu tiên, hệ thống dựa vào hiệu suất để phân nhánh sang cụm tiếp theo với độ khó phù hợp.

ETS đã công bố rằng TOEFL iBT sẽ áp dụng multistage adaptive design cho kỹ năng Reading và Listening từ năm 2026 [5]. Lựa chọn này xuất phát từ ba lý do:

Đảm bảo bao phủ nội dung (content coverage): mỗi cụm được thiết kế để đánh giá một nhóm kỹ năng hoặc chủ đề khác nhau, nhờ đó thí sinh nào cũng được kiểm tra toàn diện.
Tăng tính công bằng: MST hạn chế tình trạng hai thí sinh làm bài quá khác nhau, bởi mỗi người đều đi qua các cụm chính, chỉ khác nhau ở mức độ khó. Điều này quan trọng để duy trì tính chuẩn hóa quốc tế.
Hỗ trợ kiểm soát chất lượng: việc chia cụm giúp ETS dễ dàng chuẩn hóa, xây dựng ngân hàng đề lớn và quản lý tham số câu hỏi.

Yan, von Davier và Lewis (2014) chứng minh rằng MST là sự kết hợp tối ưu giữa tính thích ứng và tính chuẩn hóa, đặc biệt phù hợp cho kỳ thi có quy mô toàn cầu như TOEFL iBT [6]. Nhờ vậy, TOEFL iBT vừa duy trì được tính cá nhân hóa trải nghiệm, vừa giữ chuẩn mực quốc tế – yếu tố cốt lõi của một kỳ thi học thuật có uy tín.

Tham khảo thêm: Phương pháp luyện nói trong môi trường không áp lực dành cho người học ngại giao tiếp

Bảng so sánh giữa Computer-Based Test và Adaptive Test

Tiêu chí	Computer-Based Test (CBT)	Adaptive Test (CAT)
Cấu trúc	Tuyến tính, cố định	Thay đổi theo hiệu suất thí sinh
Độ khó	Phân bổ sẵn, không cá nhân hóa	Điều chỉnh liên tục hoặc theo cụm
Độ chính xác đo lường	Tốt ở mức trung bình	Cao hơn, đặc biệt ở hai đầu thang điểm
Trải nghiệm thí sinh	Có thể nhàm chán hoặc choáng ngợp	Cá nhân hóa, thử thách phù hợp
Thời gian	Dài hơn, nhiều câu hỏi không cần thiết	Ngắn gọn hơn, tập trung vào câu hỏi giá trị cao
Công bằng	Một khuôn cho tất cả	Giảm sai số, giảm thiên lệch văn hóa

Vấn đề với thí sinh trình độ cao trong Computer-Based Test trước đây

Hiện tượng Ceiling Effect

Một trong những hạn chế lớn nhất của Computer-Based Test (CBT) là tất cả thí sinh, bất kể trình độ, đều làm cùng một bộ câu hỏi với độ khó cố định. Điều này dẫn tới hiện tượng tâm trắc học được gọi là ceiling effect (hiệu ứng trần điểm). Khi thí sinh đạt gần đến điểm tối đa mà vẫn chưa bộc lộ hết khả năng, bài thi sẽ mất khả năng phân loại hiệu quả ở nhóm top. Thay vì làm rõ sự khác biệt tinh tế giữa năng lực C1 và C2 theo Khung tham chiếu châu Âu (CEFR), điểm số lại gom nhiều thí sinh trình độ cao vào cùng một dải [7].

Ví dụ cụ thể: trong một kỳ thi tuyến tính với thang điểm 120, không hiếm trường hợp hàng loạt thí sinh giỏi cùng đạt từ 115–118 điểm. Nhìn bề ngoài, kết quả này có vẻ ấn tượng, nhưng về mặt phân loại, sự khác biệt giữa một người “rất giỏi” và một người “xuất sắc vượt trội” đã bị mờ nhạt. Trong các kỳ thi cạnh tranh học bổng hoặc tuyển sinh cao học, sự thiếu phân giải ở nhóm điểm trên khiến nhà tuyển chọn không có căn cứ đáng tin cậy để phân biệt ứng viên. Wainer (2000) đã nhấn mạnh rằng đây chính là hạn chế nền tảng của CBT: nó không tạo đủ độ khó để “mở rộng trần đo lường” cho thí sinh ở nhóm năng lực cao [3].

Hệ quả là CBT thường có tính phân loại tốt với nhóm trung bình, nhưng lại kém hiệu quả ở hai đầu thang điểm – đặc biệt là nhóm trình độ cao. Điều này làm suy giảm giá trị của điểm số trong việc dự báo thành công học thuật (predictive validity) cho những bậc học cao hơn.

Trải nghiệm thi của thí sinh giỏi

Không chỉ dừng ở khía cạnh đo lường, ceiling effect còn ảnh hưởng trực tiếp đến trải nghiệm thi của thí sinh giỏi.

Nhàm chán và giảm động lực: Theo nguyên lý Optimal Challenge trong tâm lý học giáo dục, con người duy trì hứng thú khi thử thách ở mức vừa tầm – không quá dễ, không quá khó. Khi CBT đưa quá nhiều câu hỏi dễ, thí sinh trình độ cao sẽ có cảm giác “đi thi mà như ôn tập lại kiến thức cũ”. Điều này làm họ mất động lực thể hiện hết khả năng, vì bài thi không còn mang lại ý nghĩa thử thách thực sự [8].
Giảm tập trung: Khi độ khó không đủ, nhiều thí sinh giỏi coi phần lớn câu hỏi là “hiển nhiên”. Chính sự chủ quan này khiến họ không còn tập trung tối đa vào từng chi tiết nhỏ, từ đó dễ mắc lỗi bất cẩn ở các câu sau. Điều nghịch lý là, thay vì được “kích thích” để tỉnh táo, họ lại dễ mất điểm ở những chi tiết đơn giản.
Không đạt hiệu suất tối đa: Nhiều nghiên cứu chỉ ra rằng thí sinh giỏi cần thử thách cao để đạt trạng thái tâm lý tối ưu gọi là flow state – trạng thái “dòng chảy” khi con người tập trung toàn bộ năng lượng cho một nhiệm vụ. Nếu bài thi quá dễ, họ không đạt được trạng thái này, dẫn đến kết quả chưa phản ánh đúng năng lực thực tế [9]. Ví dụ, một thí sinh có khả năng đọc hiểu văn bản học thuật phức tạp sẽ không thể hiện được thế mạnh nếu toàn bộ bài đọc trong CBT chỉ dừng lại ở mức trung bình.

Như vậy, với CBT truyền thống, thí sinh trình độ cao đối mặt với hai vấn đề: điểm số thiếu chính xác trong phân loại và trải nghiệm thi không khích lệ năng lực thật sự. Khoảng trống này chính là lý do để adaptive test được phát triển – nhằm vừa nâng cao độ chính xác đo lường, vừa cải thiện trải nghiệm thi cho nhóm trình độ cao.

Tìm hiểu thêm: Nguyên nhân và tác dụng của cảm xúc: cách mở rộng từ vựng cảm xúc trong tiếng Anh

Adaptive Test: Tác động đến nhóm thí sinh trình độ cao

Cơ chế “vươn tới” (Reach-Up Mechanism)

Điểm nổi bật của adaptive test là khả năng điều chỉnh độ khó dựa trên hiệu suất trả lời trước đó. Nếu một thí sinh trình độ cao trả lời chính xác liên tiếp, hệ thống sẽ không tiếp tục đưa ra các câu hỏi trung bình, mà lựa chọn những câu có tham số phân biệt (a) cao và tham số độ khó (b) lớn. Đây là những câu hỏi vừa khó, vừa “sắc bén” trong việc phân biệt thí sinh giỏi với thí sinh xuất sắc.

Cơ chế này thường được gọi là reach-up mechanism, bởi nó cho phép người thi “vươn tới” mức thách thức cao nhất. Thay vì bị giới hạn bởi một bộ đề cố định như trong CBT, thí sinh trình độ cao có thể leo lên “tầng cao” của ngân hàng câu hỏi, nơi tập trung những mục khó nhất [10].

Ví dụ, trong phần Reading của TOEFL iBT, một thí sinh trình độ cao không chỉ được kiểm tra ở câu hỏi nhận diện thông tin (factual information), mà có thể được đưa vào những câu phân tích suy luận (inference) hoặc đánh giá logic (rhetorical purpose) có độ khó cao. Điều này làm cho kết quả thi trở nên cá nhân hóa và phản ánh sát thực hơn năng lực học thuật.

Khả năng đạt điểm tuyệt đối

Một trong những giá trị quan trọng của adaptive test là loại bỏ hiện tượng trần điểm (ceiling effect). Trong CBT, nhiều thí sinh giỏi bị “kẹt” ở khoảng 115–118/120, bởi đề thi không có thêm câu hỏi đủ khó để chứng minh năng lực vượt trội. Adaptive test thay đổi hoàn toàn tình huống này.

Nếu thí sinh tiếp tục trả lời đúng ở mức khó, hệ thống sẽ “mở khóa” thêm các câu hỏi ở thang trên cùng. Nhờ đó, họ có cơ hội đạt 120/120 một cách xứng đáng [10]. Điểm tuyệt đối trong adaptive test không còn chỉ là “ngẫu nhiên làm đúng toàn bộ đề” mà phản ánh năng lực thực sự được chứng minh qua chuỗi thử thách tăng dần.

Ví dụ, hai thí sinh cùng đạt 115/120 trong CBT có thể được phân biệt rõ ràng trong adaptive test: một người dừng lại ở câu hỏi trung bình-khá, trong khi người kia tiếp tục xử lý chính xác các câu cực khó để vươn tới điểm 120 [11].

Tăng tính phân loại (Differentiation Power)

Adaptive test cũng làm tăng khả năng trải rộng phân bố điểm số ở nhóm top. Trong CBT, điểm thường “dồn cục” ở mức cao, khiến khó phân biệt năng lực thật sự giữa thí sinh. Adaptive test giải quyết vấn đề này bằng cách phân phối thí sinh dựa trên khả năng xử lý câu hỏi có chỉ số phân biệt cao.

Theo Kolen và Brennan (2014), adaptive testing giúp tạo ra thang điểm “sắc nét” hơn ở hai đầu năng lực [12]. Điều này có ý nghĩa lớn trong môi trường tuyển sinh cạnh tranh, nơi các trường đại học cần phân biệt rõ ứng viên giỏi và ứng viên xuất sắc.

Ví dụ, trong tuyển chọn học bổng toàn phần, khi hàng trăm thí sinh có cùng điểm CBT, adaptive test có thể chỉ ra ai là người thực sự vượt trội ở những câu hỏi khó nhất. Điều này giúp quy trình xét tuyển công bằng hơn và chính xác hơn.

Trải nghiệm thi công bằng và khích lệ

Ngoài tác động đo lường, adaptive test còn cải thiện trải nghiệm tâm lý của thí sinh giỏi:

Thử thách đúng mức: họ không còn cảm giác “làm lại những câu quá dễ” mà thay vào đó được thử thách liên tục.
Cảm giác công bằng: thí sinh hiểu rằng hệ thống đang tôn trọng năng lực bằng cách đưa ra câu hỏi khó hơn, thay vì đánh đồng họ với nhóm trung bình.
Động lực duy trì: nhờ liên tục gặp câu hỏi khó, họ dễ duy trì trạng thái tập trung cao độ, gần với flow state [12].

Nghiên cứu của van der Linden (2016) cho thấy phần lớn thí sinh trình độ cao đánh giá adaptive test là “công bằng hơn” so với CBT, vì họ cảm thấy được nhìn nhận như người học giỏi thực sự, thay vì bị giới hạn trong một khung chuẩn chung [13].

Trường hợp minh họa

Trường hợp minh họa 1 – Thí sinh trình độ cao cá nhân

Hãy giả định một thí sinh có trình độ C1/C2 theo CEFR, vốn được xem là mức năng lực ngôn ngữ học thuật cao nhất mà các trường đại học kỳ vọng ở ứng viên quốc tế.

Trong CBT: bài thi tuyến tính được xây dựng với số lượng câu hỏi trải dài từ dễ đến trung bình-khá. Với năng lực của mình, thí sinh này trả lời đúng hầu hết, đạt 115/120 điểm. Tuy nhiên, kết quả này không phản ánh được sự khác biệt thực sự giữa thí sinh này và những người chỉ ở mức B2+/C1, bởi cả hai nhóm đều có thể xử lý thành công phần lớn câu hỏi dễ và trung bình.
Trong Adaptive Test: sau khi trả lời đúng nhiều câu liên tiếp, hệ thống “nhảy” ngay đến những câu có độ khó cao nhất trong ngân hàng đề – ví dụ các đoạn đọc học thuật với cấu trúc phức tạp hoặc các câu nghe suy luận nhiều tầng. Thí sinh duy trì tỉ lệ đúng ở nhóm câu hỏi này, nhờ đó được ghi nhận ở mức 120/120.

Điểm số tuyệt đối trong bối cảnh adaptive test mang ý nghĩa hoàn toàn khác so với CBT: nó chứng minh rằng thí sinh không chỉ giỏi ở mức cơ bản, mà còn thành công ở tầng thử thách cao nhất mà hệ thống có thể đưa ra. Như Weiss (1982) từng khẳng định, adaptive test giúp thí sinh “bộc lộ trần năng lực thật sự” thay vì bị giới hạn bởi cấu trúc tuyến tính [14].

Trường hợp minh họa 2 – So sánh nhóm thí sinh cùng điểm CBT

Giả sử có hai thí sinh A và B, cả hai đều đạt 115/120 trong CBT.
- Thí sinh A: xuất sắc ở câu hỏi dễ và trung bình, nhưng khi gặp câu hỏi khó hơn thì liên tục trả lời sai.
- Thí sinh B: cũng đạt 115/120, nhưng lại trả lời chính xác một số câu cực khó, cho thấy khả năng phân tích và suy luận ở mức cao hơn.
Trong CBT, cả hai kết quả đều bị “nén” lại thành cùng một con số, không có cách nào để phân biệt. Điều này gây khó khăn cho các hội đồng tuyển sinh, bởi một ứng viên “giỏi ổn định” và một ứng viên “giỏi xuất sắc” lại trông giống hệt nhau trên bảng điểm.
Adaptive test giải quyết vấn đề này. Sau khi thí sinh B chứng minh được năng lực ở câu hỏi khó, hệ thống sẽ tiếp tục đưa ra những mục có độ phân biệt cao hơn để xác nhận năng lực. Kết quả cuối cùng có thể:
- Thí sinh A: dừng lại ở mức 115/120.
- Thí sinh B: vươn tới 118–120/120, nhờ khả năng xử lý thành công các câu hỏi thử thách cao nhất.
Sự khác biệt này cực kỳ quan trọng trong môi trường tuyển sinh cạnh tranh hoặc xét học bổng. Như Chang & Ying (1999) đã chứng minh, adaptive testing có thể giảm đáng kể sai số chuẩn của ước lượng năng lực (standard error of estimation), đặc biệt ở nhóm top, từ đó nâng cao hiệu quả phân loại.
Nói cách khác, adaptive test không chỉ trao điểm số chính xác hơn, mà còn tạo ra bức tranh rõ nét về năng lực của từng cá nhân, giúp các tổ chức giáo dục chọn đúng ứng viên phù hợp nhất.

Tác động lâu dài

Lợi ích và Rủi ro trong Đổi mới Công nghệ

Đối với người học

Adaptive test tạo ra động lực học tập bền vững cho nhóm thí sinh trình độ cao. Trong khuôn khổ CBT, nhiều thí sinh trình độ cao thường có cảm giác “đã đủ giỏi” khi đạt gần tuyệt đối, chẳng hạn 115–118/120. Kết quả này vô tình làm họ chậm lại trong quá trình rèn luyện, bởi bài thi không còn mang đến thử thách đủ sức hấp dẫn. Adaptive test thay đổi hoàn toàn tình huống này.

Bằng việc liên tục mở ra những câu hỏi khó hơn, hệ thống cho thấy rằng vẫn còn “đỉnh núi” để chinh phục. Điều này khớp với khái niệm mastery goal orientation trong tâm lý học giáo dục: người học tập trung vào việc làm chủ kỹ năng và mở rộng năng lực, thay vì chỉ dừng lại ở mục tiêu điểm số [14]. Thí sinh không còn học chỉ để “đạt điểm cao nhất có thể trong khuôn khổ đề cố định”, mà để chứng minh năng lực thực sự trong những tình huống phức tạp nhất mà bài thi có thể đưa ra.

Ngoài ra, adaptive test cũng tối ưu hóa trải nghiệm thi bằng cách giảm số lượng câu hỏi thừa. Thay vì phải đối diện với 60–70 câu, trong đó nhiều câu quá dễ hoặc quá khó không mang lại giá trị đo lường, thí sinh chỉ phải làm 30–40 câu nhưng mỗi câu đều mang tính thông tin cao. Điều này vừa tiết kiệm thời gian, vừa giảm tải nhận thức, giúp thí sinh giữ được sự tập trung và tránh mệt mỏi kéo dài trong suốt quá trình thi.

Đối với trường đại học và học bổng

Ở cấp độ tổ chức giáo dục, lợi ích lớn nhất của adaptive test nằm ở khả năng phân loại mạnh (high differentiation power). Trong bối cảnh tuyển sinh hoặc xét học bổng, việc nhiều thí sinh cùng đạt 115–118/120 trong CBT thường tạo ra khó khăn: hội đồng tuyển sinh không có căn cứ rõ ràng để lựa chọn ứng viên xuất sắc nhất.

Adaptive test giải quyết vấn đề này bằng cách trải rộng phân bố điểm số ở nhóm top. Những thí sinh thực sự vượt trội sẽ được hệ thống “đẩy lên” câu hỏi khó hơn và được ghi nhận ở mức 119–120/120, trong khi những thí sinh chỉ giỏi ở mức trung bình-khá dừng lại ở 115–116. Nhờ vậy, các trường đại học có công cụ đáng tin cậy để phân biệt ứng viên giỏi và ứng viên xuất sắc thực sự.

Kolen và Brennan (2014) nhấn mạnh rằng các hệ thống kiểm tra có độ phân loại cao giúp nâng cao tính công bằng trong tuyển chọn. Thay vì để kết quả “hòa chung” ở dải điểm cao, adaptive test giảm thiểu rủi ro chọn nhầm ứng viên, đảm bảo rằng suất học bổng hoặc vị trí nhập học được trao cho người có năng lực phù hợp nhất [12]. Ví dụ, trong một chương trình học bổng giới hạn chỉ có 10 suất, adaptive test sẽ giúp hội đồng tìm đúng 10 thí sinh có năng lực vượt trội, thay vì phải phân vân giữa hàng chục hồ sơ có cùng điểm CBT.

Tìm hiểu thêm: Phương pháp thúc đẩy động lực theo góc nhìn khoa học thần kinh

Phản biện và thách thức

Liệu adaptive test có “ưu ái” thí sinh giỏi?

Một phản biện phổ biến là adaptive test có thể “ưu ái” nhóm trình độ cao, khi họ được tiếp cận nhiều câu hỏi khó hơn. Tuy nhiên, thực chất adaptive test chỉ đảm bảo cá nhân hóa trải nghiệm thi: thí sinh mạnh sẽ gặp câu khó để bộc lộ hết năng lực, còn thí sinh yếu sẽ được điều chỉnh về mức dễ hơn để không bị choáng ngợp. Đây là cách tiếp cận phù hợp với nguyên lý Zone of Proximal Development trong giáo dục – nơi thử thách được điều chỉnh sát với năng lực hiện tại để khuyến khích phát triển. ETS cũng khẳng định rằng TOEFL iBT adaptive được thiết kế nhằm “tạo trải nghiệm hợp lý và công bằng cho mọi đối tượng, không phân biệt trình độ” [5].

Áp lực tâm lý từ độ khó biến thiên

Adaptive test mang lại một thách thức tâm lý: nhiều thí sinh trình độ cao có thể cảm thấy lo lắng khi liên tục gặp câu hỏi khó hơn, vì nhầm tưởng rằng mình làm sai ở phần trước. Ngoài ra, adaptive testing có thể làm thay đổi “chiến lược nhận thức” (cognitive strategy), khiến thí sinh phân tán sự tập trung [13].

Để khắc phục, các nhà thiết kế bài thi cần đảm bảo tính minh bạch: giải thích rằng gặp câu hỏi khó hơn là dấu hiệu tích cực. Đồng thời, việc luyện tập với đề mô phỏng adaptive giúp thí sinh quen với độ khó biến thiên, giảm lo âu và duy trì tâm thế ổn định trong ngày thi. Wise và DeMars (2005) cũng cho thấy mức độ nỗ lực và động lực trong thi adaptive chịu ảnh hưởng mạnh bởi tâm lý, và có thể cải thiện qua luyện tập [15].

Vấn đề chuẩn hóa quốc tế

Để duy trì uy tín toàn cầu, TOEFL iBT adaptive cần đảm bảo rằng điểm số giữa thí sinh ở nhiều quốc gia vẫn có giá trị so sánh công bằng. Điều này phụ thuộc vào việc xây dựng ngân hàng câu hỏi quy mô lớn, được chuẩn hóa chặt chẽ theo IRT.

Van der Linden (2016) nhấn mạnh rằng adaptive testing quốc tế phải liên tục cập nhật và kiểm soát thiên lệch văn hóa (cultural bias), nếu không sẽ làm suy yếu tính công bằng của kết quả [13]. Các nghiên cứu gần đây cũng chỉ ra rằng chiến lược kiểm soát item exposure và đa dạng hóa nội dung là điều kiện tiên quyết để giữ cân bằng cho kỳ thi toàn cầu.

Liên hệ thực tiễn và nghiên cứu giáo dục

Tác động của kiểm tra thích ứng trong giáo dục

Chiến lược học tập cá nhân cho thí sinh trình độ cao

Đối với thí sinh trình độ cao, adaptive test không chỉ là một hình thức đánh giá mà còn có thể định hình lại chiến lược học tập. Việc biết rằng bài thi sẽ liên tục đưa ra những câu hỏi khó hơn khiến thí sinh trình độ cao phải rèn luyện với nguồn tài liệu có độ khó vượt chuẩn. Thay vì chỉ luyện bộ đề tuyến tính với độ khó trung bình, họ cần làm quen với các văn bản học thuật phức tạp, phân tích suy luận đa tầng trong kỹ năng đọc, và nghe các đoạn thảo luận nhiều giọng, tốc độ nhanh trong kỹ năng nghe.

Theo nghiên cứu của Bachman & Palmer (2010), người học sẽ phát triển kỹ năng bền vững hơn khi bài kiểm tra phản ánh chính xác yêu cầu thực tế về năng lực ngôn ngữ . Điều này có nghĩa là adaptive test vừa là thước đo, vừa là động lực học tập “kéo” thí sinh trình độ cao vươn tới trình độ cao hơn [16].

Tích hợp adaptive test vào giáo trình TOEFL Prep

Các trung tâm luyện thi TOEFL cũng cần điều chỉnh phương pháp. Với mô hình adaptive, việc luyện tập mô phỏng multistage adaptive design là cần thiết. Ví dụ, học viên trình độ cao có thể bắt đầu với một cụm câu hỏi Reading trung bình, sau đó được phân nhánh sang bộ đề nâng cao nếu kết quả tốt. Điều này giúp học viên quen với việc độ khó thay đổi, đồng thời xây dựng khả năng quản lý tâm lý khi gặp câu hỏi thử thách.

Ngoài ra, giáo viên cần nhấn mạnh tư duy rằng việc gặp câu hỏi khó không phải là “hình phạt”, mà là dấu hiệu tích cực rằng hệ thống đã ghi nhận năng lực. Kết hợp với việc phân tích dữ liệu phản hồi (feedback analytics), giáo trình adaptive có thể giúp học viên trình độ cao nhận diện điểm mạnh – yếu tinh vi hơn, thay vì chỉ dựa trên điểm tổng .

So sánh với các hệ thống adaptive khác (GRE, GMAT, Duolingo English Test)

Kinh nghiệm từ các kỳ thi khác cho thấy adaptive test mang lại giá trị rõ rệt cho thí sinh trình độ cao:

GRE và GMAT: đều sử dụng adaptive test để phân loại ứng viên cao học. Kết quả cho thấy hệ thống giúp phân biệt hiệu quả nhóm top 5% ứng viên, điều mà bài thi tuyến tính khó đạt được [17].
Duolingo English Test (DET): cũng áp dụng adaptive cho cả bốn kỹ năng. Với thí sinh trình độ cao, DET giúp rút ngắn thời gian làm bài xuống còn 45–60 phút mà vẫn duy trì tính phân loại cao. Điều này chứng minh rằng adaptive test không chỉ tiết kiệm nguồn lực mà còn phù hợp với xu hướng đánh giá ngôn ngữ hiện đại [18].

Bằng cách so sánh, có thể thấy TOEFL khi áp dụng adaptive sẽ không chỉ bắt kịp mà còn có cơ hội vượt lên trong việc cung cấp một hệ thống đánh giá vừa chính xác vừa toàn cầu hóa.

Ý nghĩa đối với nghiên cứu giáo dục

Adaptive test còn có giá trị như một công cụ nghiên cứu. Với khả năng ghi lại dữ liệu phản ứng của thí sinh theo từng mức độ khó, các nhà nghiên cứu có thể hiểu rõ hơn cách người học trình độ cao xử lý thông tin, chiến lược suy luận và quản lý thời gian. Mislevy (2018) cho rằng adaptive testing kết hợp với learning analytics sẽ mở ra hướng mới cho việc nghiên cứu quá trình học tập, chứ không chỉ dừng ở kết quả đầu ra [19].

Điều này mang lại lợi ích kép: một mặt, các nhà giáo dục có thêm dữ liệu để thiết kế giáo trình phù hợp cho nhóm trình độ cao – những người thường ít được “thử thách” đúng mức trong các bài kiểm tra tuyến tính; mặt khác, chính thí sinh trình độ cao cũng được hưởng lợi khi tham gia vào một hệ thống đánh giá giúp họ khẳng định và phát triển năng lực vượt trội của bản thân thay vì bị đồng nhất với các nhóm khác.

Tìm hiểu thêm: Kiến thức siêu ngôn ngữ (Metalinguistic knowledge): Khái niệm và ví dụ

Tổng kết

Sự chuyển đổi từ Computer-Based Test sang adaptive test trong TOEFL iBT đánh dấu một bước tiến quan trọng của lĩnh vực đo lường ngôn ngữ hiện đại. Đối với thí sinh trình độ cao, adaptive test không chỉ loại bỏ hạn chế ceiling effect (hiệu ứng trần điểm) mà còn mở ra cơ hội thể hiện năng lực ở mức cao nhất. Thông qua cơ chế “vươn tới” và khả năng phân loại mạnh, bài thi mang lại kết quả chính xác hơn, công bằng hơn và đồng thời nuôi dưỡng động lực học tập bền vững. Bên cạnh đó, adaptive test còn có giá trị như một công cụ nghiên cứu giáo dục, giúp các nhà thiết kế chương trình xây dựng môi trường học tập phù hợp hơn cho nhóm thí sinh xuất sắc. Như vậy, adaptive test không chỉ là một cải tiến kỹ thuật, mà còn là một bước tiến chiến lược, góp phần củng cố chất lượng và giá trị toàn cầu của TOEFL iBT.

Giải đáp thắc mắc về kiến thức tiếng Anh là nhu cầu thiết yếu của nhiều học viên trong quá trình học tập và ôn thi. ZIM Helper là diễn đàn trực tuyến chuyên nghiệp cung cấp giải đáp về kiến thức tiếng Anh cho người học đang luyện thi IELTS, TOEIC, luyện thi Đại học và các kỳ thi tiếng Anh khác. Diễn đàn được vận hành bởi đội ngũ High Achievers - những người đã đạt thành tích cao trong các kỳ thi, đảm bảo chất lượng thông tin và hướng dẫn chính xác cho người học. Liên hệ Hotline 1900-2833 (nhánh số 1) để được tư vấn chi tiết.

Tham vấn chuyên môn

Thiều Ái Thi

Xem profile Thiều Ái Thi

Việc giảng dạy không chỉ đơn thuần là trình bày thông tin mà còn khiến chúng trở nên dễ hiểu và khơi dậy sự tò mò ở người học. Bằng cách lấy người học là trung tâm, tôi mong muốn có thể biến những khái niệm phức tạp trở nên đơn giản, và truyền tải kiến thức theo những cách phù hợp với nhiều người học khác nhau.

Nguồn tham khảo

Davey, T., & Pitoniak, M. “Computer-based testing: Building the foundation for future assessments.” Routledge, Accessed 14 September 2025.

Gershon, R. C. “Item Response Theory and Computerized Adaptive Testing.” Feinberg School of Medicine, Northwestern University, Accessed 14 September 2025.

Wainer, H. “Computerized adaptive testing: A primer. 2nd Edition.” Routledge, Accessed 14 September 2025.

Norman, D. A. “The design of everyday things.” MIT Press, Accessed 14 September 2025.

ETS. “ETS Announces Major Transformation of the TOEFL iBT Test.” Press Release, Accessed 14 September 2025.

Yan, D., von Davier, A. A., & Lewis, C. “Computerized multistage testing: Theory and applications.” CRC Press, Accessed 14 September 2025.

Research Prospect. “What is a Ceiling Effect?.” Research Prospect, Accessed 14 September 2025.

Csikszentmihalyi, M. “The Psychology of Optimal Experience.” Harper & Row, Accessed 14 September 2025.

Embretson, S. E., & Reise, S. P. “Item Response Theory for Psychologists.” Lawrence Erlbaum Associates, Accessed 14 September 2025.

van der Linden, W. J., & Glas, C. A. W. “Elements of Adaptive Testing.” Springer, Accessed 14 September 2025.

Weiss, D. J. “Better Data from Better Tests: Improving Survey Research through Adaptive Testing.” Journal of Methods and Measurement in the Social Sciences, Accessed 14 September 2025.

Kolen, M. J., & Brennan, R. L. “Test Equating, Scaling, and Linking: Methods and Practices.” Springer, Accessed 14 September 2025.

van der Linden, W. J. “Handbook of Modern Item Response Theory.” Springer, Accessed 14 September 2025.

Weiss, D. J. “Improving Measurement Quality and Efficiency with Adaptive Testing.” Applied Psychological Measuremen, Accessed 14 September 2025.

Wise, S. L., & DeMars, C. E. “Low examinee effort in low-stakes assessment: Problems and potential solutions.” Educational Assessment, Accessed 14 September 2025.

Bachman, L. F., & Palmer, A. S. “Language Assessment in Practice: Developing Language Assessments and Justifying Their Use in the Real World.” Oxford University Press, Accessed 14 September 2025.

ETS Research Report. “Case Studies in Computer Adaptive Test Design Through Simulation: GRE CAT.” ETS Research Report Series, Accessed 14 September 2025.

Wagner, E., & Kunnan, A. J. “The Duolingo English Test.” Language Assessment Quarterly, Accessed 14 September 2025.

Mislevy, R. J. “Sociocognitive Foundations of Educational Measurement.” Routledge, Accessed 14 September 2025.