Adaptive test trong TOEFL – Khám phá thách thức và minh bạch

adaptive test co cong bang voi moi thi sinh khong

Key takeaways

Adaptive test trong TOEFL iBT mang lại lợi ích khi cá nhân hóa trải nghiệm làm bài và hạn chế thiên lệch văn hóa nhờ nội dung học thuật được cập nhật theo hướng toàn cầu.
Tuy nhiên, mức độ công bằng phụ thuộc nhiều vào minh bạch dữ liệu, quy trình kiểm định khách quan, cũng như khả năng tiếp cận công nghệ và tài nguyên ôn luyện của thí sinh.

Trong những năm gần đây, sự xuất hiện của adaptive test đã thay đổi cách thức đo lường năng lực trong các kỳ thi chuẩn hóa quốc tế. Không còn giữ cấu trúc tuyến tính cố định, adaptive test điều chỉnh độ khó câu hỏi dựa trên hiệu suất trả lời, từ đó hứa hẹn cung cấp một phép đánh giá chính xác và cá nhân hóa hơn cho từng thí sinh. Với thông báo cải cách TOEFL iBT từ năm 2026, ETS đã khẳng định sẽ áp dụng mô hình multistage adaptive test cho phần Reading và Listening, đồng thời cam kết nâng cao tính công bằng và giảm thiểu thiên lệch văn hóa. Tuy nhiên, câu hỏi trung tâm đặt ra là: adaptive test có thực sự đảm bảo công bằng cho mọi nhóm thí sinh, hay vẫn tồn tại những khoảng trống cần được xem xét kỹ lưỡng?

Khái niệm và nguyên lý adaptive test

Khái niệm cơ bản

Computer-based test được xem là hình thức đầu tiên đưa bài thi giấy truyền thống sang môi trường máy tính. Tuy nhiên, bản chất của nó vẫn giữ nguyên tính tuyến tính: mọi thí sinh đều phải làm cùng một bộ câu hỏi, theo cùng một thứ tự, với cùng độ khó được ấn định từ trước. Điều này đồng nghĩa với việc cấu trúc bài thi gần như không thay đổi so với mô hình giấy bút. Theo Davey và Pitoniak (2006), mục tiêu chính của computer-based test là cải thiện tính tiện lợi trong khâu tổ chức, phân phối và chấm điểm, thay vì tái định nghĩa cách thức đo lường năng lực ngôn ngữ [1]. Nói cách khác, computer-based test là một bước chuyển đổi công nghệ mang tính “cơ học”, chứ chưa phải cải cách phương pháp luận.

Ngược lại, adaptive test (hay computerized adaptive test – CAT) là một mô hình đánh giá hoàn toàn mới, trong đó độ khó và lựa chọn câu hỏi sẽ thay đổi dựa trên hiệu suất trả lời của thí sinh ở thời điểm trước đó. Điều này có nghĩa là mỗi thí sinh có một lộ trình bài thi riêng, phản ánh đúng năng lực hiện tại của mình. Wainer (2000) chỉ ra rằng adaptive test có thể giảm đáng kể sai số đo lường, nhờ sử dụng Item Response Theory (IRT) để chọn ra câu hỏi có giá trị thông tin cao nhất tại từng thời điểm [2]. Adaptive test, do đó, không còn chỉ là công cụ trình bày câu hỏi, mà trở thành một cơ chế “tương tác thông minh” giữa hệ thống và thí sinh, cho phép kết quả phản ánh sát thực hơn năng lực của từng cá nhân.

So sánh các phương pháp kiểm tra truyền thống

Nguyên tắc đo lường

Adaptive test được xây dựng trên nền tảng của Item Response Theory (IRT) – một trong những trụ cột quan trọng của khoa học đo lường giáo dục. Khác với Lý thuyết kiểm tra cổ điển (Classical Test Theory – CTT) vốn chỉ dựa trên tổng số câu trả lời đúng để ước lượng năng lực, IRT xem xét xác suất một thí sinh với mức năng lực cụ thể có thể trả lời đúng một câu hỏi nhất định. Cách tiếp cận này cho phép phân tích sâu sắc hơn về mối quan hệ giữa năng lực tiềm ẩn (latent trait) và đặc điểm của từng câu hỏi.

Một trong những mô hình phổ biến nhất của IRT là logistic ba tham số (3PL). Trong mô hình này, xác suất trả lời đúng một câu hỏi phụ thuộc vào ba tham số: (i) độ khó (b) phản ánh mức độ phức tạp của câu hỏi; (ii) khả năng phân biệt (a) thể hiện mức độ câu hỏi có thể phân biệt giữa thí sinh giỏi và yếu; và (iii) độ may rủi (c) đo lường xác suất trả lời đúng nhờ đoán mò. Thay vì giả định mọi câu hỏi đều đóng góp giá trị như nhau, IRT cho thấy có những câu hỏi mang lại nhiều thông tin đo lường hơn những câu khác.

Adaptive test tận dụng đặc tính này bằng cách chọn câu hỏi tiếp theo sao cho cung cấp nhiều thông tin nhất ở mức năng lực ước tính hiện tại. Ví dụ, nếu thí sinh trả lời tốt ở mức độ trung bình, hệ thống sẽ nhanh chóng đưa ra câu hỏi khó hơn để xác định chính xác trình độ cao hơn. Ngược lại, nếu thí sinh gặp khó khăn ở mức trung bình, hệ thống sẽ điều chỉnh xuống các câu dễ hơn để đo năng lực ở mức thấp. Nhờ vậy, bài thi vừa tiết kiệm số lượng câu hỏi, vừa đảm bảo độ chính xác. Baker (2001) chứng minh rằng adaptive test có thể đạt độ tin cậy tương đương hoặc thậm chí cao hơn so với bài thi tuyến tính, nhưng chỉ cần khoảng 50–70% số câu hỏi [3]. Đây là một bước tiến quan trọng, vì nó giúp giảm gánh nặng cho thí sinh mà vẫn duy trì chất lượng đo lường.

Nâng cao hiệu quả qua Adaptive Testing dễ hiểu

Kiểm soát công bằng và chất lượng

Bên cạnh việc dựa vào IRT để chọn câu hỏi tối ưu, adaptive test còn cần đến những cơ chế bổ sung để đảm bảo rằng kết quả đánh giá không thiên lệch và phản ánh đúng năng lực thực sự của thí sinh. Đây chính là khía cạnh “fairness control” – yếu tố giúp adaptive test không chỉ chính xác về mặt thống kê mà còn công bằng về mặt xã hội và giáo dục.

Trước hết, công cụ quan trọng nhất là Differential Item Functioning (DIF). Kỹ thuật này được sử dụng để xác định xem một câu hỏi có hoạt động khác nhau đối với các nhóm thí sinh có cùng năng lực hay không. Ví dụ, nếu hai nhóm thí sinh – một từ châu Âu và một từ châu Á – có cùng năng lực đọc hiểu nhưng tỷ lệ trả lời đúng một câu hỏi lại khác biệt đáng kể, điều đó cho thấy câu hỏi có thể đang thiên lệch về mặt văn hóa. Bằng cách phát hiện sớm và loại bỏ hoặc điều chỉnh những câu hỏi như vậy, ETS có thể ngăn chặn nguy cơ bất công tiềm ẩn.

Tiếp theo là cơ chế exposure control. Adaptive test có nguy cơ “lạm dụng” một số câu hỏi được đánh giá là có giá trị thông tin cao. Nếu không kiểm soát, những câu hỏi này có thể xuất hiện quá nhiều, dẫn đến hai rủi ro: (i) một số thí sinh gặp câu hỏi giống nhau quá thường xuyên, làm giảm sự đa dạng của bài thi; (ii) nguy cơ lộ đề khi những câu hỏi đó bị chia sẻ ngoài phòng thi. Nghiên cứu của Huebner et al. (2016) đã chứng minh rằng việc áp dụng các thuật toán kiểm soát mức độ xuất hiện (item exposure control) là cần thiết để duy trì cả tính công bằng và tính bảo mật của adaptive test [4].

Cuối cùng, pretesting – tức là giai đoạn thử nghiệm câu hỏi trước khi đưa vào ngân hàng chính thức – cũng đóng vai trò không thể thiếu. Trong quá trình này, các câu hỏi mới được thử nghiệm trên mẫu thí sinh đa dạng về quốc tịch, trình độ và nền tảng văn hóa. Các dữ liệu thu thập được giúp phân tích mức độ khó, khả năng phân biệt, và phát hiện thiên lệch. Chỉ khi một câu hỏi vượt qua giai đoạn pretesting với kết quả ổn định và công bằng, nó mới được sử dụng trong adaptive test chính thức.

Nhờ sự kết hợp giữa DIF, exposure control và pretesting, adaptive test trở thành một hệ thống vừa chính xác vừa minh bạch. Nếu IRT cung cấp nền tảng lý thuyết vững chắc cho việc chọn câu hỏi, thì những cơ chế bổ sung này đảm bảo rằng kết quả cuối cùng thực sự công bằng cho mọi nhóm thí sinh, bất kể khác biệt về văn hóa, giới tính hay điều kiện xã hội.

Đảm bảo kiểm tra thích ứng công bằng hiệu quả

Tham khảo: Cơ chế của bài thi thích ứng TOEFL iBT: Tâm lý kiểm soát đề và chiến lược làm bài dựa trên giá trị cấu trúc

Human–Computer Interaction (HCI) trong adaptive test

Adaptive test không chỉ là một thuật toán chọn câu hỏi mà còn là một quá trình tương tác giữa người và máy. Do đó, lý thuyết Human–Computer Interaction (HCI) giữ vai trò quan trọng trong việc thiết kế trải nghiệm thi. Một bài thi thích ứng chỉ thực sự công bằng khi giao diện và cơ chế vận hành của nó minh bạch, dễ sử dụng và không gây thêm căng thẳng cho thí sinh.

Theo Norman (2013), một hệ thống thiết kế tốt có khả năng giảm tải nhận thức (cognitive load), giúp người dùng tập trung vào nhiệm vụ chính thay vì bị phân tâm bởi cách sử dụng công cụ [5]. Trong adaptive test, điều này có nghĩa là thí sinh cần được tập trung hoàn toàn vào việc trả lời câu hỏi, không phải lo lắng về nút bấm, đồng hồ đếm ngược, hay sự bất thường trong giao diện.

Có ba khía cạnh then chốt của HCI trong adaptive test. Thứ nhất là thiết kế giao diện (interface design): giao diện cần trực quan, dễ sử dụng, và có hệ thống hỗ trợ rõ ràng. Nielsen (1994) đã chỉ ra rằng usability là yếu tố cốt lõi quyết định mức độ hiệu quả và sự hài lòng của người dùng [6]. Thứ hai là phản hồi và minh bạch (feedback and transparency): hệ thống cần đưa ra tín hiệu rõ ràng để thí sinh hiểu rằng việc gặp câu hỏi khó hơn không đồng nghĩa với việc làm sai trước đó, mà chỉ phản ánh cơ chế thích ứng. Kizilcec (2016) cho thấy việc tăng tính minh bạch trong thuật toán làm gia tăng niềm tin và giảm lo âu ở người dùng [7]. Thứ ba là tác động tâm lý (psychological impact): việc liên tục gặp câu hỏi khó có thể gây căng thẳng, vì vậy hệ thống cần có cơ chế chuyển giai đoạn mượt mà và đưa ra thông báo hỗ trợ kịp thời. Nghiên cứu của Kay & LeSage (2009) chỉ ra rằng một hệ thống trực tuyến rõ ràng giúp duy trì động lực và sự tập trung [8].

Trong thực tiễn, ETS đã vận dụng nguyên tắc HCI vào TOEFL Home Edition. Việc tích hợp xác minh danh tính bằng trí tuệ nhân tạo, kết hợp với giao diện thi thân thiện, giúp thí sinh tập trung vào nội dung bài hơn là thủ tục kỹ thuật. Đây là minh chứng rõ ràng rằng một adaptive test được thiết kế hợp lý có thể vừa đảm bảo độ chính xác học thuật, vừa duy trì trải nghiệm công bằng cho thí sinh.

Thiết kế đa giai đoạn thích ứng (Multistage Adaptive Design)

Mô hình kiểm tra thích ứng phù hợp từng giai đoạn

Hai mô hình adaptive phổ biến

Adaptive test hiện nay phổ biến ở hai mô hình chính: thích ứng từng câu hỏi (item-by-item adaptive design) và thích ứng đa giai đoạn (multistage adaptive design – MST).

Trong mô hình item-by-item, hệ thống sẽ điều chỉnh sau từng câu trả lời. Điều này mang lại sự linh hoạt cao, nhưng có thể dẫn đến mất cân bằng nội dung: thí sinh có thể gặp nhiều câu hỏi cùng một chủ đề, trong khi các chủ đề khác bị bỏ qua [9]. Ngược lại, MST chia bài thi thành các cụm câu hỏi (testlets hoặc module). Sau khi thí sinh hoàn thành một cụm, hệ thống sẽ đánh giá kết quả rồi quyết định phân nhánh sang cụm tiếp theo với độ khó cao hơn hoặc thấp hơn. Nhờ đó, MST vừa duy trì tính thích ứng, vừa đảm bảo sự bao phủ nội dung rộng và cân bằng [10].

ETS đã công bố rằng từ tháng 1/2026, TOEFL iBT sẽ áp dụng MST cho phần Reading và Listening. Lý do có thể tóm gọn thành ba điểm. Thứ nhất, đảm bảo độ bao phủ nội dung (content coverage): mỗi cụm câu hỏi được thiết kế để kiểm tra một nhóm kỹ năng cụ thể, giúp tất cả thí sinh được đánh giá toàn diện. Thứ hai, tính ổn định và công bằng: MST hạn chế chênh lệch quá lớn về nội dung giữa các thí sinh, từ đó duy trì khả năng so sánh kết quả. Thứ ba, hiệu quả tổ chức và chấm điểm: mô hình theo cụm giúp ETS dễ dàng chuẩn hóa độ khó, kiểm soát chất lượng và duy trì ngân hàng câu hỏi ở quy mô toàn cầu.

Theo Yan, von Davier và Lewis (2014), MST chính là sự kết hợp tối ưu giữa tính thích ứng và tính chuẩn hóa, phù hợp với các kỳ thi có quy mô quốc tế lớn như TOEFL iBT [11]. Nghiên cứu của họ cho thấy MST không chỉ duy trì độ chính xác đo lường của CAT, mà còn tăng cường khả năng so sánh và công bằng giữa các nhóm thí sinh khác nhau.

Trong thiết kế mới, phần Reading và Listening được chia thành nhiều giai đoạn. Nếu thí sinh làm tốt ở giai đoạn đầu, hệ thống sẽ phân nhánh sang module khó hơn. Nếu thí sinh gặp khó khăn, hệ thống sẽ chuyển sang module dễ hơn. Điều này đảm bảo rằng mỗi thí sinh đều có một trải nghiệm thi “vừa sức”, đồng thời ETS vẫn duy trì sự toàn diện trong đánh giá các kỹ năng học thuật.

Lý do TOEFL iBT chọn Multistage Adaptive Design

Quá trình thích ứng TOEFL iBT qua ba giai đoạn

ETS công bố rằng từ tháng 1 năm 2026, TOEFL iBT sẽ áp dụng multistage adaptive test (MST) cho hai kỹ năng Reading và Listening. Quyết định này không phải ngẫu nhiên, mà xuất phát từ cả nhu cầu đo lường chính xác hơn năng lực ngôn ngữ, lẫn đòi hỏi về công bằng và tính khả thi khi triển khai một kỳ thi quốc tế quy mô hàng triệu thí sinh. Có ba lý do chính lý giải sự lựa chọn này.

Thứ nhất, đảm bảo độ bao phủ nội dung (content coverage). Khác với mô hình item-by-item vốn có nguy cơ khiến thí sinh gặp nhiều câu hỏi tập trung vào một chủ đề hẹp, MST chia bài thi thành các cụm câu hỏi (testlets hoặc modules) được thiết kế để kiểm tra một tập hợp kỹ năng hoặc chủ đề học thuật cụ thể. Cách tiếp cận này đảm bảo rằng mọi thí sinh, dù ở bất kỳ lộ trình phân nhánh nào, đều trải qua một bài thi bao quát, phản ánh đầy đủ các kỹ năng cần thiết trong môi trường học thuật.

Thứ hai, tính ổn định và công bằng. Một trong những phê bình phổ biến đối với adaptive test theo cơ chế từng câu hỏi là sự khác biệt quá lớn giữa các thí sinh về mặt nội dung, khiến kết quả khó so sánh trực tiếp. MST khắc phục hạn chế này bằng cách kiểm soát phạm vi nội dung trong từng cụm. Nhờ vậy, mặc dù độ khó thay đổi theo năng lực của thí sinh, cấu trúc nội dung tổng thể vẫn được giữ ở mức cân bằng. Điều này giúp ETS duy trì khả năng so sánh kết quả giữa hàng triệu thí sinh toàn cầu mà không đánh mất tính cá nhân hóa.

Thứ ba, hiệu quả trong tổ chức và chấm điểm. Việc xây dựng ngân hàng câu hỏi theo cụm cho phép ETS dễ dàng chuẩn hóa độ khó, kiểm soát chất lượng và duy trì sự ổn định của bài thi trong dài hạn. Ngoài ra, MST còn giúp giảm khối lượng dữ liệu phải xử lý theo thời gian thực so với mô hình item-by-item, nhờ đó giảm áp lực cho hệ thống máy chủ và tăng tính khả thi khi triển khai kỳ thi ở quy mô toàn cầu.

Theo Yan, von Davier và Lewis (2014), MST là sự kết hợp tối ưu giữa tính thích ứng và tính chuẩn hóa, đặc biệt phù hợp cho các kỳ thi quốc tế có quy mô lớn như TOEFL iBT [11]. Nghiên cứu này cho thấy MST vừa duy trì được độ chính xác đo lường vốn là ưu điểm của adaptive test, vừa tăng cường khả năng so sánh và công bằng nhờ kiểm soát phạm vi nội dung.

Vì vậy, trong thiết kế mới, phần Reading và Listening được chia thành nhiều giai đoạn. Sau khi hoàn thành giai đoạn đầu, thí sinh sẽ được phân nhánh: nếu làm tốt, họ sẽ chuyển sang module khó hơn; nếu gặp khó khăn, hệ thống sẽ điều chỉnh xuống module dễ hơn. Cơ chế này đảm bảo rằng mỗi thí sinh có một trải nghiệm thi “vừa sức”, tránh cảm giác quá dễ hoặc quá khó, đồng thời ETS vẫn duy trì được tính toàn diện trong đánh giá kỹ năng học thuật. Điều này phản ánh triết lý của ETS: bài thi phải vừa cá nhân hóa để đo chính xác năng lực, vừa chuẩn hóa để đảm bảo công bằng cho mọi thí sinh trên toàn cầu.

Đọc thêm: Ứng phó dao động độ khó trong Listening TOEFL iBT: Chiến lược siêu nhận thức và duy trì sự tập trung

Lợi ích của adaptive test trong việc tăng tính công bằng

Cá nhân hóa lộ trình làm bài

Một trong những lợi ích rõ rệt nhất của adaptive test là khả năng cá nhân hóa trải nghiệm thi. Thay vì buộc mọi thí sinh làm cùng một bộ đề cố định, hệ thống sẽ điều chỉnh độ khó dựa trên kết quả trả lời trước đó. Cơ chế này giúp thí sinh có năng lực cao không phải lãng phí thời gian với quá nhiều câu hỏi quá dễ, vốn không mang lại thông tin đo lường đáng kể. Ngược lại, những thí sinh yếu hơn không bị choáng ngợp khi phải đối diện với hàng loạt câu hỏi vượt quá khả năng. Nhờ đó, mỗi người có cảm giác bài thi được “thiết kế riêng” cho mình, tạo nên trải nghiệm vừa sức và công bằng hơn. Trải nghiệm này không chỉ giảm cảm giác áp lực mà còn duy trì động lực làm bài, bởi thí sinh thấy rằng đề thi phù hợp với năng lực thực tế thay vì áp đặt một cấu trúc cứng nhắc [12].

Đo chính xác năng lực thực

Adaptive test được xây dựng trên nền tảng Item Response Theory (IRT), cho phép hệ thống tập trung vào những câu hỏi có giá trị đo lường cao nhất ở từng giai đoạn. Điều này giúp giảm sai số đo lường đáng kể, đặc biệt là ở hai đầu thang năng lực – nơi bài thi tuyến tính truyền thống thường gặp hạn chế. Nhờ vậy, kết quả của adaptive test phản ánh sát hơn năng lực thực của thí sinh, không bị “nén” vào khoảng điểm trung bình. Nghiên cứu của Baker (2001) cho thấy adaptive test có thể rút ngắn 30–50% số lượng câu hỏi mà vẫn đạt độ tin cậy tương đương hoặc thậm chí cao hơn so với bài thi cố định [3]. Đây là minh chứng rằng adaptive test không chỉ mang lại sự chính xác về mặt thống kê, mà còn góp phần tạo ra sự công bằng: thí sinh giỏi được công nhận đúng năng lực, thí sinh yếu không bị đánh giá sai lệch.

Giảm căng thẳng tâm lý và thời gian thi

Một lợi ích quan trọng khác là adaptive test giúp tối ưu hóa số lượng câu hỏi. Nhờ loại bỏ những mục thừa hoặc ít giá trị đo lường, bài thi trở nên gọn nhẹ và hiệu quả hơn. Điều này không chỉ rút ngắn tổng thời gian làm bài mà còn giảm mức độ mệt mỏi, vốn là yếu tố có thể ảnh hưởng tiêu cực đến kết quả. Với adaptive test, thí sinh có thể duy trì sự tập trung trong suốt bài thi mà không bị kiệt sức bởi số lượng câu hỏi kéo dài. Từ góc độ công bằng, đây là cải tiến đáng kể, bởi nó hạn chế sự khác biệt do yếu tố thể chất – những thí sinh dễ mất tập trung hoặc mệt mỏi nhanh sẽ không còn chịu thiệt so với những người có khả năng duy trì sức bền tốt hơn.

Nội dung thi phản ánh tính toàn cầu

ETS cũng nhấn mạnh rằng TOEFL iBT 2026 sẽ không chỉ thay đổi cấu trúc theo hướng thích ứng, mà còn cải tiến nội dung. Các đề thi sẽ loại bỏ những chủ đề mang tính “niche” như Greek mythology – vốn có nguy cơ tạo bất lợi cho thí sinh không quen thuộc với văn hóa phương Tây – và thay thế bằng các văn bản học thuật mang tính toàn cầu, liên quan đến những vấn đề đương đại như biến đổi khí hậu, toàn cầu hóa giáo dục, hoặc công nghệ trong giảng dạy. Sự chuyển hướng này giúp giảm thiểu thiên lệch văn hóa, đồng thời tăng tính công bằng khi thí sinh đến từ các bối cảnh khác nhau đều có cơ hội tiếp cận nội dung dễ hiểu và phù hợp. Nhờ đó, TOEFL iBT không chỉ đo lường năng lực ngôn ngữ, mà còn trở thành một công cụ phản ánh bối cảnh học thuật hiện đại toàn cầu.

Minh bạch hóa kết quả bằng thang điểm CEFR

Một thay đổi quan trọng đi kèm với adaptive test là việc ETS bổ sung thêm thang điểm 1–6 song song với thang điểm truyền thống 0–120, nhằm liên kết trực tiếp với Khung tham chiếu ngôn ngữ chung châu Âu (CEFR). Điều này có hai lợi ích lớn: một là giúp các tổ chức tuyển sinh dễ dàng so sánh TOEFL iBT với những chứng chỉ khác như IELTS hay Cambridge; hai là giúp thí sinh hiểu rõ vị trí năng lực của mình trong hệ thống chuẩn quốc tế. Theo Weir (2005), tính minh bạch trong việc giải thích điểm số là một yếu tố cốt lõi để đảm bảo công bằng trong đánh giá ngôn ngữ [13]. Như vậy, việc bổ sung thang điểm CEFR không chỉ là thay đổi kỹ thuật, mà còn là biện pháp tăng tính minh bạch và công bằng, giúp thí sinh không bị hiểu lầm hay đánh giá sai năng lực thực.

Cam kết chính thức từ ETS

Tất cả những cải tiến trên được ETS đặt trong thông điệp chiến lược: làm cho TOEFL iBT trở thành một kỳ thi “fairer, smarter, more accessible.” Điều này cho thấy ETS không chỉ quan tâm đến đổi mới kỹ thuật trong đo lường, mà còn cam kết cải thiện trải nghiệm thí sinh và khả năng tiếp cận toàn cầu. Adaptive test, trong bối cảnh này, trở thành công cụ then chốt để hiện thực hóa mục tiêu công bằng: mọi thí sinh, bất kể đến từ đâu hay ở trình độ nào, đều được tiếp cận với một kỳ thi phản ánh đúng năng lực, minh bạch trong chấm điểm và phù hợp với chuẩn quốc tế.

Rủi ro và yếu tố có thể gây bất công

Mặc dù adaptive test mang lại nhiều hứa hẹn trong việc nâng cao tính công bằng, vẫn tồn tại những yếu tố có thể dẫn đến bất lợi cho một số nhóm thí sinh. Những rủi ro này xuất phát từ cả nội dung đề thi, cơ chế đo lường, điều kiện công nghệ, và bối cảnh xã hội. Nếu không được kiểm soát chặt chẽ, các yếu tố này có thể làm suy giảm mục tiêu “fairer, smarter, more accessible” mà ETS đặt ra cho TOEFL iBT từ năm 2026 [14].

Thiên lệch văn hóa

Một trong những thách thức lớn nhất đối với mọi kỳ thi chuẩn hóa quốc tế là thiên lệch văn hóa. Adaptive test vẫn dựa vào một ngân hàng câu hỏi (item pool) khổng lồ, và nếu ngân hàng này chứa nhiều ngữ liệu xuất phát từ bối cảnh phương Tây, thí sinh đến từ châu Á, châu Phi hoặc Nam Mỹ có thể gặp bất lợi. Ví dụ, một đoạn đọc về lịch sử chính trị Bắc Mỹ hoặc một bài nghe liên quan đến văn hóa đại học Hoa Kỳ có thể gây khó khăn cho những thí sinh chưa từng tiếp xúc với loại kiến thức nền này. Shohamy (2001) đã lưu ý rằng mọi kỳ thi ngôn ngữ quốc tế cần được rà soát thường xuyên để loại bỏ các yếu tố thiên lệch văn hóa, nếu không sẽ vô tình “ưu ái” cho một nhóm thí sinh nhất định [13].

Hiệu ứng tâm lý giai đoạn đầu

Thiết kế đa giai đoạn thích ứng (MST) của TOEFL iBT bắt đầu bằng một module đầu tiên dùng để định tuyến thí sinh. Nếu module này có độ khó quá cao, nhiều thí sinh có thể mất tự tin, cảm thấy hoang mang và giảm hiệu suất ở các phần sau. Ngược lại, nếu quá dễ, một số thí sinh có thể chủ quan hoặc đánh giá thấp kỳ thi, từ đó ảnh hưởng đến động lực. Vấn đề này cho thấy stage 1 của MST phải được thiết kế hết sức cẩn trọng: vừa đủ thông tin để hệ thống phân nhánh chính xác, vừa tránh gây áp lực tâm lý không cân xứng. Các nghiên cứu về test anxiety trong adaptive testing cũng cho thấy cảm nhận chủ quan của thí sinh ở giai đoạn đầu có ảnh hưởng đáng kể đến toàn bộ bài thi.

Giới hạn ngân hàng câu hỏi

Adaptive test yêu cầu một ngân hàng câu hỏi khổng lồ và được chuẩn hóa kỹ lưỡng theo IRT. Tuy nhiên, việc xây dựng và duy trì ngân hàng này là một thách thức lớn về nguồn lực và thời gian. Nếu ngân hàng không đủ đa dạng, nhiều thí sinh có thể gặp những câu hỏi tương tự nhau, làm giảm tính phân biệt và tạo cảm giác bất công. Ngoài ra, nguy cơ lộ đề (item overexposure) cũng tăng nếu không có cơ chế kiểm soát hợp lý. Ozturk & Dogan (2015) đã chứng minh rằng việc thiếu các biện pháp item exposure control không chỉ làm giảm chất lượng đo lường mà còn đe dọa đến tính công bằng giữa các thí sinh 17.

Chênh lệch về tiếp cận tài nguyên

Adaptive test tạo lợi thế rõ rệt cho những thí sinh đã quen với cơ chế thích ứng. Thí sinh ở các thành phố lớn, nơi có nhiều trung tâm luyện thi và tài nguyên trực tuyến, thường có điều kiện tiếp cận các mô phỏng adaptive test. Ngược lại, thí sinh ở nông thôn hoặc các quốc gia đang phát triển có thể không được tiếp cận tài liệu tương tự. Sự khác biệt này dẫn đến một dạng bất bình đẳng gián tiếp: không đến từ bản thân kỳ thi, mà từ môi trường học tập và cơ hội chuẩn bị. Đây là vấn đề gắn liền với “digital divide” – khoảng cách công nghệ trong giáo dục toàn cầu – vốn được xem là rào cản lớn đối với tính công bằng trong thi cử hiện đại.

Yếu tố công nghệ trong Home Edition

Một đặc trưng mới của TOEFL iBT là phiên bản Home Edition, cho phép thí sinh thi tại nhà. Tuy nhiên, điều này khiến tính công bằng phụ thuộc nhiều vào hạ tầng công nghệ. Nếu đường truyền internet không ổn định, phần mềm giám sát gặp lỗi, hoặc thiết bị không đạt chuẩn (máy tính yếu, tai nghe kém, không gian ồn ào), thí sinh có thể mất điểm không phải vì năng lực ngôn ngữ, mà do yếu tố kỹ thuật bên ngoài. Điều này tạo ra sự bất công đặc biệt rõ giữa thí sinh ở các quốc gia phát triển với hạ tầng mạnh và những người ở các khu vực có mạng yếu hoặc không gian sống không phù hợp cho thi tại nhà.

Người khuyết tật và nhóm đặc thù

Adaptive test cũng đặt ra thách thức trong việc phục vụ thí sinh khuyết tật hoặc những nhóm có nhu cầu đặc biệt. Ví dụ, người khiếm thị hoặc khiếm thính cần có hỗ trợ đặc biệt (accommodations), nhưng cơ chế adaptive vốn dựa trên phản hồi thời gian thực của thí sinh sẽ phức tạp hơn khi kết hợp với phần mềm hỗ trợ đọc màn hình hoặc phụ đề. Nếu ETS không kiểm định đầy đủ các nhóm này, nguy cơ thiên lệch “ẩn” sẽ tăng. Điều này cho thấy việc mở rộng adaptive test phải đi kèm với một hệ thống hỗ trợ kỹ lưỡng để đảm bảo công bằng cho mọi thí sinh, không loại trừ bất kỳ nhóm nào.

Hiểu biết về thang điểm mới

Từ năm 2026, ETS bổ sung thêm thang điểm 1–6 song song với thang điểm 0–120, nhằm liên kết trực tiếp với CEFR. Tuy nhiên, đây cũng có thể trở thành nguồn gây hiểu nhầm. Thí sinh và nhiều tổ chức tuyển sinh chưa quen với cách quy đổi này có thể đánh giá sai tương quan giữa điểm 0–120 và band 1–6. Nếu không có hướng dẫn minh bạch, một thí sinh đạt Level 4/6 có thể bị xem nhẹ hơn so với người đạt 80/120, mặc dù cả hai có thể tương đương mức B2. Weir (2005) nhấn mạnh rằng tính minh bạch trong việc giải thích điểm số là điều kiện tiên quyết để duy trì công bằng trong thi cử [12]. Vì vậy, ETS cần triển khai truyền thông và đào tạo đi kèm để tránh gây bất công cho thí sinh chỉ vì sự khác biệt trong cách diễn giải kết quả.

Tìm hiểu thêm: Chiến lược xử lí dạng câu hỏi ngụ ý, suy luận dạng bài Listen to a Conversation trong bài thi TOEFL iBT

Biện pháp đảm bảo công bằng từ ETS

Để giải quyết những thách thức nêu trên, ETS đã xây dựng một hệ thống nguyên tắc và quy trình nhằm đảm bảo tính công bằng trong adaptive test. Những biện pháp này trải rộng từ khâu thiết kế ngân hàng câu hỏi, kiểm định độ tin cậy, đến việc nâng cấp trải nghiệm thi và cung cấp tài nguyên ôn luyện. Đây là minh chứng cho cam kết lâu dài của ETS trong việc duy trì một kỳ thi quốc tế “fairer, smarter, more accessible”.

Đảm bảo công bằng trong kiểm tra thích ứng hiệu quả

Khung nguyên tắc công bằng (Fairness Frameworks in Testing)

ETS đã ban hành nhiều bộ nguyên tắc để hướng dẫn quá trình thiết kế và đánh giá đề thi. Nổi bật nhất là ETS Guidelines for Fair Tests and Communications và International Principles for Fairness of Assessments. Những văn bản này đưa ra các tiêu chuẩn nhằm đảm bảo đề thi không chứa yếu tố thiên vị, đồng thời có thể áp dụng được cho nhiều bối cảnh văn hóa khác nhau. Theo đó, mọi câu hỏi phải trải qua quá trình rà soát nghiêm ngặt để loại bỏ nội dung có khả năng gây bất lợi cho bất kỳ nhóm thí sinh nào. Điều này đặc biệt quan trọng trong adaptive test, bởi cơ chế phân nhánh có thể khiến một số nhóm thí sinh thường xuyên gặp phải câu hỏi “nhạy cảm” nếu không kiểm tra kỹ từ đầu.

Kiểm tra và phân tích DIF (Differential Item Functioning)

Một công cụ trọng yếu để bảo đảm công bằng trong adaptive test là DIF analysis – phân tích chức năng khác biệt của câu hỏi giữa các nhóm thí sinh. ETS tiến hành so sánh cách các nhóm thí sinh có cùng mức năng lực (ví dụ: nam/nữ, bản ngữ/phi bản ngữ, châu Á/châu Âu) trả lời câu hỏi. Nếu một câu hỏi tỏ ra có lợi cho một nhóm mà không phản ánh năng lực thực, câu hỏi đó sẽ bị loại bỏ hoặc điều chỉnh. Nhờ quy trình này, ETS có thể phát hiện và giảm thiểu rủi ro thiên lệch văn hóa trước khi câu hỏi được đưa vào ngân hàng adaptive test chính thức.

Rà soát nội dung bởi hội đồng quốc tế

Ngoài các công cụ phân tích thống kê, ETS còn duy trì quy trình content review bởi hội đồng chuyên gia đến từ nhiều quốc gia và nền văn hóa khác nhau. Hội đồng này có nhiệm vụ đánh giá ngữ cảnh, chủ đề và ngôn ngữ của từng câu hỏi, nhằm đảm bảo rằng chúng không gắn quá sâu với kiến thức đặc thù của một nền văn hóa. Ví dụ, một bài đọc về thần thoại Hy Lạp trước đây từng gây tranh cãi vì khó tiếp cận với nhiều thí sinh, đã được loại bỏ trong lộ trình cải tiến mới. Nhờ sự tham gia của nhiều chuyên gia toàn cầu, ETS hướng tới việc tạo ra một ngân hàng câu hỏi thực sự mang tính quốc tế, phản ánh trải nghiệm học thuật hiện đại và giảm thiểu cultural bias.

Cập nhật nội dung hiện đại và giảm “niche topics”

Trong thông cáo năm 2025, ETS nhấn mạnh rằng TOEFL iBT sẽ được cập nhật để “modern, accessible, and globally relevant.” [14]. Điều này thể hiện rõ trong việc loại bỏ các đề mang tính “niche” như Greek mythology, vốn từng khó đối với thí sinh ngoài phương Tây. Thay vào đó, đề thi được xây dựng xoay quanh những vấn đề toàn cầu như biến đổi khí hậu, trí tuệ nhân tạo trong giáo dục, hoặc giao lưu văn hóa học thuật. Sự thay đổi này không chỉ khiến adaptive test trở nên công bằng hơn, mà còn phản ánh đúng nhu cầu kỹ năng ngôn ngữ trong thế kỷ 21.

Nâng cấp trải nghiệm thi và hạ tầng công nghệ

ETS cũng đầu tư nâng cấp trải nghiệm thi nhằm giảm các yếu tố bất công đến từ công nghệ. Tại test center, thí sinh được cung cấp tai nghe chống ồn chất lượng cao, đảm bảo âm thanh đồng nhất cho tất cả. Đối với TOEFL Home Edition, ETS áp dụng xác minh danh tính bằng trí tuệ nhân tạo, kết hợp với giám sát trực tuyến, để vừa đảm bảo tính bảo mật, vừa giảm gánh nặng thủ tục cho thí sinh. Ngoài ra, thời gian trả kết quả được rút ngắn xuống còn 72 giờ, giúp thí sinh trên toàn cầu nhận phản hồi nhanh chóng, giảm áp lực nộp hồ sơ du học hoặc xin học bổng. Những cải tiến này đều nhằm tạo ra một môi trường thi “level playing field” – sân chơi công bằng cho mọi người.

Mở rộng tài nguyên ôn luyện miễn phí

Một điểm yếu cố hữu của các kỳ thi chuẩn hóa là sự chênh lệch về cơ hội ôn luyện. ETS đã khắc phục bằng cách công bố thêm nhiều tài liệu miễn phí, bao gồm bài mẫu, ngân hàng câu hỏi thử nghiệm, và hướng dẫn chi tiết về adaptive test. Việc này giúp thí sinh ở các nước có ít điều kiện tiếp cận tài liệu thương mại vẫn có thể làm quen với cơ chế adaptive. Nhờ vậy, khoảng cách giữa thí sinh giàu – nghèo, thành thị – nông thôn được thu hẹp, góp phần tăng tính công bằng toàn cầu.

Đọc thêm: Lộ trình học TOEFL: Tổng quan và phương pháp ôn luyện hiệu quả

Tổng kết

Adaptive test là bước tiến quan trọng trong đo lường giáo dục, giúp cá nhân hóa lộ trình làm bài, tăng độ chính xác và giảm áp lực cho thí sinh. Những cải tiến mà ETS công bố cho TOEFL iBT 2026 – từ mô hình multistage adaptive, nội dung toàn cầu hóa đến thang điểm CEFR – cho thấy nỗ lực nâng cao công bằng và khả năng tiếp cận. Tuy nhiên, công bằng không tự động đảm bảo; nguy cơ thiên lệch văn hóa, chênh lệch hạ tầng công nghệ và hỗ trợ chưa đầy đủ cho nhóm đặc thù vẫn còn tồn tại. Do đó, adaptive test chỉ thực sự công bằng khi đi kèm với minh bạch, kiểm soát thiên kiến chặt chẽ và cam kết cải tiến liên tục từ ETS.

Tham vấn chuyên môn

Phạm Vũ Thiên Ngân

Xem profile Phạm Vũ Thiên Ngân

Là một người từng nhiều lần chật vật trên hành trình học tập, cô thấu hiểu rằng thành công không đến từ tài năng bẩm sinh, mà từ sự kiên trì và kỷ luật mỗi ngày. Cô tin rằng ai cũng mang trong mình một tiềm năng riêng, chỉ cần được khơi gợi đúng cách sẽ có thể tỏa sáng theo cách của chính mình. Phương châm giảng dạy của cô là lấy cảm hứng làm điểm khởi đầu, và sự thấu hiểu làm kim chỉ nam. Cô không dạy để học sinh ghi nhớ, mà để các em đặt câu hỏi, khám phá và tự nhìn thấy giá trị của việc học. Mỗi giờ học là một không gian mở – nơi các em được thử, được sai, và được trưởng thành.

Nguồn tham khảo

Davey, T., & Pitoniak, M. “Designing Computerized Adaptive Tests.” Routledge, Accessed 14 tháng 9 2025.

Wainer, H. “Computerized adaptive testing: A primer (2nd ed.).” Lawrence Erlbaum Associates, Accessed 14 tháng 9 2025.

Baker, F. B. “The basics of item response theory (2nd ed.).” ERIC Clearinghouse on Assessment and Evaluation, Accessed 14 tháng 9 2025.

Huebner, A. R., Wang, C., Quinlan, K., & Seubert, L. “Item exposure control for multidimensional computerized adaptive testing under maximum likelihood and expected a posteriori estimation. Behavior Research Methods.” SpringerLink, Accessed 14 tháng 9 2025.

Ozturk, B., & Dogan, N. “Investigating item exposure control methods in computerized adaptive testing.” Educational Sciences: Theory & Practice, Accessed 14 tháng 9 2025.

Norman, D. A. “The design of everyday things.” Basic Books, Accessed 14 tháng 9 2025.

Nielsen, J. “Usability engineering.” Morgan Kaufmann, Accessed 14 tháng 9 2025.

Kizilcec, R. F. “How much information? Effects of transparency on trust in an algorithmic interface.” ACM, Accessed 14 tháng 9 2025.

Kay, R. H., & LeSage, A. “Examining the benefits and challenges of using audience response systems: A review of the literature.” Computers & Education, Accessed 14 tháng 9 2025.

Lord, F. M. “Applications of item response theory to practical testing problems.” Lawrence Erlbaum Associates, Accessed 14 tháng 9 2025.

Luecht, R. M., & Nungester, R. J. “Some practical examples of computer-adaptive sequential testing.” Journal of Educational Measurement, Accessed 14 tháng 9 2025.

Yan, D., von Davier, A. A., & Lewis, C. “Computerized multistage testing: Theory and applications.” CRC Press, Accessed 14 tháng 9 2025.

Weir, C. J. “Language Testing and Validation: An Evidence-Based Approach.” Palgrave Macmillan, Accessed 14 tháng 9 2025.

ETS. “ETS Announces Major Transformation of the TOEFL iBT Test.” Press Release, Accessed 14 tháng 9 2025.