Tips Jitu: Hindari 3 Kesalahan Fatal Evaluasi EdTech!
Hai para pegiat pendidikan dan teknologi! Kita semua tahu kalau teknologi pendidikan atau EdTech punya potensi besar buat bikin proses belajar jadi lebih asyik dan efektif. Banyak lembaga bahkan berlomba-lomba mencari alat yang bisa mendukung pembelajaran anak secara cepat, murah, dan terpercaya. Makanya, istilah "dampak" jadi fokus utama untuk mengukur keberhasilan. Tapi, perlu diingat, mengukur dampak di dunia EdTech itu enggak semudah membalik telapak tangan. Ada banyak alasan kenapa ini jadi tantangan, dan sering banget dibahas di kalangan akademisi. Nah, kali ini kita akan membahas tiga jebakan umum yang sering banget saya temui saat mengevaluasi dampak EdTech.
Jebakan 1: Angka Penggunaan Dianggap Sama dengan Hasil Belajar
Sering banget nih, para penyedia EdTech pede kalau produk mereka itu sudah pasti edukatif. Mereka berasumsi bahwa karena seorang anak menghabiskan waktu berjam-jam di aplikasi mereka, otomatis anak itu mendapatkan jam-jam pembelajaran yang setara. Padahal, beberapa penelitian justru menunjukkan bahwa anak-anak yang menggunakan EdTech tidak hanya gagal belajar secara efektif, tapi bahkan bisa mengalami kemunduran dalam proses belajar mereka. Ingat ya, berapa jam anak menggunakan sebuah alat itu cuma sebuah "output", bukan "outcome" atau hasil pembelajaran yang sebenarnya. Ini adalah mekanisme yang mungkin bisa mengarah pada pembelajaran, tapi bukan jaminan.
Penggunaan yang efektif itu butuh keseimbangan frekuensi dan intensitas yang pas. Bahkan, kalau kebanyakan waktu justru bisa jadi kontraproduktif. Contohnya, Kahoot! memang sudah terbukti punya manfaat edukasi dari berbagai meta-analisis, tapi studi pada populasi siswa tertentu juga menemukan kalau kuis yang terlalu sering justru bisa meningkatkan tingkat stres. Jadi, sekalipun alat EdTech sudah terbukti punya manfaat belajar, penggunaan yang seimbang dan pemahaman tentang seberapa banyak paparan yang mendukung pembelajaran optimal itu penting banget.
Jebakan 2: Asesmen Tanpa Validasi Psikometri
Banyak aplikasi EdTech yang punya fitur kuis atau tes bawaan langsung di dalam aplikasi. Ini sering jadi sumber data yang instan buat penyedia, dan godaan buat langsung mengklaim "dampak". Saya sering melihat ini, apalagi di lingkungan di mana peneliti tidak dilibatkan untuk memverifikasi pembelajaran dan tim pengadaan cuma mengandalkan apa pun yang disajikan penyedia sebagai bukti.
Bayangkan begini: ada aplikasi membaca untuk anak usia dini. Di dalamnya, anak membaca cerita yang berisi kata-kata baru. Setelah selesai membaca, anak diminta mengerjakan kuis singkat untuk menguji apakah mereka sudah mempelajari kata-kata baru itu. Beberapa aplikasi bahkan mungkin memberikan kuis yang sama sebelum dan sesudah anak membaca cerita. Setelah dikumpulkan datanya dari banyak anak, penyedia aplikasi melihat sebagian besar anak mendapat skor tinggi di kuis setelah membaca cerita. "Ini buktinya," kata mereka, "aplikasi ini berhasil mengajari anak-anak kata-kata baru." Tapi, peneliti mana pun pasti akan bilang kalau itu bukan bukti yang sebenarnya. Masalah utamanya adalah kurangnya rigor psikometri dari tes tersebut.
Evaluasi psikometri itu fungsinya buat menilai apakah sebuah instrumen, misalnya kuis, benar-benar mengukur apa yang seharusnya diukur, apakah hasilnya bisa diandalkan seiring waktu, dan apakah hasilnya bisa digeneralisasi. Kebanyakan kuis, survei, atau tes yang dikembangkan oleh penyedia EdTech itu tidak dibuat oleh peneliti, melainkan oleh staf internal atau bahkan cuma dibuat pakai AI agar sesuai dengan stimulus pembelajaran. Tes-tes ini bukan tes standar dan bisa saja mengukur hal yang sama sekali berbeda dari tujuan pembelajaran yang dimaksud.
Dulu, saat kami mengevaluasi properti psikometri sebuah kuis di aplikasi numerasi anak usia dini, kami menemukan perbedaan yang mencolok: anak-anak mendapat skor tinggi di tes aplikasi, tapi anak-anak yang sama justru tampil buruk di tes yang diberikan oleh guru mereka. Setelah meneliti tes aplikasi lebih dalam, kami melihat beberapa pertanyaan terlalu mudah, beberapa ambigu, dan ada juga yang lebih mengukur pengenalan pola umum ketimbang konsep numerasi spesifik. Ini membuat tes tersebut memberi kesan palsu bahwa anak-anak menguasai numerasi dini, padahal pemahaman mereka tentang konsep yang sebenarnya tidak berkembang.
Jadi, para pengembang dan pemberi dana sebaiknya jangan cuma mengandalkan tes di dalam aplikasi tanpa pemeriksaan psikometri. Selain memastikan data internal valid secara psikometri, evaluasi dampak juga harus mencakup data eksternal.
Jebakan 3: Data Internal Saja Dianggap Cukup
Data eksternal, yaitu informasi yang dikumpulkan di luar apa yang dihimpun oleh EdTech, itu sangat krusial. Namun, banyak penyedia yang bertanya, "Buat apa repot-repot kalau kami sudah punya data sendiri?" Para pemberi dana juga tergoda untuk menghemat biaya, karena merekrut pengumpul data (enumerator) dan membayar peneliti untuk merancang tes yang valid itu mahal dan butuh waktu.
Ini jadi masalah karena data internal (walaupun sudah valid secara psikometri) punya keterbatasan: mereka cuma mengukur apa yang bisa dipelajari anak di dalam lingkungan aplikasi. Apakah pengetahuan itu bisa ditransfer ke pengetahuan di luar aplikasi, itu masih jadi pertanyaan besar. Data eksternal bisa menunjukkan efek positif sekaligus konsekuensi yang tidak disengaja dari penggunaan alat EdTech.
Contohnya, dalam sebuah studi dengan perangkat lunak coding Kodable, peneliti melakukan observasi langsung di kelas dan bisa menunjukkan bahwa anak-anak mempelajari keterampilan coding spesifik game setelah satu minggu menggunakan alat tersebut. Dalam studi lain, dengan alat Speechify dan Elevenlabs, peneliti melakukan wawancara dan survei dengan siswa dan menemukan bahwa teknologi pembuatan suara ini justru melanggengkan bias dan diskriminasi linguistik berdasarkan aksen. Beberapa ukuran eksternal, seperti survei penelitian, memang bisa disematkan di dalam alat EdTech itu sendiri, tapi ini membuka ruang untuk bias: karena penyedia punya visibilitas penuh terhadap data kinerja pengguna mereka, algoritma di dalam aplikasi bisa diubah untuk menghasilkan hasil yang lebih menguntungkan bagi mereka. Jadi, ketika disajikan kepada pemberi dana dan pembeli, "kemajuan" yang terlihat pada anak bisa jadi lebih mencerminkan pilihan desain daripada pembelajaran yang sebenarnya.
Untuk benar-benar memahami dampak sebuah alat EdTech, data penggunaan internal harus digabungkan dengan data eksternal yang dikumpulkan secara independen oleh peneliti yang berkualitas. Dengan menggabungkan data internal dan eksternal yang ketat, serta mengikuti teori perubahan yang jelas, kita bisa melangkah lebih jauh dari sekadar membuktikan bahwa sebuah alat digunakan, menjadi menunjukkan mengapa dan bagaimana alat itu benar-benar meningkatkan pembelajaran. Di pasar EdTech yang ramai ini, inilah fokus para pembuat kebijakan – dan pendanaan – untuk evaluasi dampak yang ketat, yang mampu membedakan alat yang benar-benar meningkatkan pembelajaran dari yang cuma mengklaimnya.