August 30, 2021

Tarjimonlar va jinsiy-neytral so'zlar

Katta ma’lumotlar to’plami asosida quriladigan algoritmlarda oxirgi paytlarda qiziq bir xususiyat paydo bo’lyapti. Bu algoritmlar ba’zida irqchi (racist) yoki seksistga (jins ajratadigan) aylanishi mumkin.

Masalan, o’zbek tilida uchinchi shaxs haqida gapirilganda shaxs mavjudmas, biz har doim “u” so’zini (kishilik olmoshi) ishlatamiz. Ingliz va rus tillarida esa shu shaxsning jinsi muhim: he/she/his/her, он/она/его/её. Zamonaviy ingliz tilida jins aniq bo’lmaganda, “they” (ular) yoki “she” (ayol u) qo’llanilishi nisbatan jinsiy-neytral (gender neutral) hisoblanadi.

Buni qarangki, hozirgi Google Translate jinsiy-neytral hisoblangan tillardan “u” so’zini ingliz tiliga tarjima qilishda nisbatan seksistlik qilarkan. Twitter’da ko’tarilgan mavzuda venger tilidan ingliz tiliga tarjima qilingan matn keltirilgan:

Google Translate ayol kishini chiroyli, erkak kishini aqlli, erkak kitob o’qiydi, ayol idishlar yuvadi, erkak o’qitadi, ayol ovqat pishiradi kabi tarjima qilyapti.
Google Translate "u" so'zini kasb yoki amaliyotga qarab har xil tarjima qilyapti

Qiziqish uchun o’zbek tilidan ingliz tiliga xuddi o’sha matnni qo’ydim. 1-2 holatni hisobga olmaganda, tarjima bir xil. Yandex tarjimonida ko’p holatlarda “he” deb tarjima qilinyapti.

Mavjud ma’lumotlardan foydalanilganda shu ma’lumot qanaqa segmentdan olingani muhim. Masalan, agar algoritm faqat oq tanli odamlarning fotolari ustiga qurilsa, u qora tanli odamlarning fotolarida xato bilan ishlashi ehtimoli oshadi.