«Цифрлық сөздік» қойыртпаққа айналмай ма?
«Қазақ тілі – Қазақстан Республикасының мемлекеттік тілі» деп Конституциямызға жазып, сөз жүзінде көкке көтергенімізге 40 жылға жақындаса да, мемлекет қазақ тілінде толық салтанат құра алмай отырғанын халық жиі сынайды. Дегенмен мемлекеттік тілдің мәртебесін биіктету үшін мемлекет тарапынан қолданылған шара, жұмсалған қаржы тақиямызға тар келмейтіні анық.
Тек түсіндірме сөздік басып шығару ісін алып қарайық. «Қазақтың әдеби тілінің түсіндірме сөздігі» (15 томдық, 2011 жыл), осы 15 томдыққа кірген барлық сөзді қамтыған қорғасын құйғандай салмақты, 160 баспа табақ «Қазақ сөздігі», ғылымның барлық саласын қамтыған 30 томдық терминологиялық сөздік, тағысын тағы кете береді. Енді, міне, елімізде мемлекеттік тілдің цифрлық ұлттық сөздік қоры жасалып, қазақ тілінің қолданысы жүйеленетіні, тілді жасанды интеллект жолымен дамытуды көздейтін заң жобасы қаралып жатқаны белгілі болды.
Пайдасы тимесе, зияны тимес деп алақайлап құп алып жатырмыз. Бірақ осы цифрлық ұлттық сөздіктің өзі қазақ тілінің көсегесін көгерте ме, жоқ «сандырақ сөздік» болып шықпай ма деген күдігімізді ортаға салғым келеді. Күдіктенуімнің себебі: жоғарыда атаған «Қазақ сөздігі» қазақ тілінің түркі текті тілдер ішіндегі ең бай тіл екенін дәлелдеген сөздік деп экс-президент алғы сөз жазып, тіл саласының доктор, академиктері аспанға көтерген еді. Алайда осы бір көлемді еңбектің өзі қазақ тілінің сөздік қорын толық қамтып, дұрыс түсіндіре алмаған еді. Өйткені бұл сөздікке он емес, жүз емес, мың, тіпті одан да көп бүгінгі қолданыстағы сөздер мен сөз тіркестері кірмей қалған (туынды емес, тек түбір сөздер). Бұл да дүрдитіп айтатын кемістік емес шығар. Өйткені барлық сөзді толық қамту мүмкін емес екені де түсінікті. Ал одан сорақысы – аталмыш сөздікте дәл осындай қазақтың мыңға жуық сөзінің мағынасы теріс түсіндірілген. Жай ғана қателік емес, қазақ тілін білетін адам көз салса, күлкісі келетін мазақ, сандырақ, тіпті сайқымазақ түсіндірмелер аз емес. Сондай-ақ аталмыш сөздікте қамтылған сол 101 мың сөздің кемінде 25 пайызы шеттен кірген термин сөздер, 20 пайызы жергілікті (диалект) сөздер екенін ескерсек, кірмей қалған мың сөз бен теріс түсіндірілген мың сөз байырғы қазақ тілінің елеулі бөлігін құрайтыны шындық. Бұл 2000 сөз деп отырғанымыз – бір ғана адамның (менің) аталмыш сөздікке басқа мақсатпен зер салғанда байқаған дүниесі. Ал егер осы сөздікті сараптау мақсатында құзырлы мекемелердің тапсырмасымен талдау жүргізсе, бұдан екі есе көп сөздің кірмей қалғанын немесе теріс түсіндіргенін анықтау ғажап емес. Өкініштісі, бұл қателіктерді түзеткен дұрыс сөздік, пікір білдірген ғылыми еңбек түгілі, қателіктерге қатысты баспасөз беттеріне, ғаламторға жарияланған бірде-бір сын мақала жоқ. Сөздік құрастырған тіл ғылымдарының доктор, профессорлары қателеседі деп ешкім ойламайды. Екіншіден, бұл қателіктер мен кемістіктер болашақта жасалатын цифрлық ұлттық сөздікке әсер ете ме, жоқ па дегенді ешкім білмейді. Егер әсер ететін болса, әттеген-ай деп артынан өкінеріміз сөзсіз.
Қате түсіндірілген, қарапайымдап айтсақ сақау, қаттырақ айтсақ сайқымазақ мың сөз бар деген пікіріміздің дәлелі ретінде бірер мысал келтіре кетейік. Мәселен, аталмыш 15 томдық пен «Қазақ сөздігінде» айғыр салды – «биені қолдан қашырды», жеркөксеу – «жылқының сапарға, жолға шығар алдындағы жер тарпып жақсылық нышан білдіруі», жұмыр – «жұмыртқа сияқты жұп-жұмыр, доп-домалақ», құндақ – «өлгеннен кейін оралатын мата, кебін, көрге салу», бұтын отқа қақтау – «әбден биттеп кеткен кір киімін отқа ұстап, биттен тазартты», бұғана қабырға – «қой-ешкінің бірінші қабырғасы», мекірен (у) – «малдың төліне мейірі түскенде ыңырануы», оқыранту – «емірентіп, осқырту», саһар – «аққудың қоразы» деп түсіндірген. Әрі қарай кете береді.
Мұны бүгін неге айтып отырмыз? Жоғарыда атап өткеніміздей, жуықта жасалатын «Қазақ тілінің цифрлық ұлттық сөздігінде» бұл олқылықтардың орны толып, қателіктер түзеліп, мінсіз дүниеге қол жеткізе аламыз ба, жоқ баяғы «бытпылдық» сөздік бола ма деген күмәнмен айтып отырмыз.
Қарапайым халық, біз, «жасанды интеллекттің артықшылығы бір нәрсеге қатысты қолда бар миллиондаған, миллиардтаған деректерді қас-қағым сәтте жасанды ой елегінен өткізіп барып сұрыптап, қорытынды жасайды, әйтпегенде жоқтан бар жасамайды» деп түсінеміз. Біздің бұл ойымыз дұрыс болса, цифрлық ұлттық сөздік қоры да философиялық заңдылыққа сай жоқтан бар жасамайды (бұрынғы сөздіктерде жоқ сөздерді ойлап тауып, қате сөздерді түзете алмайды), бұрынғы арғысы Махмұд Қашқаридің «Түрік сөздігі» мен «Кодекс куманикустен» бастап жүздеген кітаби сөздіктерге кірген сөздерді сарапқа салып, дұрысын таңдайды. Егер ондай болған жағдайда, біз атаған 15 томдық түсіндірме сөздік пен «Қазақ сөздігіндегі» жоқ сөздер кірмей қалады, күлкілі теріс түсініктер (мың сөз) түзелмейді деп ұғамыз. Бұлай ойлауымыздың бір себебі жасанды интеллект бойынша біздің елде негізгі қолданыстағы төрт нұсқаның қайсысына кіріп іздесек те, сөз мағынасына байланысты қанағатты жауап ала алмаймыз. Төрт нұсқаның қайсысы тиімді екенін сұрасаңыз «Microsoft Copilot» пен «ChatGPT 4» екеуін ұсынады немесе «егер сізге жалпы мақсаттағы тілдік модель қажет болса, «ChatGPT 4» жақсы нұсқа болады» деп жауап береді. Бірақ бұл нұсқалар болмағанда «өтіріктің өзіне сенбесең де, ебіне сен» дегендей, көңілге қонымды жауап берудің орнына дөйдалаға сөйлейді.
Мәселен, жазушы А.Сүлейменовтің «Бесатар» повесіндегі «Басы құйма күміс, керсенін үш елі кәкпазбен қаусырған қоқан ер көзіме оттай басылды» деген сөйлеміндегі «кәкпаз» сөзінің мағынасын сұрасаңыз: «кәкпаз – ердің қаңқасын құрайтын, бекітетін, жалғастыратын металл бөлшек, тұтқа» деген жауап аласыз. «Керсені кәкпазбен қаусырылған» деп анық айтып тұрса, «ердің қаңқасын құрайтын» деп айдалаға кетеді. Қаңқа қайда, керсен қайда?! Демек, шетелдің жасаған жасанды интеллекті қазақ тілінің көсегесін көгертпейді. Сондықтан өзіміздің ғалымдар жасаған жасанды интеллектті дамытуға және оның тілдік моделін барынша молайтуға күш салған жөн. Осы тұрғыдан алғанда, Ақылды жүйелер мен жасанды интеллект институтының KAZ-LLM жобасынан күтеріміз мол. Егер осы сияқты қазақ тіліндегі деректермен байытылған жасанды интеллект болмаса, ChatGPT қазақ тілінің қажетінен шыға алмайды. Осы мәселе цифрлық ұлттық сөздік қорын жасаушылардың қаперінде болса дейміз.
Бодаухан ТОҚАНҰЛЫ, журналист,
Қазақстан Жазушылар одағының мүшесі