Жасанды интеллектке де тілдің тазалығы керек
2024 жылғы 11 желтоқсанда Қасым-Жомарт Тоқаев Astana Hub инновациялық экожүйесіне барып, жасанды интеллект орталығының жұмысымен танысқан болатын. Nazarbayev University жанынан құрылған Ақылды жүйелер мен жасанды интеллект институтының (ISSAI) жобалары – KazLLM алғашқы қазақ тілі моделі мен SoyleApp көпфункциялы қолданбасы жайлы баяндаманы тыңдағаннан кейін Президент деректерді сапалы түрде цифрлық форматқа көшіру және жүйелеу туралы тоқталып, Үкіметке деректер жиынтығын қалыптастыру бағытында шешім қабылдауды тапсырды.
«Жасанды интеллект саласында тыңғылықты атқарылған істің бір мысалы – KazLLM тіл моделі. Біз жасанды интеллектіні қазақша ойлауға, сараптауға және сөйлеуге үйреттік. Бұл айтарлықтай жетістік қазақ тілін цифрлық ортада дамыту үшін зор мүмкіндік береді. Алдымызда түрлі сипаттағы деректерді бір мезетте қолдана алатын қазақ тілінің мульти модальды тілдік моделін жасау міндеті тұр. Үкіметке осы бағыттағы жобаларды қаржыландыру мәселесін пысықтауды тапсырамын» деді Мемлекет басшысы.
Ғылым жорығындағы ISSAI
Ақылды жүйелер мен жасанды интеллект институты (ISSAI) жасанды интеллектіні зерттеу ісіне баса назар аудара отырып, Қазақстанның цифрлық саласындағы зерттеулер мен инновациялардың драйвері болу мақсатында 2019 жылдың қыркүйегінде құрылды. Қазірге дейін ISSAI командасы 150 миллиардтан астам токенді (сөздер және сөз құрылымдарын) жинап, өңдеп, синтездеп, аударма жасады, бұл модельдің жоғары тілдік өнімділігін қамтамасыз етті. Оның нәтижесінде қазақ, орыс және ағылшын тілдерінде әлемдік жетекші жасанды интеллект әзірлемелерімен салыстырылатын деңгейге жетті.
Президент арнайы тоқталған ISSAI KAZ-LLM моделі – қазақстандық IT-мамандары үшін бірегей тәжірибе, бұл елдің жасанды интеллект саласындағы мүмкіндіктерді арттырады. Елдің көп тілділігі мен көп мәдениеттілігіне бейімделген ISSAI KAZ-LLM қазақ, орыс және ағылшын тілдерін қолдайды, сонымен қатар түрік тілінде де қосымша мүмкіндіктерге ие. Бұл модель тілдік кедергілерді жоюға көпір болып, ресурстары шектеулі тілдерде генеративті жасанды интеллектіні дамытуға арналған маңызды құралға айналды.
Жасанды интеллект дұрыс жұмыс істеуі үшін ең алдымен, тілдік модель дұрыс жасалуы керек. Бұл қазақ тіліндегі барлық материалды дайындап бәрін енгізу керек деген сөз емес. Ол модельде қанша көп материал, қанша көп сөз, қанша көп талданған деректер енгізілсе, сонша жақсы. Біз осы жұмыспен айналысып жатырмыз
Әрине, жасанды интеллектіні жұрттың бәрі біле бермейді. Әсіресе, деректерді жинау, қазақ тілінің үлкен тілдік моделін жасау деген ұғымдарды, сондай-ақ жасанды сананың қазақ тілін дамытудағы мүмкіндіктерін толық түсінбейді. Біз осы мәселелерді қарапайым тілмен түсіндіріп, оқырмандарға жасанды интеллектіні дамытудың пайда-зияны туралы толығырақ түсіндіру үшін Ақылды жүйелер мен жасанды интеллект институтының (ISSAI) деректерді талдау сарапшысы Рүстем Ешпановпен сұхбаттасқан едік.
Жасанды санада сезім жоқ
– Жасанды интеллект жайлы сөз қозғаудан бұрын, ең алдымен, жасанды сана не деген сұраққа қысқаша жауап бере кетіңізші.
– Жасанды интеллект (ЖИ) – бұл компьютерлік жүйелердің немесе машиналардың адамға тән ойлау қабілеттерін, атап айтқанда, үйрену, пайымдау, мәселелерді шешу, шешім қабылдау, сөйлеуді және бейнелерді тану сияқты қабілеттерді модельдеу мүмкіндігі. Ол компьютерлік ғылымның бір саласы ретінде дамып, күрделі алгоритмдер мен мәліметтерді пайдалану арқылы жұмыс істейді. Оның санасы, эмоциясы жоқ. Ол – алгоритм, статистика.
– Жасанды интеллект десе, біздің көз алдымызға алдымен ChatGPT келеді. Ал сіздердің KAZ-LLM-ның бұдан айырмашылығы не?
– ChatGPT – бұл OpenAI компаниясы әзірлеген жасанды интеллектіге негізделген тілдік модель. Ол сол модельге сүйене отырып жұмыс жасайды. ChatGPT-ді көбінесе ағылшын тілін қолданатын адамдар пайдаланады. Өйткені оның дерек қоры, яғни тілдік моделі – ағылшын тілі. Оның қазір қазақ тілі де бар. Бірақ деңгейі, сауаттылығы ағылшын тіліне қарағанда төмен. Неге десеңіз, ChatGPT ағылшын тіліндегі деректер бойынша «сауат ашты». Яғни табиғи тілді түсіне алатын бір модель жасап, сол модельдің ішіне бүкіл ағылшын тіліне қатысты миллион, миллиардтаған деректі енгізді. Әрине, басқа тілдердің де дерек қоры бар, бірақ олар ағылшын тілімен салыстырғанда әлдеқайда аз. Демек, дерек қоры аз болғандықтан, ChatGPT шала сауат болып тұр. Сонымен қатар деректердің сапасы да төмен. Өйткені олар қазақ тіліне қатысты материалдарды ашық деректерден алады. Ал ашық деректердегі қазақ тіліндегі контенттің көбінің сапасы нашар. Мысалы, біздің жобамыз туралы еліміздің бас газеті «Егемен Қазақстан» былай дейді: «KAZ-LLM-ның оқыту деңгейі өте жоғары». Бұл не деген сөз? Қалай түсінуге болады? Екіұшты, дүбәра сөйлем бұл.
Кез келген бір контентті, деректі алып машинаға (жасанды санаға) оқыта алмайсыз. Мысалы, «Абай жолын» алып айтайық. Бүкіл шығарманы алып, бірден жасанды интеллектіге оқытуға болмайды. Абай дегеніміз қандай сөз? Адамның аты ма, қай сөз табына жатады? Машина оны түсінбейді. Ол түсіну үшін сол деректерді былайша дәйектеуіңіз керек: «Абай – зат есім, адамның аты, жалқы есім. Ол бас әріппен жазылуы керек. Сондай-ақ оның басқада мынадай мағыналары бар» деп белгілеп, жіктеп көрсетесіз. Содан кейін барып жасанды интеллектіге енгізесіз. Ол деректер дұрыс әрі орфографиялық қателіктер болмауы шарт. Ашық деректердің сапасы төмен деп отырғанымның себебі осы. Оның үстіне, ChatGPT-ді пайдаланғанда кейбір құпиялықтар шетелге кетіп қалуы да мүмкін. KAZ-LLM осы ақтаңдақтың орнын толтыру мақсатында құрылды.
– Сонда ChatGPT мен KAZ-LLM екеуі екі басқа дүние ме?
– Иә, екеуі – екі бөлек нәрсе. Екеуі де – жасанды интеллектімен жұмыс істейтін болғанымен, екі бөлек модель. Қарапайым тілмен айтқанда, екеуі екі бөлек ғимарат сияқты. Қазірге дейін біздің институтымыз қазақ тіліне арналған бес деректер жиынтығын жасады.
– Біз «жасанды сана деген бәрін білетін ақылды» деп жүрсек, алдымен оның өзін «оқытпасаң» ол да шала сауат болды ғой?
– Иә, жасанды интеллект дұрыс жұмыс істеуі үшін ең алдымен, тілдік модель дұрыс жасалуы керек. Бұл қазақ тіліндегі барлық материалды дайындап бәрін енгізу керек деген сөз емес. Ол модельде қанша көп материал, қанша көп сөз, қанша көп талданған деректер енгізілсе, сонша жақсы. Біз осы жұмыспен айналысып жатырмыз. Мысалы, қазір жасанды интеллектінің «сөз қорында» кәсіби тілге арналған деректер жиынтықтардың саны өте аз. Сіз дәрігер болсаңыз, жасанды интеллектіге маған қазақ тілінде өтініш жазып бер десеңіз, ол жазып береді. Бірақ ол сапасыз әрі мазмұндық қателерге толы болуы мүмкін. Өйткені оның сөз қорында сіздің кәсібіңізге қатысты қазақ тіліндегі кәсіби атаулар, терминдер жоқ. Сондықтан ол басқа тілдерден алып, оны сізге аударып дайындап беруі мүмкін. Демек, жасанды интеллектіге де тілдің тазалығы керек. Жасанды интеллектіні кемелді деңгейде өзіңе қызмет еттіру үшін оған қазақ тілінің тазалығын сақтай отырып, қазақтың сөйлеу дағдысын, қазақ тілінің тілдік ерекшелігін оның зердесіне толық сіңіруің керек.
– Біз бірінші реткі ғылым техника төңкерісінен бейхабар қалдық, интернет дәуірінің көшіне де ілесе алғамыз жоқ. Енді жасанды интеллект дәуірінің көшінен қалып қоймау үшін не істеуіміз керек деп ойлайсыз?
– Менің ойымша, мемлекет жағынан бастама болу керек. Неге десеңіз, деректерді жинауға біздің шамамыз жетіспейді. Қазақ тіліндегі бүкіл деректі жинау үшін мемлекет қазақ тіліндегі деректерді жинау бастамасын көтерсе, жаңа жұмыс орындары ашылып, жастарымыз, зейнеткерлер бір жағынан, жұмыс істеп, бір жағынан, ақша табар еді. Мысалы, олар белгілі бір тапсырма бойынша деректерді жинақтайды. Мамандар сол деректерді алып, сұрыптап, іріктеп, тазалап, оны жасанды интеллектінің зердесіне сіңіреді. Мәселен, қазір қағаздың бетіндегі мәтінді фотоға түсірсең, оны кез келген тілге аударып беретін немесе аудиожазбаны мәтінге, мәтінді аудиожазбаға айналдырып беретін қолданбалар көп қой. Олар да ағылшын, қытай тілдерінде жақсы жұмыс істейді, ал қазақ тіліндегі жұмысына көңіл толмайды. Неге? Оларға да қазақ тіліндегі деректер жетіспейді. Бейне қазақ тілін шала білетін адам сияқты өзі білетін қазақшамен қызмет көрсетеді. Демек, тілдік модель айрықша маңызды. Мемлекет осы мәселеге назар аудару керек.
Өкінішке қарай, қазір Қазақстанда тілдік модельді жасаумен айналысып жатқан жекелер немесе ұжымдар зерттеу нәтижесінде жиналған деректерімен бөліскісі келмейді, «қазақ тілін қайтсек дамытамыз, жасанды интеллектіні қайткенде қазақ тілінде жүйелі сөйлетеміз» деген идеядан гөрі, мен жасаған дайын жұмысты неге бере салуым керек деген пиғыл басым.
«Soyle» сөзді жазуға айналдырады
– Қазір жасанды санамен басқарылатын роботтар, әртүрлі қару-жарақтар шықты. Болашақта жасанды сана дамып, дербес ойлай алатын деңгейге жетіп, адамзаттың өзіне қатер төндірмей ме? Мұндай күдік те айтылып жүр ғой.
– Жоқ. Менің ойымша, мұндай болуы мүмкін емес. Неге десеңіз, жасанды интеллектімен басқарылатын роботтың артында әрқашан адам тұрады, адамның бұйрығынсыз ол ештеңе де істей алмайды. Бірақ егер адамдар қателессе немесе әдейі жаман мақсатта пайдаланса, оның зардабы ауыр болуы әбден мүмкін. Қазірдің өзінде жасанды интеллектіні теріс бағытта пайдаланып жүрген алаяқтар жоқ емес.
– Енді Soyle App (soyle.nu.edu.kz) туралы сөз қозғасақ. Қазір бізде дыбысты мәтінге, мәтінді дыбысқа айналдыратын қолданба аз, бар болса да әлі кемелсіз ғой. Soyle App қолданбасы осы кемшіліктің орнын толтыра ала ма?
– Пайдаланушыға ыңғайлы әрі түсінікті көптілді қолдауды ұсынатын Soyle App сөзді тану, дауыс синтезі және қазақ, орыс, ағылшын, түрік тілдерінде лездік аударма мүмкіндіктерін қамтамасыз етеді. Мәселен, сіз екеуміздің осы сұхбатымыздың аудиосын осы қолданба арқылы жазба мәтінге айналдырып алуға мүмкіндік бар. Жүз пайыз дұрыс болмаса да, аудионы шетінен тыңдап қолмен жазғаннан әлдеқайда тез. Оның үстіне, бұл қолданба бас әріпті белгілеп, үтір-нүктелерді айыра алады.
– Желтоқсан айының басында Мәжілісте мемлекеттік тілді жасанды интеллекттің күшімен дамытуды көздейтін заң жобасы қарады. Сондай-ақ мемлекеттік тілдің цифрлық ұлттық сөздік қоры жасалып жатыр. Бұл да қазақ тіліндегі жасанды сананың дамуына өз септігін тигізе ме?
– Әрине, жасанды интеллект те екіжүзді қанжар сияқты, оны жақсы жағына пайдалансаң адамзат үшін өте тиімді. Өкінішке қарай, жоғарыда айтқанымдай, қазір бұл техниканы теріс бағытта қолданып, алаяқтық әрекеттермен айналысатындар да көбейді. Жасанды интеллект арқылы біреудің дауысына салып сөйлеуге, біреудің дауысымен екінші бір адамға дауысты хабарлама жіберуге болады. Бұл өз кезегінде интернет-алаяқтықтығын да асқындырып жіберді. Сондықтан бұл салаға қатысты заңды да күшейту қажет. Қазір оқушыларға бір тапсырма берсең, ChatGPT-ден немесе Google-ден бір минуттің ішінде жауабын тауып, дайындап береді. Бұл балалардың дербес ойлау, есте сақтау қабілетін жетілдіруге үлкен кедергі болатынын ескерген жөн.
Ал цифрлық сөздік қорға келсек, ол қазақ тіліндегі барлық сөзді жинақтап, оны іріктеп, оны жасанды интеллектінің зердесіне сіңіреді. Мәселен, «ат» деген сөзді алып айтсақ, ол сөздікте осы атаудың бірқанша мағынасы жан-жақты түсіндірілуі керек, яғни ол зат есім болғанда қандай мағына береді? Етістік болғанда қандай мағына береді? Бәрін жіктеп, ашық түсіндіру керек. Ең бастысы, бұл сөздікте мазмұндық, мағыналық, емлелік қате де жібермеуге тырысу керек. Өйткені сөздік деген – үлкен құрал, жұрт соған бағынады. Сондықтан бұл шаруада асығыстық жасауға әсте болмайды.
Тек орфографиялық мәселені алып айтсақ, бұл салада да таласты түйін өте көп. Орфографиялық сөздік, менің білуімше, соңғы рет 2013 жылы шықты. Он жылдай өтті. Көп нәрсе өзгерді. Мысалы, осы сөздікте «біркүндік» бірге жазылады да, «үш күндік» бөлек жазылады. Неге? Мен түсінбеймін, оның логикасы қандай? Алғыс мағынасындағы сөзді біреу «Рахмет» деп, ал біреулер «Рақмет» деп жазады, қайсысы дұрыс? Орфографиялық сөздікті ақтарсаң да неше түрлі тосын «сыйларға» кезігесің. Мысалы, «Қыркүйек» пе, «Қыргүйек» пе? Қазір бәрі «к» мен жазады, бірақ сөздікте «қыргүйек» деп берілген. Ол қыр мен күйек сөзінен жасалған, әрине, үндестік заңы бойынша к әрпі г-ге өзгереді десек те, к-ні г-ге өзгерте беру қисынды ма? «Шекара», «Шегара», «Ботакөз», «Ботагөз» деген сөздер бұрын к-мен жазылып келген жоқ па? Сөздікте, мысалы, «Ботагөз» – адамның аты болса, «ботакөз» – өсімдік атауы. Осы мәселенің бәрін нанымды жолмен түсіндіру керек. Ол үшін бізге қазақ тілінен өте сауатты мамандар керек, әсіресе, қазақ тілінің грамматикасын жасанды интеллектіге дұрыстап оқыту керек. Қате дерек сөзді бұзады, тілді былғайды.
Сұхбаттасқан
Қалиакбар ҮСЕМХАНҰЛЫ