Қазақстанда KazLLM үлкен тілдік моделі әзірленді

Р Р 13 декабря, 2024

Қазақстанда қазақ, ағылшын, орыс және түрік тілдерінде 148 миллиард токен негізінде үйретілген KazLLM үлкен тілдік моделі әзірленді. Бұл модель Назарбаев Университетінің Ақылды жүйелер және жасанды интеллект институты (ISSAI) командасымен ҚР ЦДИАӨМ және ҚР ҒЖБМ қолдауымен және үйлестіруімен жасалды, деп хабарлайды astana-akshamy.kz

Аталмыш модель ғылыми қауымдастық, стартаптар мен ірі корпорациялар сияқты көптеген пайдаланушыларға қолжетімді болады. Мемлекет басшысының бастамасы бойынша KazLLM табиғи тілді өңдеу технологияларын түркітілдес кеңістікте дамытуға бағытталған ауқымды TurkLLM жобасының негізіне айналады. Тиісті келісім ТМҰ саммитінде қол қойылған.

Бұл жоба ұлттық AI инфрақұрылымын құрудағы маңызды кезең болып, Қазақстанның өңірлік технологиялық көшбасшы ретіндегі мәртебесін растайды. Жобаны іске асыру жасанды интеллекттің алдыңғы қатарлы құралының құрылуымен қатар, жасанды интеллект саласындағы адам капиталының өсуі мен дамуына ықпал етті.

Жобаға Тіл Қазына, «ҰАТ» АҚ, Maqsut Narikbayev University және басқа да институттар секілді лингвистикалық және ғылыми-өндірістік ұйымдар өз үлестерін қосты.

«KazLLM моделінің ашық кодты нұсқасының іске қосылуы Қазақстанның жасанды интеллект экожүйесін дамытудағы маңызды қадам болып табылады. Бұл бастама біздің инновацияларды қолдауға және технологиялық прогреске ықпал ететін ғылыми жетістіктерді ілгерілетуге деген ұмтылысымызды көрсетеді.Бұл заманауи модель әрбір қазақстандық үшін қолжетімді және инклюзивті цифрлық қызметтерді қамтамасыз етіп, цифрлық теңсіздікті жоюға көмектесетініне сенімдімін», – деп атап өтті министр Жаслан Мәдиев.

Модель 148 миллиард токен негізінде үйретілді. 8 миллиард және 70 миллиард параметрлері бар екі нұсқа әзірленді. Олар жасанды интеллект саласында жаңа өнімдер әзірлеудің негізі болып табылады және сапасы мен дәлдігі бойынша ұқсас модельдерден асып түседі.

Алғашқы кезеңде KazLLM әзірлеушілер, стартаптар мен компаниялар үшін ашық қолжетімді болады, бұл оның негізінде өнімдер мен қызметтер құруды ынталандырады. Әртүрлі жобаларға модельді жылдам интеграциялауға көмектесетін егжей-тегжейлі нұсқаулықтар дайындалды.

«Бұл модель Қазақстанның инновацияларға, тәуелсіздікке және өзінің технологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің командамыз жоғары өнімді жүйелер мен шектеулі ресурстар ортасында оңтайландырылған Meta Llama архитектурасы негізінде 8 миллиард және 70 миллиард параметрлері бар KAZ-LLM екі нұсқасын дайындады. Осылайша, әзірлеушілер біздің модельді күрделі серверлерде де, ноутбуктерде де жүктеп, іске қоса алады», – деп түсіндірді Назарбаев Университетінің Ақылды жүйелер және жасанды интеллект институтының (ISSAI) директоры, профессор Хусейн Атакан Варол.

Ұлттық тілдік модельді жасау барысында Beeline Қазақстан және оның QazCode IT компаниясы негізгі серіктес болды. Kaz-RoBERTA сияқты тілдік модельдерді әзірлеудегі және шетелдік ұйымдармен серіктестікте шағын тіл топтары үшін жасанды интеллект шешімдерін жасаудағы тәжірибені біріктіре отырып, бұл компаниялар қазақстандықтар үшін инновациялық және қолжетімді модель жасауға айтарлықтай үлес қосты. 8 DGX H100 есептеу қуатымен қамтамасыз етілген серверді ұсыну оқу процесін айтарлықтай жеделдетіп, модельдің мүмкіндіктерін кеңейтті.

Салыстырмалы түрде алғанда, кәдімгі компьютерге 1 миллион фотосурет мұрағатын талдау үшін бірнеше күн қажет болса, KAZ-LLM-ді үйретуге пайдаланылған 8 DGX H100 сервері бұл тапсырманы бірнеше секундта орындай алады.

«Біздің командамыз Kaz-LLM моделін жасау және үйрету процесіне белсенді қатысты. Қазақ тілінің ерекшеліктерін ескеретін модельді жасау және 50 күндік есептеу жұмыстарын қамтитын күрделі процесс контексті жақсы түсінуге және пайдаланушылармен сапалы өзара әрекеттесуді қамтамасыз етуге мүмкіндік берді. Тестілеу модельдің мәдени ерекшеліктерді ескере отырып, техникалық тапсырмаларды тиімді орындайтынын көрсетті. Біз Kaz-LLM бүкіл Қазақстан үшін маңызды құралға айналып, тілдік цифрлық кедергілерді еңсеруге және аймақтағы цифрлық қызметтердің сапасын жақсартуға көмектесетініне сенімдіміз», – деп атап өтті QazCode компаниясының бас директоры Алексей Шаравар.

KazLLM — бұл қазақ тілінде мәтіндерді өңдеу, талдау және жасау үшін әзірленген заманауи жасанды интеллект тілдік моделі. Бұл қазақ тілінің цифрлық кеңістікте қолданылуын кеңейтуге, бизнеске, ғылымға және қоғамға қолдау көрсетуге бағытталған бірегей әзірлеме. Ол аударма және құжаттарды өңдеуден бастап, қарым-қатынасты автоматтандыруға дейінгі кең ауқымды тапсырмаларды орындай алады.

Ұлттық модель бизнеске чат-боттар, тұтынушыларды қолдау жүйелерін әзірлеуге, құжат айналымын автоматтандыруға және деректерді талдауға мүмкіндік береді. Мысалы, жергілікті банктер қазақ тіліндегі сұрауларды өңдеуді жеделдете алады, ал ритейл бұл модельді өз процестеріне енгізу арқылы пайдаланушы тәжірибесін жақсартады. Білім беру және ғылыми ұйымдар қазақ тілін үйренуге арналған қосымшалар мен ғылыми мәтіндерді талдау және студенттерге көмек көрсету құралдарын жасай алады. Медиа және контентпен айналысатындар жаңалықтар жасау, аударма сапасын жақсарту және мәтін жазуға арналған құралдарды жасау мүмкіндігіне ие болады.

KazLLM-ді пайдалану сілтемесі:
https://huggingface.co/collections/issai/issai-kazllm-10-6732d58c81bcaf177442c362