

Uzun müddətdir ki, ölkəmizdə Milli Korpusun formalaşdırılması, Azərbaycan dili üçün Təbii Dilin Emalı modelinin yaradılması müzakirə predmetidir. İllər öncə Rəqəmsal İnkişaf və Nəqliyyat Nazirliyinin (RİNN) dəstəyilə “Dilmanc” layihəsi çərçivəsində bu istiqamətdə müəyyən addımlar atılsa da, hazırda görünən odur ki, ölkəmiz bu istiqamətdə xeyli ləngiyib. Bununla bağlı çox yazılıb.
Bu sahədə indiyədək pərakəndəlik müşahidə olunurdu, kimin buna cavabdeh olacağı məlum deyildi, əvvəllər formalaşmış resurslara əlçatanlıq təmin edilməmişdi.
Bir neçə gün öncə Prezidentin təsdiqlədiyi Süni İntellekt Strategiyasında bu məsələlərə də aydınlıq gətirilib.
Strategiyada diqqət çəkən məqamlardan biri də Azərbaycan dilində böyük verilənlər bazalarının (Milli Korpusun) yaradılması, yüksəkdəqiqlikli dil modellərinin (Təbii Dilin Emalı) hazırlanması və azı 5 dövlət xidmətində bu texnologiyaların tətbiqinin nəzərdə tutulmasıdır.
Görəsən kim, hansı qurum bununla məşğul olacaq?
Strategiyadan görünür ki, qeyd olunanların reallaşmasına əsas cavabdeh qurum Rəqəmsal İnkişaf və Nəqliyyat Nazirliyi, digər icraçı qurum da Vətəndaşlara Xidmət və Sosial İnnovasiyalar üzrə Dövlət Agentliyidir (“Asan Xidmət”). Müddət də 2026-28-ci illər nəzərdə tutulub.
Strategiyada bu istiqamətdə qeyd olunanların reallaşdırılması ilə bağlı hələlik adı çəkilən qurumların açıqlamaları olmayıb. Hansı işlərin görüləcəyi, hansı addımların atılacağı hələlik məlum deyil.
Görüləcək işlər isə hədsiz çoxdur.
TDE (Transparent Data Encryption) sistemləri süni intellekt modellərini “öyrətmək” üçün nəhəng dataya ehtiyac duyur. Azərbaycan dilində müxtəlif mənbələrdən (xəbərlər, rəsmi sənədlər, sosial media, tədris materialları, lüğətlər, ensiklopediyalar, elmi ədəbiyyatlar və s.) toplanan və təmizlənmiş milyonlarla məlumatlardan ibarət Milli Korpus yaradılmalıdır.
AZ-LLM (AZ-“Large language models”) qurulması üçün hansı addımların atılacağı, qlobalda mövcud olan modellərin Azərbaycan dilinə uyğunlaşdırılması və ya sıfırdan hazırlanması məsələsinə aydınlıq gətirilməlidir.
Düşünürəm ki, Azərbaycan dilinin qorunması və spesifikliyi baxımından, onun rəqəmsal mühitdə inkişafı, xüsusilə də təhlükəsizlik baxımından Az-LLM zəruridir.
Az-LLM Azərbaycanın süni intellekt sahəsində irəliləyişi üçün əsas baza olmalı və dilimizin qlobalda daha geniş istifadəsini təmin etməlidir.
Düşünürəm ki, Strategiyada nəzərdə tutulan 5 pilot dövlət qurumu olaraq Əmək və Əhalinin Sosial Müdafiəsi Nazirliyi (ƏƏSMN), Ədliyyə Nazirliyi, Daxili İşlər Nazirliyi (DİN), Elm və təhsil Nazirliyi (ETN), “Asan Xidmət”, Dövlət Vergi Xidməti (DVX), İnnovasiya və Rəqəmsal İnkişaf Agentliyi (İRİA) (myGov) və s. qurumlarda vətəndaşla ünsiyyətin qurulmasında, sənəd analizində, vətəndaşların suallarının avtomatik cavablandırmalarında, chatbotlar və məlumatların təsnifatında və s. xidmətlər və istiqamətlər üzrə TDE texnologiyaları tətbiq etmək məqsədəuyğun olardı.
Ümid edirəm RİNN, “Asan Xidmət” və İRİA tezliklə maraqlı tərəfləri, aidiyyəti qurumları və universitetləri, tədqiqatçıları, həmçinin bu sahədə müəyyən təcrübəsi olan biznes qurumlarını bir araya gətirərək bu istiqamətdə bir Yol Xəritəsi hazırlanmasına və icrasına start verəcək.