Digitizarea și crearea corpusului FolkAI cu texte ale folclorului basarabean din sec. XIX-XX
Rezumat Proiect
Proiectul FolkAI continuă cercetările interdisciplinare ale Institutului de Matematică și Informatică „Vladimir Andrunachievici” al Universității de Stat din Moldova, privind procesarea documentelor istorice. Pe parcursul ultimilor 10 ani cercetătorii au acumulat o vastă experiență la procesarea textelor vechi din sec. XVII-XX scrise cu grafie chirilică.
Se vor procesa cel puțin 5.000 de pagini, creându-se astfel primul Corpus al Folclorului Basarabean, cu peste 100.000 de tokeni dintr-o varietate de opere literare. În plus, folosind tehnologii AI, vor fi generate imagini ilustrative pentru basme, proverbe și zicători, facilitând corelarea lingvistică dintre cuvinte și semnificațiile lor.
Proiectul include analiza detaliată a trăsăturilor stilistice și structurale ale textelor folclorice, utilizarea instrumentelor AI pentru recunoașterea și clasificarea automată a elementelor de bază. Totodată, se vor utiliza modele LLM pentru procesarea avansată cu aplicabilitate pentru diverse analize.
Corpusul FolkAI va fi diacronic-paralel, incluzând texte din diferite perioade istorice, permițând astfel o analiză aprofundată a evoluției limbajului folcloric basarabean. Această inițiativă aduce o contribuție esențială la conservarea și promovarea patrimoniului cultural, facilitând accesul publicului larg la aceste resurse digitale și sprijinind obiectivele Strategiei de Transformare Digitală a Republicii Moldova (2023-2030) și Programului Europa Digitală (2021-2027).
Scopuri și Obiective
Digitizare
Procesarea a minim 5.000 de pagini de texte folclorice basarabene scrise cu alfabet chirilic
Transliterare
Conversia automată a textelor din alfabetul chirilic în alfabetul latin modern
Corpus Lingvistic
Crearea primului corpus diacronic-paralel al folclorului basarabean
Inteligență Artificială
Dezvoltarea de modele AI pentru recunoaștere, analiză și generare de imagini illustrative
Analiză Diacronică
Studierea evoluției limbajului folcloric basarabean pe parcursul a două secole
Valorificare Culturală
Promovarea și conservarea durabilă a identității culturale basarabene
Metodologie și Etape de Lucru
Etapa 1: Analiză și Digitizare
Iulie - Decembrie 2025- Identificarea și catalogarea resurselor textuale
- Digitalizarea primară a textelor folclorice
- Adaptarea platformei HeDy pentru specificul textelor vechi
- Validarea procesului de digitizare
Etapa 2: Transliterare și Procesare
Ianuarie - Iunie 2026- Transliterarea automată a textelor chirilice
- Îmbogățirea dicționarului electronic cu termeni arhaici
- Tokenizarea și prepararea textelor pentru adnotare
- Proiectarea structurii corpusului diacronic-paralel
Etapa 3: Crearea Corpusului și Analiză
Iulie - Decembrie 2026- Adnotarea textelor folclorice
- Dezvoltarea corpusului FolkAI (100.000+ tokeni)
- Analiza diacronică a evoluției limbajului folcloric
- Generarea colecției de imagini ilustrative cu AI
Rezultate și Impact
Rezultate Științifice
- Primul corpus diacronic-paralel al folclorului basarabean
- Tehnologii AI pentru recunoaștere text cu acuratețe >90%
- Colecție de 1000+ imagini generate de AI pentru ilustrarea folclorului
- Publicații științifice în domeniul procesării limbajului natural
Impact Cultural
- Conservarea digitală a patrimoniului cultural basarabean
- Facilitarea accesului publicului larg la resurse digitale
- Promovarea identității culturale și lingvistice
- Resurse educaționale pentru instituții de învățământ
Integrare Europeană
- Aliniere la Strategia de Transformare Digitală a Republicii Moldova
- Participare la programul Europa Digitală (2021-2027)
- Integrare în proiectul internațional COST Action CA21167
- Colaborare cu cercetători din România și UE
Inovație și Originalitate
Abordare Multidisciplinară
Integrare unică a lingvisticii, informaticii și culturologiei pentru o înțelegere comprehensivă a patrimoniului cultural
Tehnologii Avansate
Utilizarea modelelor LLM și AI pentru procesarea textelor istorice și generarea de conținut ilustrativ
Corpus Diacronic-Paralel
Primul corpus structural care permite analiza evoluției limbajului folcloric basarabean pe parcursul a două secole