USM
IMI

Folclor Digital

Catalog de literatură digitalizată

Digitizarea și crearea corpusului FolkAI cu texte ale folclorului basarabean din sec. XIX-XX

Program: Programe de Stat şi Granturi
Cifru proiect: 25.80012.0807.50SE
Termenul executării: 2025 – 2026
Tip proiect: Concursul național de proiecte de cercetare și inovare ”Stimularea excelenței în cercetare”
Text folcloric basarabean din secolul XIX în proces de digitizare

Rezumat Proiect

Proiectul FolkAI continuă cercetările interdisciplinare ale Institutului de Matematică și Informatică „Vladimir Andrunachievici” al Universității de Stat din Moldova, privind procesarea documentelor istorice. Pe parcursul ultimilor 10 ani cercetătorii au acumulat o vastă experiență la procesarea textelor vechi din sec. XVII-XX scrise cu grafie chirilică.

Se vor procesa cel puțin 5.000 de pagini, creându-se astfel primul Corpus al Folclorului Basarabean, cu peste 100.000 de tokeni dintr-o varietate de opere literare. În plus, folosind tehnologii AI, vor fi generate imagini ilustrative pentru basme, proverbe și zicători, facilitând corelarea lingvistică dintre cuvinte și semnificațiile lor.

Proiectul include analiza detaliată a trăsăturilor stilistice și structurale ale textelor folclorice, utilizarea instrumentelor AI pentru recunoașterea și clasificarea automată a elementelor de bază. Totodată, se vor utiliza modele LLM pentru procesarea avansată cu aplicabilitate pentru diverse analize.

Corpusul FolkAI va fi diacronic-paralel, incluzând texte din diferite perioade istorice, permițând astfel o analiză aprofundată a evoluției limbajului folcloric basarabean. Această inițiativă aduce o contribuție esențială la conservarea și promovarea patrimoniului cultural, facilitând accesul publicului larg la aceste resurse digitale și sprijinind obiectivele Strategiei de Transformare Digitală a Republicii Moldova (2023-2030) și Programului Europa Digitală (2021-2027).

Scopuri și Obiective

Icon digitizare

Digitizare

Procesarea a minim 5.000 de pagini de texte folclorice basarabene scrise cu alfabet chirilic

Icon transliterare

Transliterare

Conversia automată a textelor din alfabetul chirilic în alfabetul latin modern

Icon corpus

Corpus Lingvistic

Crearea primului corpus diacronic-paralel al folclorului basarabean

Icon inteligență artificială

Inteligență Artificială

Dezvoltarea de modele AI pentru recunoaștere, analiză și generare de imagini illustrative

Icon analiză

Analiză Diacronică

Studierea evoluției limbajului folcloric basarabean pe parcursul a două secole

Icon cultură

Valorificare Culturală

Promovarea și conservarea durabilă a identității culturale basarabene

Metodologie și Etape de Lucru

Etapa 1: Analiză și Digitizare

Iulie - Decembrie 2025
  • Identificarea și catalogarea resurselor textuale
  • Digitalizarea primară a textelor folclorice
  • Adaptarea platformei HeDy pentru specificul textelor vechi
  • Validarea procesului de digitizare

Etapa 2: Transliterare și Procesare

Ianuarie - Iunie 2026
  • Transliterarea automată a textelor chirilice
  • Îmbogățirea dicționarului electronic cu termeni arhaici
  • Tokenizarea și prepararea textelor pentru adnotare
  • Proiectarea structurii corpusului diacronic-paralel

Etapa 3: Crearea Corpusului și Analiză

Iulie - Decembrie 2026
  • Adnotarea textelor folclorice
  • Dezvoltarea corpusului FolkAI (100.000+ tokeni)
  • Analiza diacronică a evoluției limbajului folcloric
  • Generarea colecției de imagini ilustrative cu AI

Rezultate și Impact

Icon știință

Rezultate Științifice

  • Primul corpus diacronic-paralel al folclorului basarabean
  • Tehnologii AI pentru recunoaștere text cu acuratețe >90%
  • Colecție de 1000+ imagini generate de AI pentru ilustrarea folclorului
  • Publicații științifice în domeniul procesării limbajului natural
Icon impact cultural

Impact Cultural

  • Conservarea digitală a patrimoniului cultural basarabean
  • Facilitarea accesului publicului larg la resurse digitale
  • Promovarea identității culturale și lingvistice
  • Resurse educaționale pentru instituții de învățământ
Icon Europa

Integrare Europeană

  • Aliniere la Strategia de Transformare Digitală a Republicii Moldova
  • Participare la programul Europa Digitală (2021-2027)
  • Integrare în proiectul internațional COST Action CA21167
  • Colaborare cu cercetători din România și UE

Inovație și Originalitate

Icon abordare multidisciplinară

Abordare Multidisciplinară

Integrare unică a lingvisticii, informaticii și culturologiei pentru o înțelegere comprehensivă a patrimoniului cultural

Icon tehnologii

Tehnologii Avansate

Utilizarea modelelor LLM și AI pentru procesarea textelor istorice și generarea de conținut ilustrativ

Icon corpus inovator

Corpus Diacronic-Paralel

Primul corpus structural care permite analiza evoluției limbajului folcloric basarabean pe parcursul a două secole