Contributing to Serbian language models

Contributing to Serbian language models

Doprineti zajednici u vezi glasova

  1. Common Voice
  2. Common Voice Sentence Collector

COMtext.SR projekat

ICEF-NLP/COMtext.SR

Platforma koju su izabrali…

Kako mi se sada čini, to sve nebulozno komplikovano izgleda:

https://reldi.spur.uzh.ch/hr-sr/instrumenti-za-prikupljanje-podataka/?_sft_jezik-instrumenti=srpski

ReLDI | Regional Linguistic Data Initiative

Nekako će završiti kao i sve u državi

ReLDI Centre Belgrade (@reldi_centre) / Twitter


neka saradnja sa Clarin.si:

Serbian UD

ASR training dataset for Serbian JuzneVesti-SR v1.0 To je i audio korpus: parlaspeech/juzne_vesti at main · clarinsi/parlaspeech classla/wav2vec2-xls-r-juznevesti-sr · Hugging Face


Bitan projekat: Mozilla Common Voice

U pitanju je vrlo poznat dataset izgovora, glasova i rečenica uveliko koriste baš sve najveće svetske AI kompanije i istraživači. Već godinama se time pravi Mozilla, a nalazi se na portalu Common Voice:

Kako doprineti?

1. Pokušajte još nekoga da uključite

Za početak, pokušajte bar nekoga da animirate da doprinese malo svojim trudom na više načina:

2. Snimite svoj glas, rečenice i izgovor

3. Pomognite da se izgradi jezički korpus

Rečenice i fraze čiji izgovor se snima u prethodnoj stavci se prethodno moraju proveriti jesu li pravopisno ispravne ili nisu. Taj deo posla se radi na sajtu

Primetio sam da je glavni izvor za rečenice jedan jedini - SETimes.SR – A Reference Training Corpus of Serbian iz 2018. god koji je pripremio Vuk Batanović

Nadam se da će sad sve ovo malo da se pokrene i da će neki novi AI modeli imati mnogo bolji srpski jezik. Dataset za srpski je generalno vrlo mali, pa na primer Whisper AI model za prepoznavanje govora vrlo često greškom “prebacuje” na hrvatski odnosno bosanski izgovor.

Vuk Batanović

vukbatanovic/SentiComments.SR: A Sentiment Analysis Dataset of Comments in Serbian

Vuk Batanović ima sve

Rečenice: Sentence collection for Serbian - Common Voice - Mozilla Discourse

Nikola Milošević

Vrlo interesantno

Nikola Milosevic, PhD (@text_miner) / Twitter

nikolamilosevic86/SerbianStemmer: Stemmer for serbian language created for my master thesis, rewritten in python [1209.4471] Stemmer for Serbian language vukbatanovic/SCStemmers: A collection of stemmers for Serbian and Croatian

Serbian_NLP/SerbianNN.ipynb at main · nikolamilosevic86/Serbian_NLP nikolamilosevic86/SerbCrawler: Crawler for serbian websites used for collecting short forms Serbian-AI-Society/SrbAI: Python library for Serbian Natural language processing (NLP)

Čak već postoji:

Serbian AI Society

date 15. Nov 2022 | modified 25. Jan 2023
filename: Localization » Serbian Language Models