Contributing to Serbian language models
Doprineti zajednici u vezi glasova
COMtext.SR projekat
Platforma koju su izabrali…
Kako mi se sada čini, to sve nebulozno komplikovano izgleda:
https://reldi.spur.uzh.ch/hr-sr/instrumenti-za-prikupljanje-podataka/?_sft_jezik-instrumenti=srpski
ReLDI | Regional Linguistic Data Initiative
Nekako će završiti kao i sve u državi
ReLDI Centre Belgrade (@reldi_centre) / Twitter
neka saradnja sa Clarin.si:
ASR training dataset for Serbian JuzneVesti-SR v1.0 To je i audio korpus: parlaspeech/juzne_vesti at main · clarinsi/parlaspeech classla/wav2vec2-xls-r-juznevesti-sr · Hugging Face
Bitan projekat: Mozilla Common Voice
U pitanju je vrlo poznat dataset izgovora, glasova i rečenica uveliko koriste baš sve najveće svetske AI kompanije i istraživači. Već godinama se time pravi Mozilla, a nalazi se na portalu Common Voice:
Kako doprineti?
1. Pokušajte još nekoga da uključite
Za početak, pokušajte bar nekoga da animirate da doprinese malo svojim trudom na više načina:
2. Snimite svoj glas, rečenice i izgovor
3. Pomognite da se izgradi jezički korpus
Rečenice i fraze čiji izgovor se snima u prethodnoj stavci se prethodno moraju proveriti jesu li pravopisno ispravne ili nisu. Taj deo posla se radi na sajtu
Primetio sam da je glavni izvor za rečenice jedan jedini - SETimes.SR – A Reference Training Corpus of Serbian iz 2018. god koji je pripremio Vuk Batanović
Nadam se da će sad sve ovo malo da se pokrene i da će neki novi AI modeli imati mnogo bolji srpski jezik. Dataset za srpski je generalno vrlo mali, pa na primer Whisper AI model za prepoznavanje govora vrlo često greškom “prebacuje” na hrvatski odnosno bosanski izgovor.
Vuk Batanović
vukbatanovic/SentiComments.SR: A Sentiment Analysis Dataset of Comments in Serbian
Vuk Batanović ima sve
Rečenice: Sentence collection for Serbian - Common Voice - Mozilla Discourse
Nikola Milošević
Vrlo interesantno
Nikola Milosevic, PhD (@text_miner) / Twitter
nikolamilosevic86/SerbianStemmer: Stemmer for serbian language created for my master thesis, rewritten in python [1209.4471] Stemmer for Serbian language vukbatanovic/SCStemmers: A collection of stemmers for Serbian and Croatian
Serbian_NLP/SerbianNN.ipynb at main · nikolamilosevic86/Serbian_NLP nikolamilosevic86/SerbCrawler: Crawler for serbian websites used for collecting short forms Serbian-AI-Society/SrbAI: Python library for Serbian Natural language processing (NLP)
Čak već postoji:
JEBOTE:
Jebote, našao sam nešto:
Autor je Мудровања Blog strn (Strana (eng: Page)) i on se defitivno ranije angažovao: Локализација Disqus-a на српски језик
- strn/gedit-lat2cyr je plugin za gEdit editor za transliteration Cyr-Lat alphabets. Probaj sa
scoop install gedit
odnosnowinget install -e --id gnome.gedit
ako budeš morao.
On se pre 5 godina sasvim sam bavio time: [sr] LT Serbian language support by strn I evo ga sve ostalo tu: strn/languagetool-sr: Style and Grammar Checker for 25+ Languages Dakle, ovaj verovatno i radi!
Public HTTP Proofreading API | dev.languagetool.org
Nema srpskog, provereno na ovaj API endpoint: curl -d "text=Das ist Walter." -d "language=auto" https://api.languagetool.org/v2/check
, ali je bio nekad?
Woow! Odlično! Ako radi: strn/tesseract-serbian: A set of data files that can be used to train tesseract-ocr to recognize Serbian Cyrillic script. Скуп датотека коришћених да би програм tesseract-ocr препознао српску ћирилицу.
Konverzije iz latinice u ćirilicu, jer tu ima mnogo izuzetaka, sve je isto:
NOVI BUNAR:
PHP - JEEEE - A ovo je najbitnije: turanjanin/serbian-transliterator: PHP library for transliteration between Serbian Cyrillic and Latin scripts i opet PHP: turanjanin/serbian-language-tools: Set of tools for tokenization, transliteration and diacritic restoration of a text written in Serbian language.
pa sam sad naleteo i na ovog lika: turanjanin/cirilizator: Browser extension that transliterates Serbian web pages from Latin to Cyrillic alphabet za ovo: Ћирилизатор - Читајте сајтове на ћирилици i ovo: Prebacivanje latinice u ćirilicu - Online konvertor ćirilica u latinicu
Prebacivanje latinice u ćirilicu - Online konvertor ćirilica u latinicu Ispravljanje ćelave latinice online - Latinica bez naših slova Slovo Majstor – Ispravljanje ošišane (ćelave) latinice, preslovljavanje latinice i ćirilice IKI Prevodilac Испробајте Google алатке за унос текста онлајн – Google алатке за унос текста
I fontovi, bravo!: Moderni ćirilični fontovi - Najbolje iz 2023. godine
I jOŠ JEDaN LIK
Latinica u ćirilicu za Word - Sve verzije msmiljan/korektor: Korektor - Serbian Spell-Checker Microsoft Word Add-in SAVRŠENO!
msmiljan/srdict_chromium: Dictionaries for Chromium Serbian dictionaries for Chromium - Cyrillic and Latin alphabet. 200.000 words and 3,4 million word forms.
A i ovi su momci uključeni: ttasovac (Toma Tasovac) bkaradzic (Бранимир Караџић)