Contributing to Serbian language models

Contributing to Serbian language models

Doprineti zajednici u vezi glasova

  1. Common Voice
  2. Common Voice Sentence Collector

COMtext.SR projekat

ICEF-NLP/COMtext.SR

Platforma koju su izabrali…

Kako mi se sada čini, to sve nebulozno komplikovano izgleda:

https://reldi.spur.uzh.ch/hr-sr/instrumenti-za-prikupljanje-podataka/?_sft_jezik-instrumenti=srpski

ReLDI | Regional Linguistic Data Initiative

Nekako će završiti kao i sve u državi

ReLDI Centre Belgrade (@reldi_centre) / Twitter


neka saradnja sa Clarin.si:

Serbian UD

ASR training dataset for Serbian JuzneVesti-SR v1.0 To je i audio korpus: parlaspeech/juzne_vesti at main · clarinsi/parlaspeech classla/wav2vec2-xls-r-juznevesti-sr · Hugging Face

strn/spacy-sr: Serbian language corpus


Bitan projekat: Mozilla Common Voice

U pitanju je vrlo poznat dataset izgovora, glasova i rečenica uveliko koriste baš sve najveće svetske AI kompanije i istraživači. Već godinama se time pravi Mozilla, a nalazi se na portalu Common Voice:

Kako doprineti?

1. Pokušajte još nekoga da uključite

Za početak, pokušajte bar nekoga da animirate da doprinese malo svojim trudom na više načina:

2. Snimite svoj glas, rečenice i izgovor

3. Pomognite da se izgradi jezički korpus

Rečenice i fraze čiji izgovor se snima u prethodnoj stavci se prethodno moraju proveriti jesu li pravopisno ispravne ili nisu. Taj deo posla se radi na sajtu

Primetio sam da je glavni izvor za rečenice jedan jedini - SETimes.SR – A Reference Training Corpus of Serbian iz 2018. god koji je pripremio Vuk Batanović

Nadam se da će sad sve ovo malo da se pokrene i da će neki novi AI modeli imati mnogo bolji srpski jezik. Dataset za srpski je generalno vrlo mali, pa na primer Whisper AI model za prepoznavanje govora vrlo često greškom “prebacuje” na hrvatski odnosno bosanski izgovor.

Vuk Batanović

vukbatanovic/SentiComments.SR: A Sentiment Analysis Dataset of Comments in Serbian

Vuk Batanović ima sve

Rečenice: Sentence collection for Serbian - Common Voice - Mozilla Discourse

Nikola Milošević

Vrlo interesantno

Nikola Milosevic, PhD (@text_miner) / Twitter

nikolamilosevic86/SerbianStemmer: Stemmer for serbian language created for my master thesis, rewritten in python [1209.4471] Stemmer for Serbian language vukbatanovic/SCStemmers: A collection of stemmers for Serbian and Croatian

Serbian_NLP/SerbianNN.ipynb at main · nikolamilosevic86/Serbian_NLP nikolamilosevic86/SerbCrawler: Crawler for serbian websites used for collecting short forms Serbian-AI-Society/SrbAI: Python library for Serbian Natural language processing (NLP)

Čak već postoji:

Serbian AI Society


JEBOTE:

Jebote, našao sam nešto:

Autor je Мудровања Blog strn (Strana (eng: Page)) i on se defitivno ranije angažovao: Локализација Disqus-a на српски језик

  • strn/gedit-lat2cyr je plugin za gEdit editor za transliteration Cyr-Lat alphabets. Probaj sa scoop install gedit odnosno winget install -e --id gnome.gedit ako budeš morao.

On se pre 5 godina sasvim sam bavio time: [sr] LT Serbian language support by strn I evo ga sve ostalo tu: strn/languagetool-sr: Style and Grammar Checker for 25+ Languages Dakle, ovaj verovatno i radi!

Public HTTP Proofreading API | dev.languagetool.org Nema srpskog, provereno na ovaj API endpoint: curl -d "text=Das ist Walter." -d "language=auto" https://api.languagetool.org/v2/check, ali je bio nekad?

Woow! Odlično! Ako radi: strn/tesseract-serbian: A set of data files that can be used to train tesseract-ocr to recognize Serbian Cyrillic script. Скуп датотека коришћених да би програм tesseract-ocr препознао српску ћирилицу.

strn/stopwords-sr: Serbian stopwords collection forked from stopwords-iso/stopwords-hr: Croation stopwords collection and for all world languages: stopwords-iso/stopwords-iso: All languages stopwords collection

Konverzije iz latinice u ćirilicu, jer tu ima mnogo izuzetaka, sve je isto:

strn/sigil-lat2cyr: Додатак програму Сигил за пресловљавање ЕПУБ датотека са хрватске латинице на српску ћирилицу

NOVI BUNAR:

PHP - JEEEE - A ovo je najbitnije: turanjanin/serbian-transliterator: PHP library for transliteration between Serbian Cyrillic and Latin scripts i opet PHP: turanjanin/serbian-language-tools: Set of tools for tokenization, transliteration and diacritic restoration of a text written in Serbian language.

pa sam sad naleteo i na ovog lika: turanjanin/cirilizator: Browser extension that transliterates Serbian web pages from Latin to Cyrillic alphabet za ovo: Ћирилизатор - Читајте сајтове на ћирилици i ovo: Prebacivanje latinice u ćirilicu - Online konvertor ćirilica u latinicu

Prebacivanje latinice u ćirilicu - Online konvertor ćirilica u latinicu Ispravljanje ćelave latinice online - Latinica bez naših slova Slovo Majstor – Ispravljanje ošišane (ćelave) latinice, preslovljavanje latinice i ćirilice IKI Prevodilac Испробајте Google алатке за унос текста онлајн – Google алатке за унос текста

I fontovi, bravo!: Moderni ćirilični fontovi - Najbolje iz 2023. godine

I jOŠ JEDaN LIK

Latinica u ćirilicu za Word - Sve verzije msmiljan/korektor: Korektor - Serbian Spell-Checker Microsoft Word Add-in SAVRŠENO!

msmiljan/srdict_chromium: Dictionaries for Chromium Serbian dictionaries for Chromium - Cyrillic and Latin alphabet. 200.000 words and 3.4 million word forms. Inače je to u Hunspell format. To je stvarno zvanično ugrađen dictionary za Chrome i Edge, a može da se ručno doda i u Firefox - ima na github link za download za ekstenziju.

A i ovi su momci uključeni: ttasovac (Toma Tasovac) bkaradzic (Бранимир Караџић)


Da, Toma Tasovac, brat pokojnog Ivana Tasovca, je baš baš aktivan:

Naš lik, VRLO aktivan oko srpskog. Pogledaj VSCode ekstenzije gde se aktivirao. ttasovac (ttasovac) / Repositories https://github.com/ttasovac/reldi-tagger https://github.com/pixelzdesign/vscode-sertranslit/pull/3

https://github.com/pixelzdesign/vscode-sertranslit https://github.com/pixelzdesign/vscode-translit


Serbian National transliteration system


Tatoeba: Collection of sentences and translations is Tatoeba is a large database of sentences and translations.

Tatoeba/tatoeba2: Official repository for main codebase for Tatoeba, a multilingual sentence/translation database.

Here are some alternatives to Tatoeba and Mozilla Common Voice for collections of sentences and voices:

VoxForge - a community-driven project that collects audio recordings for speech recognition research.

Speech Accent Archive - a collection of audio recordings of different accents from around the world.

LibriVox - a community-driven project that creates free audiobooks from public domain texts.

Rhinospike - a community-driven project that provides free audio recordings of texts in various languages.

Forvo - a crowdsourced pronunciation dictionary that provides audio recordings of words in different languages.

Euronews - a news website that provides audio and video recordings of news articles in several languages.

Readlang - a language learning platform that provides audio recordings of sentences in different languages.

LingQ - a language learning platform that provides audio recordings of sentences and texts in different languages.

Pimsleur - a language learning program that provides audio recordings of conversations in different languages.

FluentU - a language learning platform that provides audio and video recordings of authentic content in different languages.

Ovo su jedino pravi srpski glasovi i razvila ih je novosadska firma AlfaNum d.o.o. TTS Demo

I njihov Android projekat, Danica, malo stariji: AlfaNumTTS SER – Апликације на Google Play-у Kad pametni telefoni progovore na srpskom jeziku Radi dobro i košta samo 10 usd.


Bergamot - a project to add and improve client-side machine translation in a web browser je free client-side translation a najbolji demo je Translate Locally

U pozadini se nalazi Microsoft-ov Marian :: Home free Neural Machine Translation framework pisan u C++, repo na marian-nmt/marian: Fast Neural Machine Translation in C++ a oni su napisali svoj Marian Translation Service API server browsermt/mts: Marian Translation Service

Extenzije bazirane na tome:

Bergamot preporučuje ovu TranslateLocally for Firefox na repo GitHub - jelmervdl/translatelocally-web-ext: TranslateLocally for the Browser is a web-extension that enables client side in-page translations for web browsers.. To je inače fork of Firefox Translations, ali mislim da je sada bolji od njih.

Napisane su razlike, ali je meni najbinija ova: UI is a button + popup instead of the translation bar.

A oficijelna je ova: Firefox Translations repo mozilla/firefox-translations: Firefox Translations is a webextension that enables client side translations for web browsers.

date 15. Nov 2022 | modified 29. Dec 2023
filename: Localization » Serbian Language Models