logo
POPISI

/

Serijske publikacije

/

Prispevki za novejšo zgodovino

CLASSLA-Stanza

The Next Step for Linguistic Processing of South Slavic Languages
CLASSLA-Stanza
Naslednji korak za jezikovno procesiranje južnoslovanskih jezikov

Soavtor(ji):Jure Gašparič (gl. ur.), Mojca Šorn (ur.), Andreja Jezernik (lekt.), Cody J. Inglis (lekt.), Studio S.U.R (lekt., prev.)
Leto:2025
Založnik(i):Inštitut za novejšo zgodovino, Ljubljana
Jezik(i):slovenščina, angleščina
Vrst(e) gradiva:besedilo
Identifikator:https://doi.org/10.51663/pnz.65.3.05
Avtorske pravice:
CC license

To delo avtorjev Luka Terčon, Kaja Dobrovoljc, Nikola Ljubešić je ponujeno pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Datoteke (1)
Ime:PNZ_03_2025.pdf
Velikost:12.31MB
Format:
Odpri
Prenesi
Opis

V članku predstavljamo orodje CLASSLA-Stanza, cevovod za avtomatsko jezikovno označevanje južnoslovanskih jezikov, ki temelji na cevovodu za procesiranje naravnega jezika Stanza. Opišemo vse glavne izboljšave, ki jih prinaša CLASSLA-Stanza v primerjavi s Stanzo in podamo podroben opis postopka učenja modelov v različici 2.2, najnovejši različici orodja. Obenem poročamo o rezultatih delovanja cevovoda za različne jezike in jezikovne zvrsti. CLASSLA-Stanza dosega konsistentno visoke rezultate za vse podprte jezike in preseže rezultate izvornega cevovoda Stanza pri vseh podprtih jezikih. Predstavimo tudi novo funkcijo cevovoda, ki omogoča učinkovito procesiranje spletnih besedil, in opišemo učinkovitost cevovoda za označevanje transkriptov govora.

Metapodatki (13)
  • identifikatorhttps://hdl.handle.net/11686/71604
    • naslov
      • CLASSLA-Stanza
      • The Next Step for Linguistic Processing of South Slavic Languages
      • CLASSLA-Stanza
      • Naslednji korak za jezikovno procesiranje južnoslovanskih jezikov
    • avtor
      • Luka Terčon
      • Kaja Dobrovoljc
      • Nikola Ljubešić
    • soavtor
      • Jure Gašparič (gl. ur.)
      • Mojca Šorn (ur.)
      • Andreja Jezernik (lekt.)
      • Cody J. Inglis (lekt.)
      • Studio S.U.R (lekt., prev.)
    • predmet
      • južnoslovanski jeziki
      • avtomatsko procesiranje jezika
      • označevalni cevovod
      • jezikovno označevanje
      • South Slavic languages
      • automatic linguistic processing
      • annotation pipeline
      • linguistic annotation
    • opis
      • We present CLASSLA-Stanza, a pipeline for automatic linguistic annotation of South Slavic languages, which is based on the Stanza natural language processing pipeline. We describe the main improvements in CLASSLA-Stanza with respect to Stanza and give a detailed description of the model training process for the latest 2.2 release of the pipeline. We also report performance scores produced by the pipeline for different languages and language varieties. CLASSLA-Stanza exhibits consistently high performance across all the supported languages and outperforms its parent pipeline Stanza at all the supported tasks. We also present the pipeline’s new functionality that enables efficient processing of web data and describe the efficiency of the pipeline for annotating written transcripts of spoken data.
      • V članku predstavljamo orodje CLASSLA-Stanza, cevovod za avtomatsko jezikovno označevanje južnoslovanskih jezikov, ki temelji na cevovodu za procesiranje naravnega jezika Stanza. Opišemo vse glavne izboljšave, ki jih prinaša CLASSLA-Stanza v primerjavi s Stanzo in podamo podroben opis postopka učenja modelov v različici 2.2, najnovejši različici orodja. Obenem poročamo o rezultatih delovanja cevovoda za različne jezike in jezikovne zvrsti. CLASSLA-Stanza dosega konsistentno visoke rezultate za vse podprte jezike in preseže rezultate izvornega cevovoda Stanza pri vseh podprtih jezikih. Predstavimo tudi novo funkcijo cevovoda, ki omogoča učinkovito procesiranje spletnih besedil, in opišemo učinkovitost cevovoda za označevanje transkriptov govora.
    • založnik
      • Inštitut za novejšo zgodovino
    • datum
      • 2025
    • tip
      • besedilo
    • identifikator
      • https://doi.org/10.51663/pnz.65.3.05
    • jezik
      • Slovenščina
      • Angleščina
    • jeDelOd
    • pravice
      • licenca: ccBySa