Korpus (jazykoveda) - Biblioteka.sk

Upozornenie: Prezeranie týchto stránok je určené len pre návštevníkov nad 18 rokov!
Zásady ochrany osobných údajov.
Používaním tohto webu súhlasíte s uchovávaním cookies, ktoré slúžia na poskytovanie služieb, nastavenie reklám a analýzu návštevnosti. OK, súhlasím


Panta Rhei Doprava Zadarmo
...
...


A | B | C | D | E | F | G | H | CH | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9

Korpus (jazykoveda)

Korpus textov v jazykovede je ohraničený súbor jazykových výpovedí zaznamenaných písmom alebo na zvukovom nosiči, ktorý spracováva na vedecko-výskumné a učebné ciele; množina textov používaných na lingvistický opis a argumentáciu; v užšom zmysle elektronická databáza jazykových prvkov spolu s prostriedkami efektívneho vyhľadávania.

Lingvisti na základe autentického jazykového materiálu opisujú predovšetkým významy a funkcie slov i ďalších jazykových prostriedkov. Bežným používateľom môže korpus poslúžiť ako zdroj poznania reálneho fungovania jazykových prostriedkov, nenahrádza však kodifikačné ani gramatické príručky.

Typy korpusov

Jednotlivé korpusy sa líšia mnohými parametrami, predovšetkým:

  • jazykom. Jednojazyčné korpusy – v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy). Dvoj- a viacjazyčné (paralelné) korpusy – rovnaké texty v dvoch alebo viacerých jazykoch (zvyčajne originál a preklad/preklady).
  • zaznamenanou formou jazyka. Popri najčastejších korpusoch písaných textov existujú aj korpusy hovoreného jazyka.
  • veľkosťou. Prvé korpusy (do r. 1975) disponovali menej ako 1 miliónom slovných tvarov, niektoré súčasné korpusové celky obsahujú miliardy slov.
  • typom textov. Korpusy môžu byť všeobecné (nešpecifické, základné) alebo špecializované na určitý typ textov či jazykových javov (korpus textov jedného autora; neformálne prejavy a pod.)
  • spôsobom uloženia. Korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo bývajú lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. sémanticky či štylisticky anotované.
  • obdobím, z ktorého texty pochádzajú. Korpusy konkrétneho jazyka v jeho súčasnej vývinovej fáze sa označujú ako synchrónne, prierez určitým historickým obdobím zahŕňajú korpusy diachrónne.

Reprezentatívnosť korpusu

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť. Reprezentatívne korpusy sa zameriavajú na prezentáciu konkrétneho národného jazyka v celom jeho rozsahu, preto sa pri ich budovaní kladie veľký dôraz na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov.

Budovanie korpusu

Budovanie korpusu má viacero etáp:

  • Získavanie súhlasov na iné použitie diel. Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských práv.
  • Zber dát. Korpusový materiál sa v súčasnosti získava najčastejšie priamo v elektronickej podobe, príp. prenesením z internetu, zriedkavejšie skenovaním alebo prepisovaním textov.
  • Spracovanie korpusových dát. V prvej fáze ide najmä o čistenie textov, teda odstraňovanie znakov a symbolov editorov a programov, v ktorých texty vznikli, odstraňovanie grafických súčastí textu (obrázky, tabuľky, grafy a pod.), a o prevod textov do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou prevodu textov do jednotného formátu je tokenizácia, čiže segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte). V ďalšej fáze sa tokenizovaný text zvyčajne značkuje (tagging) – textu sa pridajú ďalšie dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema), jazykové informácie na úrovni viet (funkcia vo vete, sémantika) a pod.

Využitie korpusu

Korpusy sa používajú v rôznych vedeckých výskumoch a aplikáciách korpusovej lingvistiky.

Odbor lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Aplikačnou zložkou je lexikografické využitie: veľa korpusov bolo vytvorených na podporu tvorby slovníkov a lexikografi sú v súčasnosti najčastejšími používateľmi korpusov.

Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné umiestnenia slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. systémy na spracovanie textov (automatická kontrola pravopisu, strojový preklad textov), systémy na rozpoznávanie reči atď.

Korpus môže byť dobrým zdrojom fráz a viet potrebných pri výučbe cudzích jazykov. Učebný počítačový program môže obsahovať klasický slovník spolu s menším korpusom, v ktorom možno jednotlivé slová prezerať v kontexte, v akom sa reálne vyskytujú.

Externé zdroje

Zdroj:
Text je dostupný za podmienok Creative Commons Attribution/Share-Alike License 3.0 Unported; prípadne za ďalších podmienok. Podrobnejšie informácie nájdete na stránke Podmienky použitia.
Zdroj: Wikipedia.org - čítajte viac o Korpus (jazykoveda)





Text je dostupný za podmienok Creative Commons Attribution/Share-Alike License 3.0 Unported; prípadne za ďalších podmienok.
Podrobnejšie informácie nájdete na stránke Podmienky použitia.

Your browser doesn’t support the object tag.

www.astronomia.sk | www.biologia.sk | www.botanika.sk | www.dejiny.sk | www.economy.sk | www.elektrotechnika.sk | www.estetika.sk | www.farmakologia.sk | www.filozofia.sk | Fyzika | www.futurologia.sk | www.genetika.sk | www.chemia.sk | www.lingvistika.sk | www.politologia.sk | www.psychologia.sk | www.sexuologia.sk | www.sociologia.sk | www.veda.sk I www.zoologia.sk