corpus lingv
DESCRIPTION
prezentare corpus lingvisticTRANSCRIPT
![Page 1: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/1.jpg)
Lingvistica bazată pe corpus
Vlad Alexandra Cristina
![Page 2: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/2.jpg)
Definiţie
Corpusul lingvistic este o colecţie de piese ale limbajului, selectate şi ordonate după un criteriu lingvistic cu scopul de a fi utilizat ca un eşantion al limbii (McEnery,2001:1)
![Page 3: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/3.jpg)
ComponenţăUn corpus are o componenţă
heterogenă din punct de vedere
lingvistic.
Acesta poate fi împărţit în sub-corpuri care au aceleaşi proprietăţi, doar că sunt mai mici.
Un corpus sau un sub-corpus se copune din componenţi.
![Page 4: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/4.jpg)
Un component este o colecţie omogenă de texte selectate în funcţie de anumite criterii lingvistice, ce îi asigură omogenitatea.
Limbajul ilustrat de un component se mai numeşte şi sub-limbaj.
![Page 5: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/5.jpg)
Caracteristici ale corpusurilor- DIMENSIUNE (mărime)
- CALITATE (autenticitate)
- REPREZENTATIVITATE
- DOCUMENTARE (structură, convenţii)
![Page 6: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/6.jpg)
Clasificarea corpusurilor
• Corpus textual (memorează limbajul scris) şi corpus de vorbire (bazat pe înregistrare)
• Corpus reprezentaţional şi corpus experimental
• Corpus public şi corpus privat
![Page 7: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/7.jpg)
Clasificarea corpusurilorCorpusul special curpinde :
-texte de întindere mică, specifice, chiar fragmentare, clasificate în domeniul literar în funcţie de autor, gen, perioadă sau temă
-sau texte obţinute în condiţii experimentale sau artificiale, după nişte scenarii pregătite de lingvişti.
![Page 8: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/8.jpg)
Clasificarea corpusurilor• Corpusul de referinţă:
• este foarte mare, cuprinde toate variaţiile relevante de limbă şi vocabularul comun al limbii;
• este folosit ca bază pentru gramatici fundamentale, dicţionare, tezaure şi alte materiale referitoare la limbă;
• este structurat ierarhic pe subcorpusuri şi componenţi
![Page 9: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/9.jpg)
Clasificarea corpusurilor• Corpusul monitor introduce
dimensiunea diacronică a limbajului unui derivat al corpusurilor de referinţă pentru care activitatea de întreţinere se bazează pe noţiunea de “debit de limbă”.
• Acesta reprezintă volume constante de eşantioane de limbaj introduse în corpusul de referinţă.
![Page 10: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/10.jpg)
Clasificarea corpusurilor
• Corpusul paralel este o colecţie de texte fiecare dintre ele fiind traduse în una sau mai multe limbi.
• Acesta ajută la conceperea unor instrumente de traducere cât mai adecvate şi sunt construite cu precădere pentru activităţile de comunicare în societăţile multilingve.
![Page 11: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/11.jpg)
Clasificarea corpusurilor• Corpusurile comparabile sunt formate din două
sau mai multe corpusuri pentru limbi diferite ce conţin texte similare.
• Criteriile de similaritate sunt dificil de cuantificat, elementul esenţial referindu-se la sens.
![Page 12: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/12.jpg)
Legătura cu lingvistica computaţională
• Un corpus este o colecţie computerizată de texte autentice adecvată prelucrării sau analizei automate sau semi-automate. Textele sunt selectate potrivit unor criterii explicite cu scopul de a capta regularităţile limbii, ale unei varietăţi de limbi sau ale unui sublimbaj.
![Page 13: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/13.jpg)
Utilitatea corpusului- Lexicografie
- Teoria traducerii
- Invatarea limbii de catre vorbitori straini
- Observaţii asupra comportamentului lingvistic
- Cercetarea lingvistica
![Page 14: Corpus Lingv](https://reader031.vdocuments.net/reader031/viewer/2022013105/55cf9b98550346d033a6a8de/html5/thumbnails/14.jpg)
Bibliografie• McEnery Tony, Corpus Linguistics, Edinburgh University
Press Ltd, 2001• Tufiş Dan, Limbaj şi Tehnologie, Ed. Academiei
Române, Bucureşti, 1996• Cusen Gabriela, Language and society, Curs Optional,
Anul II, Semestrul II, Brasov, 2010• www.wikipedia.com