kutuzov corpus

4
А.Б. Кутузов [email protected] Тюменский государственный университет Опубликовано в: Материалы международного научно-методического коллоквиума «Проблемы билингвизма в современном межкультурном дискурсе». - Пермь, изд-во ПГТУ, 2011 г., сс. 368-373 КОРПУСНЫЕ МЕТОДИКИ В ПЕРЕВОДОВЕДЕНИИ И ПРЕПОДАВАНИИ ПЕРЕВОДА Переводоведение — наука довольно молодая, ей нет и сотни лет. Тем не менее, за это время уже было предложено огромное количество концепций и методов изучения такой сложной деятельности как перевод. Все эти концепции подробно изложены в многочисленной литературе и мы не будем останавливаться на их обзоре. Нам бы хотелось поговорить о сравнительно новой тенденции в переводоведении, а именно — об использовании корпусных методик для решения переводоведческих задач. Напомню, что лингвистический корпус — это «собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка» [1]. Корпусная лингвистика и переводоведение лишь недавно осознали свой взаимный интерес друг к другу. Использование корпусной лингвистики в переводоведении началось в 1993 году с работы Моны Бейкер «Corpus Linguistics and Translation Studies: Implications and Applications». [2] В Тюменском государственном университете уже несколько лет студентам- переводчикам читается курс «Корпусная лингвистика». Он даётся с двоякой целью. Во- первых, знание основ этой ветви науки о языке входит в требования к кругозору любого лингвиста с высшим образованием. Эту цель можно назвать «информирующей». Во- вторых, методы корпусной лингвистики могут быть чрезвычайно полезны и для перевода текстов и формирования подлинно двуязычной личности. В этом аспекте данный курс даёт студентам возможность овладеть инструментами, которые облегчают труд переводчика. Кроме того, изучение корпусной лингвистики предоставляет студентам большую свободу в выборе интересной темы дипломной работы. Причина повышения интереса к корпусным исследованиям в последнее время — появление компьютеров, которые способны обрабатывать огромные массивы текстов. Кроме того, всё больше учёных склоняется к тому, что интроспекция как метод изучения языка не всегда адекватна, и более научно опираться на естественные данные. Впрочем, Тони Мак-Эннери и Эндрю Уилсон пишут, что нужно использовать и эмпирику, и интроспекцию, и искусственные данные, и естественные. [3] Фактически, деятельность в рамках корпусной лингвистики может быть сведена к созданию корпусов и к лингвистическим исследованиям на их базе (все задачи по изучению больших массивов текстов). В каком-то смысле, корпусная лингвистика сама создаёт свой материал, точнее, самостоятельно структурирует его. Именно это делает её самостоятельной лингвистической дисциплиной – у неё специфический характер используемого словесного материала (корпусы) и свой собственный инструментарий (программы анализа корпусов). Многие лингвисты работают с уже существующими масштабными корпусами — например, с British National Corpus, Национальным корпусом русского языка (см. ниже) 1

Upload: toryzhuk

Post on 30-Oct-2014

34 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Kutuzov Corpus

А.Б. Кутузов[email protected]

Тюменский государственный университетОпубликовано в:

Материалы международного научно-методического коллоквиума «Проблемы билингвизма в современном межкультурном дискурсе». - Пермь, изд-во ПГТУ, 2011 г.,

сс. 368-373КОРПУСНЫЕ МЕТОДИКИ В ПЕРЕВОДОВЕДЕНИИ И

ПРЕПОДАВАНИИ ПЕРЕВОДА

Переводоведение — наука довольно молодая, ей нет и сотни лет. Тем не менее, за это время уже было предложено огромное количество концепций и методов изучения такой сложной деятельности как перевод. Все эти концепции подробно изложены в многочисленной литературе и мы не будем останавливаться на их обзоре.

Нам бы хотелось поговорить о сравнительно новой тенденции в переводоведении, а именно — об использовании корпусных методик для решения переводоведческих задач. Напомню, что лингвистический корпус — это «собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка» [1].

Корпусная лингвистика и переводоведение лишь недавно осознали свой взаимный интерес друг к другу. Использование корпусной лингвистики в переводоведении началось в 1993 году с работы Моны Бейкер «Corpus Linguistics and Translation Studies: Implications and Applications». [2]

В Тюменском государственном университете уже несколько лет студентам-переводчикам читается курс «Корпусная лингвистика». Он даётся с двоякой целью. Во-первых, знание основ этой ветви науки о языке входит в требования к кругозору любого лингвиста с высшим образованием. Эту цель можно назвать «информирующей». Во-вторых, методы корпусной лингвистики могут быть чрезвычайно полезны и для перевода текстов и формирования подлинно двуязычной личности. В этом аспекте данный курс даёт студентам возможность овладеть инструментами, которые облегчают труд переводчика. Кроме того, изучение корпусной лингвистики предоставляет студентам большую свободу в выборе интересной темы дипломной работы.

Причина повышения интереса к корпусным исследованиям в последнее время — появление компьютеров, которые способны обрабатывать огромные массивы текстов. Кроме того, всё больше учёных склоняется к тому, что интроспекция как метод изучения языка не всегда адекватна, и более научно опираться на естественные данные. Впрочем, Тони Мак-Эннери и Эндрю Уилсон пишут, что нужно использовать и эмпирику, и интроспекцию, и искусственные данные, и естественные. [3]

Фактически, деятельность в рамках корпусной лингвистики может быть сведена к созданию корпусов и к лингвистическим исследованиям на их базе (все задачи по изучению больших массивов текстов). В каком-то смысле, корпусная лингвистика сама создаёт свой материал, точнее, самостоятельно структурирует его. Именно это делает её самостоятельной лингвистической дисциплиной – у неё специфический характер используемого словесного материала (корпусы) и свой собственный инструментарий (программы анализа корпусов).

Многие лингвисты работают с уже существующими масштабными корпусами — например, с British National Corpus, Национальным корпусом русского языка (см. ниже)

1

Page 2: Kutuzov Corpus

или с корпусом Cobuild Project. Тем не менее, часто возникает необходимость изучить какие-то тексты, до сих пор не вошедшие в известные корпусы. Кроме того, не всегда есть возможность использовать эти «гиганты». В этом случае исследователь может составить свой собственный корпус из своих источников и исследовать уже его.

Некоторые учёные уже несколько лет говорят о настоящей «корпусной революции» в языкознании. В этой связи характерно высказывание В.А. Плунгяна в его публичной лекции 1 октября 2009 года: «Современная лингвистика – это лингвистика корпусов.» [4]

А что же переводоведение как ветвь лингвистики? Стоит ли оно в стороне от этих тенденций? Ниже мы покажем, что это не так. Более того — корпусная лингвистика способна серьёзно помочь как в научном изучении перевода, так и в подготовке переводчиков.

Корпусная лингвистика и переводоведение

Мария Тимошко [5] выделяет три основных направления корпусного переводоведения:

1. Интеграция лингвистических и культурологических подходов к переводу.

2. Изучение того, как идеология влияет на перевод.

3. Методология привлечения компьютерных технологий на службу переводоведения.

Первые два направления часто объединяют под общим названием «контекстуализация переводов». Действительно, большие корпусы переводных текстов могут помочь понять влияние внешних факторов на перевод.

Так, Translational English Corpus (TEC) Моны Бейкер состоит из письменных текстов, переведённых на английских с различных языков и насчитывает 10 миллионов словоупотреблений. В него включены тексты, относящиеся к художественным и биографическим, а также новости и журналы.

Корпус глубоко аннотирован по экстралингвистическим характеристикам: пол переводчика, его национальность и профессия, исходный язык, кем издавался перевод и так далее. По всем этим признакам в корпусе можно производить поиск. Это позволяет проводить довольно интересные исследования в рамках контекстуализации переводов. TEC свободно доступен в Интернете по адресу http://www.monabaker.com/tsresources/TranslationalEnglishCorpus.htm

С другой стороны, корпусных лингвистов всегда интересовала задача составления корпусов на нескольких языках, где тексты являются переводами друг друга. Такие корпусы ещё называются bitexts. Например, существует параллельный корпус текстов заседаний канадского парламента (английский/французский). Естественно, нет никаких технических препятствий к тому, чтобы делать корпусы не дву-, а трёх-, четырёх- и более язычными.

Многоязычные корпусы могут быть двух типов — выровненные (aligned) и не выровненные (not aligned). Синоним для выровненных корпусов - «параллельные». «Выровненность» означает, что в корпусе существует чёткая связь между единицами перевода, которые соответствуют друг другу: можно быстро найти, как то или иное слово или предложение переводилось на другой язык. Обычно такими единицами перевода служат предложения. «Выровнять текст с его переводом на другой язык означает показать какие части текста переведены какими частями второго текста» [6]. Каждой фразе на одном языке соответствуют её эквиваленты на другом языке или

2

Page 3: Kutuzov Corpus

языках. Невыровненные корпусы ещё называют «сравнительными».

Один из примеров выровненного многоязычного корпуса — база данных Acquis Communautaire Европейского Союза (http://langtech.jrc.it/DGT-TM.html). Это память переводов европейского законодательства на 22 языка, которая была выложена в открытый доступ в 2007 году. Всего в ней около миллиарда словоупотреблений, она выровнена по предложениям (sentence-aligned).

Этот и подобные корпусы (например, переводческий сервис http://www.linguee.com) можно использовать для решения многих задач, связанных с переводоведением:

● выявление типичных переводческих приёмов и трансформаций,

● обучение статистических систем автоматического перевода (например, Google Translate),

● создание одноязычных и многоязычных словарей,

● автоматическая проверка правильности перевода,

● и, конечно, облегчение труда переводчика через подбор возможных эквивалентов.

Национальный корпус русского языка (http://www.ruscorpora.ru) также включает несколько параллельных подкорпусов (русско-английский, англо-русский, немецко-русский и так далее). Они составлены из переводов и оригиналов художественных текстов и в них можно найти все переводы для определённого слова или словосочетания. То есть, исследователь получает возможность увидеть в большом масштабе, как реальные переводчики работают с реальными текстами и какой продукт (переводной текст) получается в результате. Интересно и изучение бинарной оппозиции «оригинальный текст — переводной текст». Это выводит на проблему переводческих универсалий, также введённую в научный обиход Моной Бейкер. [2]

В целом, использование больших параллельных корпусов позволяет подойти к оригинальным и переводным текстам с подлинно научной точки зрения: использовать статистические методы для выявления тех или иных закономерностей, опираясь при этом на объективные данные.

Корпусная лингвистика и преподавание перевода

Первоочередная задача корпусов в преподавании перевода — предоставить студентам-переводчикам инструментарий для проверки своих предположений о норме или узусе языка перевода. Не секрет, что на занятиях по письменному или устному переводу часто возникают дискуссии «а можно ли так сказать?» Конечно, в большей степени это касается перевода на неродной язык, но зачастую даже узус русского языка не так однозначен.

Как раз тут могут помочь большие корпусы того или иного языка. При помощи British National Corpus (http://www.natcorp.ox.ac.uk) можно быстро выяснить «легитимность» того или иного выражения в английском языке. Если в стомиллионном тщательно отобранном BNC выражение не встречается ни разу — есть повод задуматься о том, стоит ли его употреблять. Так, после слова different могут идти слова than, to или from. Неясно, какое из них более правильное. Исследования на материале больших корпусов показали, что different from используется гораздо чаще остальных, а

3

Page 4: Kutuzov Corpus

different than скорее характерно для американского английского. Для решения подобных задач в отношении русского языка хорошо подходит уже упоминавшийся Национальный корпус русского языка.

Корпусная лингвистика даёт точные количественные данные о том или ином языке — состав наиболее частотной лексики, вероятности употребления тех или иных грамматических конструкций и так далее. Всё это позволяет студентам-переводчикам более осмысленно подбирать терминологические и фразеологические эквиваленты, грамотно конструировать текст перевода. Использование корпусов — это ещё и хороший способ освежить набор примеров и упражнений, которые используются в преподавании перевода, сделать его более «жизненным».

Более того, мы можем воспринимать и использовать в качестве корпуса весь интернет в целом. Иногда быстрее и проще сравнить при помощи Google частоту употребления тех или иных фраз, чем составлять запрос к какому-либо лингвистическому корпусу. Ведь Интернет — это самый большой массив письменных текстов, когда-либо имевшийся в распоряжении человечества. Как показывают некоторые исследования [7], использование Интернета в качестве огромного корпуса позволяет студентам-переводчикам быстрее и качественнее переводить специальные тексты.

Параллельные (и сравнительные) двуязычные корпусы — ещё одно благодатное поле для студентов, которые могут использовать их для выполнения своих квалификационных работ. Корпус в данном случае понимается не как самостоятельная цель, а как инструмент для получения некоторых языковых данных.

Таким образом, переводоведение получило в лице корпусной лингвистики прекрасный набор новых инструментов и методик, которые можно и нужно использовать для решения задач, связанных с изучением процесса перевода и подготовкой профессиональных переводчиков. Наука о языке всё больше смещается в сторону корпусной парадигмы и переводоведы не должны отставать от этой глобальной тенденции.

Библиография

1. Sinclair, J. Corpus, Concordance, Collocation. - Oxford University Press, 19912. Baker, M. Corpus Linguistics and Translation Studies: Implications and

Applications // Text and Technology: In Honour of John Sinclair. - Amsterdam & Philadelphia: John Benjamins, 1993. - pp. 233-250.

3. McEnery, T. and Wilson, A. Corpus Linguistics. - Edinburgh University Press, 2001.4. Плунгян, В.А. Почему современная лингвистика должна быть лингвистикой

корпусов // Публичная лекция, 2009. [Электронный ресурс]. - URL: http://www.polit.ru/lectures/2009/10/23/corpus.html (дата обращения: 22.01.2011)

5. Tymoczko, M. Computerized Corpora and the Future of Translation Studies // The Corpus-Based Approach, Ed. S. Laviosa, Special issue of Meta 43-4, 1998. - pp. 652-659.

6. Kay, M. and Roscheisen, M. Text-translation Alignment // Computational Linguistics, 1993 №19(1). - pp. 121-142

7. Buendia-Castro, M. and Lopez-Rodriguez, C. The Web for Corpus and the Web as Corpus in Translator Training. [Электронный ресурс]. - URL: http://www.lancs.ac.uk/fass/projects/corpus/UCCTS2010Proceedings/papers/buendialopez.pdf (дата обращения: 22.01.2011)

4