Битекст

0

Математический факультет

Кафедра математического обеспечения информационных систем

РЕФЕРАТ

Битекст

Содержание

Введение………………………………………………………3

1 Битекст. 5

1.1 Понятие о битексте. 5

1.2 История. 6

1.3 Программы автоматизированного перевода. 6

2 Битексты и память переводов. 9

2.1 Память переводов. 9

2.2 Преимущества. 11

2.3 Недостатки. 11

Заключение……………………………………….…………13

Список использованных источников………….………......15

Введение

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, памятью переводов (англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

Для локализации программного обеспечения часто применяются специализированные средства, например, Passolo, которые позволяют переводить меню и сообщения в программных ресурсах и непосредственно в откомпилированных программах, а также тестировать корректность локализации. Для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Swift, которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т. п.

Битекст

Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются «параллельным корпусом» (англ. parallel corpora). Выравнивание параллельного корпуса на уровне предложений является необходимой предпосылкой для различных аспектов лингвистических исследований. В процессе перевода предложения могут разделяться, сливаться, удаляться, вставляться или менять последовательность. В связи с этим выравнивание часто становится сложной задачей.

1.1 Понятие о битексте

В сфере исследований в области перевода «битекст» — это совмещенный документ, состоящий из версий соответствующего текста на исходном и целевом языках. Битексты создаются с помощью специальных компьютерных программ, которые называются «инструментами для выравнивания» (alignment tool) или «инструментами для битекста» (bitext tool), которые позволяют автоматически выравнивать оригинальную версию текста и его перевод. Подобные программы, как правило, приводят в соответствие два текста (оригинал и перевод) по каждому предложению. Собрание битекстов называется «битекстовой базой данных» или «двуязычным корпусом» и может использоваться в качестве справочника и для поиска нужных сочетаний.

1.2 История

Идея битекста принадлежит Брайану Хэррису (Brian Harris), который первым написал исследование по данной концепции в 1988 году, и была впоследствии развита группой ученых при Университете Монреаля (Université de Montréal), называвшейся RALI ((Recherche appliquée en linguistique informatique или Applied Research in Computational Linguistics — «Прикладные исследования в вычислительной лингвистике»). Группа состояла из программистов и лингвистов, изучавших естественную обработку текста. Известными промоутерами концепции битекста являются Пьер Изабель (Pierre Isabelle) и Клод Бедар (Claude Bédard).

1.3 Программы автоматизированного перевода

Автоматизированный перевод — это широкое и не совсем точное понятие, охватывающее широкий спектр простых и сложных инструментов. Они могут включать:

Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;
Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;
Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker Pro. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex и т. п.
Словари на компакт-дисках, одноязычные или многоязычные;
Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM;
Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам. В индустрии переводов известны такие индексаторы, как Naturel, ISYS Search Software и dtSearch;
Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов;
Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;
Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;
Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков;
Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.

Битексты и память переводов

Идея «битекста» имеет много общего с концепцией памяти переводов. Главное различие между ними в том, что память переводов представляет собой базу данных, в которой сегменты текста (соответствующие друг другу предложения) расположены таким способом, при котором они не связаны с оригинальным контекстом, то есть оригинальная последовательность предложений теряется. Битекст же сохраняет изначальную последовательность предложений. Стандартным форматом для обмена базами данных памяти переводов между разными программами автоматизированного перевода является формат ТМХ (XML словарь, опубликованный LISA (Ассоциация отрасли локализации -Localisation Industries Association). ТМХ позволяет сохранять оригинальный порядок предложений. Битексты создаются в качестве справочного инструмента для консультаций специалистов-переводчиков, а не автоматизированных программ. Поэтому небольшие ошибки выравнивания или неточности, которые могут привести к сбоям в памяти переводов, для них не имеют значения.

2.1 Память переводов

Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведенных сегментов текста.

Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

2.2 Преимущества

Сокращение времени и объема работы переводчика
Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
Увеличение прибыли за счет увеличения производительности труда переводчика, группы переводчиков
Повышение качества услуг за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

2.3 Недостатки

Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации
Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом
Оригинал должен быть в электронном виде
Одна незамеченная ошибка может распространиться на весь проект
Необходимо обучение самой программы, а при смене работы — возможно, и не один раз (если работодатели работают с разными программами ТМ)
Подходит не ко всем видам текстов
Высокая стоимость лицензионного ПО

Заключение

Если мы попробуем абстрагироваться от круга общения профессиональных переводчиков, то увидим следующее: слово «автоматизированный» ассоциируется у людей (безотносительно к занимаемым должностям и образовательному цензу) со словом «автоматический» и с «большой зеленой кнопкой». Т.е. такая система, в их понимании, работает автоматически, а переводчик только вводит в нее все новые и новые листы исходного текста. Т.е. это уже и не переводчик вовсе, а всего лишь «оператор системы автоматизированного перевода». Отсюда остается всего один маленький шаг до полного смешения понятий и синонимизации таких терминов, как «система автоматизированного перевода», «система автоматического перевода» и «система машинного перевода». Что, собственно, и происходит очень часто на практике — достаточно заглянуть в любой околопереводческий форум. А словари и вовсе просты: computer-aided translation (CAT) — компьютерный перевод, машинный перевод.

И снова цитата из Википедии, на этот раз из раздела о «памяти переводов» (накопителях переводов):

«Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») — база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (неточное соответствие, англ. fuzzy match). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться».

Список использованных источников

Ушакова Т. Читаем параллельные тексты (Подробное описание методики чтения параллельных текстов).
Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. — С. 57-62.
Олифер В.Г., Олифер Н.А., «Компьютерные сети. Принципы, технологии, протоколы» - Издательство «Питер» 2000 г.
«Microsoft TCP/IP: Учебный курс.» /официальное пособие Microsoft для самостоятельной подготовки/ - 1998 г.
Шафрин Ю. А., Основы компьютерной технологии. – М. АБФ. 1997 г.
Кенин А. М., Печенкина Н. С., IBM PC для пользователей. – Екатеринбург, 1993 – 1997 г.г.
http://www.ritmpress.ru/it/press/cwm/36_98/xdsl.htm
Журналы «Компьютерра» и «LAN» за 1999-2000 г.г.
Масс-медиа второй республики», Глава четвертая – «Медиа-политическая система, Иван Засурский, www.smi.ru
Количественный и качественный состав аудитории Интернета, тенденции развития и их значение для рекламодателя, Тимофей Бокарев (Интернет агентство DOT), www.citforum.ru, 1998 год.
Виртуальная семиотика, Евгений Горный, «Итоги», №16, 18.04.2000.
Жизнь.Ру, Егор Быков, «Итоги», №47 23 ноября 1999 года.
И-медиа, Елена Мулярова, "Итоги", N47 23.11.1999
Виртуальная реальность бытия, Григорий Макартчян, "Версия", N43, 09.11.1999
Гончаров М., Панков А. Интернет в вопросах и ответах. // Библиотека. 1998. - №1,3.
Хоффман Пол Е. Internet. Краткий справочник. М., Изд. "ЛОРИ", 1995, с. 313

Скачать: broshyura.rar

Категория: Рефераты / Информатика рефераты

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Привет студент

Наверх