Немного о программах переводчиках - 28 Березня 2017

Головна » » Немного о программах переводчиках

03:08

Немного о программах переводчиках

Представьте, что 1950-е годы, и вы отвечаете за один из первых в мире электронных компьютеров. Компания подходит к вам и говорит : «У нас есть 10 миллионов слов французского текста, которые мы хотели бы перевести на английский. Мы могли бы нанять переводчиков, но есть ли способ, чтобы ваш компьютер мог делать перевод автоматически? В то время компьютеры все еще новинка, и никто никогда не делал автоматизированный перевод. Но вы решили попробовать. Вы пишете программу, которая исследует каждое предложение и пытается понять грамматическую структуру. Она ищет глаголы, существительные, которые идут с глаголами, прилагательные, изменяющиеся существительные и т. д. При понимании грамматической структуры ваша программа преобразует структуру предложения в английский и использует франко-английский словарь для перевода отдельных слов.

В течение нескольких десятилетий большинство компьютерных систем перевода использовали идеи в этих направлениях - длинные списки правил, выражающих лингвистическую структуру. Но в конце 1980-х годов команда из исследовательского центра IBM Томаса Уотсона в Йорктаун-Хайтс, N.Y., попыталась радикально изменить подход. Они выбросили почти все, что мы знаем о языке, все правила о глагольных временах и размещении существительных и вместо этого создали статистическую модель. Они сделали это очень хитроумным способом. Они достали копию стенограммы канадского парламента из коллекции, известной под названием «Хансард». По канадскому законодательству Hansard доступен на английском и французском языках. Затем они использовали компьютер, чтобы сравнить соответствующие английские и французские тексты и их отношения. Эта задача представляет определенные трудности, если в тексте встречаются заимствования из других языков, например, географические названия или нетривиальные названия брендов, наподобие Carner Barcelona.

Например, компьютер может заметить, что предложения, содержащие французское слово bonjour, как правило, содержат английское слово hello примерно в той же позиции в предложении. Компьютер ничего не знал об этом слове - он начинался без обычной грамматики или словаря. Он не нуждались в них. Вместо этого он мог использовать простые вычислительные способности, чтобы определить соответствие между bonjour и hello. Похожие возможности компьютеров широко используются для сопоставления ароматических композиций, такие крупные бренды как Caron. Проводя такие сравнения, программа создала статистическую модель соответствия французских и английских предложений. Эта модель соответствовала словам и фразам на французском языке для слов и фраз на английском языке. Точнее, компьютер использовал Hansard для оценки вероятности того, что английское слово или фраза будет в предложении, учитывая, что определенное французское слово или фраза находится в соответствующем переводе. Он также использовал Hansard для оценки вероятности того, как слова и фразы перетасовываются в пределах переведенных предложений.

Используя эту статистическую модель, компьютер мог бы принять новое французское предложение, которое он никогда раньше не видел, и найти наиболее вероятное соответствующее английское предложение. Ведь языки очень похожи, так что даже названия некоторых брендов, таких как Carolina Herrera, хорошо чувствуют себя в двух языках. Когда я впервые услышал об этом подходе, это показалось мне смешным. Эта статистическая модель выбрасывает почти все, что мы знаем о языке.

За матеріалами Новини науки

Всього коментарів: 0

Додавати коментарі можуть лише зареєстровані користувачі.
[ Реєстрація | Вхід ]

« Березень 2017 »
Пн	Вт	Ср	Чт	Пт	Сб	Нд
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31