統計的機械翻訳

 インターネットの普及により、海外のウェブサイトに接する機会が増えました。また、世界にまたがって活動を行っている多国籍企業では、マニュアルなどの製品情報を迅速かつ正確に現地の言語で提供することが求められています。
 このような中で、近年、急速に発展してきたのは、Google翻訳などに代表される「統計的機械翻訳」と呼ばれる、統計学や確率論に基づき訳文を作成する方法です。

 統計的機械翻訳は、異なる2つの言語の文章について、それぞれどの単語同士が意味的に対応する可能性が高いか(「翻訳モデル」と呼ばれます。)、原文に対応すると考えられる単語が訳語として自然か(「言語モデル」と呼ばれます。)という点を考慮し、訳文を作成する方法です。
 訳文の作成の際には、予め用意された膨大な対訳集のデータを基に構築された二種類のモデル(翻訳モデル及び言語モデル)を用いて、それぞれの確率を求め、最も確率が高いものが原文に対する訳文として選択されます。このため、基本的には対訳集のデータさえあれば、様々な言語に対応が可能です。

 このように、統計的機械翻訳は、統計学や確率論に基づく方法であり、基本的には原文や訳文の文法は不要であるため、文法構造が分からなくても翻訳は可能となります。このため、「英語」と「フランス語やドイツ語」の組合せのように、欧米言語間では既に実用的な域に達しているようです。これは、統計的機械翻訳の仕組みが、文章の冒頭から少しずつ区切り、その都度、最適と思われる訳語を当てはめた文をつなげて訳文を生成するため、そもそも語順が近い言語間での翻訳に向いているためです。
 一方で、「英語」と「日本語」の組合せのように、語順が大きく異なる言語間での翻訳は、語順の差を考慮するための方法も考えられています(※1)。この方法は、まだ実用的とは言い難い、発展途上の段階にありますが、急速に進歩しているようです。

(※1) 日本語は、欧州言語のように単語間にスペース区切りがなく、単語の境目がわからないことから、訳文の作成に当たっては、まず形態素解析(文章を意味のある単語に分割する方法)の結果を用いた原文の単語分割が行われています。

 

参考文献

アイタス社 ウェブサイト