最新の記事はこちらから

翻訳テック

文章最終更新日:2023年11月10日

トレンド概要

機械翻訳の魅力は翻訳スピードと低コスト

音声や文章をある言語から別の言語へ変換する翻訳プロセスにおいてテクノロジーの活用が進んでいる。特に重要となるテクノロジーは、コンピューターによって人間の言語を処理する自然言語処理(NLP)であり、単に異なる言語へ一言一句置き換えるのではなく、コンピューターが話し言葉を理解し、その意味を翻訳することが特徴である。

機械翻訳(MT)は、人による翻訳よりはるかに速く多くの文書を翻訳できる。機械翻訳のシステムは、オンラインで公開されているウェブサイトから誰でも必要に応じて利用できる汎用型と、医療など特定の専門分野で用いられる用語を基に翻訳メモリを作成できるカスタム型に大きく分けられる。また、近年は導入コストを大幅に抑えられるクラウド型システムも登場している。これらのシステムの多くが多言語翻訳に対応しているが、言語ごとに異なる文脈、文体、ニュアンスなどの要素では依然として人による翻訳が優っており、法的文書や安全マニュアルなど重要な役割を担う文書の翻訳には適していない。文化が異なれば固有の語彙や口語表現、慣用句も異なるため、機械翻訳はそれらを理解できないこともある。

現在では、機械翻訳の出力結果を翻訳者が編集する「ポストエディット」のような形で、機械翻訳と人による翻訳を並行して活用している企業が多い。Unbabel(USA)は、高速・低コストの機械翻訳と高精度の人による翻訳を組み合わせ、両方のメリットを享受できるプラットフォームを構築している。

人による翻訳と機械翻訳の違い

出所:Smartlingなどを基にUzabase作成

CATツールと翻訳管理システムにより翻訳プロセスを最適化

現在企業には、タスクの量と複雑さに応じて、コンピューター翻訳支援ツール(CAT Tool:Computer-Aided Translation Tool)または翻訳管理システム(TMS:Translation Management System)を使用する2つの選択肢がある。

コンピューター翻訳支援ツールは、翻訳者に翻訳メモリ、用語データベース、スタイルガイドの機能を提供する。翻訳メモリは、ソース言語のテキスト(または文)のセグメントを一対として保存し、自動的に過去の翻訳の再利用ができる。用語データベースは、業界ごとの専門用語とそれに対応する訳を格納する。スタイルガイドは、各国固有の正書法規則、使用規則、言語的・文体的な傾向、形式ガイドラインを提供することで、各国・文化に固有の表記への準拠を支援する。

翻訳管理システムは、翻訳プロセスを効率的に管理するためのツールで、主にプロジェクト管理の面で有用である。また、チームが世界各地に散在する多国籍企業の場合、チーム間の作業を管理し、コストやプロジェクトの進捗を追跡する。コンテンツ管理システム(CMS)を使用すれば、企業はウェブサイトと翻訳管理システムを連携することができるため、翻訳が必要なコンテンツの送信、また完了した翻訳の受信が可能となる。加えて翻訳管理システムに近年追加されたもう1つの機能として、機械翻訳プロバイダー用のAPI(顧客側インターフェースの簡略化を目的とした顧客と翻訳業者間の通信ポータル)がある。

企業による翻訳ツールの使用例

出所:Uzabase作成

機械翻訳は自然言語処理による構文・語義解析を向上させる

翻訳のプロセスは、入力方法が音声かテキストかによって一部異なるものの、コアは同じである。

一般的な翻訳プロセスには字句解析(形態素解析)、構文解析、語義解析が含まれ、その後翻訳言語への変換(音声またはテキスト)が行われる。字句解析は、トークン化とも呼ばれ、自然言語で書かれた文字・句を、意味を持つ最小の言語単位(トークン)に分割する。構文解析は、文法規則に従い文章構造を決定する。語義解析は、各単語の意味・意図を理解する。これらの自然言語処理のプロセスにはアルゴリズムが使用される。

機械翻訳による処理

出所:Uzabase作成

注:上図は説明を目的に簡略化している

自然言語処理の構文解析と語義解析は機械翻訳により実行され、長年にわたり改良が重ねられている。機械翻訳の重要な機能は学習能力であり、これはさまざまなモデルを使用した統計的機械翻訳(SMT:Statistical Machine Translation)に導入され、後にニューラル機械翻訳(NMT:Neural Machine Translation)で大幅に強化された。

機械翻訳の発展

出所:Towards Data ScienceおよびAcutransなどの資料を基にUzabase作成

NMTは処理能力の向上により高精度を実現

NMT(ニューラル機械翻訳)は、翻訳テック分野を変革する最新テクノロジーであり、その前身であるSMT(Statistical Machine Translation:統計的機械翻訳)に比べて翻訳の精度が大幅に向上している。

NMTはまた、SMTで採用されるフレーズ(句)単位の翻訳モデルから離れた、訓練も可能な単語系列モデルの一例である。NMTは単語ごとに訳をあて、事前に学習させた過去の翻訳データに基づき系列から単語を予測翻訳する。NMTの研究は2013年から始まっているが、2016 年頃にようやくAlphabet (Google、USA)によって実装された。これにより、SMTと比べ翻訳エラーが6割減少した。その後2016-17年にかけて、Meta Platforms(USA)、Microsoft(USA)、Amazon(USA)といった企業も独自の翻訳システムをNMTにアップグレードしたことで機械翻訳エンジンの主流となった。

NMTは近年飛躍的に発展している。たとえばMeta Platformsは2018年、改良したNMTモデルの訓練時間を24時間からわずか32分へ短縮することに成功している。AIや機械学習を使用した翻訳・言語サービスを提供するOmniscien Technologies(SGP)は、NMTの訓練に要する期間を1か月からわずか1日へ短縮している。また、シングルコアCPUを用いたSMTの場合1分間に3,000単語を翻訳するが、単一のグラフィック・プロセッシング・ユニット(GPU)で機能するNMTの場合、1分間に4~5万単語の翻訳が可能となる。

SMTのプロセスで作成される統計モデルは、翻訳モデル、言語モデル、並べ替えモデルの主な3つの要素からなる。ただし、これらのモデルは独立して学習するため相互に関連性はない。したがってSMTの主な欠点の1つは、言語間の関係を学習できないことである。一方NMTは、入力から出力まで単一のモデルで結ばれ複数の要素が一緒に訓練されるため、複雑な言語機能の相関関係を把握できる。

さらに直近では、大規模言語モデル(LLM)が登場し、翻訳への影響がますます注目されている(詳しくはトレンド「テキスト生成AI」を参照)。言語サービスプロバイダー(LSP)のWelocalize(USA)がカスタムNMTモデルを含む8種類のLLMおよび機械翻訳エンジンの翻訳性能を比較した結果、カスタムNMTモデルが他のモデルを上回る性能をみせた。一方で、LLM、特にGPT-4も目覚ましい結果を記録し、業界で求められる高い品質レベルに近づいていることが明らかとなった。Lionbridgeは、翻訳におけるパラダイムシフトは、NMTエンジンに多くの共通点を持つLLMのアプローチを取り入れることから始まる可能性があると指摘している。ただ、さらなる検証・技術的進歩が必要であり、現時点で結論を出すのは時期尚早といえる。

英語以外のコンテンツ不足がローカライゼーション需要を創出、機械翻訳発展のカギに

W3Techsによると、2023年11月現在ウェブコンテンツの約53%が英語であり、これに大きく引き離される形でスペイン語(5%)が続いている。一方でInternet World Statsによると、2020年3月時点で英語に長けているインターネット利用者数は世界全体の約26%にとどまる(入手可能な最新データ)。残る74%の利用者は、母国語で提供されるコンテンツにのみアクセスしている状況にあるといえる。さらに、2012年にCommon Sense Advisory(CSA)が8か国のインターネット利用者を対象に実施した調査によると、インターネット利用者の約72%が、ウェブサイトを使用する際には、ほとんどまたは完全に母国語でアクセスしていた(入手可能な最新データ)。また、2020年にCSAが非英語圏の29か国のインターネット利用者を対象に実施した別の調査によると、オンラインショッピングをする人の76%が母国語での情報をもとに商品を購入する傾向にある。また、40%が他の言語では購入しないと回答し、66%がオンラインで購入する際に機械翻訳を使用することも明らかになった。こうした状況を踏まえると、翻訳テックは依然として世界的に大きな成長潜在性を秘めている。

機械翻訳がもたらすサイバー犯罪の盲点は、大きな被害につながるおそれがある

Meta Platforms、Amazon、Twitter(USA)、およびオーストラリアのメルボルン大学が2021年に実施した調査では、ハッカーが機械翻訳システムに侵入して、偽情報や中傷など、悪意ある特定の翻訳出力を生成できることが示された。これにより、特定の対象者に損害を与えたり、機械翻訳プロバイダーの風評被害や法的な影響をもたらしたりするおそれがある。この調査では、訓練文セットをわずか0.02%変更するだけで、有害な翻訳出力を生成させることができると判明した。攻撃者は、インジェクション攻撃(ブラックボックスである機械翻訳システムへの直接侵入)や、スマグリング攻撃(単一言語データに侵入し、ターゲット側に悪意のある翻訳出力結果を表示させる)を行うこともある。

マネタイズ

機械翻訳市場は2032年までに75億ドル規模になる見通し

調査会社のGlobal Market Insightsによると、世界の機械翻訳市場は2022年に9.82億ドル規模となり、年平均成長率(CAGR)約23%で成長し2032年には75億ドル規模に達すると予測されている。また、CSA Researchの推定によると、世界の言語サービスおよびテクノロジー市場は、2022年には500~580億ドルになる見込みであり(2021年3月時点の推定)、機械翻訳市場が拡大する可能性を示している。

ウェブサイトのローカライゼーションが事業機会を創出

ローカライゼーションは、特定の国や地域、集団の慣習に合わせ製品やサービスを適合させる技術およびプロセスを指す。このプロセスは、テキストや音声素材の翻訳に加え、現地の規約、コンプライアンス、規制・税制を反映するため文書形式やソフトウェアの修正が必要であるため、複雑かつコストが高くなる。

すでに海外へ向けて販売を展開しているECビジネスでは、ウェブサイトを複数の言語にローカライズすることで大きなメリットが得られる。たとえば、英語のウェブサイトに中国語とスペイン語を追加すると、アクセス可能なユーザー数は13億人増え、英語圏と合わせて世界のインターネット利用者数全体の約53%にリーチを広げることができる。さらに、アラビア語(世界で母語人口が4番目に多い)を追加すると、世界のインターネットユーザーの約58%にリーチできる。

インターネットユーザーへのリーチに有用な上位10言語(2020年3月時点)

出所:Internet World Stats

注:入手可能な最新データ

世界10位までの主要な貿易国・地域のうち、英語を母国語とするのは米国と英国のみである。残りの各国・地域の英語話者は5割に満たないが、この差が新たに市場参入を図る企業の潜在顧客となる。

主要な貿易国・地域と英語話者の比率推移(2021年)

出所:世界銀行(輸出入データ)

注1:※は英語が母国語であることを指す

注2:人口に占める英語話者の割合は、最新データに基づく概算値

機械翻訳ツールは精度が低いなどの欠点があるものの、人間の翻訳者よりコスト面で有利

Google Cloud Translationは、数多くあるウェブ・APIベースの機械翻訳ツールの1つで、文書やウェブページなどのコンテンツの翻訳に使用されている。Google Cloud Translationを使用した翻訳の価格は文字単位で算出される。同ツールを用いた翻訳の単価は、人による翻訳の200分の1以下となる場合もある。

もうひとつの例はAmazon Translateで、こちらも文字数に応じて料金が設定される。また、並列データを利用して機械翻訳の出力結果をカスタマイズする「Active Custom Translation」も提供している。ただし機械翻訳の精度が低い場合は、翻訳者によるポストエディット作業が必要となる。機械翻訳は1日で膨大な量の翻訳が可能であるため、人間が翻訳に費やす時間を短縮することで企業にコスト削減効果をもたらすことができる。

翻訳ツールと人間の翻訳者のコスト比較

出所:Google、Amazon、Upworkを基にUzabase作成

注:100万語の翻訳価格はGoogle Cloud Translationが20ドル、Amazon Translate(標準)が15ドル、Amazon Translate(アクティブカスタム)が60ドル。1語あたり平均6文字で算出

未来

翻訳テックが顧客リーチを拡大、EC業界が主導

決済サービス事業者のStripe(USA)によると、2020年時点で欧州のECサイトにおける機会損失の10件中9件が決済ページでのエラーに起因することがわかった。そのうち、最も多いエラーは翻訳対応の不備であった。決済手続きの74%が現地語の翻訳に対応しておらず、欧州以外の地域からアクセスする顧客にとって便利な支払方法を提供できていなかった。

こうした事例から、ECを中心に小売業界は、翻訳テックの活用により大きな成果が期待できる。翻訳ツールを通じて、人による翻訳を必要とせずに企業が新たな市場に参入し、顧客やサプライヤーとやりとりできるようになる。

業界別の機械翻訳の活用事例

出所:Lionbridgeなどの資料を基にUzabase作成

専門用語に対応するカスタマイズ翻訳ツールの開発が進む

医療・製薬、法務、建設などの業界で使われる高度な専門用語は正確に翻訳する必要があるため、これらの業界における翻訳テックの使用はこれまで限定的なものとなっていた。汎用機械翻訳は、技術翻訳には向いていないが、業界固有の専門用語を学習させたカスタマイズ機械翻訳システムがその課題の解決策として浮上している。頻出する専門・特殊用語を辞書登録する簡易的な機能や、事前に大量の専門用語を学習させたオプションサービスなどが提供されている。

言語テクノロジー企業のLengoo(DEU)が実施した調査によると、顧客の翻訳メモリを用いて訓練したカスタマイズ機械翻訳モデルは、時間あたりの訳出語数において汎用翻訳モデルの3倍以上の出力を生成できるとしている(いずれもプロの翻訳者によるポストエディットを実施)。

みらい翻訳は専門用語や複雑な文章を含む法律文書や契約書を翻訳することができる法務翻訳エンジン、Tilde(LVA)は製薬業界向けのカスタマイズ機械翻訳エンジンを提供している。

携帯できる翻訳アプリやツールは旅行時のコミュニケーションに有用

多くの主要な機械翻訳プロバイダーは、iOSおよびAndroidに対応した翻訳アプリを提供する。Google翻訳、iTranslate(AUT)、Naver Papago Translate、Microsoft Translate、TripLingo(USA)は、スマートフォンで旅行者に双方向の通訳と画像・視覚翻訳を提供するモバイル翻訳ツールである。視覚的な翻訳機能は、旅行者がスマートフォンで撮影した道路標識やポスターをすぐに翻訳することができ、GoogleのAR翻訳機能などで体験することができる。2020年6月、Apple(USA)は会話翻訳アプリを発表した。同アプリは11言語に対応しオフラインでも使用できる。

モバイルアプリと似た、CheetahTALK、ili、Poliglu、Travis the Translatorなどのブランドに代表されるウェアラブル翻訳端末も数多く登場している。持ち運び可能な翻訳ツールがアプリより優れている点として、クラウドサポートが不要で、データ接続がなくても複数の言語への翻訳に対応できることが挙げられる。さらに、見知らぬ人とスマートフォンを介してやりとりする際のプライバシー保護の懸念も、翻訳端末の使用で回避できる。

青山 武史

青山 武史

グロービス経営大学院大学でMBAを取得し、キャリアを一貫してクリエイティブ、テクノロジー、ビジネスを高度に融合させた新規事業開発やイノベーションの創出を主導して来た。スタートアップ(最高事業責任者)や事業会社(マーケティング最高責任者)等でマーケティングからサービス開発までの新規事業開発の経験を積み、多くの事業で収益規模を拡大し、大手企業とのアライアンスに携わった。現在はYKK APにて新規事業開発部担当部長として、再生エネルギー事業の推進と新規領域の探索を担当。Point0を通して大手企業と共創活動を推進。渋谷未来デザインとSWiTCHとのカーボンニュートラルプロジェクト「CNUD」に参画。個人としても大手エネルギー企業のヘルスケ領域の新規事業開発支援コンサルティング実績多数。

コメント

この記事へのコメントはありません。

CAPTCHA


関連記事