Posted on

Machine translation, 어디까지 왔나

요즘 몇 주 동안 machine translation에 대해 여기저기 쑤시고 다니며 조사해 보았습니다. 그렇게 한 동기는 neural machine translation을 유료로 구독하여 제가 번역하는 좁은 특정 분야에 적용하는 실험을 해보고 싶어서였습니다. 그러려면 neural machine translation 엔진을 제공하는 업체가 소스문서를 기록하지 않고 프리랜서가 개인적으로(privately) 사용할 수 있는 옵션을 제공해 주어야 합니다. 대부분의 소스 문서들은 NDA에 묶여 있으니까요.

 

그러나 안타깝게도 아직까지 프리랜서 번역가가 안전하게 사용할 수 있는 NMT 기반 엔진은 없는 것 같습니다. SDL, Lilt, Systran 등이 좀 큰 회사들인데 앞의 두 개는 SMT 기반입니다. 지금은 한국 회사에 인수된 Systran은 기계 번역 분야의 오랜 강자인데, 2017년 1분기에 기업과 LSP 대상의 상업용 NMT 엔진을 출시할 모양입니다. 그리고 이 회사들 중에 private subscription을 제공하는 곳은 없습니다. 다른 작은 회사들은 설사 그런 옵션을 제공한다 하더라도 데이터가 많지 않으니 좋은 NMT 품질을 기대하기가 사실상 힘들 것이고요. 따라서 NMT를 프리랜서 번역가가 개인적으로 사용하는 일은 아직은 아무래도 좀 더 기다려야 할 듯합니다. 

 

그러나 그런 것을 알아보는 과정에서 재미있는 사실을 몇 가지 알게 되었습니다. 우선은 구글, 마이크로소프트, 페이스북이 모두 NMT를 사용하고 있다는 겁니다. 저는 마이크로소프트나 페이스북의 한국어 인터페이스는 심하게 짜증이 나서 늘 영어 버전을 씁니다. 지금 확인해 봐도 여전히 한심합니다. neural machine translation도 결국은 기존 번역에서 배우는 것인데 이런 분야의 기초 번역이 너무 심하게 부실해서 그런 것 같습니다. 이 분야 번역을 하는 분들이 좀 분발해주셔야 할 듯합니다.  🙂 

 

다른 하나는 한국어와 영어가 구글 neural machine translation이 적용된 8개 언어짝 중 하나라는 겁니다. 한국어 시장의 규모를 보여주는 것 같습니다.

 

마지막으로, 이건 예상이긴 하지만 앞으로 neural machine translation 엔진을 프리랜서 번역가들에게 판매하려는 마케팅이 활발하게 이루어질 것 같습니다. 마치 프리랜서 번역가들에게 CAT tool을 판매하려는 경쟁이 벌어졌듯이 말이죠. 물론 앞에 썼듯이 아직은 조금 기다려야 하는 상황이지만요. 또 시장가격도 전혀 형성되지 않은 상태이고요. 하지만 큰 흐름을 볼 때 neural machine translation이 SMT 기반의 machine translation을 점차 대체해 나갈 것은 분명해 보입니다. 그리고 private하게 사용할 수 있는 옵션이 주어진다면, 그 동안 품질이 너무 떨어져서 machine translation을 전혀 사용하지 않았던 프리랜서 번역가들도 사용을 고려하는 분들이 늘어날 것이라고 생각합니다.

 

한편, neural machine translation의 현재까지의 발전이 심하게 과장되었다고 보는 견해도 상당히 많습니다. 실은 저도 그런 의견입니다. 뉴스를 팔아야 하는 미디어의 과장을 일반인들이 그대로 받아들여 마치 neural machine translation은 사람 수준의 번역을 척척 제공하는 천재 컴퓨터인 것처럼 알려져 있는 것 같습니다. 속도, 그리고 실수를 잡아줄 수 있다는 면에서 그 효용이 분명하긴 하지만 아무리 neural machine translation이라고 해도 인간을 앞서지 못합니다. 물론 앞으로 상당한 정도로 많이 이용될 것은 확실하지만요. 제 생각에는 마치 기존의 Google Translate가 사람을 대체하지 못했지만 도저히 사람이 할 수 없는 많은 양의 번역, 기계 번역이 아니라면 아예 시도되지도 않았을 번역이 많이 이루어지게 함으로써 문화간의 언어장벽을 낮추고 (어느 정도는) 번역 시장을 키우는 데 공헌했듯이, neural machine translation도(그것이 구글의 엔진이든 또는 다른 회사의 엔진이든) 그런 효과를 가질 것으로 보고 또 그렇게 희망합니다.

 

외부 자료 세 가지를 소개하고 글을 마칠까 합니다.

 

첫째는 현재 Google NMT를 매우 부정적으로 평가한 글입니다. 저자가 상당히 강한 어조를 사용하고 있습니다만, 대기업의 마케팅 파워를 등에 업은 미디어 보도를 있는 그대로 삼키면 안된다는 것이야 너무도 당연하지 않을까 싶습니다. (한국의 어느 유명 일간지에서 “구글이 완벽한 번역기를 개발했다”는 기사도 읽은 적이 있습니다. 적어도 번역을 하는 분이라면, 현재 NMT의 성능에 대해 최소한 보도자료가 아닌 다른 제3자의 평가도 읽어보고 무엇보다 자기 스스로 어느 정도는 실험을 해보는 성의가 필요하다고 생각합니다. 그 정도의 실험에는 돈도 들지 않고 시간도 거의 들지 않으니까요.)

 

둘째는 neural machine translation에 대한 10명의 MT 전문가들의 평가를 모아 놓은 글입니다. 여기에는 다양한 평가가 섞여 있습니다. 한번 읽어보십시오. 물론 어떤 의견을 가지실지는 물론 전적으로 여러분의 몫입니다.

 

마지막으로, machine translation(neural machine translation도 포함)에 대해 초보자를 위해 간략하게 요약한 글이 있어서 핵심 부분만 발췌하여 붙입니다(원문을 보시려면 여기를 클릭). 

 

 

=================================================

1. ‘Machine translation’ isn’t the same as ‘translation memory’ or ‘CAT tool’
Sometimes translators get these terms muddled up, which is understandable. A computer-assisted translation (CAT) tool is an application where you can write your translations. It uses translation memories (TMs) to keep a record of all your past work. Don’t confuse that with a machine translation (MT) engine. An MT engine is an application that automatically translates a text. You can integrate MT with your CAT tool, but they are two different pieces of software. They have different functions.

 

2. Machine translation is more effective with certain text types
Since computers rely on data and rules, the more predictable a text, the better the output will likely be. Formulaic and simple texts work well. Creative and complex texts don’t. Life sciences, finance, IT and other technical genres lend themselves to machine translation. But while financial accounts are formulaic, an accountant’s blog is far less predictable. With the second, you may well be faster on your own, particularly if you use voice recognition.

 

3. Machine translation engines get better results when they’re customised
Translators and companies that are serious about machine translation aren’t using Google Translate. They get their own machine translation engines and train them for a specific domain. They do this by inputting their translation memories. After that, they input more data on an ongoing basis, so the machine keeps adapting to them. This is how they get more accurate output. Then they post edit it and feed the final translation back into the machine. With a suitable text type, this helps them finish the translation faster than if they did it from scratch.

 

4. Neural machine translation is a major change in the translation industry
The world of machine translation is starting to harness deep learning. This is based on neural networks. Neural networks have lots of uses in artificial intelligence. Language processing is one of them. So, computer scientists can use them to improve machine translation. Companies that are using neural machine translation include: Google, Microsoft and Facebook.

 

5. Google Translate is now using neural machine translation in some language combinations
Google recently announced that it is using neural machine translation in Google Translate. For now, it is limited to certain language combinations. They rolled it out with a total of eight language pairs. All are to and from English, combined with French, German, Spanish, Portuguese, Chinese, Japanese, Korean and Turkish. It’s free, but remember the data is public, so you can’t use it if you’ve signed a confidentiality agreement. Google Translate isn’t customised (see point 3), but it has lots of data. The jury is still out on how good the updated tool is.

 

6. You can subscribe to your own machine translation engine and train it
You may not realise that companies that develop machine translation engines sell subscriptions. You can even pay to train your own engine using your translation memories. Post-editing isn’t just about an agency sending you texts. You can learn how to post edit, get a customised engine and then do whatever you want with it. The profits and control will be all yours.

 

7. Companies that sell machine translation are battling for your business
If you want to try machine translation, you have to go shopping for a provider. The different companies that offer machine translation solutions (including SDL, Lilt and Systran) publish data to show how effective their software is. It’s all quite technical and confusing. And it can be biased. You can go to TAUS and the eMpTy Pages blog, for unbiased information.

 

Perhaps, like me, you prefer to see for yourself. One way of doing this is to observe yourself for a month in your work, and see how many words you average per hour. Then, pick whichever machine translation software takes your fancy and use it for a month. Track your turnover to see whether your hourly average gets faster or not. Then you’ll have your own data to tell you whether it’s worth continuing to invest.

 

8. Machine translation isn’t currently replacing human translators
Improvements in machine translation don’t mean we’re all out of a job. But, it may mean our jobs will start to change. Commercial translation is often about getting an acceptable translation as quickly as possible. You can complete some texts faster by using customised machine translation and post-editing. And sometimes that is what the customer wants. As machine translation continues to get better, we can expect demand for post-editing to grow.

 

9. Machine translation pricing isn’t set in stone, yet
While machine translation has a long history, it’s still being consolidated in our industry. Lots of translators and translation agencies are struggling to get their heads around it. Some translators are concerned that post-editing means lower pay. Certainly, ruthless agencies will try to use it as another way of driving prices down.

 

But, that doesn’t mean smart translators can’t use it to increase their profitability. Why shouldn’t we earn more on the days we work as post editors? If we learn about it, and talk about it, we’ll soon know how we want to price it. We’ll know when to refuse a job. Translators can choose to accept post-editing jobs only when they’re going to make more money for their time.

 

10. Freelance translators have options regarding machine translation
We don’t all have to go running for the hills before the robots attack. Becoming a post editor is just one option open to us. If you like the idea of it, you could post edit for agencies. But, you could also subscribe to your own engine and use it in your work. If you don’t want to post edit, there are a host of specialisation and diversification options.

 

Whatever path you end up choosing, now is a good time to get informed and come up with a plan. If major changes do take place in our industry, I for one will be ready for them. Ready to adapt. To continue being the one who controls my career. To protect my rates, serve the direct customer competitively, and understand the jobs (and prices) agencies offer me.

2 thoughts on “Machine translation, 어디까지 왔나

  1. 유익한 포스팅 늘 잘 읽고 있습니다. ^^

  2. 저는 매일 구글 번역기의 결과물을 그 전의 번역물과 비교하고 있습니다만.. 이세돌과의 바둑대결에서 전혀 상상도 못했던 엉뚱한 수를 두었던 것처럼 엉뚱한 번역이 나올 때도 있지만, 조금씩 번역의 질이 향상되고 있습니다. 언젠가는 인간 번역가가 필요없는 세상이 분명히 오긴 올 겁니다. 시간이 얼마나 걸릴지는 모르겠지만요. 그리고 어렸을 적 아시모프의 소설속에서나 접했던 그런 세상도 오겠지요. 제가 살아 있을 때 경험할 수 있을 것도 같고. 그런 생각에 매일 두근두근거리며 기사를 찾아보고 있습니다. 하하하.. 인공지능 탑재 로봇의 시대를 보고 죽을 수 있을까나..^^

댓글을 남겨주세요(댓글은 모든 사람이 볼 수 있습니다).