050 翻译项目

    050 翻译项目 (第3/3页)

处打劫别人家的语料库。反编译、破解、注入等技术用得越来越666了。

    ---

    “目前已经建立的,语料库相对完整的六个语种分别是汉语、英语、日语、印度语、阿拉伯语、西班牙语,以这六个语种为初始数据,借用各种手段,已经建立起了这六个语种与其他144个语种的互译数据库。也就是说,我们已经可以实现一百五十个语种之间的翻译了。”夏羽回答道!

    “这么快?”九重有点吃惊!这速度比想象中的要快很多啊!

    这才一个多月而已,已经做到这种程度了?

    看到老大吃惊!夏羽颇为得意,不过却谦虚的表示:“这还多亏了老大编写的那个妖孽小程序的功劳!只比起我们自己写的那个程序,差距上了千倍都不止啊。”

    翻译小组曾自己编写过一个自动翻译程序,该程序借用谷歌翻译返回翻译结果,效率大约是1.5秒可以获得一个单词的翻译数据,按这个速度,英文语料库75万个单词,一台电脑要13天才能获得英文和汉语互译对照数据。这个工作量就算平摊到翻译小组13台机器上,也需要1天时间才能获得2个语种的互译数据。

    最坑爹的是他们制作的程序还不能关闭网页,基本上运行这个程序,电脑也不能干啥事情了。

    150个语种的两两互译知道要执行多少个循环吗?

    (嗯~在下也算不清楚)

    反正很多就对了,九重看到他们做的程序之后,当然嗤之以鼻,然后只用半小时制作出了一个可以多开、可以以借用公司一百台计算机、在后台运行的翻译辅助工具,100台机子,每台程序*3,每秒共计可返回1200+个翻译数据。

    这效率惊呆了把翻译小组的小伙伴们都惊了个呆!

    “也就是说,基础的单词翻译数据已经建立起来了?”

    夏羽说道:“准确说,真正完善的只有之前我提到的6个语种的翻译数据,其他的语种或多或少还有些数据缺失,现在正整在检查和补全中,现在每天大约能检查3-5个语种的部分遗漏。”

    “数据库仍然是在原来的那个磁盘中吧!”

    “是的,这个道没变!”

    “那我先去看看情况,顺便做个备份什么的,你先在这里等我一下,等下和你说个正事。”

    十分钟后!

    九重回来了,和夏羽说道:“数据库的资料我已经看过了!基本上已经达到了我的要求的,那么!接下来,我们就要在算法上面下功夫了!我来和你说说翻译项目的下一个流程吧!”

    ....(未完待续~)