読者です 読者をやめる 読者になる 読者になる

AIプログラムとかUnityゲーム開発について

探索や学習などを活用したAI系ゲームを作りたいと思います。

英辞郎CD-ROMからテキストデータを抽出

ブックオフ英辞郎第四版が200円で売っていたので購入。
CD-ROMから英辞郎をインストールして、テキストの辞書を抽出してみました。
PDIC一行形式を選んで変換すると以下の様な大量なデータが抽出出来ました。
CSV形式とPDIC一行形式の違いがよく解りません)

例えば以下のような感じ。全部で7万三千行あります。すごいマイナーな単語が大量に入ってるw

"chilly smile","冷笑","",0,0,0,""
"chilly view toward","~への冷ややかな視線","",0,0,0,""
"chilly weather","肌寒い気候","",0,0,0,""
"chilly wind","ヒヤリとする風","",0,0,0,""
"chilly winter afternoon","冷たい[肌寒い]冬の午後","",0,0,0,""
"Chilmari","【地名】チルマリ","",0,0,0,""
"chilo-","【連結】唇","",0,0,0,""
"chilomastigiasis","【名】メニール鞭毛虫症","",0,0,0,""
"chilomonad","【名】《生物》キロモナス","",0,0,0,""
"Chilomycterus reticulatus","《魚》イシガキフグ◆学名","",0,0,0,""
"Chilon","【人名】キロン◆古代ギリシャ・七賢人の一人。スパルタ人。ギリシャ・スパルタンの訓練に大変な厳

これを機械翻訳の英和辞書に使おうと思って買いました。
最近はテキストデータの販売を辞めたり、CDRにコピープロテクトがかかってるとか断片的に
amazonレビューを読んで知ってましたが、あっさりテキストデータが手に入って良かったです。


コロナ社の機械翻訳ジュンク堂で椅子に座って読んでみましたが、
パワポとかPDFで無料公開されている研究紹介的なもので充分な気がしました。
無料の公開資料を読んでもわからないなら、コロナ社の機械翻訳を買ってもいっしょという感じで。
値段も4000円ほどで高いですし、積読にしても仕方ないし。
まずは、英辞郎テキストデータから単語を引けるプログラムを作ってみましょう。


単語辞書は既存の凄いのが手に入るわけだし、機械翻訳の問題点は、
訳語の適切な選択、並べ替え(アライメント)の2つだと思う。
しかし、並び方は日本語なんかそもそも適当だし、一番大切なのは適切な訳語の選択なのではないか。

人間 vs 機械!機械で英語翻訳してみたらトンデモナイ文章になった | iKnow! BLOG(アイノウ ブログ)
上記で紹介されてる機械翻訳が失敗例は、

“That’s one small step for a man, one giant leap for mankind.”

人間翻訳
「これは一人の人間にとっては小さな一歩だが、人類にとっては偉大な飛躍である」

 機械翻訳
「つまり、人間のための小さな一歩、人類のために1大きな飛躍だ」

これって対句ですよね。○には小さいが、○には大きい
漢文でもよくあるやつです。貶しておいて、実は凄いって言い方。だから、「だが」と逆説の接続語でつながる。
こういう考え方は、言語を超えて、人間の思考過程を表現している
だから同じテクニックが、日本語にも英語にも漢文にもある。

機械翻訳例は、逆説がまずわかってない。要するに、対句は逆説でつながって、物事を強調するって
文章作成上のテクニックが解っていない。
smallとgiantが対になっているなんてところも、理解しているのか怪しい


試しにgoogle機械翻訳してみると

それは男性のための小さな一歩、人類のための1つの大きな飛躍です。

まだ逆説が分かってないね。でもだいぶうまく訳してると思うけど。
全部統計的に学習した結果での翻訳なんでしょうけど。
対句は逆説に訳すみたいなのは学習できないのかな?

コロケーションで考えるとmanの訳は、人類との相性では、男より人間だろうと思うけど
統計的に導かれなかったのだろうか? 

広告を非表示にする