夢の(?)漢文自動訓読システムUD-Kundoku
少し前になりますが、11月28日に日本漢字学会の研究大会がオンラインで開催されたので、僕も視聴してみました。コロナ下でいろんなイベントがオンラインになり、距離や時間の制約のためにリアルでは参加できなかったはずのイベントにも参加できるようになったのは、不幸中の幸いと言えるかもしれません。コロナ後はリアルとオンラインの併催が当たり前になるのではないかと思います。
大会の中で一番興味を惹かれたのは、京大人文研の安岡先生による「UD-Kundoku」という漢文自動訓読システムの開発についての発表です。
システムのメカニズムや原理については省きますが、Google Colaboratoryでデモページを公開しているので、Google IDさえあれば、デモページにアクセスしてブラウザ上で走らせることができます。
デモページ:https://colab.research.google.com/github/KoichiYasuoka/UD-Kundoku/blob/master/udkundoku.ipynb
デフォルトでは「王顧左右而言他」という『孟子』の一節が原文(白文)としてセットされていて、左にある実行ボタンをクリックすると、自動訓読が実行されます。
「Googleが作成したものではありません」という警告が出たら、「このまま実行」をクリック。
他の文章を訓読させたい場合、「王顧左右而言他」の部分をその文章に変えて、実行ボタンをクリックします。ためしに陳勝の名言「燕雀安知鴻鵠之志哉(燕雀 安くんぞ鴻鵠の志を知らんや)」をセットして実行してみます。
自動システムによる訓読は「燕雀は安くんぞ鴻鵠の志を知るか」となり、通常の訓みとは少し違いが出ました。主格の「は」を省略するかどうかは問題ではないとしても、「知らんや」が「知るか」になってしまうと、反語と単純な疑問とで文意が大きく異なってしまいます。そもそも反語かどうかは文脈から理解することが多いため、一文だけで判断するのは無理筋のような気がします。このような場合には候補を複数提示する形式のほうがいいのかもしれません。
現状、「未」以外の再読文字(應・當・須・蓋・宜・將など)には対応できていないほか、駢文や詩も難しいだろうということです。詩の例として西郷隆盛の有名な七言絶句の一節「不為児孫買美田(児孫の為に美田を買はず)」を訓読させてみました。
回答は「児の孫買たらずして美田」というわけのわからない読み下しになってしまいました。どうも「孫買」を人名と判断しているようです。そんな人いたっけ?
まだまだいろいろと課題は多いようですが、おそらく最大の課題は、かつて僕が友人に向かって言った「どこに需要があんねん」ということのような気が・・・。とはいえ、質問サイトなどで「この漢文の読み方を教えてください」という質問を見かけることもあるので、そういう人(おそらく学生でしょうね)の助けにはなるのかもしれません。でも、まだ結果の精度に疑問が残るので、鵜呑みにするのはやめておいたほうがいいでしょう。今後の改善に期待したいと思います。
コメント
0 件のコメント :
コメントを投稿