前回は契約書へ適当な着色を施し、読みやすくするというソフトウェアについて紹介しました。今回は、どのような点に工夫があるかについてご説明します。
結論から言いますと、①人間が文章を読む際には見る「最小限の単位」が存在する、なので②「その単位にしたがって」着色すると読みやすいだろう、ということになります。
今回のケースであれば最初に構文解析を行っておき、指定した語句に「部分一致」していれば指定した着色を施す、というものになります。
例えば英語の場合は最小限の単位はスペースで区切られた単語と考えられます。(※1)
例えば、”Thisisapen”はThis is a penとスペースで分節されて書かれ、その単位が最小限の単位(トークン)と捉えられます。(※2)
話を日本語に戻します。
日本語の場合はそのような区切り、分かち書きが存在しません。(※3)
文字列自体が完全に一致しているか、という形で着色するのがシンプルなやり方で技術的にも簡単であるため実際よく見られます。
例えば、以下の特許庁のサイトで特許を検索すると検索結果に対して検索語句をマーカー強調したものが出てきます。
https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopPage
このシンプルなやり方を前回紹介した、京都大学の公開している共同研究契約書(http://www.saci.kyoto-u.ac.jp/wp-content/uploads/2007/10/sanga04.doc)に適用してみます。
いかがでしょうか?一つの名詞句の中で別々の色が存在すると読みにくい感があります。
もし仮にこのシンプルなやり方で前回の単位でやろうとした場合に単語の指定は以下の画像のとおりになります。これは予め(プリセットで)全て網羅するのは現実的ではなく(例えば〇〇条とか)、その都度(アドホックに)指定するのも数が多すぎて現実的ではありません。
ここに本製作所の製作物の技術的な工夫が存在します。
次回は特許文書に対して適用した事例を紹介します。
(※1 英語についても実はそうではない、と見てますが、それは別の回に説明します。)
(※2 最初は英語等の始祖筋にあたるギリシア語やラテン語でもトークン間で区切りはなかったようです。)
(※3 その代わり日本語には漢字、ひらがな、カタカナ、句読点がありこれらが視認性を良くしています。)