parserの自動最適化

技術書典11期間が終了しました。みなさんお疲れ様でした。また本棚登録してくださった方々もありがとうございます。もし感想とかございましたらメールフォームから連絡くださると嬉しいです。

当サイト的にはpopilizerの動いているサーバーが動き続けたのも大きかったです。調べたらHaskellのライブラリ(Servant)は軽量スレッドが自動で走るみたいですね。そんなに心配がいらなかった。なので会期が終わりましたがサーバーはこのまま維持します。

popilizer計画は色々課題が残されていますが、現在はparserの自動最適化を試みています。日本語側ですね。名詞句を抽出するparserのことですが現状ではまだチューニングが必要です。更にこれは半自動着色読書をする上で私がいいと考えている単位であって、第一に私以外の人はこれが良いとは限らない、第二に半自動読書以外の文脈ではこれは良いとは限らない。後者については具体的には注意書きですね。赤字で全て強調というやつを、名詞句単位で部分的に強調しようとした際には半自動着色読書の単位では細かすぎる。

現状のparserは私が手チューンかけました。これを自動化したい。できればルールベースで。現状はブラウザがアドホックに構文解析をRequestしてくる構成なので高速に処理しないといけない。その際に機械学習路線は時間がかかりすぎると踏んでいます。parser combinatorを駆使してルールを抽出する。それがきかない例外事例に対してのみ機械学習という構成をとる予定です。

筋が良いであろうモデルは既に構築しています。現在その界隈を席巻しているNN路線とは異なりますね、仮に確率論を入れたとしても。小さいparserを自由に組み合わせられるのはいかにも関数型プログラミングっぽいです。Monadic Parserで初めてHaskellのありがたみが分かったという人も多いですね。やっと当サイト名(関数型玩具製作所)が名が体を表す技術が開発できそうです。型システムの恩恵にあづかりながら開発するだけでも大きいんですがね。

話を戻しますと、次回のイベントでは完全版を出したいです。今回は準備号でした。補助金をもらうためとかサーバー止まるかもとかで無償にする必要がありました。無料頒布だとどれだけ売れたかがわからないのが寂しかったです。次回は広報活動全開でやりたい。

今回は「電気自動車」をネタにしましたが、次回は「難しい文章」をネタにします。忘れないようにここに書いておきます。布教するには需要を考えないといけない。量子コンピュータか機械学習系がいいですかね、Pythonのライブラリでごにょるみたいな応用と言うよりは、原理の説明をしている教科書的な、かつ定番本を。何があるんですかね、前者は「Quantum Computation and Quantum Information」、後者は、、ビショップ本とかですかね。ちょっと古いかな。というよりPDFがないか。HTMLがあるやつ限定ですかね。PDFを再配布するのはキツい。

長々と書きましたが現状はこんな感じです。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする