学位論文要旨



No 212442
著者(漢字) 竹澤,邦夫
著者(英字)
著者(カナ) タケザワ,クニオ
標題(和) ノンパラメトリック回帰と作物の生長解析への適用に関する研究
標題(洋)
報告番号 212442
報告番号 乙12442
学位授与日 1995.09.11
学位種別 論文博士
学位種類 博士(農学)
学位記番号 第12442号
研究科
専攻
論文審査委員 主査: 東京大学 教授 鵜飼,保雄
 東京大学 教授 秋田,重誠
 東京大学 助教授 岸野,洋久
 東京大学 助教授 太田,正光
 成城大学 教授 関本,年彦
内容要旨 第I章序論

 データから最大限の情報を引き出すための有力な手段として回帰がある。ここでは、環境が農業生産に及ぼす影響を解析しモデル化することを主な目的とする回帰について検討するので、回帰が持つ予測能力を最も重視する。そこで、「データに自らを語らしめる」という方針に基づいて、近年、大きな進歩を遂げてきているノンパラメトリック回帰に注目した。ノンパラメトリック回帰はできるだけ弱い仮定だけを置き、データの持つ情報を率直に引き出そうとするものなので、単純な式やモデルに帰着することが困難な環境、農業、生物を対象としたデータ解析やモデル化にふさわしい方法と考えたからである。そうした動機に基づいて、環境と農業を解析しモデル化するという目的に沿った独自のアルゴリズムの開発を行い、実際のデータに適用し、ノンパラメトリック回帰のさらなる発展を図ったのが本論文である。

第II章ノンパラメトリック回帰を応用した回帰手法第1節ノンラメトリック回帰の基本概念

 ノンパラメトリック回帰は、直線回帰や重回帰のような従来の線形回帰を基本に据えて発展したものである。その過程で次のような多くの概念や知見を生み出した。

 (1)連続的に変化する対象から離散的なデータを得た場合は、エイリアシング誤差と呼ばれる誤差が発生することは避けられないので、ノンパラメトリック回帰の基本である平滑化は、測定誤差の有無に拘わらず、補間よりも有効である。

 (2)コンピュータ技術が発達した今日、変数の数が少ない式やモデルが扱いやすいとは必ずしも言えない。むしろ、人間がデータを眺めながらフリーハンドで描くような曲線や曲面の方が利用価値が高い。そこで、変数の数が多くても、予測能力が高い回帰式やモデルが望ましい、という方針に基づいて、ノンパラメトリック回帰が生まれた。

 (3)平滑化の方法として最もよく知られている移動平均は、不適切な推定値を導くことがある。そのため、データに対する重みのつけ方をより自然なものにしたのが、二項フィルターである。

 (4)ハット・マトリックスは、平滑化におけるデータに対する重みづけを線形回帰における一般的な議論に拡張することで生まれた、応用範囲の広い概念である。

 (5)平滑化や補間の手段としてスプライン曲線がよく知られているが、使いにくい点も多い。そこで、一つの推定値を求めるために一つの局所的な一次式を求める、という方針をとるLOWESSと呼ばれる方法が開発された。

 (6)最小二乗法にバイアスを加える、という方針で平滑化を行うのがスムージィング・スプラインである。

 (7)推定値の滑らかさの程度を調整する定数である、スムージィング・パラメータを最適にするためには、クロス・バリデーションやジェネラライズド・クロス・バリデーションが有効である。

第2節隣接残差の相関をゼロにする平滑化手法

 隣り合う残差の相関がゼロになるような推定値のうち、最も滑らかな推定値を採用する、という方針に基づく平滑化手法を提案する。この方法の中では、データが推定値に近い、という方針は陽には表現されておらず、誤差が正規分布に従う、というような仮定も置いていないため、幅広いデータに対応できる。

第3節頑強なノンパラメトリック回帰

 回帰を行うにあたって、異常値の存在は重要な問題である。そこで、可能性回帰と呼ばれる方法をわずかに修正して、「平行な2本の直線の間にかなりの数のデータがある、という条件の下で、2本の直線の切片の差を小さくする」という方針の回帰手法を開発した。この方法は、異常値の有無や数がはっきりしない大量のデータに対応するための有力な手段であり、LOWESSに応用することも容易である。

第4節直交基底を用いたアディティブ・モデル

 古典的な重回帰をノンパラメトリック回帰の文脈に沿って一般化したものが、アディティブ・モデルである。直交する基底を使ってアディティブ・モデルを構成する二つのアルゴリズムを提案する。一つは、あらかじめ直交する基底を用意しておいて最小二乗法によってアディティブ・モデルを求める方法であり、もう一つは、シュミットの直交化法を用いてデータから直交する基底を導き、最小二乗法を使わないでアディティブ・モデルを構成する方法である。

第5節分布を独立変数とするノンパラメトリック回帰

 環境要因を独立変数とした場合、スカラーではなく分布であると考えられることが多い。また、独立変数が既知の誤差を含んでいる場合、それを独立変数が分布を持つ、という形で表現することが可能である。そこで、ジェネラライズド・スムージィング・スプラインを用いて、分布で表現された独立変数を持つデータに対応する平滑化を行うアルゴリズムを導いた。

第6節一般的な基底を用いたノンパラメトリック回帰

 スプライン関数を用いた平滑化や補間の方法を一般化し、「実際のデータと、『仮想データ』をカーネルを用いて重み付き平均を行って平滑化した推定値とが近い(または、同じ)値をとる」という方針をとると、補間、平滑化、アディティブ・モデルの導出を統一した形式で実現するアルゴリズムが得られる。特に、この方法を用いた2次元の平滑化は、これまでに開発されてきた方法に比べ、一般性が高く、アルゴリズムが単純である。

第7節ターボ・アルゴリズムを用いたノンパラメトリック回帰

 第6節で提案した方法を利用する際には、データの性質にふさわしいカーネルの組合せを求めなければならない。そこで、最近のノンパラメトリック回帰の発展の中で注目を集めている、ターボ・アルゴリズムと呼ばれる方法を利用してカーネルの組合せを求める手法を開発した。この方法は、本質的な部分が最小二乗法なので非線形な最適化に伴う煩わしさがなく、様々なカーネルを候補とするので、少ない数で高い精度の推定を行うカーネルの組合せを求めることができる、並列計算にも適した単純なアルゴリズムである、などの特徴を持つ。

第III章ノンパラメトリック回帰を応用した作物データの解析第1節トウモロコシの絹糸抽出日の予測

 気象データを用いてトウモロコシの絹糸抽出日を予測するための手法としてよく知られたものに、毎日の気象条件の関数としてその日の生育率を定義し、それを足し合わせたものがある値を超えたときに作物がある生育ステージを迎える、という仮説を用いる方法がある。この方法を用いて高い精度の予測を実現するためには、生育率を与える関数として適切なものを用いなければならない。そこで、第II章 第5節で述べた方法を応用して、生育率を与える関数を求める方法を開発し、福島県畜産試験場と都城農業試験場で得られたデータを用いた解析を行った。その結果、この方法を用いるとスムージィング・パラメータの調整だけで生育率を表す関数が得られるため実用性が高い、独立変数として二つの気象要素を用いることもできる、この方法はジェネラライズド・スムージィング・スプラインの応用の一つとみなすことができるので数学的な内容が十分に分かっている、などか特徴であることが分かった。

第2節水稲の収量の予測

 第II章 第6節で示した方法を用いて、福島県における水稲の収量を予測するための、気象要素を独立変数とするノンパラメトリックな関数を求めた。その結果、重回帰を用いた場合に比べると、特に、収量が平年より大きくはずれた場合の予測能力においてノンパラメトリック回帰が優れていることが分かった。この結果を利用して、1993年の9月の始めの時点での収量予測を試みたところ、この年の福島県における収量は400kg/10aを下回る深刻なものになることを予測することができた。

第3節長期的な気象変動が水稲の収量に及ぼす影響の解析

 第I章 第6節の中で提案したアルゴリズムのうち、アディティブ・モデルを求める方法を応用した、気象条件の長期的な変動が水稲の収量に及ぼす影響を解析した。その結果、1850年以降の気温の上昇が1896年から1930年の収量の上昇にかなりの影響を及ぼしていること、1940年代から1950年代は気温が低い時期だったが技術の向上がこれを打ち消したこと、気温の不規則な変動の大きさは時期によってかなり異なることも重要であること、などの知見が得られた。

第IV章総合考察

 (1)本論文で述べたノンパラメトリック回帰の手法とそれに対する考察は、ノンパラメトリック回帰とその関連分野の理論的な発展に大きく寄与するものである。

 (2)ノンパラメトリック回帰の多くの実用における利用例が報告されている。本論文において提案した方法についても、既に、栃木県、福島県、山口県などで農業生産を向上させるための利用が進んでいる。実利的な目的を主発点とするノンパラメトリック回帰は、実利的な成果を生みだす方向へと正しく発展したと言える。

 (3)ノンパラメトリック回帰においては、現象を単純な式や少ない数の変数で表現することよりも予測能力が重視される。この考えを一般化すると、単純な概念で多くの事象を説明するのが望ましい、という従来の科学的方法論が否定されることになる。このことは、ノンパラメトリック回帰は単なる計算手法ではなく、ひとつの哲学的な立場を提示するものであることを示している。

 (4)今や、ノンパラメトリック回帰は、ファジィ推論、ニューラル・ネットワーク、自由曲面の設計などと密接に関連していることが明らかになった。今後は、これらの分野に並列処理や遺伝的アルゴリズムなどが加わって、非構造的モデル化手法として統合されてゆくことが期待される。その際、ノンパラメトリック回帰を発展させる土壌の一つとなった農学研究は、ますます大きな役割を果たすであろう。

審査要旨

 環境,農業,生物を対象としたデータ解析においては,その情報を単純な式やパラメトリックなモデルに帰着させることが困難な場合が多い。そこで本研究では,環境が農業生産に及ぼす影響を解析しモデル化することを目的とし,そのための理論的手法としてとくに近年大きな進歩がみられるノンパラメトリック回帰に注目し,ノンパラメトリック回帰に関する独自な手法とアルゴリズムの開発をおこなうとともに,その農学データへの適用を試みた。ノンパラメトリック回帰においては,できるだけ弱い仮定だけを設け,データのもつ情報を素直に引きだそうとするものであり,現象を単純な式や少ない数の変数で表現することよりも予測能力が重視される。

 1.ノンパラメトリック回帰を応用した回帰手法の開発:ノンパラメトリック回帰は,直線回帰や重回帰のような従来の線形回帰を基本に据えて発展したものであるが,その過程で,エイシアシング誤差,二項フィルター,ハット・マトリクス,LOWESS,スムージィング・スプライン,クロス・バリデーション,ジェネラライズド・クロス・バリデーションなどの有用な概念や手法を生み出した。これらとノンパラメトリック回帰との関連について種々の考察をおこなった。それを基礎とした理論的研究により,ノンパラメトリック回帰に関するいくつかの新しい手法とアルゴリズムの開発をおこなった。まず「隣り合う残差の相関がゼロになるような推定値のうち最も滑らかな推定値を採用する」という方針に基づく平滑化手法を提案した。この方法では,データが推定値に近いという方針は陽には表現されてなく,また誤差の分布も仮定していないため,幅広いデータに対応できる特徴があることが認められた。また,データに含まれるさまざまな外れ値に対応するため,「平行な2本の直線の間にかなりの数のデータがある,という条件の下で,2本の直線の切片の差を小さくする」という方針の回帰手法を開発した。この方法は非線形最適化を必要とするので計算量が多いのが欠点であるが,外れ値の有無や数が明かでない大量のデータの解析にとくに有効である。つぎに直交する基底を使ってアディティブ・モデルを構成する二つのアルゴリズムを提案した。一つは,あらかじめ直交する基底を用意しておいて最小二乗法によってアディティブ・モデルを求める方法であり,もう一つは,シュミットの直交化法を用いてデータから直交する基底を導き,最小二乗法を使わないでアディティブ・モデルを構成する方法である。またジェネラライズド・スムージィング・スプラインを用いて,分布で表現された独立変数を持つデータに対応する平滑化を行うアルゴリズムを導いた。この方法によれば,分布を平均値や中間値のような代表値に置き換えてしまうことによる情報の損失を避けることができる。総合的考察から,スプライン関数を用いた平滑化や補間の方法を一般化し,「実際のデータと,仮想データをカーネルを用いて重み付き平均を行って平滑化した推定値とが近いかまたは同じ値をとる」という方針をとると,補間,平滑化,アディティブ・モデルの導出を統一した形式で実現するアルゴリズムが得られることを示した。この方法を利用するには,データの性質にふさわしいカーネルの組合せを求めなければならない。そこで,最近注目されているターボ・アルゴリズムと呼ばれる方法を利用してカーネルの組合せを求める手法を開発した。

 2.ノンパラメトリック回帰を応用した作物データの解析:トウモロコシの絹糸抽出日の予測手法として,日々の気象条件の関数としてその日の生育率を定義し,その累積値がある一定値を超えたときに作物がある生育ステージを迎える,という仮説を用いる方法がある。そこで,「分布を独立変数とするノンパラメトリック回帰」を応用して,生育率を与える関数を求める方法を開発し,畜産試験場及び農業試験場で得られたデータの解析を行った結果,本方法の実用性の高さが明らかになった。つぎに「一般的な基底を用いたノンパラメトリック回帰」を用いて,県の水稲収量を予測するため,気象要素を独立変数とするノンパラメトリックな関数を求めた。その結果,重回帰を用いた場合に比べ,とくに収量が平年より大きくはずれた場合に,ノンパラメトリック回帰の予測能力が優れていることが分かった。さらにアディティブ・モデルを求める方法を応用し,気象条件の長期的な変動が水稲の収量に及ぼす影響を解析し,その方法の有用性を確認した。

 以上要するに,本研究によって農学への適用を目的としたノンパラメトリック回帰の新しい生物測定学的手法とアルゴリズムが開発され,その農学データへの有効な適用とともに,学術上重要な知見と考察が提供された。よって審査員一同は,本論文が博士(農学)の学位論文として価値あるものと認めた。

UTokyo Repositoryリンク