ベイジアンネットワーク

統計学
ベイズ統計学
理論
技法

ベイジアンネットワーク: Bayesian network)は、因果関係確率により記述するグラフィカルモデルの1つで、複雑な因果関係の推論有向非巡回グラフ構造により表すとともに、個々の変数の関係を条件つき確率で表す確率推論のモデルである。ネットワークとは重み付けグラフのこと。

定義

確率分布確率変数をノード、変数間関係をリンクとするグラフ/ネットワークで表現できる[1][2](確率的グラフィカルモデル[3])。このうちリンクが向きを持ち依存関係が巡回しないもの(有向非巡回グラフ)は次の名称で呼ばれる[4]

  • ベイジアンネットワーク: Bayesian networks[5]
  • 有向グラフィカルモデル: directed graphical models[5]
  • 有向確率モデル: directed probabilistic models[6]
  • 有向確率的グラフィカルモデル: directed probabilistic graphical models[6]

その有向非巡回性から確率変数群の同時分布は次のように表現できる:

P ( x 1 , . . . , x N ) = i = 1 N P ( x i | p a r e n t ( x i ) ) {\displaystyle P(x_{1},...,x_{N})=\prod _{i=1}^{N}P(x_{i}|parent(x_{i}))}

すなわち同時分布が親ノードで条件付けられた確率の積として記述できる[7]

特徴

確率分布を有向グラフと捉えることにより、グラフを用いた解析が可能になる。また有向グラフであるため変数間の因果関係をリンクで表現できる[8]。ベイジアンネットワーク上で確率推論を行うことで、複雑でかつ不確実な事象の起こりやすさやその可能性を予測することができる。これまで蓄積された情報をもとに、起こりうる確率をそれぞれの場合について求め、それらを起こる経路に従って計算することで、複雑な経路を伴った因果関係の発生確率を定量的に表すことが可能となる。

ベイジアンネットワークは有向非巡回構造を仮定したモデルであり、(この構造を必要としない)同時分布を直接モデル化するのではなく、条件付き確率モデルの組み合わせで表現される場合が多い。

モデルの簡単な例

確率変数A、B、Cの間の条件付依存性をA→C、B→Cと表し、リンクの元となる親ノードをAやB、リンクの先にくる子ノードをCとする時、Aが起こる確率をP(A)、Aが既に起こったときにCとなる条件付確率をP(C|A)のように表すこととすると、Cが起こりうる確率は、P(A,B,C)=P(C|A,B)P(A)P(B)となる。

色々な因果関係に対し、グラフ上の各ノードに対応する確率変数として表現する方法やルールが定められている。複雑な系においても、各ノードにおける条件付確率表やベイズの定理等を用いながら、それぞれの確率を計算でき、確率的な依存関係をモデル化できる。

応用例

医者の診断[9]、イメージ認識[10]、言語認識[11]、選択アルゴリズム[12] など、1980年代から各種の応用例が報告されている。

最適化

分布 p ( ) {\displaystyle p^{*}(\cdot )} をベイジアンネットワークによってモデル化するための様々な最適化手法が存在する。

全観測モデル

全ての変数が観測変数である[13]ベイジアンネットワークでは最尤推定が利用できる[14]

まず、このモデルは次の式で表現される:

p θ ( x 1 , . . . , x N ) = i = 1 N p θ ( x i | p a r e n t ( x i ) ) {\displaystyle p_{\theta }(x_{1},...,x_{N})=\prod _{i=1}^{N}p_{\theta }(x_{i}|parent(x_{i}))}

最尤推定の目標関数である対数尤度を考えると、

log p θ ( x 1 , . . . , x N ) = i = 1 N log p θ ( x i | p a r e n t ( x i ) ) {\displaystyle \log p_{\theta }(x_{1},...,x_{N})=\sum _{i=1}^{N}\log p_{\theta }(x_{i}|parent(x_{i}))}

すなわち条件付き確率分布の対数の和が対数尤度となる。

前提より全ての変数が観測変数であるため、 p ( ) {\displaystyle p^{*}(\cdot )} からサンプリングされた標本を用いて全ての条件付き確率分布値が計算できる。ゆえに対数と和で対数尤度が計算可能となり、分布が微分可能であれば勾配降下法により θ {\displaystyle \theta } の最適化が実現する。

潜在変数モデル

ベイジアンネットワークを採用した潜在変数モデルの場合、全観測モデルの場合と異なり最適化は容易でない。

歴史

ジューディア・パール1985年に命名した[15]。ジューディア・パールはこの研究の功績によりチューリング賞を受賞した。 人工知能の分野では、ベイジアンネットワークを確率推論アルゴリズムとして1980年頃から研究が進められ、既に長い研究と実用化の歴史がある。

関連書籍

  • ジューディア・パール、2009、『統計的因果推論 -モデル・推論・推測』、共立出版 ISBN 978-4320018778

脚注

  1. ^ "A graph comprises nodes ... connected by links ... . In a probabilistic graphical model, each node represents a random variable ... and the links express probabilistic relationships between these variables." PRML. p.360.
  2. ^ ネットワーク(重み付けグラフ)
  3. ^ "diagrammatic representations of probability distributions, called probabilistic graphical models." PRML p.359
  4. ^ "Directed graphical models are a type of probabilistic models where all the variables are topologically organized into a directed acyclic graph." Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.
  5. ^ a b "Bayesian networks, also known as directed graphical models" PRML. p.360.
  6. ^ a b "We work with directed probabilistic models, also called directed probabilistic graphical models (PGMs), or Bayesian networks." Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.
  7. ^ "The joint distribution over the variables of such models factorizes as a product of prior and conditional distributions" Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.
  8. ^ 逆(向きから因果関係を決定すること)は一般に成り立たない。
  9. ^ シュピーゲルハルター他、1989年
  10. ^ Booker、Hota、1986年
  11. ^ Charniak、Goldman、1989年
  12. ^ ハンソン、マイヤー、1989年
  13. ^ Fully Observed Models という
  14. ^ "If all variables in the directed graphical model are observed in the data, then we can compute and differentiate the log-probability of the data under the model, leading to relatively straightforward optimization." Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.
  15. ^ Pearl, Judea (8 1985). “Bayesian Networks: a Model of Self-Activated Memory for Evidential Reasoning”. Proceedings, Cognitive Science Society: 329-334. http://ftp.cs.ucla.edu/pub/stat_ser/r43-1985.pdf. 

関連項目

標本調査
記述統計学
連続データ
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存時間分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
  1. ^ : Markov network