- 2020/12/07 掲載
NTT、世界で初めて複雑なデータを無限の柔軟度で分類できる機械学習技術を実現
統計的機械学習技術の設計において、統計モデル・学習モデルの規模やパラメータの設定は、一般にデータ解析結果に大きな影響を及ぼす重要な問題です。しかし複雑化する現代において、データの規模も増大し、その特性も多種多様となり、モデルの規模やパラメータを、与えられたデータに合わせて適切に設定する作業を人手で行うことは膨大な時間と労力を要する難しい課題です。そこで、統計モデル・学習モデルが、モデルの規模やパラメータをデータ駆動で自動的に調整する手法の需要が高まっています。本成果は、任意のサイズの関係データを長方形分割によってクラスタリングする際に、長方形分割の候補となるあらゆる組み合わせパターンを生成できる新しい確率的生成モデルと、最適な長方形分割をデータに合わせて調整しクラスタリングする効率的なデータ解析法を構築しました。今後は、本技術の研究開発を進展させることで、より柔軟で自律的な人工知能の実現に向けた要素技術として貢献していきます。
本成果は米国太平洋時間の12/6から開催される国際会議NeurIPS(Advances in Neural Information Processing Systems)2020のspotlight発表として口頭発表予定です。また、本成果の潜在的な応用可能性の検証を目的として、関連したコードをGithubにて公開しています。
1.背景と歴史
現在の統計的機械学習は、膨大な量の様々なデータを大規模なパラメータを持つモデルで解析することができるようになってきました。しかし、多様な量・特性のデータに対して有効な汎用の学習モデルを設計することは難しく、一般に入力データや解きたい課題に応じて学習モデルの規模やパラメータの調整が必要です。さらに、このようなモデルの調整は、職人芸的な技巧や、膨大な労力を必要とすることが少なくありません。そこで、与えられたデータに合わせてモデルの規模やパラメータを自動的に調整する手法の需要が高まっています。一方、我々が解析の対象とするデータの形態もまたより複雑になってきています。例えば、ユーザと購買商品をそれぞれ行と列に取った行列形式のデータは関係データと呼ばれ、その中に現れる特徴的な性質を捉えることは、ユーザへの商品推薦システムの効率化などで活用されます。また、ソーシャルネットワーキングサービスにおいて、行と列に利用者を並べて利用者間のつながりを表現する隣接行列データと呼ばれるデータの解析は、ネットワークの持つ特性を理解することに活用されます。そのため、複雑なネットワークや関係データに対する解析技術が、一層求められてきています。そこで我々は、事前に特定のモデルやパラメータが与えられない場合でも、これらをデータ駆動的に最適化して、ネットワークやグラフを含む関係データ(ネットワーク・関係データ)をクラスタリングするデータの解析技術の研究開発を行っています。
関連コンテンツ
PR
PR
PR