『製造業のためのビッグデータの解析あり方研究会』は、2017年10月に活動を開始した公募研究会です。活動期間は1年間で、2ヶ月に1回の頻度で開催しており、全部で7回開催予定です。現時点の参加メンバーは19名(学術関係者:4名、企業関係者:15名)となります。私は、本研究会の設立に関わった一人であり、僭越ながら本研究会の活動状況を私の方からご報告致します。
製造業では、多くの企業において、製造工程や市場等から大量のデータを取得できる環境が整いつつありますが、品質管理分野における大量データの利活用はまだ十分ではなく、多くの企業では試行錯誤の過程にあります。
また、問題解決や課題達成などを目的とした分析で大量データを扱う場合には、従来の統計手法だけではなく、Lasso回帰やランダムフォレスト、サポートベクターマシンなどの統計的機械学習手法も使われ始めており、品質管理分野にとっては新しいそれらの方法論の、社内での活用や普及を急ピッチで進めている企業も少なくありません。しかし、統計的機械学習手法の社内での活用や普及を図る際にも様々な試行錯誤が生じているとお聞きします。
このような状況の中、本研究会は、製造業の品質管理に携わる現場技術者が問題解決や課題達成などを目的とした分析で大量データや統計的機械学習手法を扱う際に直面するであろう疑問点や課題等を洗い出し、それらに対してある程度の指針を与えることを目指しています。
本研究会の特徴として、次の2点を挙げることができます。1点目は、企業での実際の事例やデータを題材として、方法論の専門家と企業の実務家とが一緒に討議する点です。2点目は、統計的機械学習手法の理論的な研究や応用が進んでいる人工知能分野でご活躍されている小野田崇先生(青山学院大学)を主査に迎え、人工知能分野で蓄積された知見を取り入れることを目指している点です。
本研究会は、既に3回開催しました。第1回(11/3)では、主として、自己紹介も兼ね、各参加メンバーから各自のビッグデータとの関わりやビッグデータの利活用に関する課題や問題意識をご報告いただきました。
第2回(12/25)、第3回(2/20)では、ある参加メンバーからご提供いただいた課題・データに基づいて討議を行いました。ここでの課題は、目的変数と関連が強い要因の特定を目的として、あるデータ(データサイズ:約20変数×約700サンプル)を分析するとき、正則化回帰、XGBoost、サポートベクター回帰、ニューラルネットワーク等の様々な統計的機械学習手法を適用すると、適用する手法によって出力結果として得られる重要要因が異なり、それらの解釈が難しいというものです。
この課題に対しては、統計的機械学習手法の一般的な使い方や特徴について討議するだけでなく、分析対象データの特徴の把握や各種統計的機械学習手法で得られる分析結果のより深い理解のために、ご提供いただいたデータを各参加メンバーが様々なアプローチで実際に分析し、それらの分析結果に基づいて討議を行うということもしております。例えば第3回では、そのような中でピックアップされた外れ値の存在とそれらの扱いについて討議が行われました。本課題に関しては、第4回(4月予定)でも引き続き討議を行う予定です。
第5回(6月予定)では、別の参加メンバーからご提供いただく、連続生産工程にて自動計測により得られた品質特性データを題材に、データサイズが大きく、かつ、時系列的なデータを分析するアプローチについて討議を行う予定です。第6回(8月予定)では、もう少し大きな観点として、問題解決ストーリーの中でのビッグデータや統計的機械学習手法の位置付けやそれらの有効な利用場面等について討議する予定です。また、統計的機械学習手法を社内で普及するための教育カリキュラムについても討議する予定です。
本研究会で得られた成果は、研究発表会や『品質』誌などを通して会員の皆様にご報告致します。