2023年03月11日

科学研究開発における小規模データの最大活用

科学研究開発における小規模データの最大活用

 

多くの伝統的なイノベーション主導の組織では、科学データは特定の短期的な研究質問に答えるために生成され、その後は知的財産を保護するためにアーカイブされます。しかし、将来的にデータを再利用して他の関連する質問に活用することにはあまり注意が払われません。データは基本的に研究開発の副産物と見なされ、主要な成果物とは見なされません。そのため、重要な実験プロセスの詳細や関連する文脈情報が記録されないことが多々あります。

収集されたデータは、一貫性のある構造化された形式で保存されることが少なく、ネットワークドライブやデータレイクにアーカイブされるため、こうした大量の過去のデータファイルを再利用のために解析するのは困難で高コストになります。さらに、このデータを生成する実験ワークフローは通常手作業で行われ、複数のチーム間での調整が必要です。手動のサンプル準備やラボ間の引き渡し、コンピュータ間の手動データ転送、機器コンピュータでの手動の生データ解析などが含まれます。これらにより、新しいデータ生成には非常に時間がかかり、高コストになります。

その結果、多くの研究開発組織が持つ、機械学習モデルのトレーニングデータとして使用できるほどクリーンで完全なデータセットは小規模です。

「小規模データ」の状況に直面して、研究者や研究開発リーダーは、データ駆動型アプローチを新製品開発に適用して効果が得られるかに疑問を感じることでしょう。この背景には、現在のデータの状態で何ができるのか、また問題を解決するために効率的にデータを収集する方法が分からない、ということがあります。高いレベルのビジョンを持ち、一律のデータプラットフォームを導入している組織でさえ、新しいデータサイエンスやエンジニアリングのチームは、科学的な小規模データ問題に固有の課題のために価値を生み出すのに苦労しているのです。

エンソートでは、科学主導の製品開発における多くの小規模データの課題に取り組んできました。顧客の小規模データから最大限の価値を引き出し、戦略的なイノベーション目標の達成を支援するため、さまざまな戦略を採用しています。各研究開発組織には独自のデータとワークフローがあるので普遍的な解決策はありませんが、私たちは現状を最大限に活用し、継続的な改善への道筋をつけることを得意としています。これは、エンソートのコンサルティングチームが科学専門領域の深い知見を持っているからこそできることです。チームは、ほとんどデータがなくても、専門領域の知識を活用し、巧妙な実験設計、特徴量エンジニアリング、事前知識や情報に基づくモデル制約と事前分布、データ品質の向上、などを通じて少ないデータでデータ駆動のアプローチを推進することができます。また、既存のデータ生成ワークフローを評価し、ソフトウェアツールを使用してデータラベル付けタスクを簡素化し、生データ解析を自動化または支援することで、新しいデータ生成を加速し、データ品質を向上させるためのワークフロー改善を優先的に行うこともします。

 

貴社の研究所では小規模データを活用できていますか? 

データが小規模であることがデータ駆動型の手法を始める障害にならないようにすべきです。小規模データが存在する組織こそ、データ駆動型のモデリングや予測に活用して、発見やイノベーションを加速させることができます。

ぜひ当社にご相談ください。

著者について

Michael Heiber, PhD

Michael Heiberは、アクロン大学で高分子科学の博士号を、イリノイ大学アーバナ・シャンペーン校で材料科学と工学の学士号を取得しており、特に光電子応用の高分子に関する専門知識を持っています。エンソートでは、マテリアルズインフォマティクスチームを率いており、クライアントが機械学習とAIを活用してより良い、迅速な研究開発の意思決定を行う支援をしています。

エンソートに入社する前は、複数の機関でポスドク研究員として勤務し、物理シミュレーション、自動実験測定、自動データ解析ツールを使用して有機電子材料およびデバイスの開発をデジタル変革する取り組みを行っていました。エンソートでは、これらの多様な経験をマテリアルズサイエンスソリューショングループで活かし、いくつかの主要なクライアントと共に産業材料の研究開発を加速・変革する支援を行ってきました。現在は、マテリアルズインフォマティクスチームおよびマテリアルズインフォマティクス推進プログラムを監督しています。

 

Share this article:

Related Content

R&D イノベーションサミット2024「研究開発におけるAIの大規模活用に向けて – デジタル環境で勝ち残る研究開発組織への変革」開催レポート

去る2024年5月30日に、近年注目のAIの大規模活用をテーマに、エンソート主催のプライベートイベントがミッドタウン日比谷6FのBASE Qで開催されました。

Read More

科学研究開発における小規模データの最大活用

多くの伝統的なイノベーション主導の組織では、科学データは特定の短期的な研究質問に答えるために生成され、その後は知的財産を保護するためにアーカイブされます。しかし、将来的にデータを再利用して他の関連する質問に活用することにはあまり注意が払われません。

Read More

科学研究開発リーダーが知っておくべき AI 概念トップ 10

近年のAIのダイナミックな環境で、R&Dリーダーや科学者が、企業の将来を見据えたデータ戦略をより効果的に開発し、画期的な発見に向けて先導していくためには、重要なAIの概念を理解することが不可欠です。

Read More

科学における大規模言語モデルの重要性

OpenAIのChatGPTやGoogleのBardなど、大規模言語モデル(LLM)は自然言語で人と対話する能力において著しい進歩を遂げました。 ユーザーが言葉で要望を入力すれば、LLMは「理解」し、適切な回答を返してくれます。

Read More

ライフサイエンス分野におけるデジタル化拡大の課題

研究開発におけるイノベーションの規模拡大は、ラボか…

Read More

ITは科学の成功にいかに寄与するか

科学と工学の分野においてAIと機械学習の重要性が高まるなか、企業が革新的であるためには、研究開発部門とIT部門のリーダーシップが上手く連携を取ることが重要になっています。予算やポリシー、ベンダー選択が不適切だと、重要な研究プログラムが不必要に阻害されることがあります。また反対に、「なんでもあり」という姿勢が貴重なリソースを浪費したり、組織を新たなセキュリティ上の脅威にさらしたりすることもあります。

Read More

Top 5 Takeaways from the American Chemical Society (ACS) 2023 Fall Meeting: R&D Data, Generative AI and More

By Mike Heiber, Ph.D., Di…

Read More

Life Sciences Labs Optimize with New Digital Technologies and Upskilling

Labs are resetting the tr…

Read More

From Data to Discovery: Exploring the Potential of Generative Models in Materials Informatics Solutions

Generative models can be used in many more areas than just language generation, with one particularly promising area: molecule generation for chemical product development.

Read More

The Importance of Large Language Models in Science Even If You Don’t Work With Language

OpenAI's ChatGPT, Google's Bard, and other similar Large Language Models (LLMs) have made dramatic strides in their ability to interact with people using natural language....

Read More