2024年04月24日

IT は科学の成功にいかに寄与するか

科学と工学の分野においてAIと機械学習の重要性が高まるなか、企業が革新的であるためには、研究開発部門とIT部門のリーダーシップが上手く連携を取ることが重要になっています。予算やポリシー、ベンダー選択が不適切だと、重要な研究プログラムが不必要に阻害されることがあります。また反対に、「なんでもあり」という姿勢が貴重なリソースを浪費したり、組織を新たなセキュリティ上の脅威にさらしたりすることもあります。

研究開発部門とIT部門の緊張関係の根本にあるのは、研究グループのニーズは得てして以下のように通常のビジネス活動と本質的に異なっており、IT部門にとって馴染みが薄いという基本的な事実です。

  1. 研究開発では、課題に対して新たに別のアプローチを試す時、ワークフローを変えて新たなテクノロジーを取り入れるということが頻繁にある。
  2. テクノロジーは一般的なものではなく、専門に特化したものが多い。
  3. 解決のためには研究者とITスタッフの緊密なコミュニケーションと協力が必要である。

研究者が採用する新しいテクノロジーの中には、高度なAIのように、IT部門が安全かつ拡張性のあるソリューションを研究グループに提供するうえでの課題を解決してくれるものもあります。

研究のためのITには柔軟さが必要

研究機関が効果を上げるには、さまざまな方法や材料、設計、装置、アルゴリズムなど、つねに新しいことに挑戦しなくてはなりません。これは単に新しいことに挑戦するのが目的なのではなく、関連する新たなワークフローとテクノロジーを最低限評価し、効果があるものだけを採用しなくてはならないからです。研究開発における変更の多さは、ビジネスにおける他のほとんどの部門と対照的です。例えば、会計報告は長期で一貫性を保っていればいいし、データウェアハウスのスキーマは段階的な進化しか求められません。製造プロセスも短期間では変えられません。

残念ながら、新しいことをやるというのは標準的なITポリシーとリソースにとっては負担となります。例えば、現代のラボに設置されている機器の多くは、PCに専門の機器を接続したものを基本としていますが、時代遅れのOSやソフトウェアが使われていることが多く、既知のセキュリティの脆弱性をはらむこともよくあるにもかかわらず、簡単にはアップグレードできません。また、新たな実験方法を採用すると、それにより生成される新しい形式の半構造化データを検索する機能と、そのためのデータベースが必要となることもあります。あるいは、新たな分析を再現したり当てはめたりするために、研究者はサードパーティー製の複雑なコードを実行したいと訴えるかもしれません。

研究開発を成功させるためなら、時にはポリシーに例外を認めたり、ITリソースを費やしたりする必要もあります。

大規模言語モデル(LLM)のような最新の機械学習テクノロジーは、プロセスにおいて柔軟性が必要であることの良い例です。LLMを活用するには、IT部門がGPUベースのコンテナ化されたサードパーティー製計算リソースをその使用に必要な大規模データソースとともに配備・拡張したり、独自のデータをAIプロバイダーのAPIで使用するためにポリシーを策定・施行したりする必要があります。進化の激しい分野であるため、ベストプラクティスや求めるサービス自体も月単位で変化しています。

材料科学やライフサイエンスのように、研究がビジネスに必須である分野では、研究開発のニーズを満たすための柔軟性と専門知識、リソースがIT部門には必要です。

画一的なソリューションでは対応不可

組織のITニーズの管理は複雑な仕事であるため、その複雑さをコントロールするための戦略があります。例えば、ポートフォリオの標準化や冗長なソリューションの廃止、セキュリティリスクの軽減、ニーズに対する一般的なソリューションの提供などです。推奨OSの最新バージョンのみを使用することや、構成を標準化した単一ベンダーのラップトップを支給すること、会社全体での単一のデータレイクの使用、使用可能なソフトウェアとインターネットアクセスの厳重管理などといった方策は、大半のビジネスユーザーが簡単に実行できます。

しかし研究者は、仕事をするにあたって、一般的なビジネスのユースケースに当てはまらないリソースを頻繁に必要とします。それは例えば、高密度のデータの可視化に対応した大きなディスプレイだとか、一般的なビジネス用のホワイトリストには載っていないウェブサイトへのアクセス、データ転送のための高速のネットワークといった単純なものかもしれません。他方で、特定のGPU機能を備えたマシンや、任意のコードをコンパイルして実行するための機能、コンテナ化されたインフラをスピンアップする機能などが必要になる時もあります。研究開発に携わるユーザーのニーズは多岐にわたるので、ポリシーを決め予算を割り振る際には、一般的でないユースケースも認識しておく必要があります。

また、研究者が求めるリソースは時期によっても変化します。9割の時期は特別な処理能力を必要としていなくても、数ヶ月のうちの1週間だけ、機械学習モデルを学習させるためのGPUクラスタが必要になるということもあるかもしれません。あるいは、ある機器からの大量のデータを週ごとにアップロードする必要があるけれども、それ以外の時間のネットワーク使用量は標準的という場合もあります。

個々のユーザーのニーズだけでなく、研究開発においてはグループ単位でも他のビジネスのユースケースとは異なるニーズを持つ傾向があります。例えば、科学データは、固定スキーマによるデータウェアハウスやテキスト文書のデータレイクよりも、高度に構造化された配列データや画像データの集合と親和性が高いことが多いものです。一般的な出来合いのデータストレージソリューションでは研究データを上手く取り扱えないことが多々あります。

そのため、外部ベンダーを選ぶ際に注意が必要です。ITやソフトウェアのコンサルティング会社の多くは、科学研究ならではのニーズについて経験に乏しく、研究者の共通言語を使って話し合いを進めることができません。研究開発のニーズを満たすためのマネジメントやソフトウェアについて相談したい場合は、科学者とエンジニアの双方と協調できる、深い専門知識を持つ外部パートナーを選ぶと成功の可能性が高くなるでしょう。エンソートには、そのような形で企業を支援してきた20年を越える経験があります。

研究開発の場のITには、さまざまなハードウェアやオペレーティングシステム、ソフトウェア、データストレージなどの技術をサポートする準備と設備が必要です。

教育とサポート

一般的に、科学者とエンジニアはコンピューターの扱いに慣れており、プログラミングのスキルを持っている人も多く、SQLやHTMLなど多くの標準的なテクノロジーを使いこなせます。しかし、研究者の知識にも限界があります。コンテナ化されたアプリケーションのデプロイには不慣れかもしれませんし、TensorFlowのような複雑な機械学習ライブラリを自分たちの分析環境にインストールしたり、クラウドサービスにアクセスしてプロビジョニングしたりするのには助けを要するかもしれません。サードパーティー製の大規模言語モデルのAPIにアクセスする方法が分からないこともあるでしょう。

加えて、研究者はこうしたテクノロジーを選択したことに伴うセキュリティ上の脅威やベストプラクティスについてあまり詳しくないかもしれません。クエリやプロンプトのインジェクションから、OAuthのID管理、オープンソースパッケージの管理システム上でのタイポスクワッティングまで、研究者はワークフローに付随する潜在的な問題を意識しなくてはなりません。IT部門が教育と監視を行い、脆弱性の通知をタイムリーに発する必要があります。

企業が最新のAIワークフローをサポートしたい場合、研究者と緊密に連携できるITおよびDevOpsのスタッフをそろえる必要があります。特に、クラウドコンピューティングやコンテナ化、オーケストレーション、分析環境の管理などについて、研究者に必要なサポートとサービス、教育を提供する必要があるでしょう。

最新の課題には最新のソリューションを

皮肉なことに、こうした課題を生む新技術こそが、それを解決する鍵でもあります。クラウド技術は、社内であれ社外であれ、これまでにない柔軟性で計算やデータのリソースを提供できます。

これまで、研究者やラボには、ピーク時の計算負荷に耐えられる専用のGPUワークステーションを提供する必要があったかもしれません。しかし今は、日常のワークロードを処理できるだけの専用の計算環境を提供しつつ、高い負荷がかかる臨時的な状況では必要に応じてクラウドリソースやGPUへアクセスするという方法もあります。

JupyterLabやJupyterHubのようなウェブベースの分析技術は、自己完結型のサンドボックス環境をユーザーに提供します。研究者は使い慣れたノートブック形式のツールを用いて、環境を完全にコントロールした状態で作業できます。必要なパッケージは自由にインストールできますが、社内のネットワークからは隔離されているので、もし仮にこの環境が侵害を受けたとしても、研究者当人や目下進めていた研究には影響が出るかもしれませんが、社内全体が脅威にさらされる可能性は低いのです。

以上のことを実現できる企業が、科学における新しい計算処理のツールを活用するうえで際立った優位性を獲得するでしょう。AIと機械学習が主流になる中で、ライフサイエンスや材料テクノロジーの分野の研究指向型企業は、IT部門と研究開発部門が連携して、研究者のニーズに応じたデータ処理とクラウドコンピューティングの機能を提供しなくてはなりません。そして間違いなく、今後どのようなテクノロジーが生まれようとも、この連携はさらに強化していく必要があるでしょう。

科学データの特殊性についてはこちらをご覧ください。

Share this article:

Related Content

「AIスーパー・モデル」が材料研究開発を革新する

近年、計算能力と人工知能の進化により、材料科学や化学の研究・製品開発に変革がもたらされています。エンソートは常に最先端のツールを探求しており、研究開発の新たなステージに引き上げる可能性を持つマテリアルズインフォマティクス(MI)分野での新技術を注視しています。

Read More

デジタルトランスフォーメーション vs. デジタルエンハンスメント: 研究開発における技術イニシアティブのフレームワーク

生成AIの登場により、研究開発の方法が革新され、前例のない速さで新しい科学的発見が生まれる時代が到来しました。研究開発におけるデジタル技術の導入は、競争力を向上させることが証明されており、企業が従来のシステムやプロセスに固執することはリスクとなります。デジタルトランスフォーメーションは、科学主導の企業にとってもはや避けられない取り組みです。

Read More

産業用の材料と化学研究開発におけるLLMの活用

大規模言語モデル(LLM)は、すべての材料および化学研究開発組織の技術ソリューションセットに含むべき魅力的なツールであり、変革をもたらす可能性を秘めています。

Read More

R&D イノベーションサミット2024「研究開発におけるAIの大規模活用に向けて – デジタル環境で勝ち残る研究開発組織への変革」開催レポート

去る2024年5月30日に、近年注目のAIの大規模活用をテーマに、エンソート主催のプライベートイベントがミッドタウン日比谷6FのBASE Qで開催されました。

Read More

科学研究開発における小規模データの最大活用

多くの伝統的なイノベーション主導の組織では、科学データは特定の短期的な研究質問に答えるために生成され、その後は知的財産を保護するためにアーカイブされます。しかし、将来的にデータを再利用して他の関連する質問に活用することにはあまり注意が払われません。

Read More

デジタルトランスフォーメーションの実践

デジタルトランスフォーメーションは、組織のデジタル成熟度を促進し、ビジネス価値を継続的に提供するプロセスです。真にビジネスを変革するためには、イノベーションを通じて新しい可能性を発見し、企業が「デジタルDNA」を育む必要があります。

Read More

科学研究開発リーダーが知っておくべき AI 概念トップ 10

近年のAIのダイナミックな環境で、R&Dリーダーや科学者が、企業の将来を見据えたデータ戦略をより効果的に開発し、画期的な発見に向けて先導していくためには、重要なAIの概念を理解することが不可欠です。

Read More

科学における大規模言語モデルの重要性

OpenAIのChatGPTやGoogleのBardなど、大規模言語モデル(LLM)は自然言語で人と対話する能力において著しい進歩を遂げました。 ユーザーが言葉で要望を入力すれば、LLMは「理解」し、適切な回答を返してくれます。

Read More

ライフサイエンス分野におけるデジタル化拡大の課題

研究開発におけるイノベーションの規模拡大は、ラボか…

Read More

ITは科学の成功にいかに寄与するか

科学と工学の分野においてAIと機械学習の重要性が高まるなか、企業が革新的であるためには、研究開発部門とIT部門のリーダーシップが上手く連携を取ることが重要になっています。予算やポリシー、ベンダー選択が不適切だと、重要な研究プログラムが不必要に阻害されることがあります。また反対に、「なんでもあり」という姿勢が貴重なリソースを浪費したり、組織を新たなセキュリティ上の脅威にさらしたりすることもあります。

Read More