2024年04月24日

IT は科学の成功にいかに寄与するか

科学と工学の分野においてAIと機械学習の重要性が高まるなか、企業が革新的であるためには、研究開発部門とIT部門のリーダーシップが上手く連携を取ることが重要になっています。予算やポリシー、ベンダー選択が不適切だと、重要な研究プログラムが不必要に阻害されることがあります。また反対に、「なんでもあり」という姿勢が貴重なリソースを浪費したり、組織を新たなセキュリティ上の脅威にさらしたりすることもあります。

研究開発部門とIT部門の緊張関係の根本にあるのは、研究グループのニーズは得てして以下のように通常のビジネス活動と本質的に異なっており、IT部門にとって馴染みが薄いという基本的な事実です。

  1. 研究開発では、課題に対して新たに別のアプローチを試す時、ワークフローを変えて新たなテクノロジーを取り入れるということが頻繁にある。
  2. テクノロジーは一般的なものではなく、専門に特化したものが多い。
  3. 解決のためには研究者とITスタッフの緊密なコミュニケーションと協力が必要である。

研究者が採用する新しいテクノロジーの中には、高度なAIのように、IT部門が安全かつ拡張性のあるソリューションを研究グループに提供するうえでの課題を解決してくれるものもあります。

研究のためのITには柔軟さが必要

研究機関が効果を上げるには、さまざまな方法や材料、設計、装置、アルゴリズムなど、つねに新しいことに挑戦しなくてはなりません。これは単に新しいことに挑戦するのが目的なのではなく、関連する新たなワークフローとテクノロジーを最低限評価し、効果があるものだけを採用しなくてはならないからです。研究開発における変更の多さは、ビジネスにおける他のほとんどの部門と対照的です。例えば、会計報告は長期で一貫性を保っていればいいし、データウェアハウスのスキーマは段階的な進化しか求められません。製造プロセスも短期間では変えられません。

残念ながら、新しいことをやるというのは標準的なITポリシーとリソースにとっては負担となります。例えば、現代のラボに設置されている機器の多くは、PCに専門の機器を接続したものを基本としていますが、時代遅れのOSやソフトウェアが使われていることが多く、既知のセキュリティの脆弱性をはらむこともよくあるにもかかわらず、簡単にはアップグレードできません。また、新たな実験方法を採用すると、それにより生成される新しい形式の半構造化データを検索する機能と、そのためのデータベースが必要となることもあります。あるいは、新たな分析を再現したり当てはめたりするために、研究者はサードパーティー製の複雑なコードを実行したいと訴えるかもしれません。

研究開発を成功させるためなら、時にはポリシーに例外を認めたり、ITリソースを費やしたりする必要もあります。

大規模言語モデル(LLM)のような最新の機械学習テクノロジーは、プロセスにおいて柔軟性が必要であることの良い例です。LLMを活用するには、IT部門がGPUベースのコンテナ化されたサードパーティー製計算リソースをその使用に必要な大規模データソースとともに配備・拡張したり、独自のデータをAIプロバイダーのAPIで使用するためにポリシーを策定・施行したりする必要があります。進化の激しい分野であるため、ベストプラクティスや求めるサービス自体も月単位で変化しています。

材料科学やライフサイエンスのように、研究がビジネスに必須である分野では、研究開発のニーズを満たすための柔軟性と専門知識、リソースがIT部門には必要です。

画一的なソリューションでは対応不可

組織のITニーズの管理は複雑な仕事であるため、その複雑さをコントロールするための戦略があります。例えば、ポートフォリオの標準化や冗長なソリューションの廃止、セキュリティリスクの軽減、ニーズに対する一般的なソリューションの提供などです。推奨OSの最新バージョンのみを使用することや、構成を標準化した単一ベンダーのラップトップを支給すること、会社全体での単一のデータレイクの使用、使用可能なソフトウェアとインターネットアクセスの厳重管理などといった方策は、大半のビジネスユーザーが簡単に実行できます。

しかし研究者は、仕事をするにあたって、一般的なビジネスのユースケースに当てはまらないリソースを頻繁に必要とします。それは例えば、高密度のデータの可視化に対応した大きなディスプレイだとか、一般的なビジネス用のホワイトリストには載っていないウェブサイトへのアクセス、データ転送のための高速のネットワークといった単純なものかもしれません。他方で、特定のGPU機能を備えたマシンや、任意のコードをコンパイルして実行するための機能、コンテナ化されたインフラをスピンアップする機能などが必要になる時もあります。研究開発に携わるユーザーのニーズは多岐にわたるので、ポリシーを決め予算を割り振る際には、一般的でないユースケースも認識しておく必要があります。

また、研究者が求めるリソースは時期によっても変化します。9割の時期は特別な処理能力を必要としていなくても、数ヶ月のうちの1週間だけ、機械学習モデルを学習させるためのGPUクラスタが必要になるということもあるかもしれません。あるいは、ある機器からの大量のデータを週ごとにアップロードする必要があるけれども、それ以外の時間のネットワーク使用量は標準的という場合もあります。

個々のユーザーのニーズだけでなく、研究開発においてはグループ単位でも他のビジネスのユースケースとは異なるニーズを持つ傾向があります。例えば、科学データは、固定スキーマによるデータウェアハウスやテキスト文書のデータレイクよりも、高度に構造化された配列データや画像データの集合と親和性が高いことが多いものです。一般的な出来合いのデータストレージソリューションでは研究データを上手く取り扱えないことが多々あります。

そのため、外部ベンダーを選ぶ際に注意が必要です。ITやソフトウェアのコンサルティング会社の多くは、科学研究ならではのニーズについて経験に乏しく、研究者の共通言語を使って話し合いを進めることができません。研究開発のニーズを満たすためのマネジメントやソフトウェアについて相談したい場合は、科学者とエンジニアの双方と協調できる、深い専門知識を持つ外部パートナーを選ぶと成功の可能性が高くなるでしょう。エンソートには、そのような形で企業を支援してきた20年を越える経験があります。

研究開発の場のITには、さまざまなハードウェアやオペレーティングシステム、ソフトウェア、データストレージなどの技術をサポートする準備と設備が必要です。

教育とサポート

一般的に、科学者とエンジニアはコンピューターの扱いに慣れており、プログラミングのスキルを持っている人も多く、SQLやHTMLなど多くの標準的なテクノロジーを使いこなせます。しかし、研究者の知識にも限界があります。コンテナ化されたアプリケーションのデプロイには不慣れかもしれませんし、TensorFlowのような複雑な機械学習ライブラリを自分たちの分析環境にインストールしたり、クラウドサービスにアクセスしてプロビジョニングしたりするのには助けを要するかもしれません。サードパーティー製の大規模言語モデルのAPIにアクセスする方法が分からないこともあるでしょう。

加えて、研究者はこうしたテクノロジーを選択したことに伴うセキュリティ上の脅威やベストプラクティスについてあまり詳しくないかもしれません。クエリやプロンプトのインジェクションから、OAuthのID管理、オープンソースパッケージの管理システム上でのタイポスクワッティングまで、研究者はワークフローに付随する潜在的な問題を意識しなくてはなりません。IT部門が教育と監視を行い、脆弱性の通知をタイムリーに発する必要があります。

企業が最新のAIワークフローをサポートしたい場合、研究者と緊密に連携できるITおよびDevOpsのスタッフをそろえる必要があります。特に、クラウドコンピューティングやコンテナ化、オーケストレーション、分析環境の管理などについて、研究者に必要なサポートとサービス、教育を提供する必要があるでしょう。

最新の課題には最新のソリューションを

皮肉なことに、こうした課題を生む新技術こそが、それを解決する鍵でもあります。クラウド技術は、社内であれ社外であれ、これまでにない柔軟性で計算やデータのリソースを提供できます。

これまで、研究者やラボには、ピーク時の計算負荷に耐えられる専用のGPUワークステーションを提供する必要があったかもしれません。しかし今は、日常のワークロードを処理できるだけの専用の計算環境を提供しつつ、高い負荷がかかる臨時的な状況では必要に応じてクラウドリソースやGPUへアクセスするという方法もあります。

JupyterLabやJupyterHubのようなウェブベースの分析技術は、自己完結型のサンドボックス環境をユーザーに提供します。研究者は使い慣れたノートブック形式のツールを用いて、環境を完全にコントロールした状態で作業できます。必要なパッケージは自由にインストールできますが、社内のネットワークからは隔離されているので、もし仮にこの環境が侵害を受けたとしても、研究者当人や目下進めていた研究には影響が出るかもしれませんが、社内全体が脅威にさらされる可能性は低いのです。

以上のことを実現できる企業が、科学における新しい計算処理のツールを活用するうえで際立った優位性を獲得するでしょう。AIと機械学習が主流になる中で、ライフサイエンスや材料テクノロジーの分野の研究指向型企業は、IT部門と研究開発部門が連携して、研究者のニーズに応じたデータ処理とクラウドコンピューティングの機能を提供しなくてはなりません。そして間違いなく、今後どのようなテクノロジーが生まれようとも、この連携はさらに強化していく必要があるでしょう。

科学データの特殊性についてはこちらをご覧ください。

Share this article:

Related Content

Enthoughtが定義する、製薬会社の研究開発ラボにおける真のDX

Enthought GKチームは、東京で開催されたライフサイエンスカンファレンス「ファーマIT&デジタルヘルスエキスポ2022」に出展し、技術的な見識と市場成長の活性化を求めて集まる製薬業界のリーダーたちと会談しました。三日間の会期中に200社が出展し、6700人以上の参加者が集まりました。 デジタルトランスフォーメーションが主要テーマである本展示会は、当社のターゲットとする企業に、製薬業界の新薬開発を加速させる当社のサービスを

Read More

科学研究開発リーダーが知っておくべき AI 概念トップ 10

OpenAIのChatGPTやGoogleのBardなど、大規模言語モデル(LLM)は自然言語で人と対話する能力において著しい進歩を遂げました。 ユーザーが言葉で要望を入力すれば、LLMは「理解」し、適切な回答を返してくれます。

Read More

科学における大規模言語モデルの重要性

OpenAIのChatGPTやGoogleのBardなど、大規模言語モデル(LLM)は自然言語で人と対話する能力において著しい進歩を遂げました。 ユーザーが言葉で要望を入力すれば、LLMは「理解」し、適切な回答を返してくれます。

Read More

ライフサイエンス分野におけるデジタル化拡大の課題

研究開発におけるイノベーションの規模拡大は、ラボか…

Read More

Top 5 Takeaways from the American Chemical Society (ACS) 2023 Fall Meeting: R&D Data, Generative AI and More

By Mike Heiber, Ph.D., Di…

Read More

Life Sciences Labs Optimize with New Digital Technologies and Upskilling

Labs are resetting the tr…

Read More

ITは科学の成功にいかに寄与するか

With the increasing importance of AI and machine learning in science and engineering, it is critical that the leadership of R&D and IT groups at...

Read More

From Data to Discovery: Exploring the Potential of Generative Models in Materials Informatics Solutions

Generative models can be used in many more areas than just language generation, with one particularly promising area: molecule generation for chemical product development.

Read More

The Importance of Large Language Models in Science Even If You Don’t Work With Language

OpenAI's ChatGPT, Google's Bard, and other similar Large Language Models (LLMs) have made dramatic strides in their ability to interact with people using natural language....

Read More

Leveraging AI in Cell Culture Analysis

Mammalian cell culture is a fundamental tool for many discoveries, innovations, and products in the life sciences.

Read More