お問い合わせはこちら

協業や技術に関して
お話しましょう

視覚と自然言語の融合技術(Vision and Language)

画像情報を言語ベースの知識と紐づけて高次に理解・判断する技術を社会実装する

視覚情報だけではわからない背景知識を統合し、判断結果を導く技術

 コニカミノルタでは、これまで培ってきた画像認識技術という強みに対して、自然言語処理技術をかけ合わせて、従来の視覚情報以上の、背後にある知識や知見を加味したAI処理が可能となりました。
 例えば、画像内に映る情報が「自動車」や「人間」であることを認識するのが画像認識技術(コンピュータビジョン)ですが、「自動車」と「人間」の位置関係によって、そのシーンの危険度は異なります。我々人間は、過去の経験に基づき、眼の前のシーンを瞬時に意味付けすることはできますが、コンピュータビジョンでは客観的な情報(事実)を認識することしかできません。ここに、「車と人間の距離が2m以内で、車が動いていたら、危険度はかなり高い」という事前知識(言語情報)を統合することで、人間と近い判断ができるようになることが本技術の提供価値です。
 主なタスクは、動画像の内容を対象とした質疑応答(VQA; Visual Question Answering)や動画像からの自動キャプション生成が挙げられます。
 自然言語処理する情報源には、マニュアルやノウハウ集、辞書などの既存のテキスト情報を活用することができます。コニカミノルタでは、弊社がドメインナレッジを持つ製造現場の安全性確保などに本技術を実装できるよう、開発に注力しています。

技術概要

 画像認識技術と自然言語処理技術との掛け合わせにおいては、別次元の特徴量である画像特徴と言語特徴を、適切に取り扱う必要があります。ユースケースに応じて重み付けしたり調整することで、双方の特徴量を並列に取り扱い、解析できるようにします。解析処理には、高度なニューラルネットワークアーキテクチャを導入し、大量・多様なデータセットに対して画像特徴を抽出すると同時に言語特徴との関係性を学習します。言語特徴を高度化するために、膨大なテキストデータから言語の構造や意味を学習した大規模言語モデル(LLM)を活用しています。
 コニカミノルタは画像認識技術において、人物の行動に関わる案件を多く手掛けており、これらに関わるドメインに強みを持っています。また、対象とするドメインの知識を効率よく導入するための調整のノウハウも持ち合わせております。本技術を活用にご興味のある方は、お気軽にお問い合わせください。

タスク例:画像の内容を知識を基に回答する質疑応答機能(VQA)

画像と、その内容に関する質問文を入力すると、回答を出力します。画像内に含まれる視覚情報以外の知識が必要な問いであっても、回答することができます。

タスク例:動画像自動キャプション生成

画像を説明する文章を作成します。物体検出処理と自然言語処理モデルを組み合わせて画像説明文を生成します。

この技術が該当するカテゴリ
(クリックするとそのカテゴリの技術を一覧で見ることができます)

このページを共有する