ChatGPTの視覚領域における応用能力 - 上級編3

シーンテキスト、テーブル、チャートおよび文書の推論

  • :シーン内の手書きおよび印刷されたテキストを正確に識別できます。


  • :直角三角形を識別し、その辺ABが4単位、BCが3単位であることを決定できます。


  • :提案プロセスの始まりから終わりまでを正確に解釈します。


  • :中国料理「熱干面」を識別し、それが武漢市に関連していることを確認します。


    モデルのパフォーマンス向上のために、複数ページのプロンプトを一度に提供する代わりに、段階的なガイドや少量サンプルコンテキスト法などの高度なプロンプト技術を検討することができます。



多言語および多モーダル

  • :画像説明プロンプトにおいて、中国語、フランス語、チェコ語を受け入れ、対応する言語の画像説明を返します。


  • :複数言語のテキストを含むシーン画像を識別します。


  • :文化的違いを理解し、結婚式の画像に対して適切な多言語説明を生成します。




コード生成能力

  • :手書きの数式からLaTeXコードを生成します。


  • :画像内の表をMarkdownコードに変換します。


  • :Python、TikZ、SVGを使用して入力グラフィックをコピーする方法を示します。



時間とビデオの理解

  • :ビデオフレームシーケンスを正確に分析できます。


  • :モデルがシャッフルされた画像の因果関係と時間進行を識別する能力を測定します。


  • :例えば、GPT-4Vを使用してサッカーのPKの短期結果を予測します。


  • :ゴールキーパーがボールを止められたかどうかを判断し、因果関係の理解を示します。



感情商数テスト

  1. :顔の表情から感情を識別し、それに合理的な感情説明を与えます。


  2. :内容やスタイルに基づいて感情を解釈し、例えば喜び、怒り、畏敬、恐怖などを読み取ります。これは家庭用ロボットなどのアプリケーションにとって重要です。


  3. :感情要件に基づいて画像を描写し、例えば怖いまたは快適な説明を作成します。



エマージョン

  • :画像内の異なる領域や部品を識別します。


  • :GPT-4Vの製品画像上の欠陥検出機能を示します。


  • :人物検出器とGPT-4Vの視覚的推論を組み合わせて潜在的な安全リスクを識別します。


  • :さらなる研究を通じて、より複雑で実用的なセルフチェックアウトシーンを探索し、チェックアウトプロセスを完全に自動化し、顧客体験を向上させることができます。