メインコンテンツへスキップ

概要

SourceContentはドキュメントチャンクを表します。アップロードされたドキュメントが検索可能な単位に分割されたものです。各チャンクは元のソースへの参照を保持し、コンテキストとトレーサビリティを維持します。構造化記憶とチャンク検索の違いについてはコンセプト概要をご覧ください。

フィールド

フィールド説明
idstring一意の識別子
contentstringチャンクのテキストコンテンツ
sourceIdstring元のドキュメントへの参照
sourceTypestringドキュメントの種類(例:pdfmarkdowntext
metadataobject追加メタデータ(ページ番号、セクションなど)
createdAtstring作成日時

対応フォーマット

フォーマット拡張子備考
PDF.pdfページ単位のチャンク分割
Markdown.md.mdxセクション単位のチャンク分割
テキスト.txt段落単位のチャンク分割

チャンク分割

ドキュメントは意味検索に最適化されたチャンクに自動分割されます。各チャンクには元のドキュメント内の位置に紐づくメタデータが保持されます。手動の設定は一切不要で、チャンク分割プロセスは完全に自動化されています。
各チャンクは元のソースとの関係を保持しているため、検索結果を元の正確なページ、セクション、段落まで追跡できます。

Knowledgeとの関係

SourceContentから抽出された事実はKnowledgeになることがあります。元のSourceContentがソース参照として機能し、生のドキュメントから確定事実までの明確な出典チェーンを維持します。
ドキュメント: 「API仕様書 v2.pdf」
  |-- SourceContent チャンク1: 「認証セクション」
  |     --> Knowledge: 「APIはOAuth2認証を使用」
  |-- SourceContent チャンク2: 「エンドポイントセクション」
  |     --> Knowledge: 「ベースURLは /api/v2/」
  |-- SourceContent チャンク3: 「エラーコードセクション」
        --> Knowledge: 「エラー429はレート制限超過」

関連ページ

データタイプ

全データタイプのコンセプト概要

Knowledge API

SourceContentはKnowledgeと共に管理されます