概要
SourceContentはドキュメントチャンクを表します。アップロードされたドキュメントが検索可能な単位に分割されたものです。各チャンクは元のソースへの参照を保持し、コンテキストとトレーサビリティを維持します。構造化記憶とチャンク検索の違いについてはコンセプト概要をご覧ください。フィールド
| フィールド | 型 | 説明 |
|---|---|---|
id | string | 一意の識別子 |
content | string | チャンクのテキストコンテンツ |
sourceId | string | 元のドキュメントへの参照 |
sourceType | string | ドキュメントの種類(例:pdf、markdown、text) |
metadata | object | 追加メタデータ(ページ番号、セクションなど) |
createdAt | string | 作成日時 |
対応フォーマット
| フォーマット | 拡張子 | 備考 |
|---|---|---|
.pdf | ページ単位のチャンク分割 | |
| Markdown | .md、.mdx | セクション単位のチャンク分割 |
| テキスト | .txt | 段落単位のチャンク分割 |
チャンク分割
ドキュメントは意味検索に最適化されたチャンクに自動分割されます。各チャンクには元のドキュメント内の位置に紐づくメタデータが保持されます。手動の設定は一切不要で、チャンク分割プロセスは完全に自動化されています。各チャンクは元のソースとの関係を保持しているため、検索結果を元の正確なページ、セクション、段落まで追跡できます。
Knowledgeとの関係
SourceContentから抽出された事実はKnowledgeになることがあります。元のSourceContentがソース参照として機能し、生のドキュメントから確定事実までの明確な出典チェーンを維持します。関連ページ
データタイプ
全データタイプのコンセプト概要
Knowledge API
SourceContentはKnowledgeと共に管理されます

