ソースコンテンツ

概要

SourceContentはドキュメントチャンクを表します。アップロードされたドキュメントが検索可能な単位に分割されたものです。各チャンクは元のソースへの参照を保持し、コンテキストとトレーサビリティを維持します。構造化記憶とチャンク検索の違いについてはコンセプト概要をご覧ください。

フィールド

フィールド	型	説明
`id`	`string`	一意の識別子
`content`	`string`	チャンクのテキストコンテンツ
`sourceId`	`string`	元のドキュメントへの参照
`sourceType`	`string`	ドキュメントの種類（例：`pdf`、`markdown`、`text`）
`metadata`	`object`	追加メタデータ（ページ番号、セクションなど）
`createdAt`	`string`	作成日時

対応フォーマット

フォーマット	拡張子	備考
PDF	`.pdf`	ページ単位のチャンク分割
Markdown	`.md`、`.mdx`	セクション単位のチャンク分割
テキスト	`.txt`	段落単位のチャンク分割

チャンク分割

ドキュメントは意味検索に最適化されたチャンクに自動分割されます。各チャンクには元のドキュメント内の位置に紐づくメタデータが保持されます。手動の設定は一切不要で、チャンク分割プロセスは完全に自動化されています。

各チャンクは元のソースとの関係を保持しているため、検索結果を元の正確なページ、セクション、段落まで追跡できます。

Knowledgeとの関係

SourceContentから抽出された事実はKnowledgeになることがあります。元のSourceContentがソース参照として機能し、生のドキュメントから確定事実までの明確な出典チェーンを維持します。

ドキュメント: 「API仕様書 v2.pdf」
  |-- SourceContent チャンク1: 「認証セクション」
  |     --> Knowledge: 「APIはOAuth2認証を使用」
  |-- SourceContent チャンク2: 「エンドポイントセクション」
  |     --> Knowledge: 「ベースURLは /api/v2/」
  |-- SourceContent チャンク3: 「エラーコードセクション」
        --> Knowledge: 「エラー429はレート制限超過」

データタイプ

全データタイプのコンセプト概要

Knowledge API

SourceContentはKnowledgeと共に管理されます

​概要

​フィールド

​対応フォーマット

​チャンク分割

​Knowledgeとの関係

​関連ページ

データタイプ

Knowledge API

概要

フィールド

対応フォーマット

チャンク分割

Knowledgeとの関係

関連ページ