【第4回】社内ドキュメントを読ませる ― ナレッジ(RAG)の作り方

今回のゴールと「RAG」とは

第2回・第3回で作ったボットは、AIが元から持っている“一般的な知識”で答えていました。だから「自社の就業規則では？」のような社内固有の質問には答えられません。それを解決するのが、今回作るナレッジ（RAG）です。

RAGは Retrieval-Augmented Generation（検索拡張生成） の略で、むずかしく聞こえますが、やることはシンプルです。「AIに自社の資料を渡しておき、質問が来たら関連する部分を“検索”して、それを参考に答えてもらう」仕組みです。たとえるなら、AIに“カンニングペーパー（社内資料）”を持たせてあげるイメージです。

💡 今回のゴール

社内資料を読み込ませるナレッジ（知識ベース）を1つ作る
チャンク（資料の分け方）とインデックス方法（探し方）の違いを理解する
クレジットを消費しない設定（Economical）でナレッジを完成させる

※今回はナレッジの“土台作り”まで。これをボットにつないで完成させるのは第5回です。

はじめに：アップロードする資料の注意点

⚠️ いきなり“本物の社外秘”を上げないでください

ナレッジに登録した資料は、Dify Cloud（海外のクラウドサービス）に保存されます。練習の段階では、個人情報や社外秘を含む本物の資料は使わないでください。まずは差し支えのない資料や、ダミーのサンプルで試し、本番運用の前に必ず自社の情報取り扱いルールを確認しましょう。本記事でも、実在しない架空のサンプル「社内FAQ・オフィス利用ガイド」を使います。

① ナレッジを作って資料をアップロードする

上部メニューのナレッジを開き、ナレッジベースを作成をクリックします。続いてテキストファイルからインポートが選ばれた状態で、資料ファイルをドラッグ＆ドロップ（または「参照」から選択）します。

対応ファイルは幅広く、PDF・Word（DOC/DOCX）・Excel（XLS/XLSX）・PowerPoint・テキスト・Markdown・HTML・CSV などが使えます。今回は架空のサンプルFAQ（テキストファイル）をアップロードしました。

📄 同じサンプルをダウンロードして試せます

この記事で使った架空の「社内FAQ・オフィス利用ガイド（サンプル）」テキストです。ダウンロードして、同じ手順をそのまま試せます（実在の社内規程ではありません）。

サンプルをダウンロード（.txt）

ナレッジベース作成のデータソース画面。サンプルのテキストファイルをアップロードした状態。対応ファイル形式と1ファイル15MBまでの注記が表示されている — **▲ 図4-1** 資料をアップロードした状態。対応形式（PDF/Word/Excel等）と**「各ファイル15MBまで・一度に1ファイル」**の注記が確認できます。

⚠️ Sandboxプランの上限（容量に注意）

無料のSandboxでは、1ファイル15MBまで・一度にアップロードできるのは1ファイル（複数まとめてのアップロードは有料機能）。ナレッジ全体ではドキュメント50件・合計50MBまでです。大きなPDFは、章ごとに分割するなどして1ファイル15MB以内に収めましょう。

② チャンク設定とインデックス方法を選ぶ

次へを押すと、2つの設定が出てきます。少し専門的ですが、初心者向けに要点だけ押さえれば大丈夫です。

チャンク設定（資料の“分け方”）

チャンクとは、長い資料を検索しやすい小さなかたまりに分割することです。AIは資料を丸ごと読むのではなく、質問に関連するチャンクだけを探して使います。分け方は2モードあります。

汎用（General）… いちばん標準的な分け方。まずはこれでOKです。
親子（Parent-child）… 検索用の小さなかたまりと、文脈用の大きなかたまりを使い分ける発展的なモード。

チャンクをプレビューを押すと、資料が実際にどう分割されるかを右側で確認できます（サンプルFAQが項目ごとのチャンクに分かれているのが分かります）。

インデックス方法（資料の“探し方”）― ここがクレジットの分かれ道

もうひとつが インデックス方法。これはクレジット消費に直結する重要な選択です。

方法	仕組み	クレジット
経済的（Economical）	キーワードで探す方式（転置インデックス）。手軽。	消費ゼロ ✓本連載の既定
高品質（High-Quality）	意味で探す方式（ベクトル／埋め込み）。精度が高い。	埋め込みでクレジットを消費

本連載では、まずクレジットを使わない「経済的」を選びます。図4-2のように「経済的」を選択してください（選ぶと青い枠が付きます）。

チャンク設定（汎用）とインデックス方法の画面。経済的が選択され、右側にチャンクのプレビューが表示されている — **▲ 図4-2** チャンクは「汎用」、インデックス方法は**「経済的」**を選択。右側でチャンクの分割結果をプレビューできます。

⚠️ 「高品質」は“あと戻りできない”＆クレジット消費

高品質（ベクトル検索）は精度が上がりますが、埋め込みモデルを使うためクレジットを消費します。さらにDifyの仕様上、一度「高品質」で処理すると「経済的」には戻せません（画面にも「経済的モードに戻すことはできません」と表示されます）。精度を上げたいときの選択肢として、第5回であらためて扱います。まずは無料の「経済的」で十分です。

③ 保存して処理 ― ナレッジ完成

設定できたら保存して処理をクリックします。経済的モードなら処理はすぐ終わり、ドキュメントのステータスが「利用可能」になればナレッジの完成です。チャンキングモードが「汎用」、単語数なども表示されます。

完成したナレッジのドキュメント一覧。社内FAQサンプル.txtがステータス『利用可能』、チャンキングモード『汎用』で表示されている — **▲ 図4-3** 完成したナレッジ。ドキュメントのステータスが**「利用可能」**になりました。これで“社内資料の検索エンジン”が用意できたことになります。

④ クレジットの確認

恒例のクレジット確認です。設定▸モデルプロバイダー▸クォータを見てみましょう。「経済的」で作ったナレッジは、AI（埋め込みモデル）を使わないため、クレジットは消費されません（残量は変わらないはずです）。資料を読み込ませる土台を、コストゼロで用意できました。

💰 ナレッジとクレジットの関係

経済的（キーワード検索）：作成・検索ともにクレジット消費なし
高品質（ベクトル検索）：資料を読み込む際の埋め込みでクレジットを消費（戻せない）

まとめと次回予告

今回は、社内資料（架空のサンプルFAQ）を読み込ませてナレッジ（RAG）を作りました。チャンクとインデックス方法の意味を理解し、クレジットを使わない「経済的」で完成まで到達しました。ただし、これはまだ“資料の検索エンジン”ができただけ。ボットとはつながっていません。

▶ 次回（第5回）
いよいよ連載の目玉です。今回のナレッジを第2回のチャットボットに接続し、出典付きで自社資料から答える“社内FAQアシスタント”を完成させます。検索の精度を上げる設定（高品質へのアップグレード判断）にも触れます。

この記事で参照した公式情報

※ 画面のメニュー名や対応ファイル形式・上限は、Difyのアップデートで変わることがあります。本記事は公開時点の情報・実画面にもとづいています。アップロードした文書は架空のサンプルです。スクリーンショット内のワークスペース名（メールアドレス）は記事用に伏せています。

TechBlog

社内ドキュメントを読ませる
― ナレッジ(RAG)の作り方