YOKUTO TECH BLOG

TechBlog

AI・リプレイス・ニアショア開発まで。札幌のシステム開発会社ヨクトのエンジニアが、現場で得た知見や技術トピックを発信します。

Dify超入門 ・ ぜんぶ無料ではじめる全10回 第 4 回

社内ドキュメントを読ませる
― ナレッジ(RAG)の作り方

ここまでのボットは“一般論”しか答えられませんでした。今回は、社内の資料をDifyに読み込ませる「ナレッジ(RAG)」を作り、“自社専用ボット”への土台を用意します。クレジットを消費しない設定で進めるので安心してください。

著者:株式会社ヨクト 技術チーム 公開日:2026.05.28 読了目安:約10分
#Dify#AI#RAG#ナレッジ#社内文書

今回のゴールと「RAG」とは

第2回・第3回で作ったボットは、AIが元から持っている“一般的な知識”で答えていました。だから「自社の就業規則では?」のような社内固有の質問には答えられません。それを解決するのが、今回作るナレッジ(RAG)です。

RAGRetrieval-Augmented Generation(検索拡張生成) の略で、むずかしく聞こえますが、やることはシンプルです。「AIに自社の資料を渡しておき、質問が来たら関連する部分を“検索”して、それを参考に答えてもらう」仕組みです。たとえるなら、AIに“カンニングペーパー(社内資料)”を持たせてあげるイメージです。

💡 今回のゴール

  • 社内資料を読み込ませるナレッジ(知識ベース)を1つ作る
  • チャンク(資料の分け方)とインデックス方法(探し方)の違いを理解する
  • クレジットを消費しない設定(Economical)でナレッジを完成させる

※今回はナレッジの“土台作り”まで。これをボットにつないで完成させるのは第5回です。

はじめに:アップロードする資料の注意点

⚠️ いきなり“本物の社外秘”を上げないでください

ナレッジに登録した資料は、Dify Cloud(海外のクラウドサービス)に保存されます。練習の段階では、個人情報や社外秘を含む本物の資料は使わないでください。まずは差し支えのない資料や、ダミーのサンプルで試し、本番運用の前に必ず自社の情報取り扱いルールを確認しましょう。本記事でも、実在しない架空のサンプル「社内FAQ・オフィス利用ガイド」を使います。

① ナレッジを作って資料をアップロードする

上部メニューの ナレッジ を開き、ナレッジベースを作成 をクリックします。続いて テキストファイルからインポート が選ばれた状態で、資料ファイルをドラッグ&ドロップ(または「参照」から選択)します。

対応ファイルは幅広く、PDF・Word(DOC/DOCX)・Excel(XLS/XLSX)・PowerPoint・テキスト・Markdown・HTML・CSV などが使えます。今回は架空のサンプルFAQ(テキストファイル)をアップロードしました。

📄 同じサンプルをダウンロードして試せます

この記事で使った架空の「社内FAQ・オフィス利用ガイド(サンプル)」テキストです。ダウンロードして、同じ手順をそのまま試せます(実在の社内規程ではありません)。

サンプルをダウンロード(.txt)
ナレッジベース作成のデータソース画面。サンプルのテキストファイルをアップロードした状態。対応ファイル形式と1ファイル15MBまでの注記が表示されている
▲ 図4-1 資料をアップロードした状態。対応形式(PDF/Word/Excel等)と「各ファイル15MBまで・一度に1ファイル」の注記が確認できます。

⚠️ Sandboxプランの上限(容量に注意)

無料のSandboxでは、1ファイル15MBまで・一度にアップロードできるのは1ファイル(複数まとめてのアップロードは有料機能)。ナレッジ全体ではドキュメント50件・合計50MBまでです。大きなPDFは、章ごとに分割するなどして1ファイル15MB以内に収めましょう。

② チャンク設定とインデックス方法を選ぶ

次へ を押すと、2つの設定が出てきます。少し専門的ですが、初心者向けに要点だけ押さえれば大丈夫です。

チャンク設定(資料の“分け方”)

チャンクとは、長い資料を検索しやすい小さなかたまりに分割することです。AIは資料を丸ごと読むのではなく、質問に関連するチャンクだけを探して使います。分け方は2モードあります。

チャンクをプレビュー を押すと、資料が実際にどう分割されるかを右側で確認できます(サンプルFAQが項目ごとのチャンクに分かれているのが分かります)。

インデックス方法(資料の“探し方”)― ここがクレジットの分かれ道

もうひとつが インデックス方法。これはクレジット消費に直結する重要な選択です。

方法仕組みクレジット
経済的
(Economical)
キーワードで探す方式(転置インデックス)。手軽。消費ゼロ ✓本連載の既定
高品質
(High-Quality)
意味で探す方式(ベクトル/埋め込み)。精度が高い。埋め込みでクレジットを消費

本連載では、まずクレジットを使わない「経済的」を選びます。図4-2のように「経済的」を選択してください(選ぶと青い枠が付きます)。

チャンク設定(汎用)とインデックス方法の画面。経済的が選択され、右側にチャンクのプレビューが表示されている
▲ 図4-2 チャンクは「汎用」、インデックス方法は「経済的」を選択。右側でチャンクの分割結果をプレビューできます。

⚠️ 「高品質」は“あと戻りできない”&クレジット消費

高品質(ベクトル検索)は精度が上がりますが、埋め込みモデルを使うためクレジットを消費します。さらにDifyの仕様上、一度「高品質」で処理すると「経済的」には戻せません(画面にも「経済的モードに戻すことはできません」と表示されます)。精度を上げたいときの選択肢として、第5回であらためて扱います。まずは無料の「経済的」で十分です。

③ 保存して処理 ― ナレッジ完成

設定できたら 保存して処理 をクリックします。経済的モードなら処理はすぐ終わり、ドキュメントのステータスが「利用可能」になればナレッジの完成です。チャンキングモードが「汎用」、単語数なども表示されます。

完成したナレッジのドキュメント一覧。社内FAQサンプル.txtがステータス『利用可能』、チャンキングモード『汎用』で表示されている
▲ 図4-3 完成したナレッジ。ドキュメントのステータスが「利用可能」になりました。これで“社内資料の検索エンジン”が用意できたことになります。

④ クレジットの確認

恒例のクレジット確認です。設定モデルプロバイダークォータ を見てみましょう。「経済的」で作ったナレッジは、AI(埋め込みモデル)を使わないため、クレジットは消費されません(残量は変わらないはずです)。資料を読み込ませる土台を、コストゼロで用意できました。

💰 ナレッジとクレジットの関係

  • 経済的(キーワード検索):作成・検索ともにクレジット消費なし
  • 高品質(ベクトル検索):資料を読み込む際の埋め込みでクレジットを消費(戻せない)

まとめと次回予告

今回は、社内資料(架空のサンプルFAQ)を読み込ませてナレッジ(RAG)を作りました。チャンクとインデックス方法の意味を理解し、クレジットを使わない「経済的」で完成まで到達しました。ただし、これはまだ“資料の検索エンジン”ができただけ。ボットとはつながっていません。

▶ 次回(第5回)
いよいよ連載の目玉です。今回のナレッジを第2回のチャットボットに接続し、出典付きで自社資料から答える“社内FAQアシスタント”を完成させます。検索の精度を上げる設定(高品質へのアップグレード判断)にも触れます。

この記事で参照した公式情報

※ 画面のメニュー名や対応ファイル形式・上限は、Difyのアップデートで変わることがあります。本記事は公開時点の情報・実画面にもとづいています。アップロードした文書は架空のサンプルです。スクリーンショット内のワークスペース名(メールアドレス)は記事用に伏せています。

社内データを活かすAI、プロと一緒に進めませんか?

「自社の大量の文書を安全にAIへ読み込ませたい」「RAGの精度や情報管理まで本格的に詰めたい」――そんなときは、要件定義から運用までを完全内製で伴走する株式会社ヨクトにご相談ください。

AI開発について見る お問合せ