🚀 Diploma in AI Integrated Development: Web × Apps × Data Science 將於 2026年5月7日 開始 Early Bird 優惠 🎓 英國學歷課程! NCC Diploma in Computing 將於 2026年5月5日 註冊截止日期 Limited Seats

Certificate in Building Multimodal AI Systems with Python
Using Hugging Face and Gemini Python 多模態 AI 系統開發專業證書課程

Python 🤗 Hugging Face Gemini FAISS LangChain Streamlit FastAPI

本課程旨在培訓學員使用 Python 建立生產級多模態 AI 系統,結合 Hugging Face 開源模型及 Gemini 雲端模型的強大功能。 學員將學習使用自有數據進行模型微調、實作發票辨識系統、建立 RAG 聊天機器人、開發 AI Agents,並使用 Streamlit、FastAPI 及雲端平台進行應用部署。 課程專注於業界標準向量資料庫 FAISS,確保學員獲得深入、實用的技術掌握,而非淺層的工具接觸。

Multimodal AI Systems Banner

課程目標 🎯

  • ✅ 使用 Python 開發多模態 AI 系統
  • ✅ 理解並比較 Hugging Face 和 Gemini 模型,並適當使用
  • ✅ 使用自有數據集微調 Hugging Face 預訓練模型
  • ✅ 使用圖像和視覺語言模型建立發票辨識系統
  • ✅ 使用 FAISS 實作嵌入管道和語義搜尋
  • ✅ 設計用於員工培訓和客戶查詢的 RAG 聊天機器人
  • ✅ 使用 LangChain 和 LangGraph 建立 AI Agents
  • ✅ 創建互動式 Streamlit 網頁應用程式
  • ✅ 使用 FastAPI 開發後端 AI 服務
  • ✅ 將基於 Python 的 AI 系統部署到雲端環境

學習成果 🎓

成功完成本課程後,學員將能夠:

  • 解釋多模態 AI 概念和系統架構
  • 區分 Hugging Face 和 Gemini 在微調、部署和成本方面的差異
  • 使用 Python 準備和管理自有數據集
  • 使用參數高效技術微調預訓練圖像或文本模型
  • 建立從圖像中提取結構化數據的發票辨識管道
  • 使用 FAISS 生成嵌入並執行語義搜尋
  • 實作由私有知識庫支援的 RAG 聊天機器人
  • 開發具有多步驟推理能力的智能 AI Agents
  • 為 AI 應用程式建立基於 Streamlit 的用戶界面
  • 使用 FastAPI 和雲端平台部署和管理生產級 AI 系統

課程特色 ✨

  • 100% Python 開發: 所有開發、微調、API、Agents 和 UI 均使用 Python 實作。
  • 雙模型框架: 同時學習 Hugging Face 開源模型和 Gemini 雲端模型,了解各自優缺點及適用場景。
  • 自有數據微調: 學習使用 LoRA、PEFT 等參數高效技術,使用自己的數據微調預訓練模型。
  • 實戰發票辨識系統: 從圖像中提取發票號碼、日期、供應商、總金額等結構化數據。
  • 專注 FAISS 向量資料庫: 深入學習業界標準向量資料庫,掌握索引建立、向量存儲和相似度搜尋。
  • RAG 聊天機器人開發: 建立員工培訓和客戶查詢聊天機器人,整合私有知識庫。
  • AI Agents 工程能力: 使用 LangChain 和 LangGraph 開發具有工具使用、記憶和多步驟推理能力的智能代理。
  • 完整全棧開發: 從 Streamlit 前端 UI 到 FastAPI 後端 API,再到雲端部署。

課程目標對象 👩‍💻👨‍💻

  • 🔰 Python 開發者: 想要進入 AI 領域,學習如何使用 Python 建立多模態 AI 系統。
  • 💡 AI/ML 工程師: 需要掌握 Hugging Face、Gemini、RAG、向量資料庫等實用技術。
  • 🏢 企業 IT 開發人員: 想將 AI 能力整合到現有系統,處理文件、圖像和客戶查詢。
  • 📊 數據科學家: 希望擴展技能至多模態 AI 應用開發和生產部署。
  • 🚀 創業者/產品經理: 想了解如何使用現代 AI 技術建立實際產品。

為什麼選擇這課程? 🤔

  • 🚀 完整技能樹: Python → Hugging Face/Gemini → Fine-tuning → FAISS → RAG → Agents → Streamlit → FastAPI → Cloud Deployment
  • 🧠 深度而非廣度: 專注 FAISS 向量資料庫,確保深入掌握而非淺嚐輒止。
  • 📦 企業級實戰專案: 發票辨識系統、員工培訓聊天機器人、客戶查詢機器人等實際應用。
  • 🔧 開源 + 商業模型並重: 同時掌握 Hugging Face 開源模型和 Gemini 商業 API。
  • 🎥 完整錄影+實作範例: 可反覆複習,帶你完全掌握。

你將學到什麼 💡

使用 Python 開發完整多模態 AI 系統

🤗 掌握 Hugging Face 開源模型與微調技術

使用 Gemini API 處理文本、圖像和文件

建立 FAISS 向量資料庫與語義搜尋系統

使用 LangChain/LangGraph 開發 AI Agents

Streamlit UI + FastAPI 後端 + 雲端部署

Course Content

Module 1.1 – Python for Multimodal AI Development
  • Role of Python in AI systems
  • Python libraries for AI pipelines
🤗 Module 1.2 – Hugging Face Ecosystem
  • Transformers, Pipelines, and Datasets
  • Open‑source model usage in Python
  • Local inference and customization
Module 1.3 – Gemini Models and APIs
  • Gemini multimodal capabilities
  • Python API usage
  • Cloud‑based inference
Module 1.4 – Hugging Face vs Gemini (Explicit Comparison)
  • Open‑source vs proprietary
  • Fine‑tuning vs API‑only access
  • Data privacy and deployment options
  • When to use each in real projects
Practical Lab

Run multimodal inference using both Hugging Face and Gemini in Python

Module 2.1 – Image and Vision‑Language Models
  • Image classification and document understanding
  • OCR vs vision‑language models
Module 2.2 – Working with Self‑Owned Image Data
  • Creating invoice datasets
  • Image preprocessing using Python
Module 2.3 – Fine‑Tuning with Self‑Owned Data
  • Parameter‑efficient fine‑tuning (LoRA, PEFT)
  • Fine‑tuning pretrained image or multimodal models
  • Evaluation and validation
Module 2.4 – Invoice Recognition System
  • Field extraction (invoice number, date, vendor, total)
  • Structured JSON output
Practical Lab

✅ Build an invoice recognition system using custom invoice images

Module 3.1 – Embeddings Fundamentals
  • What embeddings are
  • Text and document embeddings in Python
Module 3.2 – Embedding Models
  • Hugging Face embedding models
  • Gemini embedding APIs
  • Model selection considerations
Module 3.3 – Vector Database with FAISS ✅
  • Why FAISS is used
  • FAISS architecture and indexing
  • Creating and storing vectors in FAISS
  • Similarity search
  • Metadata handling
Module 3.4 – Retrieval‑Augmented Generation (RAG)
  • RAG architecture
  • Integrating FAISS with LLMs
  • Private knowledge retrieval
Practical Lab

✅ Build an embedding pipeline and semantic search system using FAISS

Module 4.1 – RAG Chatbots with LangChain
  • Retrievers and chains
  • Prompt templates
  • Staff training chatbot
  • Customer enquiry chatbot
Module 4.2 – AI Agents with LangChain and LangGraph
  • Agent design
  • Tool usage
  • Memory and multi‑step reasoning
Module 4.3 – Streamlit Web UI
  • Chat interfaces
  • Image upload interfaces
  • Session state management
  • Connecting Streamlit to backend services
Module 4.4 – FastAPI and Cloud Deployment
  • API design
  • Async inference
  • Docker containerization
  • Cloud deployment strategies
Final Capstone Project

🎯 Enterprise Multimodal AI Application

Includes:

  • Invoice recognition system
  • FAISS‑based knowledge retrieval
  • Staff training chatbot
  • Customer enquiry chatbot
  • LangChain and LangGraph agents
  • Streamlit web UI
  • FastAPI backend
  • Cloud deployment

導師簡介

Dannis Mok

He has rich experience in business web and apps system development and over 25 years of teaching experience. He has a great passion for learning and teaching new technologies, and his teaching style is clear, to the point, and simplifies complex technologies into easy-to-understand terms.

He has delivered various workshops and classes for well-known corporates, government departments, and local universities, specializing in office automation, data science, data analysis, and business web and apps system development. He is the principal lecturer for NCC Education and University of Greenwich, and has provided training that equips professionals with practical skills tailored to industry needs.

By leveraging his expertise in these areas, he has successfully trained professionals in corporate organizations and government departments to enhance efficiency, adopt data-driven decision-making, and embrace automation technologies.

In addition to his BSc degree in IT, he holds an MBA, an MSc in IT, and an MSc in Telecommunication.

Microsoft MOS Master Microsoft MOS Word Microsoft MOS Excel Microsoft MOS PowerPoint Microsoft MOS Access CompTIA Data Plus Microsoft Power BI Data Analyst Associate Python Institute PCAP
相關專業認證
  • Microsoft MCSE, MCDBA
  • Microsoft Certified System Developer
  • Microsoft Office Specialist Master
  • Cisco CCNA,CCDA,CCNP,CCDP
  • Sun Microsystems -- Certified Java Programmer
  • Oracle -- Certified Database Professional
  • Linux - LPI Level 1 & 2
  • CompTIA Data+
  • Microsoft Certified: Power BI Data Analyst Associate
  • Python Institute: Certified Associate Python Programmer
相關教學經驗
  • 為積金局 (MPF) IT 員工提供 Android 及 iPhone 視像培訓課程
  • 為香港教育局提供 Android 培訓課程予中學電腦科導師
  • 為香港教育大學 IT 員工提供 Cordova 跨平台流動程式開發課程
  • 為房屋署員工 IT 員工提供 HTML5 跨平台流動程式開發課程
  • 為房屋署員工 IT 員工提供 Android 及 iPhone 平台流動程式開發課程
  • 為香格里拉大酒店IT 員工提供 Android 流動程式開發課程
  • 為勞工處提供 HTML5 遊戲培訓課程及電子商店培訓課程
  • 為中國銀行IT 員工提供 Android 及 iPhone 流動程式開發課程
  • 為香港郵政IT 員工提供 Angular 8 程式開發課程
  • 為 VTC 職業訓練局提供各種各類 IT 培訓課程
  • 為醫管局員工 IT 員工提供跨平台流動程式開發課程

視像課程內容

除面授課堂,同學亦可重溫課程錄影片段,觀看期為期一年,可在家無限重播。

PowerBI Relationship (08m:59s)
Python Pandas (06:32)
PowerAutomate Auto Sum Up (06:32)

網上學習系統

為配合在職人士的需求,本校的課程已全部錄影,學員可因應自己的學習進度,隨時隨地選擇任何一科開始學習。學員有充裕的時間去不斷重溫及重播相關技術課程片段,務求令自己掌握相關技術。

詳細視像課程內容,請登入網上學習系統觀看。

登入戶口: demo

登入密碼: demo

LOGIN
Online Learning System

報名及付款

Certificate in Building Multimodal AI Systems with Python

Using Hugging Face and Gemini

Course Code: MMA2026

Schedule: Starts on 7th May, 7:00 PM -- 9:30 PM

Total Duration: 4 lessons (10 hours)

🎉 Early Bird Discount 🎉

$2,980 $1,980

其他付款方式

支付詳情

  • 轉數快: 快速支付系統識別碼: 108329293
  • 銀行轉帳: 恆生銀行 #789-681384-883
    (戶口名稱: UNiSOFT Education Limited)
  • 支票付款: 枱頭請寫 UNiSOFT Education Limited

注意: 如選用轉數快或銀行轉帳完成付款後,請將付款記錄 Whatsapp 到 90455522

校舍地址及聯繫方式

校舍地址: 九龍佐敦德興街12號興富中心5樓501室
辦公時間: 星期一至星期五 上午11時至晚上8時