รัน AI บน Linux SBC ด้วย Python: Hugging Face to Edge Inference (1 ...

byBoonyadol Morruchai (Senior Full-stack Developer) •16:48

0

รัน AI Model บน Linux Single Board Computer ด้วย Python: จาก Hugging Face ถึง Edge Inference ใน 1 ชั่วโมง (สำหรับ MUHUASHA)

the word ai spelled in white letters on a black surface — Photo by Markus Spiske on Unsplash

ผมเคยเจอปัญหาแบบนี้มาแล้วหลายครั้ง ตอนที่ทีมงานอยากเอาโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ไปใช้งานจริงบนอุปกรณ์ Edge ที่มีทรัพยากรจำกัดอย่าง MUHUASHA board เนี่ยครับ ปกติแล้วการ deploy โมเดลขนาดใหญ่บนอุปกรณ์เหล่านี้มันเป็นเรื่องที่ยากมาก เพราะต้องใช้เวลาในการ setup และปรับแต่งเยอะมาก แถมยังต้องมาเจอกับปัญหาเรื่อง Memory Leak ด้วย ทำให้การทำงานมันช้าและไม่เสถียร เราเลยต้องหาวิธีอื่นที่รวดเร็วและง่ายกว่าเดิม เพื่อให้เราสามารถทดลองใช้งานโมเดล AI ได้อย่างจริงจังและตอบโจทย์การใช้งานบนอุปกรณ์ Edge ได้อย่างมีประสิทธิภาพ

บทความนี้จะช่วยให้คุณสามารถรัน AI Model จาก Hugging Face บน Linux Single Board Computer (MUHUASHA ในกรณีนี้) ได้ภายใน 1 ชั่วโมง โดยใช้ Python และเครื่องมือต่างๆ ที่เหมาะสม วิธีนี้เหมาะสำหรับนักพัฒนา, นักวิจัย, หรือคนที่อยากทดลองใช้ AI บนอุปกรณ์ Edge ที่มีทรัพยากรจำกัด แต่ไม่ต้องการลงทุนใน infrastructure ที่ซับซ้อนมากนัก

การเตรียมพร้อม

ก่อนที่เราจะเริ่ม เราต้องมีสิ่งเหล่านี้:

MUHUASHA board ที่ติดตั้ง Linux (แนะนำ Ubuntu 26.04)
Python 3.11 (หรือเวอร์ชันที่ใหม่กว่า)
pip (package installer for Python)
Git (สำหรับ clone repository)
Hugging Face Account (สำหรับดาวน์โหลดโมเดล)

การติดตั้ง Python และ pip บน MUHUASHA สามารถทำได้โดยใช้คำสั่ง:


sudo apt update
sudo apt install python3 python3-pip

หลังจากนั้น เราจะใช้ pip เพื่อติดตั้ง library ที่จำเป็น:


pip3 install transformers torch torchvision torchaudio

ถ้าคุณเคยเจอปัญหา Memory Leak ในการ run inference ก่อนหน้านี้ (แก้ Memory Leak Python Inference 24 ชม.: คู่มือสุดเจ๋ง 2026) ผมแนะนำให้เราทำความเข้าใจเรื่องนี้ด้วยนะครับ เพราะมันเป็นปัญหาที่พบบ่อยเมื่อทำงานกับโมเดล AI ที่มีขนาดใหญ่

ดาวน์โหลดและโหลดโมเดล

A close up of a word written in sand — Photo by Immo Wegmann on Unsplash

เราจะใช้ Hugging Face Transformers library เพื่อดาวน์โหลดและโหลดโมเดลภาษาที่เราต้องการใช้งาน ตัวอย่างเช่น เราจะใช้โมเดล `bert-base-uncased`:


from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

print("Model loaded successfully!")

Output ที่ควรได้คือ ข้อความ "Model loaded successfully!" ถ้ามีข้อผิดพลาด เช่น "CUDA out of memory" แสดงว่าโมเดลมีขนาดใหญ่เกินไปสำหรับ GPU ของ MUHUASHA board หรือเราต้องปรับขนาด batch size ให้เล็กลง หรือใช้โมเดลที่มีขนาดเล็กกว่า

การทำ Inference

ตอนนี้เราได้โหลดโมเดลแล้ว เราสามารถใช้โมเดลนี้เพื่อทำ inference บน text ที่เราต้องการได้ ตัวอย่างเช่น:


text = "This is an example sentence."
encoded_input = tokenizer(text, return_tensors='pt')

output = model(**encoded_input)
print(output.last_hidden_state.shape)

Output ที่ควรได้คือ `torch.Size([1, 9, 768])` ซึ่งหมายความว่าเราได้ผลลัพธ์เป็น hidden state ของแต่ละ token ในประโยคนี้ hidden state นี้สามารถนำไปใช้ในการทำ task อื่นๆ ที่เกี่ยวข้องกับภาษาได้ เช่น sentiment analysis หรือ question answering

จริงๆ ผมไม่ค่อยชอบวิธีนี้เพราะมันใช้ GPU มากเกินไปบน MUHUASHA board ที่มี GPU ที่ไม่ค่อยแรง แต่ถ้าจำเป็นจริงๆ เราสามารถใช้ CPU แทนได้ โดยการตั้งค่า `device = torch.device('cpu')` ก่อนโหลดโมเดล

สิ่งที่ควรระวัง / ข้อผิดพลาดที่เจอบ่อย

มีข้อผิดพลาดที่พบบ่อยหลายอย่างเมื่อรัน AI Model บน Linux Single Board Computer:

Out of Memory Error: โมเดลมีขนาดใหญ่เกินไปสำหรับ GPU ของ MUHUASHA board หรือเราใช้ batch size ที่ใหญ่เกินไป วิธีแก้คือ ลด batch size, ใช้โมเดลที่มีขนาดเล็กกว่า หรือใช้ quantization เพื่อลดขนาดโมเดล
CUDA Error: อาจเกิดจาก driver ของ CUDA ไม่ถูกต้อง หรือ CUDA toolkit ไม่ได้รับการติดตั้งอย่างถูกต้อง วิธีแก้คือ อัพเดท driver ของ CUDA หรือติดตั้ง CUDA toolkit ใหม่
Dependency Issues: บางครั้ง library ที่เราติดตั้งอาจไม่เข้ากัน วิธีแก้คือ อัพเดทหรือ downgrade library ที่เกี่ยวข้อง
CPU Bottleneck: ถ้าเราใช้ CPU แทน GPU การ inference อาจช้ามาก วิธีแก้คือ พิจารณาใช้ GPU ที่มีประสิทธิภาพมากกว่า หรือปรับขนาดโมเดลให้เล็กลง

ถ้าคุณพบปัญหา Memory Leak (แก้ Memory Leak Python Inference 24 ชม.: คู่มือสุดเจ๋ง 2026) ให้ตรวจสอบการใช้งาน memory ของโปรแกรมของคุณอย่างละเอียด และพยายาม release resources ที่ไม่ได้ใช้งานแล้ว

สรุปและขั้นตอนต่อไป

ผมได้แสดงให้เห็นว่าเราสามารถรัน AI Model บน Linux Single Board Computer ด้วย Python ได้ภายใน 1 ชั่วโมง โดยใช้ Hugging Face และเครื่องมือต่างๆ ที่เหมาะสม สิ่งสำคัญคือการเตรียมพร้อมก่อนเริ่ม ทำความเข้าใจปัญหาที่อาจเกิดขึ้น และปรับแต่งการตั้งค่าให้เหมาะสมกับทรัพยากรที่มีอยู่

ขั้นตอนต่อไป:

ลองใช้โมเดลอื่นๆ ที่มีขนาดเล็กกว่า เช่น `distilbert-base-uncased`
ทดลองใช้ quantization เพื่อลดขนาดโมเดล
ศึกษาเรื่อง edge inference optimization techniques เพื่อเพิ่มประสิทธิภาพในการทำงาน
พิจารณาใช้ framework อื่นๆ ที่เหมาะกับการ deploy บน edge devices เช่น TensorFlow Lite

ผมหวังว่าบทความนี้จะเป็นประโยชน์สำหรับคุณในการเริ่มต้นใช้งาน AI บนอุปกรณ์ Edge ครับ ถ้าคุณมีคำถามหรือข้อสงสัยเพิ่มเติม สามารถสอบถามได้เลย

คำถาม

คำถาม: ผมควรเลือกโมเดลอะไรดีถ้า MUHUASHA board ของผมมี RAM แค่ 1GB?

คำตอบ: ควรเลือกโมเดลที่มีขนาดเล็กกว่า เช่น `distilbert-base-uncased` หรือ `bert-base-uncased` ซึ่งมีขนาดประมาณ 100MB - 300MB ซึ่งจะเหมาะสมกับ RAM 1GB ของ MUHUASHA board มากกว่า