大模型(LLM)技术

什么是大语言模型?

大语言模型(Large Language Model):使用大量文本数据训练的深度学习模型。

Token和WordEmbedding概念

Token化:为了将文字表示成数字

  • 句子:我是一名AI工程师。
  • 字:我/是/一/名/A/I/工/程/师/。
  • 词:我/是/一名/AI/工程师/。
  • Bi-Gram:我是/是一/一名/名A/AI/工/工程/程师/师。
  • Tri-Gram:我是一/是一名/-名A/名AI/AI工/工程/工程师/程师。/师。

WordEmbedding:把每个单词表示成一串小数

  • Al[0.70753,0.93948,0.00133,0.70741,0.79584,0.30115,0.28655,0.55261,…]
  • 工程师[0.73236,0.73890,0.64466,0.54484,0.80536,0.46147,0.96903,0.88725,…]
  • 是[0.41284,0.41901,0.37967,0.90657,0.99241,0.05147,0.85335,0.29367,…]
  • 我[0.54362,0.46765,0.37969,0.55248,0.90865,0.08897,0.34130,0.29651,…]
  • 一名[0.69308,0.84442,0.21239,0.55487,0.08609,0.52786,0.55209,0.43071,…]

LLM局限

大模型本身,提供了自然语言理解、推理和生成能力,包含了知识和常识。但是,它有几大局限:

LLM局限解决办法
知识有限
没有时效数据
没有私有数据/不具备某些能力/特定任务表现不佳
Prompt辅助
Embedding辅助
不会用工具
不能利用外部的工具。比如,用计算器来算sin(x)
函数调用
学废了:
不能保证精准度
有些知识学的不对
API微调

LLM应用范式1——Prompt辅助

任务提示 Instructions:判断/抽取/总结/翻译
上下文 Context:任务描述/背景/案例/Round1.2.3
输入数据 Input data:自定义文本/用户端
输出格式 Output indicator:以XX口吻/

零样本/少样本:用Prompt解决传统NLP算法问题(提供服务)

I’role”:”assistant”,”content”:”这是一份英文文件(5单页文档打我需要你的帮助,阅读并总结以下问题:“1
I’role”:”user”,”content”:”
1.标明论文的标题《用中文)
2.列出所有作者的姓名《用英文)。
3.标明第一作者的单位《用中文》4.标明本文的关键词《用英文》。
5.论文链类,Github代码错接(如有,则填写Github:无)。
6.根据以下四点进行总结。请务必使用1答案(专有名词需要用类文标注)
-(1):这篇文章的研究背景是什么?
-(2):过去的方法有哪些?它们的问题是什么?该方法的动机是否充分?
-(3):本文提出的研究方法是什么?
(4):本文中的方法在什么任务和什么性能上实现?性能能否支持其目标?
按照下面的编出移式:
1.标题:x
2.作者:mn
3.地址;xxin
4.关键词:xxxn
5.代码:xx or xx,xx in
6.摘要:n
(1):mx,in(2):xxx,in
(3):xxx,in(4):xxx.הiח
一定要用中文回答(专有名词需要用英文标注),语句尽量简洁,学术性强,不要有太多的重复信息,数信采用原始数字,一定要严格按照格式,按照/n执行。

LLM应用范式2——Embedding辅助

Plugins和Copilot展示了目前AI与应用结合的两种范式:

  • 轻上下文轻交互的应用,通过Plugins整合
  • 而重上下文、重交互、流程复杂的应用,可以通过Copilot的方式将AI能力整合进其自身应用

LLM应用范式3——API微调

准备数据-长传数据-模型微调-新的API

大模型微调:Prompt tuning、prefix tuning、LoRA、p-tuning和AdaLoRA

LLM应用开发栈

  • 基础模型与数据(算法、算力门槛高)
    • 基础大模型:OpenAl、文心一言、PaLM
    • 开源模型:Bloom、LLaMa、Alpaca、ChatGLM-6B、MOSS
    • Code模型:CodeX、BigCode
    • 模型hubs:Huggingface
    • 数据与工具:Humanfirst、scale、数据集
  • 模型开发
    • LLM训练:内存通讯带宽、分布式训练、模型切分、并行计算、Token、优化器、混合精度、显存优化技术
    • 深度学习框架:飞桨PaddlePaddle
    • 分布式训练框架:Megatron、DeepSpeed
    • 大模型微调:Prompt tuning、prefix tuning、LoRA、p-tuning和AdaLoRA等
    • 轻量化:量化int8、int4
    • 评价体系:评价指标
  • 应用开发(80%)
    • LLM工具:PromptChainer、LangChain、Toolformer、stack ai、humanloop
    • Agent:AutoGPT、BabyAGI、Jarvis
    • 向量数据库:Pinecone数据库
    • Prompt工程工具:FlowGPT、ClickPrompt、Learning Prompt
  • 工具
    • 飞桨 Al Studio、
    • EasyDL、
    • PaddleNLP、
    • Transformers、
    • SentenceBert、
    • RocketQA、
    • PEFT、
    • DeepSpeedChat、
    • LangChain、