Hugging Face发布重量级版本：Transformer 4.42

Hugging Face 宣布发布Transformer 4.42，该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型，支持新工具和检索增强生成（RAG），提供 GGUF 微调，并整合了量化的 KV 缓存，以及其他改进。

随着Transformer 4.42的发布，包括Gemma 2、RT-DETR、InstructBlip 和 LLaVa-NeXT-Video在内的新模型的发布也使其更加值得关注。下面就一起看下这些新的更新。

Gemma 2 模型系列由 Google 的 Gemma2 团队开发，这些模型在 6万亿个代币上进行了训练，并在语言理解、推理和安全方面的各种学术基准中表现出卓越的表现。在 18 个基于文本的任务中，它们在 11 个任务中的表现优于类似大小的开放模型。

RT-DETR，即实时DEtection Transformer，是另一个重要的补充。该模型专为实时对象检测而设计，利用 transformer 架构快速准确地识别和定位图像中的多个对象。它的发展使其成为目标检测模型的强大竞争对手。

InstructBlip使用BLIP-2架构增强了可视化指令调优。它将文本提示馈送到 Q-Former，从而实现更有效的视觉语言模型交互。该模型有望提高需要视觉和文本理解的任务的性能。

LLaVa-NeXT-Video通过合并视频和图像数据集来构建 LLaVa-NeXT 型。此增强功能使该模型能够执行最先进的视频理解任务，使其成为零样本视频内容分析的宝贵工具。AnyRes 技术将高分辨率图像表示为多个较小的图像，对于该模型有效地从图像泛化到视频帧的能力至关重要。

使用 AnyRes 实现零镜头视频表示功能：AnyRes 技术自然地将高分辨率图像表示为预训练的 VIT 能够消化的多个图像，并将它们形成一个压缩序列。这种技术自然可以推广到表示视频（由多个帧组成），使仅经过图像训练的 LLaVA-Next 模型在视频任务上表现出色。值得注意的是，这是LMM首次表现出强大的零样本模态转移能力。
长度泛化的推理在较长的视频上得到了改进。线性缩放技术支持长度泛化，使 LLaVA-NeXT 能够有效地处理max_token_length长视频，而超出了 LLM.
较强的视频理解能力。（1） LLaVA-Next-Image 结合了上述两种技术，与在视频上调谐的开源 LMM 相比，产生了卓越的零样本性能。（2） LLaVA-Next-Video，对视频数据进行进一步的监督微调（SFT），与LLaVA-Next-Image相比，实现了更好的视频理解能力。（3） LLaVA-Next-Video-DPO，使用直接偏好优化（DPO）将模型响应与 AI 反馈保持一致，显示出显着的性能提升。
使用 SGLang 进行高效部署和推理。它允许将视频任务的推理速度提高 5 倍，从而实现更具可扩展性的服务，例如百万级视频重新字幕。请参阅我们的存储库中的说明。

Hugging Face会自动为Python函数生成JSON架构描述，从而促进与工具模型的无缝集成。工具模型的标准化 API 确保了各种实现之间的兼容性。另一个值得注意的增强功能是GGUF微调支持。此功能允许用户在 Python/Hugging Face生态系统中微调模型，然后将它们转换回 GGUF/GGML/llama.cpp库。这种灵活性确保了模型可以在不同的环境中进行优化和部署。

量化改进（包括添加量化的 KV 缓存）进一步降低了生成模型的内存需求。此次更新，加上对量化文档的全面修订，为用户提供了更清晰的指导，帮助他们选择最适合其需求的量化方法。

除了这些主要更新之外，该版本还删除已弃用的组件，如 ConversationalPipeline 和 Conversation 对象。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/762569.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！