New DFloat11 Technique Offers 30% Lossless Compression for LLMs, Easing Hardware Demands
#AI #AIResearch #DFloat11 #LLMs #LLMcompression #MachineLearning #DeepLearning #BF16 #Inference #RiceUniversity #xMADai
New DFloat11 Technique Offers 30% Lossless Compression for LLMs, Easing Hardware Demands
#AI #AIResearch #DFloat11 #LLMs #LLMcompression #MachineLearning #DeepLearning #BF16 #Inference #RiceUniversity #xMADai
Как запустить локально LLM, если ее веса не помещаются в [видео]память
Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил. Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт.
'DAGs as Minimal I-maps for the Induced Models of Causal Bayesian Networks under Conditioning', by Xiangdong Xie, Jiahua Guo, Yi Sun.
http://jmlr.org/papers/v26/23-0002.html
#inference #causal #bayesian
Local LLM inference: where #ambition meets #reality in a glorious code spaghetti that no sane developer wants to untangle.
It's like building a rocket
only to realize you forgot the launchpad—works great in theory but crashes spectacularly in the real world.
https://medium.com/@aazo11/local-llm-inference-897a06cc17a2 #LocalLLM #Inference #CodeSpaghetti #TechHumor #SoftwareDevelopment #HackerNews #ngated
Day 19 cont ️
“The #LiberalParty has accidentally left part of its email provider’s #subscriber details exposed, revealing the types of #data harvested by the party during the #election campaign.
This gives rare #insight into some of the specific kinds of data the party is keeping on voters, including whether they are “predicted Chinese”, “predicted Jewish”, a “strong Liberal” and other #PersonalInformation.”
#AusPol / #DataScience / #inference / #voters / #Liberal / #LNP / #Nationals <https://www.crikey.com.au/2025/04/17/victorian-liberals-data-exposed-email-mailchimp-federal-election-crikey/>
Learn how to optimize LLMs for faster inference and better testing using powerful open source tools — boost performance without breaking the bank with Sho Akiyama & Andre Rusli at #FOSSASIASummit2025
Click here https://youtu.be/8BJLqJ7_xcc?si=eBL0trVWi6PoUpSm to watch on the FOSSASIA YouTube channel
#LLM #AI #Inference #OpenSourceTools #FOSSASIA
This New AI Scaling Method Challenges Scaling Laws — But Can It Deliver?
#AI #AIResearch #AIScaling #MachineLearning #Inference #AIModels #GenAI #TechInnovation #AIPerformance #AIEfficiency #DeepLearning
NVIDIA Dynamo: Scaling AI inference with open-source efficiency https://www.artificialintelligence-news.com/news/nvidia-dynamo-scaling-ai-inference-open-source-efficiency/ #nvidia #dynamo #opensource #inference #ai #tech #news #technology
Nvidia Dynamo: A Datacenter Scale Distributed Inference Serving Framework
Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i
В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи. Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i . Если первые версии TPU были ориентированы исключительно на ускорение инференса (выполнение уже обученных моделей), то TPUv2 и TPUv3 смогли взять на себя ещё и тренировку крупных нейросетей. Но в дальнейшем выяснилось, что для оптимальной работы дата-центров в масштабах Google рациональнее разделить решения для тренировки и инференса. TPUv4i — это результат учёта многих уроков и ограничений, проявившихся в предыдущих чипах. В этом материале разберём, какие «десять уроков» сформировали подход Google к созданию TPUv4i , что это за архитектура и какие проблемы дата-центров она решает.
“How ‘inference’ is driving competition to Nvidia’s #AI chip dominance”
#NVidia / #reasoning / #inference <https://archive.md/AYHs7>
Claude 3.7 Sonnet tops Aider Polyglot leaderboard while Sakana AI's CUDA Engineer achieves 10-100x speedups! Check out the latest in AI at https://blaze.email #GenAI #Inference
https://blaze-assets.nyc3.digitaloceanspaces.com/pdfs/generative_ai_latest.pdf
Tenacity, Authority, Plausibility, Inquiry
• https://inquiryintoinquiry.com/2025/02/14/tenacity-authority-plausibility-inquiry-a/
• https://bsky.app/profile/inquiryintoinquiry.bsky.social/post/3li5nmqdc3s2a
Re: Peter Cameron • Mathematics and Logic
• https://cameroncounts.wordpress.com/2010/01/03/mathematics-and-logic/
My favorite polymathematician, Charles Sanders Peirce, gave a fourfold classification of what he called “methods of fixing belief”, or “settling opinion”, most notably and seminally in his paper, “The Fixation of Belief” (1877). Adjusting his nomenclature very slightly, if only for the sake of preserving a mnemonic rhyme scheme, we may refer to his four types as Tenacity, Authority, Plausibility (à priori pleasing praiseworthiness), and full‑fledged Scientific Inquiry.
Reference —
Peirce, C.S. (1877), “The Fixation of Belief”, Popular Science Monthly 12, 1–15.
• https://www.cspeirce.com/menu/library/bycsp/fixation/fx-frame.htm
#Peirce #Logic #Mathematics #Belief #Opinion #Knowledge #Inference
#BeliefFixation #Method #Tenacity #Authority #Plausibility #Inquiry
How is #censorship implemented in #deepseek? A link to #wikipedia referring to the #tienanmen square can spark an #ethical judgment on the #chinese government. Of course it dare not speak its name
Since censorship is active also on locally run model, probably it is implemented toward the last steps of #inference, while the training set was hastily used and not “curated” for censorship. #AI #LLM
Поднимаем DeepSeek llm локально
Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить. В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.
Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)
Давеча наткнулся в экс- Твиттере на интересный тред ( https://x.com/carrigmat/status/1884244369907278106?s=52 ) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом. DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) "конкурировать" с решениями от OpenAI, но при этом её можно запустить локально , без интернета , без смс и полностью контролировать весь процесс. Почему это круто? * все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам. * запуск на своём железе избавляет от затрат на облачные сервисы. * модель способна решать сложные задачи и выдавать результаты на уровне профессионалов. В статье я расскажу: * какое оборудование нужно для запуска DeepSeek-R1. * чем локальный запуск отличается от серверного. * какие возможности открывает эта модель и как она может быть полезна. * как сохранить безопасность и приватность при работе с ИИ. В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8 , сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~ $6,000 , и ниже приведены все необходимые ссылки на компоненты и инструкции.
Good overview and easy read piece on what is worrisome (maybe) and not a big deal about DeepSeek. https://www.platformer.news/deepseek-ai-explainer-china-worries/ #AI #DeepSeek #inference #AITraining #Chatgpt #Claude
@matthewberman #Ai #Reasoner #TestTimeCompute #Inference
Ep 1-22-2025
#DeepSeek R1 Fully Tested - Insane Performance