hachyderm.io is one of the many independent Mastodon servers you can use to participate in the fediverse.
Hachyderm is a safe space, LGBTQIA+ and BLM, primarily comprised of tech industry professionals world wide. Note that many non-user account types have restrictions - please see our About page.

Administered by:

Server stats:

8.9K
active users

#inference

2 posts2 participants0 posts today

Как запустить локально LLM, если ее веса не помещаются в [видео]память

Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил. Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт.

habr.com/ru/articles/904172/

ХабрКак запустить локально LLM, если ее веса не помещаются в [видео]памятьНекоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои...

🚀 Local LLM inference: where #ambition meets #reality in a glorious code spaghetti that no sane developer wants to untangle. 🎉 It's like building a rocket 🚀 only to realize you forgot the launchpad—works great in theory but crashes spectacularly in the real world. 🌎🔧
medium.com/@aazo11/local-llm-i #LocalLLM #Inference #CodeSpaghetti #TechHumor #SoftwareDevelopment #HackerNews #ngated

Medium · Local LLM inference - Amir Zohrenejad - MediumBy Amir Zohrenejad
Continued thread

Day 19 cont 🙏⛪🕍🕌⛩️🛕 💽🧑‍💻

“The #LiberalParty has accidentally left part of its email provider’s #subscriber details exposed, revealing the types of #data harvested by the party during the #election campaign.

This gives rare #insight into some of the specific kinds of data the party is keeping on voters, including whether they are “predicted Chinese”, “predicted Jewish”, a “strong Liberal” and other #PersonalInformation.”

#AusPol / #DataScience / #inference / #voters / #Liberal / #LNP / #Nationals <crikey.com.au/2025/04/17/victo>

Crikey · ‘Predicted Chinese’, ‘predicted Jewish’: Liberals accidentally leave voter-tracking data exposedBy Cam Wilson

Learn how to optimize LLMs for faster inference and better testing using powerful open source tools — boost performance without breaking the bank with Sho Akiyama & Andre Rusli at #FOSSASIASummit2025

🔗 Click here youtu.be/8BJLqJ7_xcc?si=eBL0tr to watch on the FOSSASIA YouTube channel
#LLM #AI #Inference #OpenSourceTools #FOSSASIA

youtu.be- YouTubeEnjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи. Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i . Если первые версии TPU были ориентированы исключительно на ускорение инференса (выполнение уже обученных моделей), то TPUv2 и TPUv3 смогли взять на себя ещё и тренировку крупных нейросетей. Но в дальнейшем выяснилось, что для оптимальной работы дата-центров в масштабах Google рациональнее разделить решения для тренировки и инференса. TPUv4i — это результат учёта многих уроков и ограничений, проявившихся в предыдущих чипах. В этом материале разберём, какие «десять уроков» сформировали подход Google к созданию TPUv4i , что это за архитектура и какие проблемы дата-центров она решает.

habr.com/ru/articles/892102/

ХабрДесять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4iВ последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного...

Tenacity, Authority, Plausibility, Inquiry
inquiryintoinquiry.com/2025/02
bsky.app/profile/inquiryintoin

Re: Peter Cameron • Mathematics and Logic
cameroncounts.wordpress.com/20

My favorite polymathematician, Charles Sanders Peirce, gave a fourfold classification of what he called “methods of fixing belief”, or “settling opinion”, most notably and seminally in his paper, “The Fixation of Belief” (1877). Adjusting his nomenclature very slightly, if only for the sake of preserving a mnemonic rhyme scheme, we may refer to his four types as Tenacity, Authority, Plausibility (à priori pleasing praiseworthiness), and full‑fledged Scientific Inquiry.

Reference —

Peirce, C.S. (1877), “The Fixation of Belief”, Popular Science Monthly 12, 1–15.
cspeirce.com/menu/library/bycs

#Peirce #Logic #Mathematics #Belief #Opinion #Knowledge #Inference
#BeliefFixation #Method #Tenacity #Authority #Plausibility #Inquiry

Inquiry Into Inquiry · Tenacity, Authority, Plausibility, Inquiry
More from Inquiry Into Inquiry

Поднимаем DeepSeek llm локально

Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить. В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.

habr.com/ru/articles/878836/

ХабрПоднимаем DeepSeek llm локальноВсе уже слышали про новую модель DeepSeek r1, которая обогнала по бенчмаркам openai. Компания DeepSeek выложила веса и дистилляты в открытый доступ, поэтому мы можем их запустить. В статье поднимем...

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

Давеча наткнулся в экс- Твиттере на интересный тред ( x.com/carrigmat/status/1884244 ) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом. DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) "конкурировать" с решениями от OpenAI, но при этом её можно запустить локально , без интернета , без смс и полностью контролировать весь процесс. Почему это круто? * все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам. * запуск на своём железе избавляет от затрат на облачные сервисы. * модель способна решать сложные задачи и выдавать результаты на уровне профессионалов. В статье я расскажу: * какое оборудование нужно для запуска DeepSeek-R1. * чем локальный запуск отличается от серверного. * какие возможности открывает эта модель и как она может быть полезна. * как сохранить безопасность и приватность при работе с ИИ. В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8 , сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~ $6,000 , и ниже приведены все необходимые ссылки на компоненты и инструкции.

habr.com/ru/articles/877832/

X (formerly Twitter)Matthew Carrigan (@carrigmat) on XComplete hardware + software setup for running Deepseek-R1 locally. The actual model, no distillations, and Q8 quantization for full quality. Total cost, $6,000. All download and part links below: