Новости лаборатории Наномир

  Все выпуски  

842 Шедевры белковой архитектуры. Часть 14.


Выпуск 842

Лаборатория Наномир

Когда реальность открывает тайны,
уходят в тень и  меркнут чудеса ...

Шедевры белковой архитектуры

Часть 14. 

В прошлом выпуске рассылки были опубликованы схемы вторичных структур белков, закодированных 9-ой хромосомой организма Dreissena polymorpha.

[19:47, 16.06.2022] Александр Кушелев: Валентин, прога не может порезать этот файл на фасту: https://www.ncbi.nlm.nih.gov/protein/KAH3778307.1?report=genbank&log$=prottop&blast_rank=30&RID=APCAETCP013

[20:57, 16.06.2022] Александр Кушелев: В 840-ом выпуске рассылке будет показана фрактальная спираль белка с дробным периодом...

[00:29, 17.06.2022] Валентин: но там коротенький файлик

>KAH3778307.1 hypothetical protein DPMN_179762 [Dreissena polymorpha]

MHKGQCQVNICKLKCHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCLVNIGKLK

WHKGQCLVNIGKLKWHKGQCLVNIGKLKCHKGQCLVNIGKLKCHKGQCLVNIGKLKWHKGQCLVNIGKLK

WHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCLVNIGKLK

WHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKSQCLVYIGKLKWHKGQCLVNIGQLKWHKGQCLVNIGKLK

WHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCLVNIGKLKWHKGQCPVNIGKLKWHKGQCLVNIGKLK

WHKGQCLVKICKLKWHKGQCLVNIGKLKWHKGQCLVNIGQLKCHKGQCLVNFGKWKCHKGQCLVNFGKWK

WHKGHCLVNIGKLKLHKGQCLVNIGKLKWHKGQCLVNIGKLKWQRSVSG

[02:41, 17.06.2022] Александр Кушелев: Не, почему-то не та ссылка отправилась. Вот правильная: https://www.ncbi.nlm.nih.gov/nuccore/JAIWYP010000009.1

Я скачал файл gb, но не смог его тебе отправить ни по ватсапу, ни по почте. Он весит больше 100 мегабайт. А нет, этот прога порезала на фасты. Сейчас найду тот, что не режется... Вроде разобрался. Когда я его один хотел порезать, он не порезался, а когда я в папку сразу три gb файла положил, то все три (и он в том числе) порезались.

[08:43, 17.06.2022] Валентин: ОК

[13:20, 17.06.2022] Александр Кушелев: За меня теперь по большей части работает программа, которую написал Валентин. Пикотех 2D. Сегодня попалась хромосома, в которой закодирована почти тысяча экзотических структур белка. Сейчас посмотрю, как организм называется...

[13:21, 17.06.2022] Дарья: Интересно. Расскажете. Какие структуры в PDB? И что получилось у Вас?

[14:17, 17.06.2022] Александр Кушелев: LOCUS       JAIWYP010000009    106873626 bp    DNA     linear   INV 20-OCT-2021

DEFINITION  Dreissena polymorpha isolate Duluth1 chromosome 9, whole genome

Я определил только вторичные структуры, но ... они экзотические. С их помощью очень удобно определять двугранные углы и другие геометрические параметры

[14:19, 17.06.2022] Дарья: Поподробнее. Почему?

[14:21, 17.06.2022] Александр Кушелев: Скоро покажу схемы вторичных структур. Они состоят из длинных прямых участков фундаментальных или программных спиралей.

[14:27, 17.06.2022] Дарья: Хорошо


[16:01, 17.06.2022] Александр Кушелев: Одна из фрактальных спиралей, закодированных в этой хромосоме. Период 32 аминокислотных остатков 

[16:40, 17.06.2022] Александр Кушелев: Экзотическая структура...


[18:01, 17.06.2022] Александр Кушелев: Можно смотреть структуры экзотических белков: https://subscribe.ru/archive/science.news.nanoworldnews/202206/17175013.html

Очень хороший тест для РСА и ЯМР...

 

Подробнее 

У этой "ракушки" 50 хромосом однако: https://www.ncbi.nlm.nih.gov/Traces/wgs/JAIWYP01?display=contigs

Валентин, а  ты сможешь сделать версию Пикотех 2D, где можно задавать число столбцов. Сейчас число столбцов = 60, но хотелось бы уменьшать его при необходимости, скажем до  30, т.е. чтобы при запуске можно было задать число 30,31,32 .... 60. Или даже 10 ... 60. И желательно, чтобы ширина картинки при этом тоже регулировалась. Ну или была бы такой же, как при n=60

[18:42, 17.06.2022] Валентин: Могу

[18:54, 17.06.2022] Александр Кушелев: ЗдОрово! А можешь порезать на фасты эти 50 хромосом?

https://www.ncbi.nlm.nih.gov/Traces/wgs/JAIWYP01?display=contigs

Я одну скачивал с третьей попытки два часа. А она не режется. А вторую так и не смог скачать. Больше 200 мегабайт... А там их 50. И все крутые...

[20:31, 17.06.2022] Александр Кушелев: Скачал первый из четырех файлов Genbank
[20:32, 17.06.2022] Александр Кушелев: Но программа Пикотех выдает ошибку и не режет его на фасты...

 

[20:32, 17.06.2022] Александр Кушелев: И этот тоже не режет: https://www.ncbi.nlm.nih.gov/nuccore/JAIWYP010000001.1

[20:37, 17.06.2022] Александр Кушелев: Может быть из-за того, что очень большие числа в CDS ?
[20:37, 17.06.2022] Александр Кушелев: CDS             complement(join(171758925..171759178,
[20:38, 17.06.2022] Александр Кушелев: У тебя программа может с сотнями миллионов в CDS работать?
[20:39, 17.06.2022] Александр Кушелев: Я так понял, что там и до миллиардов доходит
[20:40, 17.06.2022] Александр Кушелев: CDS             join(211274346..211275411,211276246..211276598)

[20:40, 17.06.2022] Александр Кушелев: больше 200 миллионов точно есть

 

[21:10, 17.06.2022] Александр Кушелев: Вручную вытащил из gbff-файла код одного из шедевральных белков. А таких там сотни... Нужно резать этот файл на фасты:
[21:10, 17.06.2022] Александр Кушелев: https://www.ncbi.nlm.nih.gov/nuccore/JAIWYP010000001.1
[21:11, 17.06.2022] Александр Кушелев: И все 50 хромосом нужно на фасты порезать.
[21:11, 17.06.2022] Александр Кушелев: Очень крутой геном...
[21:16, 17.06.2022] Александр Кушелев: Любопытно, что этот белок система BLAST не смогла найти по последовательности аминокислот, но смогла найти по идентификатору: https://www.ncbi.nlm.nih.gov/protein/KAH3876626.1?report=genbank&log$=prottop&blast_rank=1&RID=ATH5PN1E016

 

[21:20, 17.06.2022] Александр Кушелев: Это второй белок (фрактальная спираль), найденный в хромосоме вручную

[22:58, 17.06.2022] Валентин: ничего не понятно, но наверное красиво, а раз красиво, то и гениально
[23:14, 17.06.2022] Александр Кушелев: Изюминка фрактальных спиралей заключается в том, что они являются периодическими структурами. При этом в них встречаются всевозможные комбинации 3D кода, которые повторяются в каждом витке. А витки замкнуты. Это означает, что двугранные углы определяются с фантастической точностью. А дальше их надо собрать в ту большую таблицу и использовать для этих комбинаций 3D кода во всех других белках. И тогда почти все структуры будут точно определяться по таблице, т.е. без решения сложных физических и геометрических задач. Быстро и точно. Сейчас уже используют гомологию для определения новых структур белка по известным старым образцам. Только используют неправильно. Поэтому работает "когда как". А правильно будет работать во-первых не аминокислотная, а нуклеотидная гомология, в во-вторых, не на уровне нанотехнологических моделей (они практически все неправильные), а на уровне пикотехнологических. Но даже 2D схема, если она правильная, лучше неправильной 3D структуры. А продемонстрировать реальную точность РСА и ЯМР можно как раз с помощью специфических белков, которые, например, состоят из небольшого количества длинных прямых альфа-, пи-, 310-, бета-, метиониновых, пролиновых спиралей. За ними пойдут простые программные (фрактальные) типа Q-спирали, потом типа спирали коллагена с 9 аминокислотными остатками на один виток фрактальной спирали, а потом и всё более сложные.
[23:41, 17.06.2022] Александр Кушелев: Вручную вылавливать идентификаторы белков, представляющих собой фрактальные спирали - дело неблагодарное.
За пару часов примерно 25% одной хромосомы удалось обработать. Вот список идентификаторов:
KAH3877358
KAH3877638
KAH3877661
KAH3877669
KAH3877670
KAH3877714
KAH3877886
KAH3877963
KAH3878169
KAH3878242
KAH3878464
KAH3878703
KAH3878770
KAH3878811
KAH3879310
KAH3880488
KAH3880844
KAH3880984
KAH3881048
KAH3881090
KAH3881320
KAH3881485
KAH3881565
KAH3881650
KAH3881656
KAH3881663
KAH3881740
KAH3881758
[23:42, 17.06.2022] Александр Кушелев: Проще запускать на ночь прогу, а потом отбирать по паре сотен структур уже в графическом виде. Это будет на порядок быстрее.
[23:43, 17.06.2022] Александр Кушелев: Так что нужно, чтобы прога порезала хромосомы на фасту.
[23:53, 17.06.2022] Валентин: после 3-го.

[23:56, 17.06.2022] Александр Кушелев: Вторая хромосома, как и первая не хочет резаться на фасты...

[23:56, 17.06.2022] Александр Кушелев: Я их отсюда скачивал: https://www.ncbi.nlm.nih.gov/Traces/wgs/JAIWYP01?display=contigs

[23:57, 17.06.2022] Александр Кушелев: Первую: https://www.ncbi.nlm.nih.gov/nuccore/JAIWYP010000001.1

[23:57, 17.06.2022] Александр Кушелев: И вторую: https://www.ncbi.nlm.nih.gov/nuccore/JAIWYP010000002.1

[23:57, 17.06.2022] Александр Кушелев: Обе не режутся на фасту

[00:07, 18.06.2022] Валентин: написано же - "OUT OF MEMORY"

gptoolboxхватает оперативной памяти на твоем компе

[00:08, 18.06.2022] Валентин: поэтому и не режутся

[08:16, 18.06.2022] Александр Кушелев: Понятно

[09:44, 18.06.2022] Александр Кушелев: А можно резать файл, не закачивая полностью в оперативную память? Скажем, по частям?

[09:46, 18.06.2022] Александр Кушелев: Открыть, скажем, 10 мегабайт, а потом по CDS считывать не из оперативной памяти, а с жёсткого диска?

[09:47, 18.06.2022] Александр Кушелев: Или оперативной памяти добавить.

[09:47, 18.06.2022] Валентин: Можно. Но надо переписать программу

[09:48, 18.06.2022] Александр Кушелев: Винда же позволяет использовать жесткий диск в качестве оперативной памяти

[09:48, 18.06.2022] Валентин: Или добавить память

[09:49, 18.06.2022] Александр Кушелев: Всякие проги типа фотошопа, Маши и т.д. если оперативной памяти не хватает, как-то жесткий диск пользуют

[09:50, 18.06.2022] Валентин: Надо переписать программу,

[09:51, 18.06.2022] Александр Кушелев: Файл весит до 300 мегабайт. Оперативки у меня гигабайты. Почему не хватает? Может быть нужно просто компактнее данные размещать?

[09:53, 18.06.2022] Александр Кушелев: Основной объём - это  генетичский код. Он записан буквами ACGT, которые занимают байты. На самом деле каждую букву можно кодировать двумя битами.

[09:53, 18.06.2022] Александр Кушелев: Объём сократится в 4 раза

[09:54, 18.06.2022] Валентин: Можно. Надо переписать программу для этого.

[09:54, 18.06.2022] Александр Кушелев: Может проще тебе на своём компе порезать 4 файла на фасты?

[09:57, 18.06.2022] Александр Кушелев: https://sra-download.ncbi.nlm.nih.gov/traces/wgs04/wgs_aux/JA/IW/YP/JAIWYP01/JAIWYP01.1.gbff.gz

https://sra-download.ncbi.nlm.nih.gov/traces/wgs04/wgs_aux/JA/IW/YP/JAIWYP01/JAIWYP01.2.gbff.gz

https://sra-download.ncbi.nlm.nih.gov/traces/wgs04/wgs_aux/JA/IW/YP/JAIWYP01/JAIWYP01.3.gbff.gz

https://sra-download.ncbi.nlm.nih.gov/traces/wgs04/wgs_aux/JA/IW/YP/JAIWYP01/JAIWYP01.4.gbff.gz

[09:57, 18.06.2022] Александр Кушелев: Эти 4 файла надо  на фасты порезать

[09:59, 18.06.2022] Александр Кушелев: Или ты до 4 июля уже ничего на компе сделать не сможешь?

[10:03, 18.06.2022] Валентин: какой версией режешь ?

[10:08, 18.06.2022] Валентин: сек

[10:23, 18.06.2022] Александр Кушелев: На моём компе установлено 8 гигабайт оперативки. Странно, что её не хватает для загрузки файла менее 300 мегабайт

[10:28, 18.06.2022] Валентин: кинь этот скрипт на емейл мне

[10:28, 18.06.2022] Александр Кушелев: Ок

[10:39, 18.06.2022] Александр Кушелев: Послал. А сейчас вторая хромосома 200 мегабайт порезалась на фасту

[10:39, 18.06.2022] Александр Кушелев: Наверное вчера ей фотошоп помешал...

[10:48, 18.06.2022] Валентин: я посмотрел эти файлы.

в первом JAIWYP01.1 файле  совмещены 3!! структуры

JAIWYP010000001

JAIWYP010000002

JAIWYP010000003

это встретилось впервые, 

программа не рассчитывалась на такой вариант, поскольку это не было известно.

переписывать некогда, поэтому я разбил файл в редакторе на 3 части и запустил обработку каждой части отдельно

1я часть работает

у меня 16Гб на компе

[10:50, 18.06.2022] Александр Кушелев: А у меня тоже и вторая и первая хромосома порезались

[10:51, 18.06.2022] Александр Кушелев: 22476 фаст нарезались с первой, которая весит 280 мегабай

[10:51, 18.06.2022] Александр Кушелев: А со второй нарезалось 16177 фаст

[10:52, 18.06.2022] Александр Кушелев: Остальные хромосомы ещё меньше. Так что всё дело было в фотошопе, который отъел оперативной памяти

[10:52, 18.06.2022] Александр Кушелев: Так что пока можно не дёргаться с переписыванием проги

[10:55, 18.06.2022] Александр Кушелев: Фасты уже обрабатываются, так что останавливай нарезку.

[11:38, 18.06.2022] Валентин: ты не прочел то, что я написал.

ты не полную нарезку сделал.

[11:40, 18.06.2022] Валентин: я проверю сейчас все файлы. нарежу правильно и вышлю тебе на емейл

[13:21, 18.06.2022] Александр Кушелев: Давай

[13:22, 18.06.2022] Валентин: всего 19ть частей. 1-3 нарезалась. Сейчас упакую и вышлю на почту

[13:24, 18.06.2022] Валентин: отправил. Запустил 2й файл

[14:19, 18.06.2022] Александр Кушелев: Благодарю!

[17:48, 18.06.2022] Валентин: отправил на почту файлы фасты из 2го файла

[17:49, 18.06.2022] Александр Кушелев: Спасибо!

[18:01, 18.06.2022] Валентин: запустил половину от третьего файла

[18:01, 18.06.2022] Валентин: 2я часть считалась 4 часа

[18:02, 18.06.2022] Александр Кушелев: ЗдОрово! Зато в этих 4 файлах все 50 хромосом.

[18:02, 18.06.2022] Валентин: и это на SSD диске (быстрое сохранение).

[18:02, 18.06.2022] Александр Кушелев: Так что я подожду...

[18:05, 18.06.2022] Александр Кушелев: Если ты расскажешь секрет, как эти 4 архивных файла твоя прога считает, то я и сам смогу досчитать

[18:06, 18.06.2022] Александр Кушелев: Ты их разделяешь? Так пришли мне разделённые. Я их досчитаю сам

[18:06, 18.06.2022] Александр Кушелев: Или научи разделять

[18:18, 18.06.2022] Валентин: не оставлю. не смогут. не поймешь. пришлю остатки. не научишься.

[18:37, 18.06.2022] Александр Кушелев: Обнадёживающе...

[18:38, 18.06.2022] Александр Кушелев: Но я могу сразу хромосомы скачивать. Так что не переживай :)

[18:38, 18.06.2022] Александр Кушелев: Там чем больше номер хромосомы, тем она короче

[19:51, 18.06.2022] Валентин: выслал первую половину части 3

[19:52, 18.06.2022] Валентин: сейчас отправлю то, чо не успеваю сам нарезать в фасты.

ты уж сам справишься с подготовленными файлами

[19:55, 18.06.2022] Валентин: отправил. лови и дорезай сам уже

[20:46, 18.06.2022] Александр Кушелев: Спасибо!

 Остальные  экзотические структуры можно заказать из архива лаборатории Наномир:

 

 Эти экзотические белки закодированы первой ... четвертой хромосомой организма Dreissena polymorpha.


Обратная связь: kushelev20120@yandex.ru 

 



В избранное