Отправляет email-рассылки с помощью сервиса Sendsay

RFpro.ru: Программирование на PHP

  Все выпуски  

RFpro.ru: Программирование на PHP


РАССЫЛКИ ПОРТАЛА RFPRO.RU

Лучшие эксперты в разделе

SAW
Статус: 7-й класс
Рейтинг: 141
∙ повысить рейтинг »
Асмик Гаряка
Статус: Советник
Рейтинг: 116
∙ повысить рейтинг »
Хватов Сергей
Статус: Академик
Рейтинг: 2
∙ повысить рейтинг »

∙ PHP / Perl / Python

Номер выпуска:1325
Дата выхода:05.03.2020, 20:15
Администратор рассылки:Коцюрбенко Алексей Владимирович (Старший модератор)
Подписчиков / экспертов:24 / 16
Вопросов / ответов:1 / 1

Консультация # 197868: здравствуйте очень прошу подскажите пожалуйста у меня есть вот такой код(он считывает 60 файлов из папки) import dask.dataframe as dd dict1 = [] for file in files: df = dd.read_parquet(filename) после его выполнения считаные датафрэймы весят 190 гб (49 миллионов строк 57 столбцов) и съедено 75-80 оперативной памяти. а нужно как то вс...

Консультация # 197868:

здравствуйте очень прошу подскажите пожалуйста у меня есть вот такой код(он считывает 60 файлов из папки)
import dask.dataframe as dd
dict1 = []
for file in files:
df = dd.read_parquet(filename)
после его выполнения считаные датафрэймы весят 190 гб (49 миллионов строк 57 столбцов) и съедено 75-80 оперативной памяти. а нужно как то все эти 60 файликов объеденить в 1 но это невозможно теми способами которыми я знаю
1 df =pd.concat(dict1) что означает что нужно где то еще столько оперативы и 190 гб вылетает ошибка memoryerror
2 циклом добавлять в датафрэйм по одному файлику из списка а потом удалить этот файл из списка но так же вылазит memoryerror
пытался считать просто всё файлы одной строчкой но что то ничего не выдало (
df = dd.read_parquet(file-*.pyarrow)
подскажите пожалуйста существует ли какое то решение кроме добавления планок оперативы

Дата отправки: 24.02.2020, 20:00
Вопрос задал: poloyenchik (Посетитель)
Всего ответов: 1
Страница онлайн-консультации »


Консультирует Коцюрбенко Алексей Владимирович (Старший модератор):

Здравствуйте, poloyenchik!

Попробуйте вместо DataFrame использовать Pandas, например, так:

Код (Python) :: выделить код
import pandas as pd
import os
for file in files:
    for df in pd.read_parquet(file, chuncksize=200000):
        if not os.path.isfile(filename):
            df.to_parquet(filename)
        else:
            df.to_parquet(filename, mode = 'a', header=False)

Консультировал: Коцюрбенко Алексей Владимирович (Старший модератор)
Дата отправки: 05.03.2020, 18:10
Рейтинг ответа:

НЕ одобряю 0 одобряю!


Оценить выпуск | Задать вопрос экспертам

главная страница  |  стать участником  |  получить консультацию
техническая поддержка

Дорогой читатель!
Команда портала RFPRO.RU благодарит Вас за то, что Вы пользуетесь нашими услугами. Вы только что прочли очередной выпуск рассылки. Мы старались. Пожалуйста, оцените его. Если совет помог Вам, если Вам понравился ответ, Вы можете поблагодарить автора - для этого в каждом ответе есть специальные ссылки. Вы можете оставить отзыв о работе портале. Нам очень важно знать Ваше мнение. Вы можете поближе познакомиться с жизнью портала, посетив наш форум, почитав журнал, который издают наши эксперты. Если у Вас есть желание помочь людям, поделиться своими знаниями, Вы можете зарегистрироваться экспертом. Заходите - у нас интересно!
МЫ РАБОТАЕМ ДЛЯ ВАС!


В избранное