拼合列表的字典词典（深2级）

一尘不染

拼合列表的字典词典（深2级）

python

我正在尽全力解决这个问题，但是不够灵活。

在我的Python脚本中，我有一个字典列表字典。（实际上，它会更深入一点，但该级别不涉及此问题。）我想将所有这些内容整理成一个很长的列表，扔掉所有的字典键。

因此我想转型

{1: {'a': [1, 2, 3], 'b': [0]},
 2: {'c': [4, 5, 1], 'd': [3, 8]}}

至

[1, 2, 3, 0, 4, 5, 1, 3, 8]

我可能可以设置一个map-reduce来迭代外部词典的各项，以从每个子词典构建一个子列表，然后将所有子列表连接在一起。

但这对于大型数据集似乎效率不高，因为中间的数据结构（子列表）将被丢弃。有一种方法可以一次完成吗？

除非如此，否则我很乐意接受一个有效的两级实现…我的map-reduce生锈了！

更新： 对于那些感兴趣的人，下面是我最终使用的代码。

注意，尽管我在上面要求一个列表作为输出，但我真正需要的是一个有序列表。即，展平的输出可以是可以排序的任何可迭代的。

def genSessions(d):
    """Given the ipDict, return an iterator that provides all the sessions,
    one by one, converted to tuples."""
    for uaDict in d.itervalues():
        for sessions in uaDict.itervalues():
            for session in sessions:
                yield tuple(session)

…

# Flatten dict of dicts of lists of sessions into a list of sessions.
# Sort that list by start time
sessionsByStartTime = sorted(genSessions(ipDict), key=operator.itemgetter(0))
# Then make another copy sorted by end time.
sessionsByEndTime = sorted(sessionsByStartTime, key=operator.itemgetter(1))

再次感谢所有提供帮助的人。

[更新：替换nthGetter()用operator.itemgetter()，感谢@intuited]

阅读 220

2021-01-20

共1个答案

一尘不染

编辑：重新阅读原始问题和重新设计的答案，以假定所有非词典都是要拼合的列表。

如果您不确定字典的使用范围，可以使用递归函数。@Arrieta已经发布了一个函数，该函数以递归方式构建非字典值列表。

这是一个生成器，它在字典树中产生连续的非字典值：

def flatten(d):
    """Recursively flatten dictionary values in `d`.

    >>> hat = {'cat': ['images/cat-in-the-hat.png'],
    ...        'fish': {'colours': {'red': [0xFF0000], 'blue': [0x0000FF]},
    ...                 'numbers': {'one': [1], 'two': [2]}},
    ...        'food': {'eggs': {'green': [0x00FF00]},
    ...                 'ham': ['lean', 'medium', 'fat']}}
    >>> set_of_values = set(flatten(hat))
    >>> sorted(set_of_values)
    [1, 2, 255, 65280, 16711680, 'fat', 'images/cat-in-the-hat.png', 'lean', 'medium']
    """
    try:
        for v in d.itervalues():
            for nested_v in flatten(v):
                yield nested_v
    except AttributeError:
        for list_v in d:
            yield list_v

doctest将结果迭代器传递给set函数。这很可能就是您想要的，因为正如Martelli先生所指出的那样，字典值没有内在顺序，因此没有理由跟踪它们的查找顺序。

您可能需要跟踪每个值的出现次数；如果将迭代器传递给，则此信息将丢失set。如果您想跟踪它，只需将的结果传递flatten(hat)给其他函数而不是即可set。在Python
2.7下，该其他函数可以是collections.Counter。为了与发展程度较低的python兼容，您可以编写自己的函数，或者（在效率方面有所损失）sorted与结合使用itertools.groupby。

2021-01-20