From 16fe5b8d1e3adb8435c43477ed1fee081a436a84 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 10 Nov 2014 14:46:27 -0500
Subject: [PATCH 001/221] Initial commit, proposed reference implementation.

---
 README.md               |   9 +++
 cwltool/__init__.py     |   1 +
 cwltool/__main__.py     |   3 +
 cwltool/main.py         |  29 ++++++++
 cwltool/ref_resolver.py | 154 +++++++++++++++++++++++++++++++++++++++
 cwltool/schemas         |   1 +
 cwltool/tool.py         | 157 ++++++++++++++++++++++++++++++++++++++++
 setup.py                |  21 ++++++
 tests/__init__.py       |   0
 9 files changed, 375 insertions(+)
 create mode 100644 README.md
 create mode 100644 cwltool/__init__.py
 create mode 100644 cwltool/__main__.py
 create mode 100644 cwltool/main.py
 create mode 100644 cwltool/ref_resolver.py
 create mode 120000 cwltool/schemas
 create mode 100644 cwltool/tool.py
 create mode 100644 setup.py
 create mode 100644 tests/__init__.py

diff --git a/README.md b/README.md
new file mode 100644
index 000000000..c104ff993
--- /dev/null
+++ b/README.md
@@ -0,0 +1,9 @@
+Install
+
+libv8-dev
+libboost-python-dev
+python setup.py
+
+Run
+
+python -mcwltool --tool [uri] --job-order [uri]
diff --git a/cwltool/__init__.py b/cwltool/__init__.py
new file mode 100644
index 000000000..70d587a69
--- /dev/null
+++ b/cwltool/__init__.py
@@ -0,0 +1 @@
+__author__ = 'peter.amstutz@curoverse.com'
diff --git a/cwltool/__main__.py b/cwltool/__main__.py
new file mode 100644
index 000000000..a952ff500
--- /dev/null
+++ b/cwltool/__main__.py
@@ -0,0 +1,3 @@
+import main
+
+main.main()
diff --git a/cwltool/main.py b/cwltool/main.py
new file mode 100644
index 000000000..3b37b7015
--- /dev/null
+++ b/cwltool/main.py
@@ -0,0 +1,29 @@
+import tool
+import argparse
+from ref_resolver import from_url
+import jsonschema
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("tool", type=str)
+    parser.add_argument("job_order", type=str)
+    parser.add_argument("-x", action="store_true", help="Execute")
+
+    args = parser.parse_args()
+
+    try:
+        t = tool.Tool(from_url(args.tool))
+    except jsonschema.exceptions.ValidationError as e:
+        print "Tool definition failed validation"
+        print e
+        return
+
+    try:
+        job = t.job(from_url(args.job_order))
+        print '%s%s%s' % (' '.join(job.command_line),
+                            ' < %s' % (job.stdin) if job.stdin else '',
+                            ' > %s' % (job.stdout) if job.stdout else '')
+    except jsonschema.exceptions.ValidationError as e:
+        print "Job order failed validation"
+        print e
+        return
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
new file mode 100644
index 000000000..106980a21
--- /dev/null
+++ b/cwltool/ref_resolver.py
@@ -0,0 +1,154 @@
+import os
+import json
+import yaml
+import copy
+import hashlib
+import logging
+import collections
+import requests
+import urlparse
+
+log = logging.getLogger(__name__)
+
+
+class NormDict(dict):
+    def __init__(self, normalize=unicode):
+        super(NormDict, self).__init__()
+        self.normalize = normalize
+
+    def __getitem__(self, key):
+        return super(NormDict, self).__getitem__(self.normalize(key))
+
+    def __setitem__(self, key, value):
+        return super(NormDict, self).__setitem__(self.normalize(key), value)
+
+    def __delitem__(self, key):
+        return super(NormDict, self).__delitem__(self.normalize(key))
+
+
+class Loader(object):
+    def __init__(self):
+        normalize = lambda url: urlparse.urlsplit(url).geturl()
+        self.fetched = NormDict(normalize)
+        self.resolved = NormDict(normalize)
+        self.resolving = NormDict(normalize)
+
+    def load(self, url, base_url=None):
+        base_url = base_url or 'file://%s/' % os.path.abspath('.')
+        return self.resolve_ref({'$ref': url}, base_url)
+
+    def resolve_ref(self, obj, base_url):
+        ref, mixin, checksum = obj.pop('$ref', None), obj.pop('$mixin', None), obj.pop('$checksum', None)
+        ref = ref or mixin
+        url = urlparse.urljoin(base_url, ref)
+        if url in self.resolved:
+            return self.resolved[url]
+        if url in self.resolving:
+            raise RuntimeError('Circular reference for url %s' % url)
+        self.resolving[url] = True
+        doc_url, pointer = urlparse.urldefrag(url)
+        document = self.fetch(doc_url)
+        fragment = copy.deepcopy(resolve_pointer(document, pointer))
+        try:
+            self.verify_checksum(checksum, fragment)
+            if isinstance(fragment, dict) and mixin:
+                fragment = dict(obj, **fragment)
+            result = self.resolve_all(fragment, doc_url)
+        finally:
+            del self.resolving[url]
+        return result
+
+    def resolve_all(self, document, base_url):
+        if isinstance(document, list):
+            iterator = enumerate(document)
+        elif isinstance(document, dict):
+            if '$ref' in document or '$mixin' in document:
+                return self.resolve_ref(document, base_url)
+            iterator = document.iteritems()
+        else:
+            return document
+        for key, val in iterator:
+            document[key] = self.resolve_all(val, base_url)
+        return document
+
+    def fetch(self, url):
+        if url in self.fetched:
+            return self.fetched[url]
+        split = urlparse.urlsplit(url)
+        scheme, path = split.scheme, split.path
+
+        if scheme in ['http', 'https'] and requests:
+            resp = requests.get(url)
+            try:
+                resp.raise_for_status()
+            except Exception as e:
+                raise RuntimeError(url, cause=e)
+            result = resp.json()
+        elif scheme == 'file':
+            try:
+                with open(path) as fp:
+                    result = yaml.load(fp)
+            except (OSError, IOError) as e:
+                raise RuntimeError('Failed for %s: %s' % (url, e))
+        else:
+            raise ValueError('Unsupported scheme: %s' % scheme)
+        self.fetched[url] = result
+        return result
+
+    def verify_checksum(self, checksum, document):
+        if not checksum:
+            return
+        hash_method, hexdigest = checksum.split('$')
+        if hexdigest != self.checksum(document, hash_method):
+            raise RuntimeError('Checksum does not match: %s' % checksum)
+
+    def checksum(self, document, method='sha1'):
+        if method not in ('md5', 'sha1'):
+            raise NotImplementedError('Unsupported hash method: %s' % method)
+        normalized = json.dumps(document, sort_keys=True, separators=(',', ':'))
+        return getattr(hashlib, method)(normalized).hexdigest
+
+
+POINTER_DEFAULT = object()
+
+
+def resolve_pointer(document, pointer, default=POINTER_DEFAULT):
+    parts = urlparse.unquote(pointer.lstrip('/#')).split('/') \
+        if pointer else []
+    for part in parts:
+        if isinstance(document, collections.Sequence):
+            try:
+                part = int(part)
+            except ValueError:
+                pass
+        try:
+            document = document[part]
+        except:
+            if default != POINTER_DEFAULT:
+                return default
+            else:
+                raise ValueError('Unresolvable JSON pointer: %r' % pointer)
+    return document
+
+
+loader = Loader()
+
+
+def to_json(obj, fp=None):
+    default = lambda o: (o.__json__() if callable(getattr(o, '__json__', None))
+                         else str(o))
+    kwargs = dict(default=default, indent=2, sort_keys=True)
+    return json.dump(obj, fp, **kwargs) if fp else json.dumps(obj, **kwargs)
+
+
+def from_url(url, base_url=None):
+    return loader.load(url, base_url)
+
+
+def test_tmap():
+    path = os.path.join(os.path.dirname(__file__), '../examples/tmap.yml')
+    expected_path = os.path.join(os.path.dirname(__file__), '../examples/tmap_resolved.json')
+    doc = loader.load(path)
+    with open(expected_path) as fp:
+        expected = json.load(fp)
+    assert doc == expected
diff --git a/cwltool/schemas b/cwltool/schemas
new file mode 120000
index 000000000..30aed58dd
--- /dev/null
+++ b/cwltool/schemas
@@ -0,0 +1 @@
+../../schemas
\ No newline at end of file
diff --git a/cwltool/tool.py b/cwltool/tool.py
new file mode 100644
index 000000000..099551509
--- /dev/null
+++ b/cwltool/tool.py
@@ -0,0 +1,157 @@
+import os
+import pprint
+import json
+import execjs
+import pprint
+import copy
+
+from jsonschema.validators import Draft4Validator
+from ref_resolver import from_url, resolve_pointer
+
+module_dir = os.path.dirname(os.path.abspath(__file__))
+
+with open(os.path.join(module_dir, 'schemas/tool.json')) as f:
+    tool_schema = json.load(f)
+with open(os.path.join(module_dir, 'schemas/metaschema.json')) as f:
+    metaschema = json.load(f)
+tool_schema["properties"]["inputs"]["$ref"] = "file:%s/schemas/metaschema.json" % module_dir
+tool_schema["properties"]["outputs"]["$ref"] = "file:%s/schemas/metaschema.json" % module_dir
+tool_schema = Draft4Validator(tool_schema)
+
+class Job(object):
+    def run(self):
+        pass
+
+def each(l):
+    if l is None:
+        return []
+    if isinstance(l, (list, tuple)):
+        return l
+    else:
+        return [l]
+
+# http://rightfootin.blogspot.com/2006/09/more-on-python-flatten.html
+def flatten(l, ltypes=(list, tuple)):
+    if l is None:
+        return []
+    if not isinstance(l, ltypes):
+        return [l]
+
+    ltype = type(l)
+    l = list(l)
+    i = 0
+    while i < len(l):
+        while isinstance(l[i], ltypes):
+            if not l[i]:
+                l.pop(i)
+                i -= 1
+                break
+            else:
+                l[i:i + 1] = l[i]
+        i += 1
+    return ltype(l)
+
+def fix_file_type(t):
+    if 'type' in t and t['type'] == "file":
+        for a in metaschema["definitions"]["file"]:
+            t[a] = metaschema["definitions"]["file"][a]
+    for k in t:
+        if isinstance(t[k], dict):
+            fix_file_type(t[k])
+
+def jseval(expression=None, job=None):
+    if expression.startswith('{'):
+        exp_tpl = '''function () {
+        $job = %s;
+        return function()%s();}()
+        '''
+    else:
+        exp_tpl = '''function () {
+        $job = %s;
+        return %s;}()
+        '''
+    exp = exp_tpl % (json.dumps(job['job']), expression)
+    return execjs.eval(exp)
+
+def to_cli(value):
+    if isinstance(value, dict) and 'path' in value:
+        return value["path"]
+    else:
+        return str(value)
+
+def adapt(adapter, job):
+    if "value" in adapter:
+        if "$expr" in adapter["value"]:
+            value = jseval(adapter["value"]["$expr"]["value"], job)
+        else:
+            value = adapter["value"]
+    elif "valueFrom" in adapter:
+        value = resolve_pointer(job, adapter["valueFrom"])
+
+    sep = adapter["separator"] if "separator" in adapter else ''
+
+    value = [to_cli(v) for v in each(value)]
+
+    if 'itemSeparator' in adapter:
+        if adapter["prefix"]:
+            l = [adapter["prefix"] + adapter['itemSeparator'].join(value)]
+        else:
+            l = [adapter['itemSeparator'].join(value)]
+    elif 'prefix' in adapter:
+        l = []
+        for v in each(value):
+            if sep == " ":
+                l.append(adapter["prefix"])
+                l.append(v)
+            else:
+                l.append(adapter["prefix"] + sep + v)
+    else:
+        l = [value]
+
+    return l
+
+class Tool(object):
+    def __init__(self, toolpath_object):
+        self.tool = toolpath_object["tool"]
+        fix_file_type(self.tool)
+        tool_schema.validate(self.tool)
+
+    def job(self, joborder):
+        inputs = joborder["job"]['inputs']
+        Draft4Validator(self.tool['inputs']).validate(inputs)
+
+        adapter = self.tool["adapter"]
+        adapters = [{"order": -1000000, "value": adapter['baseCmd']}]
+
+        for a in adapter["args"]:
+            adapters.append(a)
+
+        for k, v in self.tool['inputs']['properties'].items():
+            if 'adapter' in v:
+                a = copy.copy(v['adapter'])
+            else:
+                a = {}
+
+            if not 'value' in a:
+                a['valueFrom'] = "#/job/inputs/"+ k
+            if not "order" in a:
+                a["order"] = 1000000
+            adapters.append(a)
+
+        adapters.sort(key=lambda a: a["order"])
+        pprint.pprint(adapters)
+
+        j = Job()
+        j.command_line = flatten(map(lambda adapter: adapt(adapter, joborder), adapters))
+
+        if 'stdin' in adapter:
+            j.stdin = flatten(adapt({"value": adapter['stdin']}, joborder))[0]
+        else:
+            j.stdin = None
+
+        if 'stdout' in adapter:
+            j.stdout = flatten(adapt({"value": adapter['stdout']}, joborder))[0]
+        else:
+            j.stdout = None
+
+        return j
diff --git a/setup.py b/setup.py
new file mode 100644
index 000000000..58cdf054e
--- /dev/null
+++ b/setup.py
@@ -0,0 +1,21 @@
+from setuptools import setup, find_packages
+
+setup(name='cwllib',
+      version='1.0',
+      description='Common workflow language reference implementation',
+      author='Common workflow language working group',
+      author_email='common-workflow-language@googlegroups.com',
+      url="https://github.com/curoverse/common-workflow-language",
+      download_url="https://github.com/curoverse/common-workflow-language",
+      license='Apache 2.0',
+      packages=find_packages(),
+      scripts=[
+        ],
+      install_requires=[
+          'jsonschema',
+          'pyexecjs'
+        ],
+      test_suite='tests',
+      tests_require=[],
+      zip_safe=False
+      )
diff --git a/tests/__init__.py b/tests/__init__.py
new file mode 100644
index 000000000..e69de29bb

From d069342c5d3d1fce75541c5bafbfd8adfba291b2 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 10 Nov 2014 14:58:42 -0500
Subject: [PATCH 002/221] Add a test

---
 README.md              |  4 +---
 tests/test_examples.py | 21 +++++++++++++++++++++
 2 files changed, 22 insertions(+), 3 deletions(-)
 create mode 100644 tests/test_examples.py

diff --git a/README.md b/README.md
index c104ff993..5466b63e0 100644
--- a/README.md
+++ b/README.md
@@ -1,8 +1,6 @@
 Install
 
-libv8-dev
-libboost-python-dev
-python setup.py
+python setup.py tests
 
 Run
 
diff --git a/tests/test_examples.py b/tests/test_examples.py
new file mode 100644
index 000000000..84537602a
--- /dev/null
+++ b/tests/test_examples.py
@@ -0,0 +1,21 @@
+import unittest
+from cwltool import tool
+from cwltool.ref_resolver import from_url, resolve_pointer
+
+class TestExamples(unittest.TestCase):
+    def test_job_order(self):
+        t = tool.Tool(from_url("../examples/bwa-mem-tool.json"))
+        job = t.job(from_url("../examples/bwa-mem-job.json"))
+        self.assertEqual(job.command_line, ['bwa',
+                                            'mem',
+                                            '-t4',
+                                            '-m',
+                                            '3',
+                                            '-I1,2,3,4',
+                                            './rabix/tests/test-files/chr20.fa',
+                                            './rabix/tests/test-files/example_human_Illumina.pe_1.fastq',
+                                            './rabix/tests/test-files/example_human_Illumina.pe_2.fastq'])
+
+
+if __name__ == '__main__':
+    unittest.main()

From a16d90274aa4f5173eb6a7d4be9dbb403305c0ef Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 10 Nov 2014 17:07:42 -0500
Subject: [PATCH 003/221] Adapters use additional schema information to
 determine how to build inputs.

---
 cwltool/tool.py | 108 ++++++++++++++++++++++++++++++++++++------------
 1 file changed, 81 insertions(+), 27 deletions(-)

diff --git a/cwltool/tool.py b/cwltool/tool.py
index 099551509..17e19cecb 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -2,7 +2,6 @@
 import pprint
 import json
 import execjs
-import pprint
 import copy
 
 from jsonschema.validators import Draft4Validator
@@ -11,12 +10,21 @@
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
 with open(os.path.join(module_dir, 'schemas/tool.json')) as f:
-    tool_schema = json.load(f)
+    tool_schema_doc = json.load(f)
 with open(os.path.join(module_dir, 'schemas/metaschema.json')) as f:
     metaschema = json.load(f)
-tool_schema["properties"]["inputs"]["$ref"] = "file:%s/schemas/metaschema.json" % module_dir
-tool_schema["properties"]["outputs"]["$ref"] = "file:%s/schemas/metaschema.json" % module_dir
-tool_schema = Draft4Validator(tool_schema)
+
+def fix_metaschema(m):
+    if '$ref' in m and m['$ref'].startswith("metaschema.json"):
+        m['$ref'] = "file:%s/schemas/%s" % (module_dir, m['$ref'])
+    else:
+        for k in m:
+            if isinstance(m[k], dict):
+                fix_metaschema(m[k])
+
+fix_metaschema(tool_schema_doc)
+
+tool_schema = Draft4Validator(tool_schema_doc)
 
 class Job(object):
     def run(self):
@@ -55,6 +63,7 @@ def fix_file_type(t):
     if 'type' in t and t['type'] == "file":
         for a in metaschema["definitions"]["file"]:
             t[a] = metaschema["definitions"]["file"][a]
+        t["_type"] = "file"
     for k in t:
         if isinstance(t[k], dict):
             fix_file_type(t[k])
@@ -73,24 +82,71 @@ def jseval(expression=None, job=None):
     exp = exp_tpl % (json.dumps(job['job']), expression)
     return execjs.eval(exp)
 
-def to_cli(value):
-    if isinstance(value, dict) and 'path' in value:
-        return value["path"]
+def adapt_inputs(schema, inp):
+    adapters = []
+
+    if not 'adapter' in schema:
+        if isinstance(inp, dict):
+            for i in inp:
+                adapters.extend(adapt_inputs(schema["properties"][i], inp[i]))
+            return adapters
+        elif isinstance(inp, list):
+            for i in inp:
+                adapters.extend(adapt_inputs(schema["items"], i))
+            return adapters
+
+    if 'adapter' in schema:
+        a = copy.copy(schema['adapter'])
     else:
-        return str(value)
+        a = {}
+
+    if not 'value' in a:
+        a['value'] = inp
+    if not "order" in a:
+        a["order"] = 1000000
+    a["schema"] = schema
+
+    adapters.append(a)
+    return adapters
+
+def to_str(schema, value):
+    if "$ref" in schema:
+        schema = from_url(schema["$ref"])
+
+    if 'oneOf' in schema:
+        for a in schema['oneOf']:
+            v = to_str(a, value)
+            if v is not None:
+                return v
+        return None
+    elif 'type' in schema:
+        if schema["type"] == "array" and isinstance(value, list):
+            return [to_str(schema["items"], v) for v in value]
+        elif schema["type"] == "object" and isinstance(value, dict):
+            if "path" in value:
+                return value["path"]
+            else:
+                raise Exception("Not expecting a dict")
+        elif schema["type"] in ("string", "number", "integer"):
+            return str(value)
+        elif schema["boolean"]:
+            # need special handling for flags
+            return str(value)
+
+    return None
 
 def adapt(adapter, job):
     if "value" in adapter:
-        if "$expr" in adapter["value"]:
+        if isinstance(adapter["value"], dict) and "$expr" in adapter["value"]:
             value = jseval(adapter["value"]["$expr"]["value"], job)
         else:
             value = adapter["value"]
     elif "valueFrom" in adapter:
         value = resolve_pointer(job, adapter["valueFrom"])
 
-    sep = adapter["separator"] if "separator" in adapter else ''
+    value = to_str(adapter["schema"], value)
 
-    value = [to_cli(v) for v in each(value)]
+    sep = adapter["separator"] if "separator" in adapter else ''
 
     if 'itemSeparator' in adapter:
         if adapter["prefix"]:
@@ -110,47 +166,45 @@ def adapt(adapter, job):
 
     return l
 
+
 class Tool(object):
     def __init__(self, toolpath_object):
         self.tool = toolpath_object["tool"]
         fix_file_type(self.tool)
         tool_schema.validate(self.tool)
 
+
     def job(self, joborder):
         inputs = joborder["job"]['inputs']
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
         adapter = self.tool["adapter"]
-        adapters = [{"order": -1000000, "value": adapter['baseCmd']}]
+        adapters = [{"order": -1000000,
+                     "schema": tool_schema_doc["properties"]["adapter"]["properties"]["baseCmd"],
+                     "value": adapter['baseCmd']}]
 
         for a in adapter["args"]:
+            a = copy.copy(a)
+            a["schema"] = tool_schema_doc["definitions"]["strOrExpr"]
             adapters.append(a)
 
-        for k, v in self.tool['inputs']['properties'].items():
-            if 'adapter' in v:
-                a = copy.copy(v['adapter'])
-            else:
-                a = {}
-
-            if not 'value' in a:
-                a['valueFrom'] = "#/job/inputs/"+ k
-            if not "order" in a:
-                a["order"] = 1000000
-            adapters.append(a)
+        adapters.extend(adapt_inputs(self.tool['inputs'], inputs))
 
         adapters.sort(key=lambda a: a["order"])
-        pprint.pprint(adapters)
 
         j = Job()
         j.command_line = flatten(map(lambda adapter: adapt(adapter, joborder), adapters))
 
         if 'stdin' in adapter:
-            j.stdin = flatten(adapt({"value": adapter['stdin']}, joborder))[0]
+            j.stdin = flatten(adapt({"value": adapter['stdin'],
+                                     "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdin"]
+                                 }, joborder))[0]
         else:
             j.stdin = None
 
         if 'stdout' in adapter:
-            j.stdout = flatten(adapt({"value": adapter['stdout']}, joborder))[0]
+            j.stdout = flatten(adapt({"value": adapter['stdout'],
+                                      "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdout"]}, joborder))[0]
         else:
             j.stdout = None
 

From 61b32c0a7686ffebe991f46585a3776715586dcd Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 10 Nov 2014 21:32:11 -0500
Subject: [PATCH 004/221] Initial conformance test framework.

---
 cwltool/main.py | 16 +++++++++++++---
 1 file changed, 13 insertions(+), 3 deletions(-)
 mode change 100644 => 100755 cwltool/main.py

diff --git a/cwltool/main.py b/cwltool/main.py
old mode 100644
new mode 100755
index 3b37b7015..cdbf87c21
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -1,12 +1,16 @@
+#!/usr/bin/env python
+
 import tool
 import argparse
 from ref_resolver import from_url
 import jsonschema
+import json
 
 def main():
     parser = argparse.ArgumentParser()
     parser.add_argument("tool", type=str)
     parser.add_argument("job_order", type=str)
+    parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("-x", action="store_true", help="Execute")
 
     args = parser.parse_args()
@@ -20,10 +24,16 @@ def main():
 
     try:
         job = t.job(from_url(args.job_order))
-        print '%s%s%s' % (' '.join(job.command_line),
-                            ' < %s' % (job.stdin) if job.stdin else '',
-                            ' > %s' % (job.stdout) if job.stdout else '')
+        if args.conformance_test:
+            print json.dumps(job.command_line)
+        else:
+            print '%s%s%s' % (' '.join(job.command_line),
+                                ' < %s' % (job.stdin) if job.stdin else '',
+                                ' > %s' % (job.stdout) if job.stdout else '')
     except jsonschema.exceptions.ValidationError as e:
         print "Job order failed validation"
         print e
         return
+
+if __name__ == "__main__":
+    main()

From a18878dd25f8e5b00f9c0988d81b6c1cc14a5379 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 10 Nov 2014 22:00:21 -0500
Subject: [PATCH 005/221] Remove default "tool": { } and "job": { } keys at the
 top document level.

---
 README.md       | 2 +-
 cwltool/tool.py | 6 +++---
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/README.md b/README.md
index 5466b63e0..f77f84e4d 100644
--- a/README.md
+++ b/README.md
@@ -4,4 +4,4 @@ python setup.py tests
 
 Run
 
-python -mcwltool --tool [uri] --job-order [uri]
+python cwltool [tool] [job]
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 17e19cecb..2f07a0f3d 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -79,7 +79,7 @@ def jseval(expression=None, job=None):
         $job = %s;
         return %s;}()
         '''
-    exp = exp_tpl % (json.dumps(job['job']), expression)
+    exp = exp_tpl % (json.dumps(job), expression)
     return execjs.eval(exp)
 
 def adapt_inputs(schema, inp):
@@ -169,13 +169,13 @@ def adapt(adapter, job):
 
 class Tool(object):
     def __init__(self, toolpath_object):
-        self.tool = toolpath_object["tool"]
+        self.tool = toolpath_object
         fix_file_type(self.tool)
         tool_schema.validate(self.tool)
 
 
     def job(self, joborder):
-        inputs = joborder["job"]['inputs']
+        inputs = joborder['inputs']
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
         adapter = self.tool["adapter"]

From bae08ccd3ec3be5ad1ca7070a630c80e4ff2e5d0 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 11 Nov 2014 11:34:26 -0500
Subject: [PATCH 006/221] Cwltool outputs json object with stdin and stdout. 
 Test includes stdout. Better logging by test running.

---
 cwltool/main.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index cdbf87c21..33bc88ed5 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -25,7 +25,12 @@ def main():
     try:
         job = t.job(from_url(args.job_order))
         if args.conformance_test:
-            print json.dumps(job.command_line)
+            a = {"args": job.command_line}
+            if job.stdin:
+                a["stdin"] = job.stdin
+            if job.stdout:
+                a["stdout"] = job.stdout
+            print json.dumps(a)
         else:
             print '%s%s%s' % (' '.join(job.command_line),
                                 ' < %s' % (job.stdin) if job.stdin else '',

From 69648f5e251c334a18a72d0cc5a3836f4d1b8f64 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 11 Nov 2014 14:01:15 -0500
Subject: [PATCH 007/221] Setup.py works.  Improve documentation.

---
 README.md | 23 +++++++++++++++++++----
 setup.py  | 14 +++++++++-----
 2 files changed, 28 insertions(+), 9 deletions(-)

diff --git a/README.md b/README.md
index f77f84e4d..268e1c86c 100644
--- a/README.md
+++ b/README.md
@@ -1,7 +1,22 @@
-Install
+# Common workflow language tool description reference implementation
 
-python setup.py tests
+This is intended to be a lightweight reference implementation of the common
+workflow language tool description.
 
-Run
+## Install
 
-python cwltool [tool] [job]
+```
+$ easy_install .
+```
+
+## Run on the command line
+
+```
+$ cwltool [tool] [job]
+```
+
+## Use as a library
+
+```
+import cwltool
+```
\ No newline at end of file
diff --git a/setup.py b/setup.py
index 58cdf054e..de6ab1303 100644
--- a/setup.py
+++ b/setup.py
@@ -1,6 +1,6 @@
-from setuptools import setup, find_packages
+from setuptools import setup
 
-setup(name='cwllib',
+setup(name='cwltool',
       version='1.0',
       description='Common workflow language reference implementation',
       author='Common workflow language working group',
@@ -8,7 +8,9 @@
       url="https://github.com/curoverse/common-workflow-language",
       download_url="https://github.com/curoverse/common-workflow-language",
       license='Apache 2.0',
-      packages=find_packages(),
+      packages=["cwltool"],
+      package_data={'cwltool': ['schemas/*.json']},
+      include_package_data=True,
       scripts=[
         ],
       install_requires=[
@@ -17,5 +19,7 @@
         ],
       test_suite='tests',
       tests_require=[],
-      zip_safe=False
-      )
+      entry_points={
+          'console_scripts': [ "cwltool=cwltool.main:main" ]
+      }
+)

From 1e956492a02db4c7a6e00ab4ecab26d40930f6dd Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 11 Nov 2014 17:10:34 -0500
Subject: [PATCH 008/221] Cwltool supports nested adapters.  Added $job (sort
 of like $ref but references the job document.)  Added tmap to conformance
 test.

---
 cwltool/tool.py | 111 +++++++++++++++++++++++++++++++-----------------
 setup.py        |   2 -
 2 files changed, 71 insertions(+), 42 deletions(-)

diff --git a/cwltool/tool.py b/cwltool/tool.py
index 2f07a0f3d..7dd893a4e 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -3,6 +3,8 @@
 import json
 import execjs
 import copy
+import sys
+import jsonschema.exceptions
 
 from jsonschema.validators import Draft4Validator
 from ref_resolver import from_url, resolve_pointer
@@ -15,12 +17,15 @@
     metaschema = json.load(f)
 
 def fix_metaschema(m):
-    if '$ref' in m and m['$ref'].startswith("metaschema.json"):
-        m['$ref'] = "file:%s/schemas/%s" % (module_dir, m['$ref'])
-    else:
-        for k in m:
-            if isinstance(m[k], dict):
+    if isinstance(m, dict):
+        if '$ref' in m and m['$ref'].startswith("metaschema.json"):
+            m['$ref'] = "file:%s/schemas/%s" % (module_dir, m['$ref'])
+        else:
+            for k in m:
                 fix_metaschema(m[k])
+    if isinstance(m, list):
+        for k in m:
+            fix_metaschema(k)
 
 fix_metaschema(tool_schema_doc)
 
@@ -68,7 +73,7 @@ def fix_file_type(t):
         if isinstance(t[k], dict):
             fix_file_type(t[k])
 
-def jseval(expression=None, job=None):
+def jseval(job=None, expression=None):
     if expression.startswith('{'):
         exp_tpl = '''function () {
         $job = %s;
@@ -82,31 +87,49 @@ def jseval(expression=None, job=None):
     exp = exp_tpl % (json.dumps(job), expression)
     return execjs.eval(exp)
 
-def adapt_inputs(schema, inp):
+def adapt_inputs(schema, inp, key):
     adapters = []
 
-    if not 'adapter' in schema:
-        if isinstance(inp, dict):
-            for i in inp:
-                adapters.extend(adapt_inputs(schema["properties"][i], inp[i]))
-            return adapters
-        elif isinstance(inp, list):
+    if 'oneOf' in schema:
+        for one in schema["oneOf"]:
+            try:
+                Draft4Validator(one).validate(inp)
+                schema = one
+                break
+            except jsonschema.exceptions.ValidationError:
+                pass
+
+    if isinstance(inp, dict):
+        if "properties" in schema:
             for i in inp:
-                adapters.extend(adapt_inputs(schema["items"], i))
-            return adapters
+                a = adapt_inputs(schema["properties"][i], inp[i], i)
+                adapters.extend(a)
+    elif isinstance(inp, list):
+        for n, i in enumerate(inp):
+            a = adapt_inputs(schema["items"], i, format(n, '06'))
+            for x in a:
+                x["order"].insert(0, n)
+            adapters.extend(a)
 
     if 'adapter' in schema:
         a = copy.copy(schema['adapter'])
-    else:
-        a = {}
 
-    if not 'value' in a:
-        a['value'] = inp
-    if not "order" in a:
-        a["order"] = 1000000
-    a["schema"] = schema
+        if "order" in a:
+            a["order"] = [a["order"], key]
+        else:
+            a["order"] = [1000000, key]
+
+        a["schema"] = schema
+
+        for x in adapters:
+            x["order"] = a["order"] + x["order"]
+
+        if not 'value' in a and len(adapters) == 0:
+            a['value'] = inp
+
+        if len(adapters) == 0 or "value" in a:
+            adapters.insert(0, a)
 
-    adapters.append(a)
     return adapters
 
 def to_str(schema, value):
@@ -126,10 +149,10 @@ def to_str(schema, value):
             if "path" in value:
                 return value["path"]
             else:
-                raise Exception("Not expecting a dict")
+                raise Exception("Not expecting a dict %s" % (value))
         elif schema["type"] in ("string", "number", "integer"):
             return str(value)
-        elif schema["boolean"]:
+        elif schema["type"] == "boolean":
             # need special handling for flags
             return str(value)
 
@@ -137,12 +160,12 @@ def to_str(schema, value):
 
 def adapt(adapter, job):
     if "value" in adapter:
-        if isinstance(adapter["value"], dict) and "$expr" in adapter["value"]:
-            value = jseval(adapter["value"]["$expr"]["value"], job)
-        else:
-            value = adapter["value"]
-    elif "valueFrom" in adapter:
-        value = resolve_pointer(job, adapter["valueFrom"])
+        value = adapter["value"]
+        if isinstance(value, dict):
+            if "$expr" in value:
+                value = jseval(job, value["$expr"]["value"])
+            elif "$job" in value:
+                value = resolve_pointer(job, value["$job"])
 
     value = to_str(adapter["schema"], value)
 
@@ -179,16 +202,24 @@ def job(self, joborder):
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
         adapter = self.tool["adapter"]
-        adapters = [{"order": -1000000,
+        adapters = [{"order": [-1000000],
                      "schema": tool_schema_doc["properties"]["adapter"]["properties"]["baseCmd"],
-                     "value": adapter['baseCmd']}]
-
-        for a in adapter["args"]:
-            a = copy.copy(a)
-            a["schema"] = tool_schema_doc["definitions"]["strOrExpr"]
-            adapters.append(a)
-
-        adapters.extend(adapt_inputs(self.tool['inputs'], inputs))
+                     "value": adapter['baseCmd'],
+                     #"_key": "0"
+                 }]
+
+        if "args" in adapter:
+            for i, a in enumerate(adapter["args"]):
+                a = copy.copy(a)
+                if "order" in a:
+                    a["order"] = [a["order"]]
+                else:
+                    a["order"] = [0]
+                a["schema"] = tool_schema_doc["definitions"]["strOrExpr"]
+                #a["_key"] = "!" + format(i, '06')
+                adapters.append(a)
+
+        adapters.extend(adapt_inputs(self.tool['inputs'], inputs, ""))
 
         adapters.sort(key=lambda a: a["order"])
 
diff --git a/setup.py b/setup.py
index de6ab1303..4f43a2ef1 100644
--- a/setup.py
+++ b/setup.py
@@ -11,8 +11,6 @@
       packages=["cwltool"],
       package_data={'cwltool': ['schemas/*.json']},
       include_package_data=True,
-      scripts=[
-        ],
       install_requires=[
           'jsonschema',
           'pyexecjs'

From 624a9259b1195e8174da4b06846f23372dbef438 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 12 Nov 2014 16:23:10 -0500
Subject: [PATCH 009/221] Adding more examples.  Started work on running jobs
 in Docker.  Working on capturing and remapping file paths.  Fiddling with ref
 resolving of cross references in schema files.

---
 cwltool/main.py |  13 +++--
 cwltool/tool.py | 136 +++++++++++++++++++++++++++++++++++++-----------
 2 files changed, 116 insertions(+), 33 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 33bc88ed5..3b2f60a4d 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -5,6 +5,8 @@
 from ref_resolver import from_url
 import jsonschema
 import json
+import os
+import sys
 
 def main():
     parser = argparse.ArgumentParser()
@@ -20,7 +22,7 @@ def main():
     except jsonschema.exceptions.ValidationError as e:
         print "Tool definition failed validation"
         print e
-        return
+        return 1
 
     try:
         job = t.job(from_url(args.job_order))
@@ -38,7 +40,12 @@ def main():
     except jsonschema.exceptions.ValidationError as e:
         print "Job order failed validation"
         print e
-        return
+        return 1
+
+    if args.x:
+        job.run()
+
+    return 0
 
 if __name__ == "__main__":
-    main()
+    sys.exit(main())
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 7dd893a4e..a187eae84 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -5,13 +5,15 @@
 import copy
 import sys
 import jsonschema.exceptions
+from job import Job
 
 from jsonschema.validators import Draft4Validator
 from ref_resolver import from_url, resolve_pointer
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
-with open(os.path.join(module_dir, 'schemas/tool.json')) as f:
+toolpath = os.path.join(module_dir, 'schemas/tool.json')
+with open(toolpath) as f:
     tool_schema_doc = json.load(f)
 with open(os.path.join(module_dir, 'schemas/metaschema.json')) as f:
     metaschema = json.load(f)
@@ -31,10 +33,6 @@ def fix_metaschema(m):
 
 tool_schema = Draft4Validator(tool_schema_doc)
 
-class Job(object):
-    def run(self):
-        pass
-
 def each(l):
     if l is None:
         return []
@@ -87,7 +85,15 @@ def jseval(job=None, expression=None):
     exp = exp_tpl % (json.dumps(job), expression)
     return execjs.eval(exp)
 
-def adapt_inputs(schema, inp, key):
+def resolve_eval(job, v):
+    if isinstance(v, dict):
+        if "$expr" in v:
+            return jseval(job, v["$expr"]["value"])
+        elif "$job" in v:
+            return resolve_pointer(job, v["$job"])
+    return v
+
+def adapt_inputs(schema, job, inp, key):
     adapters = []
 
     if 'oneOf' in schema:
@@ -102,11 +108,11 @@ def adapt_inputs(schema, inp, key):
     if isinstance(inp, dict):
         if "properties" in schema:
             for i in inp:
-                a = adapt_inputs(schema["properties"][i], inp[i], i)
+                a = adapt_inputs(schema["properties"][i], job, inp[i], i)
                 adapters.extend(a)
     elif isinstance(inp, list):
         for n, i in enumerate(inp):
-            a = adapt_inputs(schema["items"], i, format(n, '06'))
+            a = adapt_inputs(schema["items"], job, i, format(n, '06'))
             for x in a:
                 x["order"].insert(0, n)
             adapters.extend(a)
@@ -132,22 +138,22 @@ def adapt_inputs(schema, inp, key):
 
     return adapters
 
-def to_str(schema, value):
+def to_str(schema, value, base_url, path_mapper):
     if "$ref" in schema:
-        schema = from_url(schema["$ref"])
+        schema = from_url(schema["$ref"], base_url)
 
     if 'oneOf' in schema:
         for a in schema['oneOf']:
-            v = to_str(a, value)
+            v = to_str(a, value, base_url, path_mapper)
             if v is not None:
                 return v
         return None
     elif 'type' in schema:
         if schema["type"] == "array" and isinstance(value, list):
-            return [to_str(schema["items"], v) for v in value]
+            return [to_str(schema["items"], v, base_url, path_mapper) for v in value]
         elif schema["type"] == "object" and isinstance(value, dict):
             if "path" in value:
-                return value["path"]
+                return path_mapper(value["path"])
             else:
                 raise Exception("Not expecting a dict %s" % (value))
         elif schema["type"] in ("string", "number", "integer"):
@@ -158,16 +164,42 @@ def to_str(schema, value):
 
     return None
 
-def adapt(adapter, job):
+def find_files(adapter, job):
+    if "value" in adapter:
+        value = resolve_eval(job, adapter["value"])
+    else:
+        return None
+
+    schema = adapter["schema"]
+
+    if "$ref" in schema:
+        schema = from_url(schema["$ref"], adapter.get("$ref_base_url"))
+
+    if 'oneOf' in schema:
+        for a in schema['oneOf']:
+            v = find_files(a, value)
+            if v is not None:
+                return v
+        return None
+    elif 'type' in schema:
+        if schema["type"] == "array" and isinstance(value, list):
+            return [find_files(schema["items"], v) for v in value]
+        elif schema["type"] == "object" and isinstance(value, dict):
+            if "path" in value:
+                return value["path"]
+            else:
+                raise Exception("Not expecting a dict %s" % (value))
+
+    return None
+
+
+def adapt(adapter, job, path_mapper):
     if "value" in adapter:
-        value = adapter["value"]
-        if isinstance(value, dict):
-            if "$expr" in value:
-                value = jseval(job, value["$expr"]["value"])
-            elif "$job" in value:
-                value = resolve_pointer(job, value["$job"])
+        value = resolve_eval(job, adapter["value"])
+    else:
+        raise Exception("No value in adapter")
 
-    value = to_str(adapter["schema"], value)
+    value = to_str(adapter["schema"], value, adapter.get("$ref_base_url"), path_mapper)
 
     sep = adapter["separator"] if "separator" in adapter else ''
 
@@ -189,6 +221,22 @@ def adapt(adapter, job):
 
     return l
 
+class PathMapper(object):
+    def __init__(self, basedir):
+        self.basedir = basedir
+        self._pathmap = {}
+
+    def mapper(self, src):
+        if not os.path.isabs(src):
+            src = os.path.join(self.basedir, src)
+        self._pathmap[src] = src
+        return self._pathmap[src]
+
+    def pathmap(self):
+        return self._pathmap
+
+class DockerPathMapper(PathMapper):
+    pass
 
 class Tool(object):
     def __init__(self, toolpath_object):
@@ -196,8 +244,7 @@ def __init__(self, toolpath_object):
         fix_file_type(self.tool)
         tool_schema.validate(self.tool)
 
-
-    def job(self, joborder):
+    def job(self, joborder, basedir=""):
         inputs = joborder['inputs']
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
@@ -205,7 +252,7 @@ def job(self, joborder):
         adapters = [{"order": [-1000000],
                      "schema": tool_schema_doc["properties"]["adapter"]["properties"]["baseCmd"],
                      "value": adapter['baseCmd'],
-                     #"_key": "0"
+                     "$ref_base_url": "file:"+toolpath
                  }]
 
         if "args" in adapter:
@@ -216,27 +263,56 @@ def job(self, joborder):
                 else:
                     a["order"] = [0]
                 a["schema"] = tool_schema_doc["definitions"]["strOrExpr"]
-                #a["_key"] = "!" + format(i, '06')
                 adapters.append(a)
 
-        adapters.extend(adapt_inputs(self.tool['inputs'], inputs, ""))
+        adapters.extend(adapt_inputs(self.tool['inputs'], inputs, inputs, ""))
 
         adapters.sort(key=lambda a: a["order"])
 
+        referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: find_files(a, joborder), adapters)))
+        print >>sys.stderr, referenced_files
+
         j = Job()
-        j.command_line = flatten(map(lambda adapter: adapt(adapter, joborder), adapters))
+        j.tool = self
+
+        j.container = None
 
         if 'stdin' in adapter:
             j.stdin = flatten(adapt({"value": adapter['stdin'],
-                                     "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdin"]
-                                 }, joborder))[0]
+                                              "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdin"],
+                                              "$ref_base_url": "file:"+toolpath
+                                          }, joborder, None))[0]
+            referenced_files.append(j.stdin)
         else:
             j.stdin = None
 
         if 'stdout' in adapter:
             j.stdout = flatten(adapt({"value": adapter['stdout'],
-                                      "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdout"]}, joborder))[0]
+                                               "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdout"],
+                                               "$ref_base_url": "file:"+toolpath
+                                           }, joborder, None))[0]
+
+            if os.path.isabs(j.stdout):
+                raise Exception("stdout must be a relative path")
         else:
             j.stdout = None
 
+        d = None
+        a = self.tool.get("requirements")
+        if a:
+            b = a.get("environment")
+            if b:
+                c = b.get("container")
+                if c:
+                    if c.get("type") == "docker":
+                        d = DockerPathMapper(basedir)
+                        j.container = c
+
+        if d is None:
+            d = PathMapper(basedir)
+
+        j.command_line = flatten(map(lambda a: adapt(a, joborder, d.mapper), adapters))
+
+        j.pathmap = d.pathmap()
+
         return j

From e4ef50386c596e85f45d834d34e5c0254673c356 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 12 Nov 2014 17:01:05 -0500
Subject: [PATCH 010/221] Remap file paths to absolute paths by default. 
 Accomodate this in conformance test.

---
 cwltool/job.py  | 20 ++++++++++++++++++++
 cwltool/main.py |  2 +-
 cwltool/tool.py | 24 ++++++++++++++----------
 3 files changed, 35 insertions(+), 11 deletions(-)
 create mode 100644 cwltool/job.py

diff --git a/cwltool/job.py b/cwltool/job.py
new file mode 100644
index 000000000..e7692ad05
--- /dev/null
+++ b/cwltool/job.py
@@ -0,0 +1,20 @@
+import subprocess
+
+class Job(object):
+    def remap_files():
+        pass
+
+    def run(self):
+        runtime = []
+
+        print self.pathmap
+
+        if self.container:
+            runtime = ["docker", "run", self.container["imageId"]]
+
+        stdin = None
+        stdout = None
+
+        sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
+
+        sp.wait()
diff --git a/cwltool/main.py b/cwltool/main.py
index 3b2f60a4d..dada36748 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -25,7 +25,7 @@ def main():
         return 1
 
     try:
-        job = t.job(from_url(args.job_order))
+        job = t.job(from_url(args.job_order), os.path.abspath(os.path.dirname(args.job_order)))
         if args.conformance_test:
             a = {"args": job.command_line}
             if job.stdin:
diff --git a/cwltool/tool.py b/cwltool/tool.py
index a187eae84..c2b8fa7d9 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -183,7 +183,8 @@ def find_files(adapter, job):
         return None
     elif 'type' in schema:
         if schema["type"] == "array" and isinstance(value, list):
-            return [find_files(schema["items"], v) for v in value]
+            return [find_files({"value": v,
+                                "schema": schema["items"]}, job) for v in value]
         elif schema["type"] == "object" and isinstance(value, dict):
             if "path" in value:
                 return value["path"]
@@ -222,14 +223,15 @@ def adapt(adapter, job, path_mapper):
     return l
 
 class PathMapper(object):
-    def __init__(self, basedir):
-        self.basedir = basedir
+    def __init__(self, referenced_files, basedir):
         self._pathmap = {}
+        for src in referenced_files:
+            dest = src
+            if not os.path.isabs(dest):
+                dest = os.path.join(basedir, src)
+            self._pathmap[src] = dest
 
     def mapper(self, src):
-        if not os.path.isabs(src):
-            src = os.path.join(self.basedir, src)
-        self._pathmap[src] = src
         return self._pathmap[src]
 
     def pathmap(self):
@@ -244,7 +246,7 @@ def __init__(self, toolpath_object):
         fix_file_type(self.tool)
         tool_schema.validate(self.tool)
 
-    def job(self, joborder, basedir=""):
+    def job(self, joborder, basedir):
         inputs = joborder['inputs']
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
@@ -270,7 +272,6 @@ def job(self, joborder, basedir=""):
         adapters.sort(key=lambda a: a["order"])
 
         referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: find_files(a, joborder), adapters)))
-        print >>sys.stderr, referenced_files
 
         j = Job()
         j.tool = self
@@ -305,11 +306,14 @@ def job(self, joborder, basedir=""):
                 c = b.get("container")
                 if c:
                     if c.get("type") == "docker":
-                        d = DockerPathMapper(basedir)
+                        d = DockerPathMapper(referenced_files, basedir)
                         j.container = c
 
         if d is None:
-            d = PathMapper(basedir)
+            d = PathMapper(referenced_files, basedir)
+
+        if j.stdin:
+            j.stdin = d.mapper(j.stdin)
 
         j.command_line = flatten(map(lambda a: adapt(a, joborder, d.mapper), adapters))
 

From bb0d88c84a9f8b000c173117306300116d5d92f2 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 13 Nov 2014 09:47:05 -0500
Subject: [PATCH 011/221] Added filename mapping for running inside docker.

---
 cwltool/job.py  | 12 ++++++----
 cwltool/tool.py | 59 +++++++++++++++++++++++++++++++++++++++++--------
 2 files changed, 58 insertions(+), 13 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index e7692ad05..a38a214a1 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -1,4 +1,5 @@
 import subprocess
+import os
 
 class Job(object):
     def remap_files():
@@ -7,14 +8,17 @@ def remap_files():
     def run(self):
         runtime = []
 
-        print self.pathmap
-
-        if self.container:
-            runtime = ["docker", "run", self.container["imageId"]]
+        if self.container and self.container.get("type") == "docker":
+            runtime = ["docker", "run"]
+            for d in self.pathmapper.dirs:
+                runtime.append("--volume=%s:%s:ro" % (d, self.pathmapper.dirs[d]))
+            runtime.append(self.container["imageId"])
 
         stdin = None
         stdout = None
 
+        print runtime + self.command_line
+
         sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
 
         sp.wait()
diff --git a/cwltool/tool.py b/cwltool/tool.py
index c2b8fa7d9..6e6928e74 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -5,6 +5,7 @@
 import copy
 import sys
 import jsonschema.exceptions
+import random
 from job import Job
 
 from jsonschema.validators import Draft4Validator
@@ -223,22 +224,62 @@ def adapt(adapter, job, path_mapper):
     return l
 
 class PathMapper(object):
+    # Maps files to their absolute path
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         for src in referenced_files:
-            dest = src
-            if not os.path.isabs(dest):
-                dest = os.path.join(basedir, src)
-            self._pathmap[src] = dest
+            if os.path.isabs(src):
+                abs = src
+            else:
+                abs = os.path.join(basedir, src)
+
+            self._pathmap[src] = abs
 
     def mapper(self, src):
         return self._pathmap[src]
 
-    def pathmap(self):
-        return self._pathmap
 
-class DockerPathMapper(PathMapper):
-    pass
+class DockerPathMapper(object):
+    def __init__(self, referenced_files, basedir):
+        self._pathmap = {}
+        self.dirs = {}
+        for src in referenced_files:
+            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            dir, fn = os.path.split(abs)
+
+            subdir = False
+            for d in self.dirs:
+                if dir.startswith(d):
+                  subdir = True
+                  break
+
+            if not subdir:
+                for d in list(self.dirs):
+                    if d.startswith(dir):
+                        # 'dir' is a parent of 'd'
+                        del self.dirs[d]
+                self.dirs[dir] = True
+
+        prefix = "job" + str(random.randint(1, 1000000000)) + "_"
+
+        names = set()
+        for d in self.dirs:
+            name = os.path.join("/tmp", prefix + os.path.basename(d))
+            i = 1
+            while name in names:
+                i += 1
+                name = os.path.join("/tmp", prefix + os.path.basename(d) + str(i))
+            names.add(name)
+            self.dirs[d] = name
+
+        for src in referenced_files:
+            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            for d in self.dirs:
+                if abs.startswith(d):
+                    self._pathmap[src] = os.path.join(self.dirs[d], abs[len(d)+1:])
+
+    def mapper(self, src):
+        return self._pathmap[src]
 
 class Tool(object):
     def __init__(self, toolpath_object):
@@ -317,6 +358,6 @@ def job(self, joborder, basedir):
 
         j.command_line = flatten(map(lambda a: adapt(a, joborder, d.mapper), adapters))
 
-        j.pathmap = d.pathmap()
+        j.pathmapper = d
 
         return j

From 333924bb9bb2e784ce58a177d5832508d3fa093e Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 13 Nov 2014 10:33:35 -0500
Subject: [PATCH 012/221] * Docker running works!  Supports bind mounting input
 and output directories and stdin and stdout redirection. * Conformance
 testing now requires --basedir (to standardize the absolute directory path
 that is generated) and --no-container to suppress container bind mount name
 remapping.

---
 cwltool/job.py  | 25 +++++++++++++++++++++++--
 cwltool/main.py |  6 +++++-
 cwltool/tool.py | 12 ++++--------
 3 files changed, 32 insertions(+), 11 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index a38a214a1..f0456cc56 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -1,24 +1,45 @@
 import subprocess
 import os
+import tempfile
 
 class Job(object):
     def remap_files():
         pass
 
     def run(self):
+        outdir = tempfile.mkdtemp()
+
         runtime = []
 
         if self.container and self.container.get("type") == "docker":
-            runtime = ["docker", "run"]
+            runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (d, self.pathmapper.dirs[d]))
+            runtime.append("--volume=%s:%s:ro" % (outdir, "/tmp/job_output"))
+            runtime.append("--workdir=%s" % ("/tmp/job_output"))
+            runtime.append("--user=%s" % (os.geteuid()))
             runtime.append(self.container["imageId"])
+        else:
+            os.chdir(outdir)
 
         stdin = None
         stdout = None
 
+        if self.stdin:
+            stdin = open(self.stdin, "rb")
+
+        if self.stdout:
+            stdout = open(os.path.join(outdir, self.stdout), "wb")
+
         print runtime + self.command_line
 
         sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
-
         sp.wait()
+
+        if stdin:
+            stdin.close()
+
+        if stdout:
+            stdout.close()
+
+        print "Output directory is %s" % outdir
diff --git a/cwltool/main.py b/cwltool/main.py
index dada36748..d1c9992a5 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -13,6 +13,8 @@ def main():
     parser.add_argument("tool", type=str)
     parser.add_argument("job_order", type=str)
     parser.add_argument("--conformance-test", action="store_true")
+    parser.add_argument("--basedir", type=str)
+    parser.add_argument("--no-container", action="store_true")
     parser.add_argument("-x", action="store_true", help="Execute")
 
     args = parser.parse_args()
@@ -24,8 +26,10 @@ def main():
         print e
         return 1
 
+    basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
+
     try:
-        job = t.job(from_url(args.job_order), os.path.abspath(os.path.dirname(args.job_order)))
+        job = t.job(from_url(args.job_order), basedir, use_container=(not args.no_container))
         if args.conformance_test:
             a = {"args": job.command_line}
             if job.stdin:
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 6e6928e74..0dbe7a00a 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -228,11 +228,7 @@ class PathMapper(object):
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         for src in referenced_files:
-            if os.path.isabs(src):
-                abs = src
-            else:
-                abs = os.path.join(basedir, src)
-
+            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
             self._pathmap[src] = abs
 
     def mapper(self, src):
@@ -287,7 +283,7 @@ def __init__(self, toolpath_object):
         fix_file_type(self.tool)
         tool_schema.validate(self.tool)
 
-    def job(self, joborder, basedir):
+    def job(self, joborder, basedir, use_container=True):
         inputs = joborder['inputs']
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
@@ -345,7 +341,7 @@ def job(self, joborder, basedir):
             b = a.get("environment")
             if b:
                 c = b.get("container")
-                if c:
+                if use_container and c:
                     if c.get("type") == "docker":
                         d = DockerPathMapper(referenced_files, basedir)
                         j.container = c
@@ -354,7 +350,7 @@ def job(self, joborder, basedir):
             d = PathMapper(referenced_files, basedir)
 
         if j.stdin:
-            j.stdin = d.mapper(j.stdin)
+            j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
 
         j.command_line = flatten(map(lambda a: adapt(a, joborder, d.mapper), adapters))
 

From 28d6dfa286061e8aa01c296d1461ab586578ca43 Mon Sep 17 00:00:00 2001
From: Ward Vandewege <ward@curoverse.com>
Date: Tue, 18 Nov 2014 10:51:49 -0500
Subject: [PATCH 013/221] Update setup.py so that package version numbering is
 more flexible.

Rename README.md to README.rst so that it also renders on pypi

No issue #
---
 README.md  | 22 ----------------------
 README.rst | 35 +++++++++++++++++++++++++++++++++++
 setup.py   | 30 +++++++++++++++++++++++++++---
 3 files changed, 62 insertions(+), 25 deletions(-)
 delete mode 100644 README.md
 create mode 100644 README.rst

diff --git a/README.md b/README.md
deleted file mode 100644
index 268e1c86c..000000000
--- a/README.md
+++ /dev/null
@@ -1,22 +0,0 @@
-# Common workflow language tool description reference implementation
-
-This is intended to be a lightweight reference implementation of the common
-workflow language tool description.
-
-## Install
-
-```
-$ easy_install .
-```
-
-## Run on the command line
-
-```
-$ cwltool [tool] [job]
-```
-
-## Use as a library
-
-```
-import cwltool
-```
\ No newline at end of file
diff --git a/README.rst b/README.rst
new file mode 100644
index 000000000..2e62afd6c
--- /dev/null
+++ b/README.rst
@@ -0,0 +1,35 @@
+==================================================================
+Common workflow language tool description reference implementation
+==================================================================
+
+This is intended to be a lightweight reference implementation of the common
+workflow language tool description.
+
+Install
+-------
+
+From source::
+
+  git clone https://github.com/curoverse/common-workflow-language.git
+  cd common-workflow-language/reference
+  easy_install .
+
+With pip::
+
+  pip install cwltool
+
+
+Run on the command line
+-----------------------
+
+  ``cwltool [tool] [job]``
+
+Use as a library
+----------------
+
+Add::
+
+  import cwltool
+
+to your script.
+
diff --git a/setup.py b/setup.py
index 4f43a2ef1..6251a2961 100644
--- a/setup.py
+++ b/setup.py
@@ -1,8 +1,31 @@
-from setuptools import setup
+#!/usr/bin/env python
+
+import os
+import subprocess
+import time
+
+from setuptools import setup, find_packages
+
+SETUP_DIR = os.path.dirname(__file__)
+README = os.path.join(SETUP_DIR, 'README.rst')
+
+cmd_opts = {'egg_info': {}}
+try:
+    git_tags = subprocess.check_output(
+        ['git', 'log', '--first-parent', '--max-count=1',
+         '--format=format:%ct %h', SETUP_DIR]).split()
+    assert len(git_tags) == 2
+except (AssertionError, OSError, subprocess.CalledProcessError):
+    pass
+else:
+    git_tags[0] = time.strftime('%Y%m%d%H%M%S', time.gmtime(int(git_tags[0])))
+    cmd_opts['egg_info']['tag_build'] = '.{}.{}'.format(*git_tags)
+
 
 setup(name='cwltool',
-      version='1.0',
+      version='0.1',
       description='Common workflow language reference implementation',
+      long_description=open(README).read(),
       author='Common workflow language working group',
       author_email='common-workflow-language@googlegroups.com',
       url="https://github.com/curoverse/common-workflow-language",
@@ -19,5 +42,6 @@
       tests_require=[],
       entry_points={
           'console_scripts': [ "cwltool=cwltool.main:main" ]
-      }
+      },
+      options=cmd_opts,
 )

From 4ccf283c25f2fc408d3c3f6db8bf46a9b1cd17f8 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 18 Nov 2014 11:35:09 -0500
Subject: [PATCH 014/221] Remove yaml from ref_resolver, only support JSON in
 cwltool.

---
 cwltool/ref_resolver.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index 106980a21..aae572d94 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -1,6 +1,5 @@
 import os
 import json
-import yaml
 import copy
 import hashlib
 import logging
@@ -87,7 +86,7 @@ def fetch(self, url):
         elif scheme == 'file':
             try:
                 with open(path) as fp:
-                    result = yaml.load(fp)
+                    result = json.load(fp)
             except (OSError, IOError) as e:
                 raise RuntimeError('Failed for %s: %s' % (url, e))
         else:

From e48f139783027d49974dc91ccbd1515e0aa41ddc Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 18 Nov 2014 11:36:26 -0500
Subject: [PATCH 015/221] Change paths to refer to
 rabix/common-workflow-language instead of curoverse/common-workflow-language.

---
 README.rst | 3 +--
 setup.py   | 4 ++--
 2 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/README.rst b/README.rst
index 2e62afd6c..2f118a64c 100644
--- a/README.rst
+++ b/README.rst
@@ -10,7 +10,7 @@ Install
 
 From source::
 
-  git clone https://github.com/curoverse/common-workflow-language.git
+  git clone https://github.com/rabix/common-workflow-language.git
   cd common-workflow-language/reference
   easy_install .
 
@@ -32,4 +32,3 @@ Add::
   import cwltool
 
 to your script.
-
diff --git a/setup.py b/setup.py
index 6251a2961..d21df1753 100644
--- a/setup.py
+++ b/setup.py
@@ -28,8 +28,8 @@
       long_description=open(README).read(),
       author='Common workflow language working group',
       author_email='common-workflow-language@googlegroups.com',
-      url="https://github.com/curoverse/common-workflow-language",
-      download_url="https://github.com/curoverse/common-workflow-language",
+      url="https://github.com/rabix/common-workflow-language",
+      download_url="https://github.com/rabix/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
       package_data={'cwltool': ['schemas/*.json']},

From 736fc2078cc3500feab1d1b9909ce39ce2f8cc24 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 18 Nov 2014 13:53:49 -0500
Subject: [PATCH 016/221] Add version constraints to setup.py

---
 setup.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/setup.py b/setup.py
index d21df1753..d3f6b2505 100644
--- a/setup.py
+++ b/setup.py
@@ -35,8 +35,8 @@
       package_data={'cwltool': ['schemas/*.json']},
       include_package_data=True,
       install_requires=[
-          'jsonschema',
-          'pyexecjs'
+          'jsonschema >= 2.4.0',
+          'pyexecjs >= 1.0.5'
         ],
       test_suite='tests',
       tests_require=[],

From e47522bb665e840ce6fcfc851c1ba0ffe94415dc Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 18 Nov 2014 22:08:40 -0500
Subject: [PATCH 017/221] Populate the 'fetched' cache of ref_resolver with
 schemas so they do not need to be downloaded.  Update schemas with full URIs
 (no more abbreviated metaschema.json).  Cwltool now runs the job by default,
 use --conformance-test or --dry-run to just print out what it is going to do.

---
 cwltool/job.py          | 32 ++++++++++++++++++--------------
 cwltool/main.py         |  5 ++---
 cwltool/ref_resolver.py |  2 +-
 cwltool/tool.py         | 21 +++++++++------------
 4 files changed, 30 insertions(+), 30 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index f0456cc56..19bd1a743 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -6,8 +6,11 @@ class Job(object):
     def remap_files():
         pass
 
-    def run(self):
-        outdir = tempfile.mkdtemp()
+    def run(self, dry_run=False):
+        if not dry_run:
+            outdir = tempfile.mkdtemp()
+        else:
+            outdir = "/tmp"
 
         runtime = []
 
@@ -25,21 +28,22 @@ def run(self):
         stdin = None
         stdout = None
 
-        if self.stdin:
-            stdin = open(self.stdin, "rb")
+        print runtime + self.command_line
 
-        if self.stdout:
-            stdout = open(os.path.join(outdir, self.stdout), "wb")
+        if not dry_run:
+            if self.stdin:
+                stdin = open(self.stdin, "rb")
 
-        print runtime + self.command_line
+            if self.stdout:
+                stdout = open(os.path.join(outdir, self.stdout), "wb")
 
-        sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
-        sp.wait()
+            sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
+            sp.wait()
 
-        if stdin:
-            stdin.close()
+            if stdin:
+                stdin.close()
 
-        if stdout:
-            stdout.close()
+            if stdout:
+                stdout.close()
 
-        print "Output directory is %s" % outdir
+            print "Output directory is %s" % outdir
diff --git a/cwltool/main.py b/cwltool/main.py
index d1c9992a5..d4f3dca23 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -15,7 +15,7 @@ def main():
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
     parser.add_argument("--no-container", action="store_true")
-    parser.add_argument("-x", action="store_true", help="Execute")
+    parser.add_argument("--dry-run", action="store_true", help="Do not execute")
 
     args = parser.parse_args()
 
@@ -46,8 +46,7 @@ def main():
         print e
         return 1
 
-    if args.x:
-        job.run()
+    job.run(dry_run=args.dry_run)
 
     return 0
 
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index aae572d94..090f051ad 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -81,7 +81,7 @@ def fetch(self, url):
             try:
                 resp.raise_for_status()
             except Exception as e:
-                raise RuntimeError(url, cause=e)
+                raise RuntimeError(url, e)
             result = resp.json()
         elif scheme == 'file':
             try:
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 0dbe7a00a..6afd644c8 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -9,28 +9,25 @@
 from job import Job
 
 from jsonschema.validators import Draft4Validator
+import ref_resolver
 from ref_resolver import from_url, resolve_pointer
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
+jsonschemapath = os.path.join(module_dir, 'schemas/json-schema-draft-04.json')
+with open(jsonschemapath) as f:
+    jsonschemapath_doc = json.load(f)
+
+ref_resolver.loader.fetched["http://json-schema.org/draft-04/schema"] = jsonschemapath_doc
+
 toolpath = os.path.join(module_dir, 'schemas/tool.json')
 with open(toolpath) as f:
     tool_schema_doc = json.load(f)
 with open(os.path.join(module_dir, 'schemas/metaschema.json')) as f:
     metaschema = json.load(f)
 
-def fix_metaschema(m):
-    if isinstance(m, dict):
-        if '$ref' in m and m['$ref'].startswith("metaschema.json"):
-            m['$ref'] = "file:%s/schemas/%s" % (module_dir, m['$ref'])
-        else:
-            for k in m:
-                fix_metaschema(m[k])
-    if isinstance(m, list):
-        for k in m:
-            fix_metaschema(k)
-
-fix_metaschema(tool_schema_doc)
+ref_resolver.loader.fetched["https://raw.githubusercontent.com/rabix/common-workflow-language/master/schemas/tool.json"] = tool_schema_doc
+ref_resolver.loader.fetched["https://raw.githubusercontent.com/rabix/common-workflow-language/master/schemas/metaschema.json"] = metaschema
 
 tool_schema = Draft4Validator(tool_schema_doc)
 

From 42445bcbb180169ef4e0ed06122f125d8bb006a6 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 18 Nov 2014 22:17:26 -0500
Subject: [PATCH 018/221] Example documents were being read in with an overly
 permissive json parser and actually had syntax errors.  Fixed.  Don't try to
 run the job when --conformance-tests is specified.  Tests pass again.

---
 cwltool/main.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index d4f3dca23..7b4265b24 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -41,13 +41,12 @@ def main():
             print '%s%s%s' % (' '.join(job.command_line),
                                 ' < %s' % (job.stdin) if job.stdin else '',
                                 ' > %s' % (job.stdout) if job.stdout else '')
+            job.run(dry_run=args.dry_run)
     except jsonschema.exceptions.ValidationError as e:
         print "Job order failed validation"
         print e
         return 1
 
-    job.run(dry_run=args.dry_run)
-
     return 0
 
 if __name__ == "__main__":

From 77aa8ff12120a16f056e0c4803c12c2fdc4acb6a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 25 Nov 2014 13:41:03 -0500
Subject: [PATCH 019/221] Javascript expressions now run in a Node.js sandbox. 
 Drop dependency on pyexecjs, but depends implicitly on nodejs being
 installed.

---
 cwltool/sandboxjs.py | 30 ++++++++++++++++++++++++++++++
 cwltool/tool.py      | 16 ++++++++--------
 setup.py             |  3 +--
 3 files changed, 39 insertions(+), 10 deletions(-)
 create mode 100644 cwltool/sandboxjs.py

diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
new file mode 100644
index 000000000..6a1243829
--- /dev/null
+++ b/cwltool/sandboxjs.py
@@ -0,0 +1,30 @@
+import subprocess
+import json
+import threading
+
+class JavascriptException(Exception):
+    pass
+
+def execjs(js):
+    nodejs = subprocess.Popen(["nodejs"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+
+    fn = "\"use strict\";\n(function()%s)()" % (js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
+    script = "console.log(JSON.stringify(require(\"vm\").runInNewContext(%s, {})))" % json.dumps(fn)
+
+    def term():
+        try:
+            nodejs.terminate()
+        except OSError:
+            pass
+
+    # Time out after 5 seconds
+    tm = threading.Timer(5, term)
+    tm.start()
+
+    stdoutdata, stderrdata = nodejs.communicate(script)
+    tm.cancel()
+
+    if stderrdata.strip() or nodejs.returncode != 0:
+        raise JavascriptException(script + "\n" + stderrdata)
+    else:
+        return json.loads(stdoutdata)
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 6afd644c8..b95fe9df7 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -1,7 +1,7 @@
 import os
 import pprint
 import json
-import execjs
+import sandboxjs
 import copy
 import sys
 import jsonschema.exceptions
@@ -71,17 +71,17 @@ def fix_file_type(t):
 
 def jseval(job=None, expression=None):
     if expression.startswith('{'):
-        exp_tpl = '''function () {
-        $job = %s;
-        return function()%s();}()
+        exp_tpl = '''{
+        var $job = %s;
+        return function()%s();}
         '''
     else:
-        exp_tpl = '''function () {
-        $job = %s;
-        return %s;}()
+        exp_tpl = '''{
+        var $job = %s;
+        return %s;}
         '''
     exp = exp_tpl % (json.dumps(job), expression)
-    return execjs.eval(exp)
+    return sandboxjs.execjs(exp)
 
 def resolve_eval(job, v):
     if isinstance(v, dict):
diff --git a/setup.py b/setup.py
index d3f6b2505..c48e52fca 100644
--- a/setup.py
+++ b/setup.py
@@ -35,8 +35,7 @@
       package_data={'cwltool': ['schemas/*.json']},
       include_package_data=True,
       install_requires=[
-          'jsonschema >= 2.4.0',
-          'pyexecjs >= 1.0.5'
+          'jsonschema >= 2.4.0'
         ],
       test_suite='tests',
       tests_require=[],

From b9c74462cb9d1940b1990365bc4e75eaab572840 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 28 Nov 2014 15:53:39 -0500
Subject: [PATCH 020/221] Initial support for "outputs" section of tool file in
 reference cwltool.

---
 cwltool/job.py  | 26 +++++++++++++++++++++++---
 cwltool/main.py |  2 +-
 cwltool/tool.py |  1 +
 setup.py        |  4 ++--
 4 files changed, 27 insertions(+), 6 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index 19bd1a743..addc8f7dc 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -1,11 +1,10 @@
 import subprocess
 import os
 import tempfile
+import tool
+import glob
 
 class Job(object):
-    def remap_files():
-        pass
-
     def run(self, dry_run=False):
         if not dry_run:
             outdir = tempfile.mkdtemp()
@@ -47,3 +46,24 @@ def run(self, dry_run=False):
                 stdout.close()
 
             print "Output directory is %s" % outdir
+            return self.collect_outputs(self.tool.tool["outputs"], outdir)
+        else:
+            return None
+
+    def collect_outputs(self, schema, outdir):
+        r = None
+        if isinstance(schema, dict):
+            if "adapter" in schema:
+                adapter = schema["adapter"]
+                if "glob" in adapter:
+                    r = [{"path": g} for g in glob.glob(os.path.join(outdir, adapter["glob"]))]
+                if "value" in adapter:
+                    r = tool.resolve_eval(self.joborder, adapter["value"])
+            if not r and "properties" in schema:
+                r = {}
+                for k, v in schema["properties"].items():
+                    out = self.collect_outputs(v, outdir)
+                    if out:
+                        r[k] = out
+
+        return r
diff --git a/cwltool/main.py b/cwltool/main.py
index 7b4265b24..0b307c572 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -41,7 +41,7 @@ def main():
             print '%s%s%s' % (' '.join(job.command_line),
                                 ' < %s' % (job.stdin) if job.stdin else '',
                                 ' > %s' % (job.stdout) if job.stdout else '')
-            job.run(dry_run=args.dry_run)
+            print job.run(dry_run=args.dry_run)
     except jsonschema.exceptions.ValidationError as e:
         print "Job order failed validation"
         print e
diff --git a/cwltool/tool.py b/cwltool/tool.py
index b95fe9df7..9e98d7d85 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -308,6 +308,7 @@ def job(self, joborder, basedir, use_container=True):
         referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: find_files(a, joborder), adapters)))
 
         j = Job()
+        j.joborder = joborder
         j.tool = self
 
         j.container = None
diff --git a/setup.py b/setup.py
index c48e52fca..423c80cfc 100644
--- a/setup.py
+++ b/setup.py
@@ -28,8 +28,8 @@
       long_description=open(README).read(),
       author='Common workflow language working group',
       author_email='common-workflow-language@googlegroups.com',
-      url="https://github.com/rabix/common-workflow-language",
-      download_url="https://github.com/rabix/common-workflow-language",
+      url="https://github.com/common-workflow-language/common-workflow-language",
+      download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
       package_data={'cwltool': ['schemas/*.json']},

From e2ce606cac4c5af34844e16b6f2e67d7a9a8919b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 28 Nov 2014 16:04:37 -0500
Subject: [PATCH 021/221] "glob" adapter only returns first hit unless type is
 "array"

---
 cwltool/job.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/cwltool/job.py b/cwltool/job.py
index addc8f7dc..03b4aa076 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -57,6 +57,11 @@ def collect_outputs(self, schema, outdir):
                 adapter = schema["adapter"]
                 if "glob" in adapter:
                     r = [{"path": g} for g in glob.glob(os.path.join(outdir, adapter["glob"]))]
+                    if not ("type" in schema and schema["type"] == "array"):
+                        if r:
+                            r = r[0]
+                        else:
+                            r = None
                 if "value" in adapter:
                     r = tool.resolve_eval(self.joborder, adapter["value"])
             if not r and "properties" in schema:

From 3752a8876ede27d99610ea781c31b540783ade04 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 5 Dec 2014 11:20:16 -0500
Subject: [PATCH 022/221] Require that tool description documents say what tool
 schema version they are using.

---
 cwltool/tool.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/cwltool/tool.py b/cwltool/tool.py
index 9e98d7d85..3d5d4c781 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -26,8 +26,12 @@
 with open(os.path.join(module_dir, 'schemas/metaschema.json')) as f:
     metaschema = json.load(f)
 
-ref_resolver.loader.fetched["https://raw.githubusercontent.com/rabix/common-workflow-language/master/schemas/tool.json"] = tool_schema_doc
-ref_resolver.loader.fetched["https://raw.githubusercontent.com/rabix/common-workflow-language/master/schemas/metaschema.json"] = metaschema
+SCHEMA_URL_PREFIX = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-1/schemas/"
+TOOL_SCHEMA_URL = SCHEMA_URL_PREFIX + "tool.json"
+METASCHEMA_SCHEMA_URL = SCHEMA_URL_PREFIX + "metaschema.json"
+
+ref_resolver.loader.fetched[TOOL_SCHEMA_URL] = tool_schema_doc
+ref_resolver.loader.fetched[METASCHEMA_SCHEMA_URL] = metaschema
 
 tool_schema = Draft4Validator(tool_schema_doc)
 
@@ -278,6 +282,8 @@ class Tool(object):
     def __init__(self, toolpath_object):
         self.tool = toolpath_object
         fix_file_type(self.tool)
+        if "schema" not in self.tool or self.tool["schema"] != TOOL_SCHEMA_URL:
+            raise Exception("Missing or invalid 'schema' field in tool description document, must be %s" % TOOL_SCHEMA_URL)
         tool_schema.validate(self.tool)
 
     def job(self, joborder, basedir, use_container=True):

From da45892482407778c4861a63e90c0c920afa46b1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 5 Dec 2014 14:46:42 -0500
Subject: [PATCH 023/221] Spec defines $ref, $mixin and $expr.  Decided $expr
 didn't need a "lang" field and made it simpler by eliminating the inner
 object.  Replaced references to "rabix" github organization with
 "common-workflow-language".  Updated schema references to specifically refer
 to draft-1 branch.

---
 README.rst      | 2 +-
 cwltool/tool.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/README.rst b/README.rst
index 2f118a64c..6a60be272 100644
--- a/README.rst
+++ b/README.rst
@@ -10,7 +10,7 @@ Install
 
 From source::
 
-  git clone https://github.com/rabix/common-workflow-language.git
+  git clone https://github.com/common-workflow-language/common-workflow-language.git
   cd common-workflow-language/reference
   easy_install .
 
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 3d5d4c781..034e24577 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -90,7 +90,7 @@ def jseval(job=None, expression=None):
 def resolve_eval(job, v):
     if isinstance(v, dict):
         if "$expr" in v:
-            return jseval(job, v["$expr"]["value"])
+            return jseval(job, v["$expr"])
         elif "$job" in v:
             return resolve_pointer(job, v["$job"])
     return v

From 5fcb67f922ac3cead49675dca4c669bf64866b96 Mon Sep 17 00:00:00 2001
From: Nebojsa Tijanic <nebojsa.tijanic@sbgenomics.com>
Date: Mon, 15 Dec 2014 17:04:07 +0100
Subject: [PATCH 024/221] See previous commit

---
 cwltool/job.py         | 11 +++++++++++
 tests/test_examples.py |  7 +++++++
 2 files changed, 18 insertions(+)

diff --git a/cwltool/job.py b/cwltool/job.py
index 03b4aa076..1b816a78c 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -3,6 +3,8 @@
 import tempfile
 import tool
 import glob
+import json
+
 
 class Job(object):
     def run(self, dry_run=False):
@@ -11,6 +13,9 @@ def run(self, dry_run=False):
         else:
             outdir = "/tmp"
 
+        with open(os.path.join(outdir, "job.cwl.json"), "w") as fp:
+            json.dump(self.joborder, fp)
+
         runtime = []
 
         if self.container and self.container.get("type") == "docker":
@@ -51,6 +56,12 @@ def run(self, dry_run=False):
             return None
 
     def collect_outputs(self, schema, outdir):
+        result_path = os.path.join(outdir, "result.cwl.json")
+        if os.path.isfile(result_path):
+            print "Result file found."
+            with open(result_path) as fp:
+                return json.load(fp)
+
         r = None
         if isinstance(schema, dict):
             if "adapter" in schema:
diff --git a/tests/test_examples.py b/tests/test_examples.py
index 84537602a..891b9f5fb 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -16,6 +16,13 @@ def test_job_order(self):
                                             './rabix/tests/test-files/example_human_Illumina.pe_1.fastq',
                                             './rabix/tests/test-files/example_human_Illumina.pe_2.fastq'])
 
+    def test_no_adapters(self):
+        t = tool.Tool(from_url("../examples/add_ints-tool.json"))
+        job = t.job(from_url("../examples/add_ints-job.json"), basedir='.')
+        result = job.run()
+        print result
+        self.assertEqual(result['c'], 3)
+
 
 if __name__ == '__main__':
     unittest.main()

From 58910919cff382e63f2282bc1f651c057f2e3ada Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 22 Jan 2015 22:19:15 -0500
Subject: [PATCH 025/221] Fix uri in bwa example.  Cwltool now runs "docker
 pull" before running the job.

---
 cwltool/job.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/cwltool/job.py b/cwltool/job.py
index 1b816a78c..026b2c140 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -19,6 +19,8 @@ def run(self, dry_run=False):
         runtime = []
 
         if self.container and self.container.get("type") == "docker":
+            if "uri" in self.container:
+                subprocess.call("docker", "pull", self.container["uri"])
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (d, self.pathmapper.dirs[d]))

From 02b17c7b53eaa2bf5a44e6cbee6a657fd36467e9 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 23 Jan 2015 16:31:20 -0500
Subject: [PATCH 026/221] Add $import and $apply directives, expressionlib and
 generatefiles section. Now loads as YAML instead of json.  Fixed boolean
 handling.  Updated spec.

---
 cwltool/job.py          |  21 ++-
 cwltool/main.py         |   7 +-
 cwltool/ref_resolver.py |  14 +-
 cwltool/sandboxjs.py    |   6 +-
 cwltool/tool.py         | 334 +++++++++++++++++++++++-----------------
 setup.py                |   4 +-
 6 files changed, 220 insertions(+), 166 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index 026b2c140..2295acbcf 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -4,10 +4,10 @@
 import tool
 import glob
 import json
-
+import yaml
 
 class Job(object):
-    def run(self, dry_run=False):
+    def run(self, dry_run=False, pull_image=True):
         if not dry_run:
             outdir = tempfile.mkdtemp()
         else:
@@ -19,8 +19,8 @@ def run(self, dry_run=False):
         runtime = []
 
         if self.container and self.container.get("type") == "docker":
-            if "uri" in self.container:
-                subprocess.call("docker", "pull", self.container["uri"])
+            if "uri" in self.container and pull_image:
+                subprocess.call(["docker", "pull", self.container["uri"]])
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (d, self.pathmapper.dirs[d]))
@@ -43,6 +43,10 @@ def run(self, dry_run=False):
             if self.stdout:
                 stdout = open(os.path.join(outdir, self.stdout), "wb")
 
+            for t in self.generatefiles:
+                with open(os.path.join(outdir, t), "w") as f:
+                    f.write(self.generatefiles[t])
+
             sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
             sp.wait()
 
@@ -53,16 +57,17 @@ def run(self, dry_run=False):
                 stdout.close()
 
             print "Output directory is %s" % outdir
-            return self.collect_outputs(self.tool.tool["outputs"], outdir)
-        else:
-            return None
+            if 'outputs' in self.tool.tool:
+                return self.collect_outputs(self.tool.tool["outputs"], outdir)
+
+        return None
 
     def collect_outputs(self, schema, outdir):
         result_path = os.path.join(outdir, "result.cwl.json")
         if os.path.isfile(result_path):
             print "Result file found."
             with open(result_path) as fp:
-                return json.load(fp)
+                return yaml.load(fp)
 
         r = None
         if isinstance(schema, dict):
diff --git a/cwltool/main.py b/cwltool/main.py
index 0b307c572..e50470516 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -14,7 +14,8 @@ def main():
     parser.add_argument("job_order", type=str)
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
-    parser.add_argument("--no-container", action="store_true")
+    parser.add_argument("--no-container", action="store_true", help="Do not execute in a Docker container, even if one is specified in the tool file")
+    parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
     parser.add_argument("--dry-run", action="store_true", help="Do not execute")
 
     args = parser.parse_args()
@@ -36,12 +37,14 @@ def main():
                 a["stdin"] = job.stdin
             if job.stdout:
                 a["stdout"] = job.stdout
+            if job.generatefiles:
+                a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
             print '%s%s%s' % (' '.join(job.command_line),
                                 ' < %s' % (job.stdin) if job.stdin else '',
                                 ' > %s' % (job.stdout) if job.stdout else '')
-            print job.run(dry_run=args.dry_run)
+            print "Output json is " + json.dumps(job.run(dry_run=args.dry_run, pull_image=(not args.no_pull)))
     except jsonschema.exceptions.ValidationError as e:
         print "Job order failed validation"
         print e
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index 090f051ad..c71f7cdb2 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -6,6 +6,7 @@
 import collections
 import requests
 import urlparse
+import yaml
 
 log = logging.getLogger(__name__)
 
@@ -82,11 +83,11 @@ def fetch(self, url):
                 resp.raise_for_status()
             except Exception as e:
                 raise RuntimeError(url, e)
-            result = resp.json()
+            result = yaml.load(resp.text)
         elif scheme == 'file':
             try:
                 with open(path) as fp:
-                    result = json.load(fp)
+                    result = yaml.load(fp)
             except (OSError, IOError) as e:
                 raise RuntimeError('Failed for %s: %s' % (url, e))
         else:
@@ -142,12 +143,3 @@ def to_json(obj, fp=None):
 
 def from_url(url, base_url=None):
     return loader.load(url, base_url)
-
-
-def test_tmap():
-    path = os.path.join(os.path.dirname(__file__), '../examples/tmap.yml')
-    expected_path = os.path.join(os.path.dirname(__file__), '../examples/tmap_resolved.json')
-    doc = loader.load(path)
-    with open(expected_path) as fp:
-        expected = json.load(fp)
-    assert doc == expected
diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
index 6a1243829..752ff02db 100644
--- a/cwltool/sandboxjs.py
+++ b/cwltool/sandboxjs.py
@@ -5,12 +5,14 @@
 class JavascriptException(Exception):
     pass
 
-def execjs(js):
+def execjs(js, jslib):
     nodejs = subprocess.Popen(["nodejs"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
 
-    fn = "\"use strict\";\n(function()%s)()" % (js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
+    fn = "\"use strict\";%s\n(function()%s)()" % (jslib, js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
     script = "console.log(JSON.stringify(require(\"vm\").runInNewContext(%s, {})))" % json.dumps(fn)
 
+    #print script
+
     def term():
         try:
             nodejs.terminate()
diff --git a/cwltool/tool.py b/cwltool/tool.py
index 034e24577..c3bf8c336 100644
--- a/cwltool/tool.py
+++ b/cwltool/tool.py
@@ -6,6 +6,8 @@
 import sys
 import jsonschema.exceptions
 import random
+import requests
+import urlparse
 from job import Job
 
 from jsonschema.validators import Draft4Validator
@@ -73,156 +75,194 @@ def fix_file_type(t):
         if isinstance(t[k], dict):
             fix_file_type(t[k])
 
-def jseval(job=None, expression=None):
-    if expression.startswith('{'):
-        exp_tpl = '''{
-        var $job = %s;
-        return function()%s();}
-        '''
-    else:
-        exp_tpl = '''{
-        var $job = %s;
-        return %s;}
-        '''
-    exp = exp_tpl % (json.dumps(job), expression)
-    return sandboxjs.execjs(exp)
-
-def resolve_eval(job, v):
-    if isinstance(v, dict):
-        if "$expr" in v:
-            return jseval(job, v["$expr"])
-        elif "$job" in v:
-            return resolve_pointer(job, v["$job"])
-    return v
-
-def adapt_inputs(schema, job, inp, key):
-    adapters = []
-
-    if 'oneOf' in schema:
-        for one in schema["oneOf"]:
-            try:
-                Draft4Validator(one).validate(inp)
-                schema = one
-                break
-            except jsonschema.exceptions.ValidationError:
-                pass
+class Builder(object):
 
-    if isinstance(inp, dict):
-        if "properties" in schema:
-            for i in inp:
-                a = adapt_inputs(schema["properties"][i], job, inp[i], i)
-                adapters.extend(a)
-    elif isinstance(inp, list):
-        for n, i in enumerate(inp):
-            a = adapt_inputs(schema["items"], job, i, format(n, '06'))
-            for x in a:
-                x["order"].insert(0, n)
-            adapters.extend(a)
-
-    if 'adapter' in schema:
-        a = copy.copy(schema['adapter'])
-
-        if "order" in a:
-            a["order"] = [a["order"], key]
+    def jseval(self, job=None, expression=None):
+        if expression.startswith('{'):
+            exp_tpl = '''{
+            return function()%s();}
+            '''
         else:
-            a["order"] = [1000000, key]
+            exp_tpl = '''{
+            return %s;}
+            '''
+        exp = exp_tpl % (expression)
+        return sandboxjs.execjs(exp, "var $job = %s;%s" % (json.dumps(job), self.jslib))
+
+    def resolve_eval(self, job, v):
+        if isinstance(v, dict):
+            if "$expr" in v:
+                # Support $import of the $expr
+                return self.jseval(job, self.resolve_eval(job, v["$expr"]))
+            if "$apply" in v:
+                # Support $import of the $expr
+                ex = ""
+                for i, p in enumerate(v["$apply"]):
+                    if i == 0:
+                        ex += p + "("
+                    else:
+                        ex += json.dumps(self.resolve_eval(job, p))
+                        if i < len(v["$apply"])-1:
+                            ex += ","
+                ex += ")"
+                return self.jseval(job, ex)
+            elif "$job" in v:
+                return resolve_pointer(job, v["$job"])
+            elif "$import" in v:
+                # TODO: check checksum
+                url = urlparse.urljoin(self.base_url, v["$import"])
+                split = urlparse.urlsplit(url)
+                scheme, path = split.scheme, split.path
+                if scheme in ['http', 'https']:
+                    resp = requests.get(url)
+                    try:
+                        resp.raise_for_status()
+                    except Exception as e:
+                        raise RuntimeError(url, e)
+                    return resp.text
+                elif scheme == 'file':
+                    try:
+                        with open(path) as fp:
+                            return fp.read()
+                    except (OSError, IOError) as e:
+                        raise RuntimeError('Failed for %s: %s' % (url, e))
+                else:
+                    raise ValueError('Unsupported scheme: %s' % scheme)
+        return v
+
+    def adapt_inputs(self, schema, job, inp, key):
+        adapters = []
+
+        if 'oneOf' in schema:
+            for one in schema["oneOf"]:
+                try:
+                    Draft4Validator(one).validate(inp)
+                    schema = one
+                    break
+                except jsonschema.exceptions.ValidationError:
+                    pass
+
+        if isinstance(inp, dict):
+            if "properties" in schema:
+                for i in inp:
+                    a = self.adapt_inputs(schema["properties"][i], job, inp[i], i)
+                    adapters.extend(a)
+        elif isinstance(inp, list):
+            for n, i in enumerate(inp):
+                a = self.adapt_inputs(schema["items"], job, i, format(n, '06'))
+                for x in a:
+                    x["order"].insert(0, n)
+                adapters.extend(a)
 
-        a["schema"] = schema
+        if 'adapter' in schema:
+            a = copy.copy(schema['adapter'])
 
-        for x in adapters:
-            x["order"] = a["order"] + x["order"]
+            if "order" in a:
+                a["order"] = [a["order"], key]
+            else:
+                a["order"] = [1000000, key]
 
-        if not 'value' in a and len(adapters) == 0:
-            a['value'] = inp
+            a["schema"] = schema
 
-        if len(adapters) == 0 or "value" in a:
-            adapters.insert(0, a)
+            for x in adapters:
+                x["order"] = a["order"] + x["order"]
 
-    return adapters
+            if not 'value' in a and len(adapters) == 0:
+                a['value'] = inp
 
-def to_str(schema, value, base_url, path_mapper):
-    if "$ref" in schema:
-        schema = from_url(schema["$ref"], base_url)
+            if len(adapters) == 0 or "value" in a:
+                adapters.insert(0, a)
 
-    if 'oneOf' in schema:
-        for a in schema['oneOf']:
-            v = to_str(a, value, base_url, path_mapper)
-            if v is not None:
-                return v
-        return None
-    elif 'type' in schema:
-        if schema["type"] == "array" and isinstance(value, list):
-            return [to_str(schema["items"], v, base_url, path_mapper) for v in value]
-        elif schema["type"] == "object" and isinstance(value, dict):
-            if "path" in value:
-                return path_mapper(value["path"])
-            else:
-                raise Exception("Not expecting a dict %s" % (value))
-        elif schema["type"] in ("string", "number", "integer"):
-            return str(value)
-        elif schema["type"] == "boolean":
-            # need special handling for flags
-            return str(value)
-
-    return None
-
-def find_files(adapter, job):
-    if "value" in adapter:
-        value = resolve_eval(job, adapter["value"])
-    else:
-        return None
+        return adapters
 
-    schema = adapter["schema"]
+    def to_str(self, schema, value, path_mapper):
+        if "$ref" in schema:
+            schema = from_url(schema["$ref"], self.ref_base_url)
 
-    if "$ref" in schema:
-        schema = from_url(schema["$ref"], adapter.get("$ref_base_url"))
+        if 'oneOf' in schema:
+            for a in schema['oneOf']:
+                v = self.to_str(a, value, path_mapper)
+                if v is not None:
+                    return v
+            return None
+        elif 'type' in schema:
+            if schema["type"] == "array" and isinstance(value, list):
+                return [self.to_str(schema["items"], v, path_mapper) for v in value]
+            elif schema["type"] == "object" and isinstance(value, dict):
+                if "path" in value:
+                    return path_mapper(value["path"])
+                else:
+                    raise Exception("Not expecting a dict %s" % (value))
+            elif schema["type"] in ("string", "number", "integer"):
+                return str(value)
+            elif schema["type"] == "boolean":
+                # handled specially by adapt()
+                return value
 
-    if 'oneOf' in schema:
-        for a in schema['oneOf']:
-            v = find_files(a, value)
-            if v is not None:
-                return v
         return None
-    elif 'type' in schema:
-        if schema["type"] == "array" and isinstance(value, list):
-            return [find_files({"value": v,
-                                "schema": schema["items"]}, job) for v in value]
-        elif schema["type"] == "object" and isinstance(value, dict):
-            if "path" in value:
-                return value["path"]
-            else:
-                raise Exception("Not expecting a dict %s" % (value))
 
-    return None
+    def find_files(self, adapter, job):
+        if "value" in adapter:
+            value = self.resolve_eval(job, adapter["value"])
+        else:
+            return None
+
+        schema = adapter["schema"]
+
+        if "$ref" in schema:
+            schema = from_url(schema["$ref"], self.ref_base_url)
+
+        if 'oneOf' in schema:
+            for a in schema['oneOf']:
+                v = self.find_files(a, value)
+                if v is not None:
+                    return v
+            return None
+        elif 'type' in schema:
+            if schema["type"] == "array" and isinstance(value, list):
+                return [self.find_files({"value": v,
+                                    "schema": schema["items"]}, job) for v in value]
+            elif schema["type"] == "object" and isinstance(value, dict):
+                if "path" in value:
+                    return value["path"]
+                else:
+                    raise Exception("Not expecting a dict %s" % (value))
+
+        return None
 
 
-def adapt(adapter, job, path_mapper):
-    if "value" in adapter:
-        value = resolve_eval(job, adapter["value"])
-    else:
-        raise Exception("No value in adapter")
+    def adapt(self, adapter, job, path_mapper):
+        if "value" in adapter:
+            value = self.resolve_eval(job, adapter["value"])
+        else:
+            raise Exception("No value in adapter")
 
-    value = to_str(adapter["schema"], value, adapter.get("$ref_base_url"), path_mapper)
+        value = self.to_str(adapter["schema"], value, path_mapper)
 
-    sep = adapter["separator"] if "separator" in adapter else ''
+        sep = adapter["separator"] if "separator" in adapter else " "
 
-    if 'itemSeparator' in adapter:
-        if adapter["prefix"]:
-            l = [adapter["prefix"] + adapter['itemSeparator'].join(value)]
-        else:
-            l = [adapter['itemSeparator'].join(value)]
-    elif 'prefix' in adapter:
-        l = []
-        for v in each(value):
-            if sep == " ":
+        if 'itemSeparator' in adapter:
+            if adapter["prefix"]:
+                l = [adapter["prefix"] + adapter['itemSeparator'].join(value)]
+            else:
+                l = [adapter['itemSeparator'].join(value)]
+        elif 'prefix' in adapter:
+            l = []
+            if value is True:
                 l.append(adapter["prefix"])
-                l.append(v)
+            elif value is False:
+                pass
             else:
-                l.append(adapter["prefix"] + sep + v)
-    else:
-        l = [value]
+                for v in each(value):
+                    if sep == " ":
+                        l.append(adapter["prefix"])
+                        l.append(v)
+                    else:
+                        l.append(adapter["prefix"] + sep + v)
+        else:
+            l = [value]
 
-    return l
+        return l
 
 class PathMapper(object):
     # Maps files to their absolute path
@@ -293,10 +333,19 @@ def job(self, joborder, basedir, use_container=True):
         adapter = self.tool["adapter"]
         adapters = [{"order": [-1000000],
                      "schema": tool_schema_doc["properties"]["adapter"]["properties"]["baseCmd"],
-                     "value": adapter['baseCmd'],
-                     "$ref_base_url": "file:"+toolpath
+                     "value": adapter['baseCmd']
                  }]
 
+        builder = Builder()
+        builder.base_url = "file:"+os.path.abspath(basedir)+"/"
+        builder.ref_base_url = "file:"+toolpath
+
+        requirements = self.tool.get("requirements")
+        builder.jslib = ''
+        if requirements and 'expressionlib' in requirements:
+            for ex in requirements['expressionlib']:
+                builder.jslib += builder.resolve_eval(joborder, ex) + "\n"
+
         if "args" in adapter:
             for i, a in enumerate(adapter["args"]):
                 a = copy.copy(a)
@@ -307,11 +356,11 @@ def job(self, joborder, basedir, use_container=True):
                 a["schema"] = tool_schema_doc["definitions"]["strOrExpr"]
                 adapters.append(a)
 
-        adapters.extend(adapt_inputs(self.tool['inputs'], inputs, inputs, ""))
+        adapters.extend(builder.adapt_inputs(self.tool['inputs'], inputs, inputs, ""))
 
         adapters.sort(key=lambda a: a["order"])
 
-        referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: find_files(a, joborder), adapters)))
+        referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: builder.find_files(a, joborder), adapters)))
 
         j = Job()
         j.joborder = joborder
@@ -320,18 +369,16 @@ def job(self, joborder, basedir, use_container=True):
         j.container = None
 
         if 'stdin' in adapter:
-            j.stdin = flatten(adapt({"value": adapter['stdin'],
-                                              "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdin"],
-                                              "$ref_base_url": "file:"+toolpath
+            j.stdin = flatten(builder.adapt({"value": adapter['stdin'],
+                                              "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdin"]
                                           }, joborder, None))[0]
             referenced_files.append(j.stdin)
         else:
             j.stdin = None
 
         if 'stdout' in adapter:
-            j.stdout = flatten(adapt({"value": adapter['stdout'],
-                                               "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdout"],
-                                               "$ref_base_url": "file:"+toolpath
+            j.stdout = flatten(builder.adapt({"value": adapter['stdout'],
+                                               "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdout"]
                                            }, joborder, None))[0]
 
             if os.path.isabs(j.stdout):
@@ -339,10 +386,13 @@ def job(self, joborder, basedir, use_container=True):
         else:
             j.stdout = None
 
+        j.generatefiles = {}
+        for t in adapter.get("generatefiles", []):
+            j.generatefiles[builder.resolve_eval(inputs, t["name"])] = builder.resolve_eval(inputs, t["value"])
+
         d = None
-        a = self.tool.get("requirements")
-        if a:
-            b = a.get("environment")
+        if requirements:
+            b = requirements.get("environment")
             if b:
                 c = b.get("container")
                 if use_container and c:
@@ -356,7 +406,7 @@ def job(self, joborder, basedir, use_container=True):
         if j.stdin:
             j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
 
-        j.command_line = flatten(map(lambda a: adapt(a, joborder, d.mapper), adapters))
+        j.command_line = flatten(map(lambda a: builder.adapt(a, joborder, d.mapper), adapters))
 
         j.pathmapper = d
 
diff --git a/setup.py b/setup.py
index 423c80cfc..32fc6275f 100644
--- a/setup.py
+++ b/setup.py
@@ -35,7 +35,9 @@
       package_data={'cwltool': ['schemas/*.json']},
       include_package_data=True,
       install_requires=[
-          'jsonschema >= 2.4.0'
+          'jsonschema >= 2.4.0',
+          'requests',
+          'PyYAML'
         ],
       test_suite='tests',
       tests_require=[],

From b3ca4cea2f97b8ed6b2155b44dd4cc056df42b4d Mon Sep 17 00:00:00 2001
From: Nebojsa Tijanic <nebojsa.tijanic@sbgenomics.com>
Date: Fri, 30 Jan 2015 14:34:54 +0100
Subject: [PATCH 027/221] fixed jsons, most conformance tests passing

---
 cwltool/tool_new.py | 156 +++++++++++++++++++++++++++
 cwltool/workflow.py | 252 ++++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 408 insertions(+)
 create mode 100755 cwltool/tool_new.py
 create mode 100644 cwltool/workflow.py

diff --git a/cwltool/tool_new.py b/cwltool/tool_new.py
new file mode 100755
index 000000000..a13b16f9e
--- /dev/null
+++ b/cwltool/tool_new.py
@@ -0,0 +1,156 @@
+#!/usr/bin/env python
+
+import os
+import sys
+import json
+from collections import namedtuple
+from tool import resolve_pointer, flatten
+import sandboxjs
+
+Args = namedtuple('Args', ['position', 'args'])
+merge_args = lambda args: flatten([a.args for a in sorted(args, key=lambda x: x.position)])
+
+
+def jseval(job, expression):
+    if expression.startswith('{'):
+        exp_tpl = '''{
+        return function()%s();}
+        '''
+    else:
+        exp_tpl = '''{
+        return %s;}
+        '''
+    exp = exp_tpl % expression
+    return sandboxjs.execjs(exp, "var $job = %s;" % json.dumps(job))
+
+
+def resolve_transform(job, val):
+    if not isinstance(val, dict) or val.get('@type') != 'Transform':
+        return val
+    lang = val.get('language')
+    expr = val.get('value')
+    if lang == 'javascript':
+        return jseval(job, expr)
+    elif lang == 'jsonpointer':
+        return resolve_pointer(job, expr)
+    else:
+        raise Exception('Unknown language for Transform: %s' % lang)
+
+
+def get_args(job, adapter, value=None, schema=None, key=None):
+    position = adapter.get('position', 0)
+    prefix = adapter.get('prefix')
+    sep = adapter.get('separator', ' ')
+    item_sep = adapter.get('itemSeparator')
+    arg_val = adapter.get('argValue')
+    pos = [position, key]
+
+    if isinstance(arg_val, dict) and arg_val.get('@type') == 'Transform':
+        value = resolve_transform(job, arg_val)
+    elif isinstance(value, dict) and value.get('@type') == 'File':
+        value = value.get('path')
+
+    if value is None:
+        return Args(pos, [])
+
+    if isinstance(value, bool):
+        return Args(pos, [prefix]) if value else Args(pos, [])
+
+    if isinstance(value, dict):
+        if not schema:
+            return Args(pos, [])
+        args = []
+        for k, v in value.iteritems():
+            item_schema = filter(lambda x: x['name'] == k, schema['fields'])[0]
+            item_adapter = item_schema.get('adapter')
+            if item_adapter is not None:
+                args.append(get_args(job, item_adapter, v, item_schema, k))
+        return Args(pos, merge_args(args))
+
+    if isinstance(value, list):
+        # TODO: complex item types
+        items = map(lambda x: unicode(x) if not isinstance(x, dict) else x['path'], value)
+        if item_sep:
+            return Args(pos, get_args(job, adapter, item_sep.join(items)).args)
+        if not prefix:
+            return Args(pos, items)
+        if sep == ' ':
+            return Args(pos, flatten([prefix, item] for item in items))
+        return Args(pos, [sep.join([prefix, item]) for item in items])
+
+    value = unicode(value)
+    if not prefix:
+        return Args(pos, [value])
+    if sep == ' ':
+        return Args(pos, [prefix, value])
+    return Args(pos, [sep.join([prefix, value])])
+
+
+def get_proc_args_and_redirects(tool, job):
+    adaptable_inputs = [i for i in tool.get('inputs', []) if 'adapter' in i.get('schema', {})]
+    input_args = []
+    for i in adaptable_inputs:
+        inp_id = i['@id'][1:]
+        inp_val = job['inputs'].get(inp_id)
+        inp_adapter = i['schema']['adapter']
+        input_args.append(get_args(job, inp_adapter, inp_val, i['schema'], inp_id))
+    adapter_args = [get_args(job, a) for a in tool.get('adapters', [])]
+    if isinstance(tool.get('baseCmd'), basestring):
+        tool['baseCmd'] = [tool['baseCmd']]
+    base_cmd = [resolve_transform(job, v) for v in tool['baseCmd']]
+    argv = base_cmd + merge_args(input_args + adapter_args)
+    stdin = resolve_transform(job, tool.get('stdin'))
+    stdout = resolve_transform(job, tool.get('stdout'))
+    return argv, stdin, stdout
+
+
+def test(tool, job):
+    ex = os.path.join(os.path.dirname(__file__), '../../examples/')
+    with open(os.path.join(ex, tool)) as fp:
+        tool = json.load(fp)
+    with open(os.path.join(ex, job)) as fp:
+        job = json.load(fp)
+    argv, stdin, stdout = get_proc_args_and_redirects(tool, job)
+    print ' '.join(argv), '<', stdin, '>', stdout
+
+
+def conformance_test():
+    tool, job = filter(lambda x: x[0] != '-', sys.argv[1:])
+    assert os.path.isfile(tool)
+    assert os.path.isfile(job)
+    base_dir = filter(lambda x: x.startswith('--basedir='), sys.argv[1:])
+    if base_dir:
+        base_dir = base_dir[0][len('--basedir='):]
+
+    with open(tool) as t, open(job) as j:
+        tool = json.load(t)
+        job = json.load(j)
+
+    if base_dir:
+        job['inputs'] = map_paths(job.get('inputs', {}), base_dir)
+
+    argv, stdin, stdout = get_proc_args_and_redirects(tool, job)
+    print json.dumps({
+        'args': argv,
+        'stdin': stdin,
+        'stdout': stdout,
+    })
+
+
+def map_paths(obj, base_dir):
+    if isinstance(obj, list):
+        return [map_paths(i, base_dir) for i in obj]
+    if not isinstance(obj, dict):
+        return obj
+    if obj.get('@type') == 'File':
+        obj['path'] = os.path.join(base_dir, obj['path'])
+        return obj
+    return {k: map_paths(v, base_dir) for k, v in obj.iteritems()}
+
+
+if __name__ == '__main__':
+    if '--conformance-test' not in sys.argv:
+        test('bwa-mem-tool.json', 'bwa-mem-job.json')
+        test('cat1-tool.json', 'cat-n-job.json')
+    else:
+        conformance_test()
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
new file mode 100644
index 000000000..66c30d90c
--- /dev/null
+++ b/cwltool/workflow.py
@@ -0,0 +1,252 @@
+import os
+import logging
+import functools
+import json
+from datetime import datetime
+from copy import deepcopy
+from collections import defaultdict
+
+from rdflib import Graph, URIRef, Literal, RDF, XSD
+from rdflib.namespace import Namespace, NamespaceManager
+
+from tool_new import jseval
+
+
+log = logging.getLogger(__file__)
+
+CWL = Namespace('http://github.com/common-workflow-language/schema/wf#')
+PROV = Namespace('http://www.w3.org/ns/prov#')
+DCT = Namespace('http://purl.org/dc/terms/')
+
+
+def value_for(graph, iri):
+    return graph.value(iri).toPython()
+
+
+class Inputs(object):
+    def __init__(self, graph, tuples):
+        self.g = graph
+        self.d = {}
+        self.wrapped = []
+        for k, v in tuples:
+            self[k] = v
+
+    def __getitem__(self, item):
+        return self.d[item]
+
+    def __setitem__(self, key, value):
+        if key not in self.d:
+            self.d[key] = value_for(self.g, value)
+        elif key in self.wrapped:
+            self.d[key].append(value_for(self.g, value))
+        else:
+            self.d[key] = [self.d[key], value_for(self.g, value)]
+            self.wrapped.append(key)
+
+    def to_dict(self):
+        return {k[k.rfind('/') + 1:]: v for k, v in self.d.iteritems()}
+
+
+def lazy(func):
+    attr = '__lazy_' + func.__name__
+
+    @functools.wraps(func)
+    def wrapped(self):
+        if not hasattr(self, attr):
+            setattr(self, attr, func(self))
+        return getattr(self, attr)
+    return property(wrapped)
+
+
+class Process(object):
+    def __init__(self, graph, iri):
+        self.g = graph
+        self.iri = URIRef(iri)
+
+    activity = lazy(lambda self: self.g.value(None, CWL.activityFor, self.iri))
+    inputs = lazy(lambda self: list(self.g.objects(self.iri, CWL.inputs)))
+    outputs = lazy(lambda self: list(self.g.objects(self.iri, CWL.outputs)))
+    started = lazy(lambda self: self.g.value(self.activity, PROV.startedAtTime) if self.activity else None)
+    ended = lazy(lambda self: self.g.value(self.activity, PROV.endedAtTime) if self.activity else None)
+    has_prereqs = lazy(lambda self: all([None, CWL.producedByPort, src] in self.g for src in self.sources))
+
+    @lazy
+    def has_prereqs(self):
+        return all([None, CWL.producedByPort, src] in self.g for src in self.sources)
+
+    @lazy
+    def sources(self):
+        return [x[0] for x in self.g.query('''
+        select ?src
+        where {
+            <%s> cwl:inputs ?port .
+            ?link   cwl:destination ?port ;
+                    cwl:source ?src .
+        }
+        ''' % self.iri)]
+
+    @lazy
+    def input_values(self):
+        return self.g.query('''
+        select ?port ?val
+        where {
+            <%s> cwl:inputs ?port .
+            ?link   cwl:destination ?port ;
+                    cwl:source ?src .
+            ?val cwl:producedByPort ?src .
+        }
+        ''' % self.iri)
+
+
+class WorkflowRunner(object):
+    def __init__(self):
+        nm = NamespaceManager(Graph())
+        nm.bind('cwl', CWL)
+        nm.bind('prov', PROV)
+        nm.bind('dcterms', DCT)
+        self.g = Graph(namespace_manager=nm)
+        self.wf_iri = None
+        self.act_iri = None
+
+    def load(self, *args, **kwargs):
+        return self.g.parse(*args, **kwargs)
+
+    def start(self, proc_iri=None):
+        main_act = False
+        if not proc_iri:
+            proc_iri = self.wf_iri
+            main_act = True
+        proc_iri = URIRef(proc_iri)
+        iri = self.iri_for_activity(proc_iri)
+        log.debug('Starting %s', iri)
+        self.g.add([iri, RDF.type, CWL.Activity])
+        self.g.add([iri, CWL.activityFor, proc_iri])
+        self.g.add([iri, PROV.startedAtTime, Literal(datetime.now(), datatype=XSD.datetime)])
+        if main_act:
+            self.act_iri = iri
+        else:
+            self.g.add([self.act_iri, DCT.hasPart, iri])
+            for k, v in Process(self.g, proc_iri).input_values:
+                val = self.g.value(v)
+                log.debug('Value on %s is %s', k, val.toPython())
+        return iri
+
+    def end(self, act_iri):
+        act_iri = URIRef(act_iri)
+        self.g.add([act_iri, PROV.endedAtTime, Literal(datetime.now(), datatype=XSD.datetime)])
+
+    def iri_for_activity(self, process_iri):
+        sep = '/' if '#' in process_iri else '#'
+        return URIRef(process_iri + sep + '__activity__')  # TODO: Better IRIs
+
+    def iri_for_value(self, port_iri):
+        return URIRef(port_iri + '/__value__')  # TODO: Better IRIs
+
+    def queued(self):
+        ps = [Process(self.g, iri) for iri in self.g.subjects(RDF.type, CWL.Process)]
+        return [p for p in ps if p.has_prereqs and not p.started]
+
+    def set_value(self, port_iri, value, creator_iri=None):
+        if not port_iri.startswith(self.wf_iri):
+            port_iri = self.wf_iri + '#' + port_iri
+        port_iri = URIRef(port_iri)
+        iri = self.iri_for_value(port_iri)
+        self.g.add([iri, RDF.type, CWL.Value])
+        self.g.add([iri, RDF.value, Literal(value)])  # TODO: complex types as cnt; add CWL.includesFile
+        self.g.add([iri, CWL.producedByPort, URIRef(port_iri)])
+        if creator_iri:
+            self.g.add([iri, PROV.wasGeneratedBy, URIRef(creator_iri)])
+        return iri
+
+    def _depth_mismatch_port(self, proc, inputs):
+        depth_of = lambda x: 1 if isinstance(x, list) else 0  # TODO: fixme
+        incoming = {k: depth_of(v) for k, v in inputs.d.iteritems()}
+        expected = {k: self.g.value(k, CWL.depth).toPython() for k in proc.inputs}
+        result = None
+        for k, v in incoming.iteritems():
+            if expected[k] != v:
+                if result:
+                    log.error('\nIncoming: %s\nExpected: %s', incoming, expected)
+                    raise NotImplementedError('More than one port has mismatching depth.')
+                if incoming[k] < expected[k]:
+                    raise Exception('depth(incoming) < depth(expected); Wrapping must be done explicitly.')
+                result = k
+        return result
+
+    def run_workflow(self):
+        self.start()
+        while self.queued():
+            act = self.start(self.queued()[0].iri)
+            proc = Process(self.g, self.g.value(act, CWL.activityFor))
+            tool = self.g.value(proc.iri, CWL.tool)
+            inputs = Inputs(self.g, proc.input_values)  # TODO: propagate desc<->impl
+            dmp = self._depth_mismatch_port(proc, inputs)
+            if not dmp:
+                job = {'inputs': inputs.to_dict()}
+                outputs = self.run_script(tool, job)
+            else:
+                jobs, outputs = [], defaultdict(list)
+                for i in inputs[dmp]:
+                    inp_copy = deepcopy(inputs)
+                    inp_copy.d[dmp] = i
+                    jobs.append({'inputs': inp_copy.to_dict()})
+                for job in jobs:
+                    outs = self.run_script(tool, job)
+                    for k, v in outs.iteritems():
+                        outputs[k].append(v)
+            for k, v in outputs.iteritems():
+                self.set_value(proc.iri + '/' + k, v, act)
+            self.end(act)
+        self.end(self.act_iri)
+        outputs = dict(self.g.query('''
+        select ?port ?val
+        where {
+            <%s> cwl:outputs ?port .
+            ?link   cwl:destination ?port ;
+                    cwl:source ?src .
+            ?val cwl:producedByPort ?src .
+        }
+        ''' % self.wf_iri))
+        return {k: self.g.value(v).toPython() for k, v in outputs.iteritems()}
+
+    def run_script(self, tool, job):
+        expr = self.g.value(tool, CWL.expr)
+        log.debug('Running expr %s\nJob: %s', expr, job)
+        result = jseval(job, expr)
+        logging.debug('Result: %s', result)
+        return result
+
+    @classmethod
+    def from_workflow(cls, path):
+        wfr = cls()
+        wfr.load(path, format='json-ld')
+        wfr.wf_iri = URIRef('file://' + path)  # TODO: Find a better way to do this
+        wfr.g.add([wfr.wf_iri, RDF.type, CWL.Process])
+        for sp in wfr.g.objects(wfr.wf_iri, CWL.steps):
+            wfr.g.add([sp, RDF.type, CWL.Process])
+            tool = wfr.g.value(sp, CWL.tool)
+            log.debug('Loading reference %s', tool)
+            wfr.g.parse(tool, format='json-ld')
+        return wfr
+
+
+def aplusbtimesc(wf_name, a, b, c):
+    print '\n\n--- %s ---\n\n' % wf_name
+    path = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../examples/' + wf_name))
+    rnr = WorkflowRunner.from_workflow(path)
+    rnr.set_value('a', a)
+    rnr.set_value('b', b)
+    rnr.set_value('c', c)
+    outs = rnr.run_workflow()
+    assert outs
+    print '\nDone. Workflow outputs:'
+    for k, v in outs.iteritems():
+        print k, v
+        assert v == (a+b)*c
+    return rnr
+
+if __name__ == '__main__':
+    logging.basicConfig(level=logging.DEBUG)
+    aplusbtimesc('wf_simple.json', 2, 3, 4)
+    aplusbtimesc('wf_lists.json', 2, 3, 4)
+    aplusbtimesc('wf_map.json', 2, 3, 4)
\ No newline at end of file

From bad48f0be090f788b50f6f9316b34278c97971b1 Mon Sep 17 00:00:00 2001
From: Nebojsa Tijanic <nebojsa.tijanic@sbgenomics.com>
Date: Wed, 4 Feb 2015 14:07:09 +0100
Subject: [PATCH 028/221] passing conformance tests with tool_new

---
 cwltool/tool_new.py | 64 +++++++++++++++++++++++++++++++-------
 cwltool/workflow.py | 76 +++++++++++++++++++++++++++------------------
 2 files changed, 98 insertions(+), 42 deletions(-)

diff --git a/cwltool/tool_new.py b/cwltool/tool_new.py
index a13b16f9e..e82ab7bcc 100755
--- a/cwltool/tool_new.py
+++ b/cwltool/tool_new.py
@@ -3,9 +3,12 @@
 import os
 import sys
 import json
+import logging
 from collections import namedtuple
 from tool import resolve_pointer, flatten
 import sandboxjs
+import avro.io
+import avro.schema
 
 Args = namedtuple('Args', ['position', 'args'])
 merge_args = lambda args: flatten([a.args for a in sorted(args, key=lambda x: x.position)])
@@ -37,7 +40,12 @@ def resolve_transform(job, val):
         raise Exception('Unknown language for Transform: %s' % lang)
 
 
-def get_args(job, adapter, value=None, schema=None, key=None):
+def get_args(job, adapter, value=None, schema=None, key=None, tool=None):
+    if schema and 'adapter' in schema:
+        adapter = schema['adapter']
+    if adapter is None:
+        return Args(None, [])
+
     position = adapter.get('position', 0)
     prefix = adapter.get('prefix')
     sep = adapter.get('separator', ' ')
@@ -61,17 +69,23 @@ def get_args(job, adapter, value=None, schema=None, key=None):
             return Args(pos, [])
         args = []
         for k, v in value.iteritems():
-            item_schema = filter(lambda x: x['name'] == k, schema['fields'])[0]
-            item_adapter = item_schema.get('adapter')
-            if item_adapter is not None:
-                args.append(get_args(job, item_adapter, v, item_schema, k))
+            field = filter(lambda x: x['name'] == k, schema['fields'])
+            if not field:
+                logging.error('Field not found in schema: "%s". Schema: %s', k, schema)
+                continue
+            field = field[0]
+            field_adapter = field.get('adapter')
+            field_schema = schema_by_name(field.get('type'), tool)
+            args.append(get_args(job, field_adapter, v, field_schema, k, tool=tool))
         return Args(pos, merge_args(args))
 
     if isinstance(value, list):
-        # TODO: complex item types
-        items = map(lambda x: unicode(x) if not isinstance(x, dict) else x['path'], value)
+        items = flatten([get_args(job, {}, i, schema_for_item(i, schema, tool), tool=tool).args for i in value])
         if item_sep:
-            return Args(pos, get_args(job, adapter, item_sep.join(items)).args)
+            val = item_sep.join(items)
+            if not prefix:
+                return Args(pos, [val])
+            return Args(pos, [prefix, val] if sep == ' ' else [sep.join([prefix, val])])
         if not prefix:
             return Args(pos, items)
         if sep == ' ':
@@ -86,6 +100,31 @@ def get_args(job, adapter, value=None, schema=None, key=None):
     return Args(pos, [sep.join([prefix, value])])
 
 
+def schema_by_name(type_name, tool):
+    if isinstance(type_name, dict):
+        return type_name
+    tds = filter(lambda x: x['name'] == type_name, tool.get('schemaDefs', []))
+    return tds[0] if tds else None
+
+
+def schema_for_item(value, array_schema, tool):
+    if not array_schema:
+        return None
+    opts = array_schema.get('items', [])
+    if not opts:
+        return None
+    if not isinstance(opts, list):
+        opts = [opts]
+    opts = [schema_by_name(opt, tool) for opt in opts]
+    if len(opts) == 1:
+        return opts[0]
+    for opt in opts:
+        sch = avro.schema.parse(json.dumps(opt))
+        if avro.io.validate(sch, value):
+            return opt
+    return None
+
+
 def get_proc_args_and_redirects(tool, job):
     adaptable_inputs = [i for i in tool.get('inputs', []) if 'adapter' in i.get('schema', {})]
     input_args = []
@@ -93,8 +132,8 @@ def get_proc_args_and_redirects(tool, job):
         inp_id = i['@id'][1:]
         inp_val = job['inputs'].get(inp_id)
         inp_adapter = i['schema']['adapter']
-        input_args.append(get_args(job, inp_adapter, inp_val, i['schema'], inp_id))
-    adapter_args = [get_args(job, a) for a in tool.get('adapters', [])]
+        input_args.append(get_args(job, inp_adapter, inp_val, i['schema'], inp_id, tool=tool))
+    adapter_args = [get_args(job, a, tool=tool) for a in tool.get('adapters', [])]
     if isinstance(tool.get('baseCmd'), basestring):
         tool['baseCmd'] = [tool['baseCmd']]
     base_cmd = [resolve_transform(job, v) for v in tool['baseCmd']]
@@ -150,7 +189,8 @@ def map_paths(obj, base_dir):
 
 if __name__ == '__main__':
     if '--conformance-test' not in sys.argv:
-        test('bwa-mem-tool.json', 'bwa-mem-job.json')
-        test('cat1-tool.json', 'cat-n-job.json')
+        # test('bwa-mem-tool.json', 'bwa-mem-job.json')
+        # test('cat1-tool.json', 'cat-n-job.json')
+        test('tmap-tool.json', 'tmap-job.json')
     else:
         conformance_test()
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 66c30d90c..6300af23b 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -14,15 +14,27 @@
 
 log = logging.getLogger(__file__)
 
-CWL = Namespace('http://github.com/common-workflow-language/schema/wf#')
+CWL = Namespace('http://github.com/common-workflow-language/')
 PROV = Namespace('http://www.w3.org/ns/prov#')
 DCT = Namespace('http://purl.org/dc/terms/')
+CNT = Namespace('http://www.w3.org/2011/content#')
 
 
-def value_for(graph, iri):
+def get_value(graph, iri):
+    chars = graph.value(iri, CNT.chars)
+    if chars:
+        return json.load(chars.toPython())
     return graph.value(iri).toPython()
 
 
+def set_value(graph, iri, val):
+    # TODO: add CWL.includesFile
+    if isinstance(val, (dict, list)):
+        graph.add(iri, CNT.chars, json.dumps(val))
+    else:
+        graph.add(iri, RDF.value, Literal(val))
+
+
 class Inputs(object):
     def __init__(self, graph, tuples):
         self.g = graph
@@ -36,11 +48,11 @@ def __getitem__(self, item):
 
     def __setitem__(self, key, value):
         if key not in self.d:
-            self.d[key] = value_for(self.g, value)
+            self.d[key] = get_value(self.g, value)
         elif key in self.wrapped:
-            self.d[key].append(value_for(self.g, value))
+            self.d[key].append(get_value(self.g, value))
         else:
-            self.d[key] = [self.d[key], value_for(self.g, value)]
+            self.d[key] = [self.d[key], get_value(self.g, value)]
             self.wrapped.append(key)
 
     def to_dict(self):
@@ -99,17 +111,26 @@ def input_values(self):
 
 
 class WorkflowRunner(object):
-    def __init__(self):
+    def __init__(self, path):
         nm = NamespaceManager(Graph())
         nm.bind('cwl', CWL)
         nm.bind('prov', PROV)
-        nm.bind('dcterms', DCT)
+        nm.bind('dct', DCT)
+        nm.bind('cnt', CNT)
         self.g = Graph(namespace_manager=nm)
         self.wf_iri = None
         self.act_iri = None
-
-    def load(self, *args, **kwargs):
-        return self.g.parse(*args, **kwargs)
+        self._load(path)
+
+    def _load(self, path):
+        self.g.parse(path)
+        self.wf_iri = URIRef('file://' + path)  # TODO: Find a better way to do this
+        self.g.add([self.wf_iri, RDF.type, CWL.Process])
+        for sp in self.g.objects(self.wf_iri, CWL.steps):
+            self.g.add([sp, RDF.type, CWL.Process])
+            tool = self.g.value(sp, CWL.tool)
+            log.debug('Loading reference %s', tool)
+            self.g.parse(tool, format='json-ld')
 
     def start(self, proc_iri=None):
         main_act = False
@@ -151,8 +172,8 @@ def set_value(self, port_iri, value, creator_iri=None):
             port_iri = self.wf_iri + '#' + port_iri
         port_iri = URIRef(port_iri)
         iri = self.iri_for_value(port_iri)
+        set_value(self.g, iri, value)
         self.g.add([iri, RDF.type, CWL.Value])
-        self.g.add([iri, RDF.value, Literal(value)])  # TODO: complex types as cnt; add CWL.includesFile
         self.g.add([iri, CWL.producedByPort, URIRef(port_iri)])
         if creator_iri:
             self.g.add([iri, PROV.wasGeneratedBy, URIRef(creator_iri)])
@@ -167,12 +188,20 @@ def _depth_mismatch_port(self, proc, inputs):
             if expected[k] != v:
                 if result:
                     log.error('\nIncoming: %s\nExpected: %s', incoming, expected)
-                    raise NotImplementedError('More than one port has mismatching depth.')
+                    raise Exception('More than one port has mismatching depth.')
                 if incoming[k] < expected[k]:
                     raise Exception('depth(incoming) < depth(expected); Wrapping must be done explicitly.')
+                if incoming[k] - expected[k] > 1:
+                    raise NotImplementedError('Only handling one nesting level at the moment.')
                 result = k
         return result
 
+    def run_component(self, tool, job):
+        cmp_type = self.g.value(tool, RDF.type)
+        if cmp_type == CWL.SimpleTransformTool:
+            return self.run_script(tool, job)
+        raise Exception('Unrecognized component type: %s' % cmp_type)
+
     def run_workflow(self):
         self.start()
         while self.queued():
@@ -183,7 +212,7 @@ def run_workflow(self):
             dmp = self._depth_mismatch_port(proc, inputs)
             if not dmp:
                 job = {'inputs': inputs.to_dict()}
-                outputs = self.run_script(tool, job)
+                outputs = self.run_component(tool, job)
             else:
                 jobs, outputs = [], defaultdict(list)
                 for i in inputs[dmp]:
@@ -191,7 +220,7 @@ def run_workflow(self):
                     inp_copy.d[dmp] = i
                     jobs.append({'inputs': inp_copy.to_dict()})
                 for job in jobs:
-                    outs = self.run_script(tool, job)
+                    outs = self.run_component(tool, job)
                     for k, v in outs.iteritems():
                         outputs[k].append(v)
             for k, v in outputs.iteritems():
@@ -207,33 +236,20 @@ def run_workflow(self):
             ?val cwl:producedByPort ?src .
         }
         ''' % self.wf_iri))
-        return {k: self.g.value(v).toPython() for k, v in outputs.iteritems()}
+        return {k: get_value(self.g, v) for k, v in outputs.iteritems()}
 
     def run_script(self, tool, job):
-        expr = self.g.value(tool, CWL.expr)
+        expr = self.g.value(self.g.value(tool, CWL.script)).toPython()
         log.debug('Running expr %s\nJob: %s', expr, job)
         result = jseval(job, expr)
         logging.debug('Result: %s', result)
         return result
 
-    @classmethod
-    def from_workflow(cls, path):
-        wfr = cls()
-        wfr.load(path, format='json-ld')
-        wfr.wf_iri = URIRef('file://' + path)  # TODO: Find a better way to do this
-        wfr.g.add([wfr.wf_iri, RDF.type, CWL.Process])
-        for sp in wfr.g.objects(wfr.wf_iri, CWL.steps):
-            wfr.g.add([sp, RDF.type, CWL.Process])
-            tool = wfr.g.value(sp, CWL.tool)
-            log.debug('Loading reference %s', tool)
-            wfr.g.parse(tool, format='json-ld')
-        return wfr
-
 
 def aplusbtimesc(wf_name, a, b, c):
     print '\n\n--- %s ---\n\n' % wf_name
     path = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../examples/' + wf_name))
-    rnr = WorkflowRunner.from_workflow(path)
+    rnr = WorkflowRunner(path)
     rnr.set_value('a', a)
     rnr.set_value('b', b)
     rnr.set_value('c', c)

From b397ea7b5ca885f799e206f1849a7c0208f04f18 Mon Sep 17 00:00:00 2001
From: Nebojsa Tijanic <nebojsa.tijanic@sbgenomics.com>
Date: Thu, 5 Feb 2015 12:47:29 +0100
Subject: [PATCH 029/221] updated examples, added @context

---
 cwltool/tool_new.py | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/cwltool/tool_new.py b/cwltool/tool_new.py
index e82ab7bcc..e6c215214 100755
--- a/cwltool/tool_new.py
+++ b/cwltool/tool_new.py
@@ -62,6 +62,8 @@ def get_args(job, adapter, value=None, schema=None, key=None, tool=None):
         return Args(pos, [])
 
     if isinstance(value, bool):
+        if not prefix:
+            raise Exception('Boolean value without prefix in adapter')
         return Args(pos, [prefix]) if value else Args(pos, [])
 
     if isinstance(value, dict):
@@ -133,13 +135,14 @@ def get_proc_args_and_redirects(tool, job):
         inp_val = job['inputs'].get(inp_id)
         inp_adapter = i['schema']['adapter']
         input_args.append(get_args(job, inp_adapter, inp_val, i['schema'], inp_id, tool=tool))
-    adapter_args = [get_args(job, a, tool=tool) for a in tool.get('adapters', [])]
-    if isinstance(tool.get('baseCmd'), basestring):
-        tool['baseCmd'] = [tool['baseCmd']]
-    base_cmd = [resolve_transform(job, v) for v in tool['baseCmd']]
+    cli_adapter = tool['cliAdapter']
+    adapter_args = [get_args(job, a, tool=tool) for a in cli_adapter.get('argAdapters', [])]
+    if isinstance(cli_adapter.get('baseCmd'), basestring):
+        cli_adapter['baseCmd'] = [cli_adapter['baseCmd']]
+    base_cmd = [resolve_transform(job, v) for v in cli_adapter['baseCmd']]
     argv = base_cmd + merge_args(input_args + adapter_args)
-    stdin = resolve_transform(job, tool.get('stdin'))
-    stdout = resolve_transform(job, tool.get('stdout'))
+    stdin = resolve_transform(job, cli_adapter.get('stdin'))
+    stdout = resolve_transform(job, cli_adapter.get('stdout'))
     return argv, stdin, stdout
 
 

From 99bb84698684c78ce034ec037a1d3a05edfd1cf7 Mon Sep 17 00:00:00 2001
From: Nebojsa Tijanic <nebojsa.tijanic@sbgenomics.com>
Date: Thu, 5 Feb 2015 13:05:02 +0100
Subject: [PATCH 030/221] context in expressions

---
 cwltool/tool_new.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/cwltool/tool_new.py b/cwltool/tool_new.py
index e6c215214..a83259b2c 100755
--- a/cwltool/tool_new.py
+++ b/cwltool/tool_new.py
@@ -14,7 +14,7 @@
 merge_args = lambda args: flatten([a.args for a in sorted(args, key=lambda x: x.position)])
 
 
-def jseval(job, expression):
+def jseval(job, expression, context=None):
     if expression.startswith('{'):
         exp_tpl = '''{
         return function()%s();}
@@ -24,16 +24,16 @@ def jseval(job, expression):
         return %s;}
         '''
     exp = exp_tpl % expression
-    return sandboxjs.execjs(exp, "var $job = %s;" % json.dumps(job))
+    return sandboxjs.execjs(exp, "var $job = %s, $self = %s;" % (json.dumps(job), json.dumps(context)))
 
 
-def resolve_transform(job, val):
+def resolve_transform(job, val, context=None):
     if not isinstance(val, dict) or val.get('@type') != 'Transform':
         return val
     lang = val.get('language')
     expr = val.get('value')
     if lang == 'javascript':
-        return jseval(job, expr)
+        return jseval(job, expr, context)
     elif lang == 'jsonpointer':
         return resolve_pointer(job, expr)
     else:
@@ -54,7 +54,7 @@ def get_args(job, adapter, value=None, schema=None, key=None, tool=None):
     pos = [position, key]
 
     if isinstance(arg_val, dict) and arg_val.get('@type') == 'Transform':
-        value = resolve_transform(job, arg_val)
+        value = resolve_transform(job, arg_val, value)
     elif isinstance(value, dict) and value.get('@type') == 'File':
         value = value.get('path')
 

From 616982f4d4339a893fe93189d271ab7092aee046 Mon Sep 17 00:00:00 2001
From: Nebojsa Tijanic <nebojsa.tijanic@sbgenomics.com>
Date: Fri, 6 Feb 2015 17:17:07 +0100
Subject: [PATCH 031/221] added @context to examples

---
 cwltool/tool_new.py | 23 +++++++++++++++-
 cwltool/workflow.py | 66 ++++++++++++++++++++++++++++-----------------
 2 files changed, 63 insertions(+), 26 deletions(-)

diff --git a/cwltool/tool_new.py b/cwltool/tool_new.py
index a83259b2c..0ca9751b8 100755
--- a/cwltool/tool_new.py
+++ b/cwltool/tool_new.py
@@ -4,6 +4,7 @@
 import sys
 import json
 import logging
+import tempfile
 from collections import namedtuple
 from tool import resolve_pointer, flatten
 import sandboxjs
@@ -190,10 +191,30 @@ def map_paths(obj, base_dir):
     return {k: map_paths(v, base_dir) for k, v in obj.iteritems()}
 
 
+def run(tool_path, job_path):
+    with open(tool_path) as fpt, open(job_path) as fpj:
+        tool = json.load(fpt)
+        job = json.load(fpj)
+    job = map_paths(job, os.path.join(os.path.dirname(__file__), '../../examples/'))
+    argv, stdin, stdout = get_proc_args_and_redirects(tool, job)
+    line = ' '.join(argv)
+    if stdin:
+        line += ' < ' + stdin
+    if stdout:
+        line += ' > ' + stdout
+    print line
+    job_dir = tempfile.mkdtemp()
+    os.chdir(job_dir)
+    if os.system(line):
+        raise Exception('Process failed.')
+    print os.listdir('.')
+
+
 if __name__ == '__main__':
     if '--conformance-test' not in sys.argv:
+        run(*sys.argv[1:])
         # test('bwa-mem-tool.json', 'bwa-mem-job.json')
         # test('cat1-tool.json', 'cat-n-job.json')
-        test('tmap-tool.json', 'tmap-job.json')
+        # test('tmap-tool.json', 'tmap-job.json')
     else:
         conformance_test()
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 6300af23b..0a95c5602 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -15,6 +15,7 @@
 log = logging.getLogger(__file__)
 
 CWL = Namespace('http://github.com/common-workflow-language/')
+WFD = Namespace('http://purl.org/wf4ever/wfdesc#')
 PROV = Namespace('http://www.w3.org/ns/prov#')
 DCT = Namespace('http://purl.org/dc/terms/')
 CNT = Namespace('http://www.w3.org/2011/content#')
@@ -28,11 +29,10 @@ def get_value(graph, iri):
 
 
 def set_value(graph, iri, val):
-    # TODO: add CWL.includesFile
     if isinstance(val, (dict, list)):
-        graph.add(iri, CNT.chars, json.dumps(val))
+        graph.set([iri, CNT.chars, Literal(json.dumps(val))])
     else:
-        graph.add(iri, RDF.value, Literal(val))
+        graph.set([iri, RDF.value, Literal(val)])
 
 
 class Inputs(object):
@@ -76,8 +76,8 @@ def __init__(self, graph, iri):
         self.iri = URIRef(iri)
 
     activity = lazy(lambda self: self.g.value(None, CWL.activityFor, self.iri))
-    inputs = lazy(lambda self: list(self.g.objects(self.iri, CWL.inputs)))
-    outputs = lazy(lambda self: list(self.g.objects(self.iri, CWL.outputs)))
+    inputs = lazy(lambda self: list(self.g.objects(self.iri, WFD.hasInput)))
+    outputs = lazy(lambda self: list(self.g.objects(self.iri, WFD.hasOutput)))
     started = lazy(lambda self: self.g.value(self.activity, PROV.startedAtTime) if self.activity else None)
     ended = lazy(lambda self: self.g.value(self.activity, PROV.endedAtTime) if self.activity else None)
     has_prereqs = lazy(lambda self: all([None, CWL.producedByPort, src] in self.g for src in self.sources))
@@ -91,9 +91,9 @@ def sources(self):
         return [x[0] for x in self.g.query('''
         select ?src
         where {
-            <%s> cwl:inputs ?port .
-            ?link   cwl:destination ?port ;
-                    cwl:source ?src .
+            <%s> wfd:hasInput ?port .
+            ?link   wfd:hasSink ?port ;
+                    wfd:hasSource ?src .
         }
         ''' % self.iri)]
 
@@ -102,9 +102,9 @@ def input_values(self):
         return self.g.query('''
         select ?port ?val
         where {
-            <%s> cwl:inputs ?port .
-            ?link   cwl:destination ?port ;
-                    cwl:source ?src .
+            <%s> wfd:hasInput ?port .
+            ?link   wfd:hasSink ?port ;
+                    wfd:hasSource ?src .
             ?val cwl:producedByPort ?src .
         }
         ''' % self.iri)
@@ -114,6 +114,7 @@ class WorkflowRunner(object):
     def __init__(self, path):
         nm = NamespaceManager(Graph())
         nm.bind('cwl', CWL)
+        nm.bind('wfd', WFD)
         nm.bind('prov', PROV)
         nm.bind('dct', DCT)
         nm.bind('cnt', CNT)
@@ -123,12 +124,12 @@ def __init__(self, path):
         self._load(path)
 
     def _load(self, path):
-        self.g.parse(path)
+        self.g.parse(path, format='json-ld')
         self.wf_iri = URIRef('file://' + path)  # TODO: Find a better way to do this
-        self.g.add([self.wf_iri, RDF.type, CWL.Process])
-        for sp in self.g.objects(self.wf_iri, CWL.steps):
-            self.g.add([sp, RDF.type, CWL.Process])
-            tool = self.g.value(sp, CWL.tool)
+        self.g.add([self.wf_iri, RDF.type, WFD.Process])
+        for sp in self.g.objects(self.wf_iri, WFD.hasSubProcess):
+            self.g.add([sp, RDF.type, WFD.Process])
+            tool = self.g.value(sp, CWL.hasImplementation)
             log.debug('Loading reference %s', tool)
             self.g.parse(tool, format='json-ld')
 
@@ -182,7 +183,7 @@ def set_value(self, port_iri, value, creator_iri=None):
     def _depth_mismatch_port(self, proc, inputs):
         depth_of = lambda x: 1 if isinstance(x, list) else 0  # TODO: fixme
         incoming = {k: depth_of(v) for k, v in inputs.d.iteritems()}
-        expected = {k: self.g.value(k, CWL.depth).toPython() for k in proc.inputs}
+        expected = {k: self.g.value(k, CWL.hasDepth).toPython() for k in proc.inputs}
         result = None
         for k, v in incoming.iteritems():
             if expected[k] != v:
@@ -207,7 +208,7 @@ def run_workflow(self):
         while self.queued():
             act = self.start(self.queued()[0].iri)
             proc = Process(self.g, self.g.value(act, CWL.activityFor))
-            tool = self.g.value(proc.iri, CWL.tool)
+            tool = self.g.value(proc.iri, CWL.hasImplementation)
             inputs = Inputs(self.g, proc.input_values)  # TODO: propagate desc<->impl
             dmp = self._depth_mismatch_port(proc, inputs)
             if not dmp:
@@ -230,16 +231,16 @@ def run_workflow(self):
         outputs = dict(self.g.query('''
         select ?port ?val
         where {
-            <%s> cwl:outputs ?port .
-            ?link   cwl:destination ?port ;
-                    cwl:source ?src .
+            <%s> wfd:hasOutput ?port .
+            ?link   wfd:hasSink ?port ;
+                    wfd:hasSource ?src .
             ?val cwl:producedByPort ?src .
         }
         ''' % self.wf_iri))
         return {k: get_value(self.g, v) for k, v in outputs.iteritems()}
 
     def run_script(self, tool, job):
-        expr = self.g.value(self.g.value(tool, CWL.script)).toPython()
+        expr = self.g.value(self.g.value(tool, CWL.hasScript)).toPython()
         log.debug('Running expr %s\nJob: %s', expr, job)
         result = jseval(job, expr)
         logging.debug('Result: %s', result)
@@ -261,8 +262,23 @@ def aplusbtimesc(wf_name, a, b, c):
         assert v == (a+b)*c
     return rnr
 
+
+def count_lines():
+    examples = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../examples'))
+    wf_path = os.path.join(examples, 'wf-count-lines.json')
+    job_path = os.path.join(examples, 'wf-count-lines-job.json')
+    with open(job_path) as fp:
+        inputs = json.load(fp)['inputs']
+    rnr = WorkflowRunner(wf_path)
+    for k, v in inputs.iteritems():
+        rnr.set_value(k, v)
+    print rnr.run_workflow()
+    return rnr
+
+
 if __name__ == '__main__':
     logging.basicConfig(level=logging.DEBUG)
-    aplusbtimesc('wf_simple.json', 2, 3, 4)
-    aplusbtimesc('wf_lists.json', 2, 3, 4)
-    aplusbtimesc('wf_map.json', 2, 3, 4)
\ No newline at end of file
+    # aplusbtimesc('wf_simple.json', 2, 3, 4)
+    # aplusbtimesc('wf_lists.json', 2, 3, 4)
+    # aplusbtimesc('wf_map.json', 2, 3, 4)
+    count_lines()

From dd5feb74523952ecfef94b26b3f117c25dfea188 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Feb 2015 15:53:40 -0500
Subject: [PATCH 032/221] Completed avro schema.  Added Avro validate function
 that reports better errors than the default.

---
 cwltool/validate.py | 109 ++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 109 insertions(+)
 create mode 100644 cwltool/validate.py

diff --git a/cwltool/validate.py b/cwltool/validate.py
new file mode 100644
index 000000000..04e80a3cf
--- /dev/null
+++ b/cwltool/validate.py
@@ -0,0 +1,109 @@
+import avro.schema
+import json
+import pprint
+
+module_dir = os.path.dirname(os.path.abspath(__file__))
+names = avro.schema.Names()
+cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
+with open(cwl_avsc) as f:
+    j = json.load(f)
+    for t in j:
+        avro.schema.make_avsc_object(t, names)
+
+class ValidationException(Exception):
+    pass
+
+def validate(expected_schema, datum):
+    try:
+        return validate_ex(expected_schema, datum)
+    except ValidationException:
+        return False
+
+INT_MIN_VALUE = -(1 << 31)
+INT_MAX_VALUE = (1 << 31) - 1
+LONG_MIN_VALUE = -(1 << 63)
+LONG_MAX_VALUE = (1 << 63) - 1
+
+def validate_ex(expected_schema, datum):
+  """Determine if a python datum is an instance of a schema."""
+  schema_type = expected_schema.type
+  if schema_type == 'null':
+    if datum is None:
+        return True
+    else:
+        raise ValidationException("'%s' is not None" % datum)
+  elif schema_type == 'boolean':
+    if isinstance(datum, bool):
+        return True
+    else:
+        raise ValidationException("'%s' is not bool" % datum)
+  elif schema_type == 'string':
+    if isinstance(datum, basestring):
+        return True
+    else:
+        raise ValidationException("'%s' is not string" % datum)
+  elif schema_type == 'bytes':
+    if isinstance(datum, str):
+        return True
+    else:
+        raise ValidationException("'%s' is not bytes" % datum)
+  elif schema_type == 'int':
+    if ((isinstance(datum, int) or isinstance(datum, long))
+            and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
+        return True
+    else:
+        raise ValidationException("'%s' is not int" % datum)
+  elif schema_type == 'long':
+    if ((isinstance(datum, int) or isinstance(datum, long))
+            and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
+        return True
+    else:
+        raise ValidationException("'%s' is not long" % datum)
+  elif schema_type in ['float', 'double']:
+    if (isinstance(datum, int) or isinstance(datum, long)
+            or isinstance(datum, float)):
+        return True
+    else:
+        raise ValidationException("'%s' is not float or double" % datum)
+  elif schema_type == 'fixed':
+    if isinstance(datum, str) and len(datum) == expected_schema.size:
+        return True
+    else:
+        raise ValidationException("'%s' is not fixed" % datum)
+  elif schema_type == 'enum':
+    if datum in expected_schema.symbols:
+        return True
+    else:
+        raise ValidationException("'%s'\n is not a valid enum symbol\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
+  elif schema_type == 'array':
+      if (isinstance(datum, list) and
+          False not in [validate(expected_schema.items, d) for d in datum]):
+          return True
+      else:
+          raise ValidationException("'%s'\n is not a valid list item\n %s" % (pprint.pformat(datum), expected_schema.items))
+  elif schema_type == 'map':
+      if (isinstance(datum, dict) and
+                 False not in [isinstance(k, basestring) for k in datum.keys()] and
+                 False not in
+                 [validate(expected_schema.values, v) for v in datum.values()]):
+          return True
+      else:
+          raise ValidationException("'%s' is not a valid map value %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
+  elif schema_type in ['union', 'error_union']:
+      if True in [validate(s, datum) for s in expected_schema.schemas]:
+          return True
+      else:
+          raise ValidationException("'%s' is not a valid union %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.schemas)))
+  elif schema_type in ['record', 'error', 'request']:
+      if (isinstance(datum, dict) and
+                 False not in
+                 [validate(f.type, datum.get(f.name)) for f in expected_schema.fields]):
+          return True
+      else:
+          if not isinstance(datum, dict):
+              raise ValidationException("'%s'\n is not a dict" % pprint.pformat(datum))
+          [validate_ex(f.type, datum.get(f.name)) for f in expected_schema.fields]
+  raise ValidationException("Unrecognized schema_type %s" % schema_type)
+
+def validate_tool(j):
+    validate_ex(names.get_name("CommandLineTool", ""), j)

From 2a6125e82e6e74719fd9e6780cc3ec85e2eab6e1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Feb 2015 15:59:32 -0500
Subject: [PATCH 033/221] Renamed "tool.py" to "draft1tool.py"

---
 cwltool/{tool.py => draft1tool.py}     | 0
 cwltool/{validate.py => draft2tool.py} | 0
 cwltool/job.py                         | 4 ++--
 cwltool/main.py                        | 4 ++--
 4 files changed, 4 insertions(+), 4 deletions(-)
 rename cwltool/{tool.py => draft1tool.py} (100%)
 rename cwltool/{validate.py => draft2tool.py} (100%)

diff --git a/cwltool/tool.py b/cwltool/draft1tool.py
similarity index 100%
rename from cwltool/tool.py
rename to cwltool/draft1tool.py
diff --git a/cwltool/validate.py b/cwltool/draft2tool.py
similarity index 100%
rename from cwltool/validate.py
rename to cwltool/draft2tool.py
diff --git a/cwltool/job.py b/cwltool/job.py
index 2295acbcf..6670712d3 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -1,7 +1,7 @@
 import subprocess
 import os
 import tempfile
-import tool
+import draft1tool
 import glob
 import json
 import yaml
@@ -81,7 +81,7 @@ def collect_outputs(self, schema, outdir):
                         else:
                             r = None
                 if "value" in adapter:
-                    r = tool.resolve_eval(self.joborder, adapter["value"])
+                    r = draft1tool.resolve_eval(self.joborder, adapter["value"])
             if not r and "properties" in schema:
                 r = {}
                 for k, v in schema["properties"].items():
diff --git a/cwltool/main.py b/cwltool/main.py
index e50470516..e361200bf 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -1,6 +1,6 @@
 #!/usr/bin/env python
 
-import tool
+import draft1tool
 import argparse
 from ref_resolver import from_url
 import jsonschema
@@ -21,7 +21,7 @@ def main():
     args = parser.parse_args()
 
     try:
-        t = tool.Tool(from_url(args.tool))
+        t = draft1tool.Tool(from_url(args.tool))
     except jsonschema.exceptions.ValidationError as e:
         print "Tool definition failed validation"
         print e

From 08e47b2a5d754da4be49000c10d8c6713b24a038 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Feb 2015 23:29:51 -0500
Subject: [PATCH 034/221] Working on generating cli from binding

---
 cwltool/draft1tool.py |  83 ++------------------
 cwltool/draft2tool.py | 172 +++++++++++++++++++++++++++++++++++++++---
 cwltool/flatten.py    |  20 +++++
 cwltool/main.py       |  11 ++-
 cwltool/pathmapper.py |  55 ++++++++++++++
 5 files changed, 253 insertions(+), 88 deletions(-)
 create mode 100644 cwltool/flatten.py
 create mode 100644 cwltool/pathmapper.py

diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index c3bf8c336..740219e63 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -8,7 +8,9 @@
 import random
 import requests
 import urlparse
+from pathmapper import PathMapper, DockerPathMapper
 from job import Job
+from flatten import flatten
 
 from jsonschema.validators import Draft4Validator
 import ref_resolver
@@ -16,16 +18,16 @@
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
-jsonschemapath = os.path.join(module_dir, 'schemas/json-schema-draft-04.json')
+jsonschemapath = os.path.join(module_dir, 'schemas/draft-1/json-schema-draft-04.json')
 with open(jsonschemapath) as f:
     jsonschemapath_doc = json.load(f)
 
 ref_resolver.loader.fetched["http://json-schema.org/draft-04/schema"] = jsonschemapath_doc
 
-toolpath = os.path.join(module_dir, 'schemas/tool.json')
+toolpath = os.path.join(module_dir, 'schemas/draft-1/tool.json')
 with open(toolpath) as f:
     tool_schema_doc = json.load(f)
-with open(os.path.join(module_dir, 'schemas/metaschema.json')) as f:
+with open(os.path.join(module_dir, 'schemas/draft-1/metaschema.json')) as f:
     metaschema = json.load(f)
 
 SCHEMA_URL_PREFIX = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-1/schemas/"
@@ -45,27 +47,6 @@ def each(l):
     else:
         return [l]
 
-# http://rightfootin.blogspot.com/2006/09/more-on-python-flatten.html
-def flatten(l, ltypes=(list, tuple)):
-    if l is None:
-        return []
-    if not isinstance(l, ltypes):
-        return [l]
-
-    ltype = type(l)
-    l = list(l)
-    i = 0
-    while i < len(l):
-        while isinstance(l[i], ltypes):
-            if not l[i]:
-                l.pop(i)
-                i -= 1
-                break
-            else:
-                l[i:i + 1] = l[i]
-        i += 1
-    return ltype(l)
-
 def fix_file_type(t):
     if 'type' in t and t['type'] == "file":
         for a in metaschema["definitions"]["file"]:
@@ -264,60 +245,6 @@ def adapt(self, adapter, job, path_mapper):
 
         return l
 
-class PathMapper(object):
-    # Maps files to their absolute path
-    def __init__(self, referenced_files, basedir):
-        self._pathmap = {}
-        for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
-            self._pathmap[src] = abs
-
-    def mapper(self, src):
-        return self._pathmap[src]
-
-
-class DockerPathMapper(object):
-    def __init__(self, referenced_files, basedir):
-        self._pathmap = {}
-        self.dirs = {}
-        for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
-            dir, fn = os.path.split(abs)
-
-            subdir = False
-            for d in self.dirs:
-                if dir.startswith(d):
-                  subdir = True
-                  break
-
-            if not subdir:
-                for d in list(self.dirs):
-                    if d.startswith(dir):
-                        # 'dir' is a parent of 'd'
-                        del self.dirs[d]
-                self.dirs[dir] = True
-
-        prefix = "job" + str(random.randint(1, 1000000000)) + "_"
-
-        names = set()
-        for d in self.dirs:
-            name = os.path.join("/tmp", prefix + os.path.basename(d))
-            i = 1
-            while name in names:
-                i += 1
-                name = os.path.join("/tmp", prefix + os.path.basename(d) + str(i))
-            names.add(name)
-            self.dirs[d] = name
-
-        for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
-            for d in self.dirs:
-                if abs.startswith(d):
-                    self._pathmap[src] = os.path.join(self.dirs[d], abs[len(d)+1:])
-
-    def mapper(self, src):
-        return self._pathmap[src]
-
 class Tool(object):
     def __init__(self, toolpath_object):
         self.tool = toolpath_object
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 04e80a3cf..0605642be 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -1,14 +1,13 @@
 import avro.schema
 import json
 import pprint
+import copy
+from flatten import flatten
+import os
+
+TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-2-pa/schemas/draft-2/context.json"
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
-names = avro.schema.Names()
-cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
-with open(cwl_avsc) as f:
-    j = json.load(f)
-    for t in j:
-        avro.schema.make_avsc_object(t, names)
 
 class ValidationException(Exception):
     pass
@@ -102,8 +101,163 @@ def validate_ex(expected_schema, datum):
       else:
           if not isinstance(datum, dict):
               raise ValidationException("'%s'\n is not a dict" % pprint.pformat(datum))
-          [validate_ex(f.type, datum.get(f.name)) for f in expected_schema.fields]
+          try:
+              [validate_ex(f.type, datum.get(f.name)) for f in expected_schema.fields]
+          except ValidationException as v:
+              raise ValidationException("%s\nValidating record %s" % (v, pprint.pformat(datum)))
   raise ValidationException("Unrecognized schema_type %s" % schema_type)
 
-def validate_tool(j):
-    validate_ex(names.get_name("CommandLineTool", ""), j)
+class Builder(object):
+    def jseval(self, expression):
+        if expression.startswith('{'):
+            exp_tpl = '{return function()%s();}'
+        else:
+            exp_tpl = '{return %s;}'
+        exp = exp_tpl % (expression)
+        return sandboxjs.execjs(exp, "var $job = %s;%s" % (json.dumps(self.job), self.jslib))
+
+    def do_eval(self, s):
+        if isinstance(ex, dict):
+            if ex.get("@type") == "JavascriptExpression":
+                return jseval(ex["value"])
+            elif ex.get("@id"):
+                with open(os.path.join(basedir, ex["@id"]), "r") as f:
+                    return f.read()
+        else:
+            return ex
+
+    def input_binding(self, schema, datum, key):
+        bindings = []
+        # Handle union types
+        if isinstance(schema["type"], list):
+            for t in schema["type"]:
+                if validate(t, datum):
+                    return input_binding(t, datum)
+            raise ValidationException("'%s' is not a valid union %s" % (pprint.pformat(datum), pprint.pformat(schema["type"])))
+
+        if schema["type"] == "record":
+            for f in schema["fields"]:
+                bindings.extend(self.input_binding(f, datum[f["name"]], f["name"]))
+
+        if schema["type"] == "map":
+            for v in datum:
+                bindings.extend(self.input_binding(schema["values"], datum[v], v))
+
+        if schema["type"] == "array":
+            for n, item in enumerate(datum):
+                b = self.input_binding(schema["items"], item, format(n, '06'))
+                bindings.extend(b)
+
+        if schema["type"] == "File":
+            self.files.append(datum)
+
+        if schema.get("binding"):
+            b = copy.copy(schema["binding"])
+
+            if b.get("position"):
+                b["position"] = [b["position"], key]
+            else:
+                b["position"] = [0, key]
+
+            # Position to front of the sort key
+            for bi in bindings:
+                bi["position"] = b["position"] + bi["position"]
+
+            if "valueFrom" not in b:
+                b["valueFrom"] = datum
+
+            bindings.append(b)
+
+        return bindings
+
+    def bind(self, binding):
+        value = self.do_eval(binding["valueFrom"])
+
+        ls = []
+
+        if isinstance(value, list):
+            if binding.get("itemSeparator"):
+                l = [binding["itemSeparator"].join(value)]
+            else:
+                pass
+        elif isinstance(value, dict):
+            pass
+        elif isinstance(value, bool):
+            if value and binding.get("prefix"):
+                sv = binding["prefix"]
+
+
+class Tool(object):
+    def __init__(self, toolpath_object):
+        self.names = avro.schema.Names()
+        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
+        with open(cwl_avsc) as f:
+            j = json.load(f)
+            for t in j:
+                avro.schema.make_avsc_object(t, self.names)
+
+        self.tool = toolpath_object
+        if self.tool.get("@context") != TOOL_CONTEXT_URL:
+            raise Exception("Missing or invalid '@context' field in tool description document, must be %s" % TOOL_CONTEXT_URL)
+
+        # Validate tool documument
+        validate_ex(self.names.get_name("CommandLineTool", ""), self.tool)
+
+        # Import schema defs
+        if self.tool.get("schemaDefs"):
+            for i in self.tool["schemaDefs"]:
+                avro.schema.make_avsc_object(i, self.names)
+
+        # Build record schema from inputs
+        self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
+        for i in self.tool["inputs"]:
+            c = copy.copy(i)
+            c["name"] = c["port"][1:]
+            del c["port"]
+            self.inputs_record_schema["fields"].append(c)
+        avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
+
+        self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
+        for i in self.tool["outputs"]:
+            c = copy.copy(i)
+            c["name"] = c["port"][1:]
+            del c["port"]
+            self.outputs_record_schema["fields"].append(c)
+        avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
+
+    def job(self, joborder, basedir, use_container=True):
+        # Validate job order
+        validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+
+        builder = Builder()
+        builder.job = joborder
+        builder.jslib = ''
+        builder.files = []
+        builder.bindings = [{
+                "position": [-1000000],
+                "valueFrom": self.tool["baseCommand"]
+            }]
+
+        if self.tool.get("expressionDefs"):
+            for ex in self.tool['expressionDefs']:
+                builder.jslib += builder.do_eval(ex) + "\n"
+
+        if self.tool.get("arguments"):
+            for i, a in enumerate(self.tool["arguments"]):
+                a = copy.copy(a)
+                if a.get("position"):
+                    a["position"] = [a["position"], i]
+                else:
+                    a["position"] = [0, i]
+                builder.bindings.append(a)
+
+        builder.bindings.extend(builder.input_binding(self.inputs_record_schema, joborder, ""))
+
+        builder.bindings.sort(key=lambda a: a["position"])
+
+        pprint.pprint(builder.bindings)
+
+        # j = Job()
+        # j.joborder = joborder
+        # j.tool = self
+        # j.container = None
diff --git a/cwltool/flatten.py b/cwltool/flatten.py
new file mode 100644
index 000000000..54e918a78
--- /dev/null
+++ b/cwltool/flatten.py
@@ -0,0 +1,20 @@
+# http://rightfootin.blogspot.com/2006/09/more-on-python-flatten.html
+def flatten(l, ltypes=(list, tuple)):
+    if l is None:
+        return []
+    if not isinstance(l, ltypes):
+        return [l]
+
+    ltype = type(l)
+    l = list(l)
+    i = 0
+    while i < len(l):
+        while isinstance(l[i], ltypes):
+            if not l[i]:
+                l.pop(i)
+                i -= 1
+                break
+            else:
+                l[i:i + 1] = l[i]
+        i += 1
+    return ltype(l)
diff --git a/cwltool/main.py b/cwltool/main.py
index e361200bf..4a53c37b1 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -1,6 +1,7 @@
 #!/usr/bin/env python
 
 import draft1tool
+import draft2tool
 import argparse
 from ref_resolver import from_url
 import jsonschema
@@ -21,11 +22,19 @@ def main():
     args = parser.parse_args()
 
     try:
-        t = draft1tool.Tool(from_url(args.tool))
+        u = from_url(args.tool)
+        if "schema" in u:
+            t = draft1tool.Tool(u)
+        else:
+            t = draft2tool.Tool(u)
     except jsonschema.exceptions.ValidationError as e:
         print "Tool definition failed validation"
         print e
         return 1
+    except draft2tool.ValidationException as e:
+        print "Tool definition failed validation"
+        print e
+        return 1
 
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
 
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
new file mode 100644
index 000000000..08815e5a9
--- /dev/null
+++ b/cwltool/pathmapper.py
@@ -0,0 +1,55 @@
+import os
+
+class PathMapper(object):
+    # Maps files to their absolute path
+    def __init__(self, referenced_files, basedir):
+        self._pathmap = {}
+        for src in referenced_files:
+            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            self._pathmap[src] = abs
+
+    def mapper(self, src):
+        return self._pathmap[src]
+
+
+class DockerPathMapper(object):
+    def __init__(self, referenced_files, basedir):
+        self._pathmap = {}
+        self.dirs = {}
+        for src in referenced_files:
+            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            dir, fn = os.path.split(abs)
+
+            subdir = False
+            for d in self.dirs:
+                if dir.startswith(d):
+                  subdir = True
+                  break
+
+            if not subdir:
+                for d in list(self.dirs):
+                    if d.startswith(dir):
+                        # 'dir' is a parent of 'd'
+                        del self.dirs[d]
+                self.dirs[dir] = True
+
+        prefix = "job" + str(random.randint(1, 1000000000)) + "_"
+
+        names = set()
+        for d in self.dirs:
+            name = os.path.join("/tmp", prefix + os.path.basename(d))
+            i = 1
+            while name in names:
+                i += 1
+                name = os.path.join("/tmp", prefix + os.path.basename(d) + str(i))
+            names.add(name)
+            self.dirs[d] = name
+
+        for src in referenced_files:
+            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            for d in self.dirs:
+                if abs.startswith(d):
+                    self._pathmap[src] = os.path.join(self.dirs[d], abs[len(d)+1:])
+
+    def mapper(self, src):
+        return self._pathmap[src]

From 67e6d56c1b938899f2b402dd711d14d889a0e93a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Feb 2015 10:32:03 -0500
Subject: [PATCH 035/221] Still working on CLI generation

---
 cwltool/draft2tool.py | 106 ++++++++++++++++++++++++++++--------------
 1 file changed, 70 insertions(+), 36 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 0605642be..d92028e52 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -4,6 +4,8 @@
 import copy
 from flatten import flatten
 import os
+from pathmapper import PathMapper, DockerPathMapper
+import sandboxjs
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-2-pa/schemas/draft-2/context.json"
 
@@ -108,50 +110,56 @@ def validate_ex(expected_schema, datum):
   raise ValidationException("Unrecognized schema_type %s" % schema_type)
 
 class Builder(object):
-    def jseval(self, expression):
-        if expression.startswith('{'):
-            exp_tpl = '{return function()%s();}'
+    def jseval(self, expression, context):
+        if isinstance(expression, list):
+            exp = "{return %s(%s);}" % (expression[0], ",".join([self.do_eval(e) for e in expression[1:]]))
+        elif expression.startswith('{'):
+            exp = '{return function()%s();}' % (expression)
         else:
-            exp_tpl = '{return %s;}'
-        exp = exp_tpl % (expression)
-        return sandboxjs.execjs(exp, "var $job = %s;%s" % (json.dumps(self.job), self.jslib))
+            exp = '{return %s;}' % (expression)
+        return sandboxjs.execjs(exp, "var $job = %s; var $self = %s; %s" % (json.dumps(self.job), json.dumps(context), self.jslib))
 
-    def do_eval(self, s):
+    def do_eval(self, ex, context=None):
         if isinstance(ex, dict):
-            if ex.get("@type") == "JavascriptExpression":
-                return jseval(ex["value"])
-            elif ex.get("@id"):
-                with open(os.path.join(basedir, ex["@id"]), "r") as f:
+            if ex.get("expressionType") == "javascript":
+                return self.jseval(ex["value"], context)
+            elif ex.get("ref"):
+                with open(os.path.join(basedir, ex["ref"]), "r") as f:
                     return f.read()
         else:
             return ex
 
-    def input_binding(self, schema, datum, key):
+    def bind_input(self, schema, datum, key):
         bindings = []
+
         # Handle union types
         if isinstance(schema["type"], list):
             for t in schema["type"]:
                 if validate(t, datum):
-                    return input_binding(t, datum)
+                    return bind_input(t, datum)
             raise ValidationException("'%s' is not a valid union %s" % (pprint.pformat(datum), pprint.pformat(schema["type"])))
 
+        if isinstance(schema["type"], dict):
+            bindings.extend(self.bind_input(schema["type"], datum, key))
+
         if schema["type"] == "record":
             for f in schema["fields"]:
-                bindings.extend(self.input_binding(f, datum[f["name"]], f["name"]))
+                bindings.extend(self.bind_input(f, datum[f["name"]], f["name"]))
 
         if schema["type"] == "map":
             for v in datum:
-                bindings.extend(self.input_binding(schema["values"], datum[v], v))
+                bindings.extend(self.bind_input(schema["values"], datum[v], v))
 
         if schema["type"] == "array":
             for n, item in enumerate(datum):
-                b = self.input_binding(schema["items"], item, format(n, '06'))
+                #print n, item, schema["items"]
+                b = self.bind_input({"type": schema["items"], "binding": schema.get("binding")}, item, format(n, '06'))
                 bindings.extend(b)
 
         if schema["type"] == "File":
-            self.files.append(datum)
+            self.files.append(datum["path"])
 
-        if schema.get("binding"):
+        if "binding" in schema and isinstance(schema["binding"], dict):
             b = copy.copy(schema["binding"])
 
             if b.get("position"):
@@ -163,29 +171,50 @@ def input_binding(self, schema, datum, key):
             for bi in bindings:
                 bi["position"] = b["position"] + bi["position"]
 
-            if "valueFrom" not in b:
+            if "valueFrom" in b:
+                b["valueFrom"] = self.do_eval(b["valueFrom"], datum)
+            else:
                 b["valueFrom"] = datum
 
+            if schema["type"] == "File":
+                b["is_file"] = True
+
             bindings.append(b)
 
         return bindings
 
-    def bind(self, binding):
-        value = self.do_eval(binding["valueFrom"])
-
-        ls = []
+    def generate_arg(self, binding):
+        value = binding["valueFrom"]
+        prefix = binding.get("prefix")
+        sep = binding.get("separator")
 
+        l = []
         if isinstance(value, list):
             if binding.get("itemSeparator"):
-                l = [binding["itemSeparator"].join(value)]
-            else:
-                pass
+                l = [binding["itemSeparator"].join([str(v) for v in value])]
+            elif prefix:
+                return [prefix]
+        elif binding.get("is_file"):
+            l = [self.pathmapper.mapper(value["path"])]
         elif isinstance(value, dict):
-            pass
+            if prefix:
+                return [prefix]
         elif isinstance(value, bool):
-            if value and binding.get("prefix"):
-                sv = binding["prefix"]
+            if value and prefix:
+                return [prefix]
+            else:
+                return []
+        else:
+            l = [value]
+
+        args = []
+        for j in l:
+            if sep is None or sep == " ":
+                args.extend([prefix, str(j)])
+            else:
+                args.extend([prefix + sep + str(j)])
 
+        return [a for a in args if a is not None]
 
 class Tool(object):
     def __init__(self, toolpath_object):
@@ -249,15 +278,20 @@ def job(self, joborder, basedir, use_container=True):
                     a["position"] = [a["position"], i]
                 else:
                     a["position"] = [0, i]
+                a["valueFrom"] = builder.do_eval(a["valueFrom"])
                 builder.bindings.append(a)
 
-        builder.bindings.extend(builder.input_binding(self.inputs_record_schema, joborder, ""))
-
+        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder, ""))
         builder.bindings.sort(key=lambda a: a["position"])
 
-        pprint.pprint(builder.bindings)
+        builder.pathmapper = PathMapper(builder.files, basedir)
+
+        #pprint.pprint(builder.bindings)
+        #pprint.pprint(builder.files)
+
 
-        # j = Job()
-        # j.joborder = joborder
-        # j.tool = self
-        # j.container = None
+        j = Job()
+        j.joborder = joborder
+        j.tool = self
+        j.container = None
+        j.command_line = flatten(map(builder.generate_arg, builder.bindings))

From 79c918ffd125ee6c92ddf9c02eadebe13a079ad1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Feb 2015 11:10:04 -0500
Subject: [PATCH 036/221] Stuff runs now, need to port examples forward.

---
 cwltool/draft1tool.py |  2 --
 cwltool/draft2tool.py | 46 +++++++++++++++++++++++++++++++++++--------
 cwltool/job.py        |  7 +++++--
 cwltool/pathmapper.py |  1 +
 4 files changed, 44 insertions(+), 12 deletions(-)

diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index 740219e63..d7cea8714 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -291,8 +291,6 @@ def job(self, joborder, basedir, use_container=True):
 
         j = Job()
         j.joborder = joborder
-        j.tool = self
-
         j.container = None
 
         if 'stdin' in adapter:
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index d92028e52..30ff54128 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -6,6 +6,7 @@
 import os
 from pathmapper import PathMapper, DockerPathMapper
 import sandboxjs
+from job import Job
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-2-pa/schemas/draft-2/context.json"
 
@@ -262,10 +263,12 @@ def job(self, joborder, basedir, use_container=True):
         builder.job = joborder
         builder.jslib = ''
         builder.files = []
-        builder.bindings = [{
-                "position": [-1000000],
-                "valueFrom": self.tool["baseCommand"]
-            }]
+        builder.bindings = []
+        for n, b in enumerate(self.tool["baseCommand"]):
+            builder.bindings.append({
+                "position": [-1000000, n],
+                "valueFrom": b
+            })
 
         if self.tool.get("expressionDefs"):
             for ex in self.tool['expressionDefs']:
@@ -284,14 +287,41 @@ def job(self, joborder, basedir, use_container=True):
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder, ""))
         builder.bindings.sort(key=lambda a: a["position"])
 
-        builder.pathmapper = PathMapper(builder.files, basedir)
-
         #pprint.pprint(builder.bindings)
         #pprint.pprint(builder.files)
 
-
         j = Job()
         j.joborder = joborder
-        j.tool = self
         j.container = None
+        builder.pathmapper = None
+
+        if self.tool.get("stdin"):
+            j.stdin = builder.do_eval(self.tool["stdin"])
+            referenced_files.append(j.stdin)
+        else:
+            j.stdin = None
+
+        if self.tool.get("stdout"):
+            j.stdout = builder.do_eval(self.tool["stdout"])
+            if os.path.isabs(j.stdout):
+                raise Exception("stdout must be a relative path")
+        else:
+            j.stdout = None
+
+        j.generatefiles = {}
+        for t in self.tool.get("fileDefs", []):
+            j.generatefiles[t["filename"]] = builder.do_eval(t["value"])
+
+        for r in self.tool.get("hints", []):
+            if r["requirementType"] == "DockerImage":
+                j.container = {}
+                j.container["pull"] = r.get("dockerPull")
+                j.container["import"] = r.get("dockerImport")
+                j.container["imageId"] = r.get("dockerImageId")
+                builder.pathmapper = DockerPathMapper(builder.files, basedir)
+
+        if builder.pathmapper is None:
+            builder.pathmapper = PathMapper(builder.files, basedir)
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
+
+        return j
diff --git a/cwltool/job.py b/cwltool/job.py
index 6670712d3..895a9634c 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -19,8 +19,11 @@ def run(self, dry_run=False, pull_image=True):
         runtime = []
 
         if self.container and self.container.get("type") == "docker":
-            if "uri" in self.container and pull_image:
-                subprocess.call(["docker", "pull", self.container["uri"]])
+            if pull_image:
+                if "pull" in self.container:
+                    subprocess.call(["docker", "pull", self.container["pull"]])
+                elif "import" in self.container:
+                    subprocess.call(["docker", "import", self.container["import"]])
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (d, self.pathmapper.dirs[d]))
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index 08815e5a9..fd64f7683 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -1,4 +1,5 @@
 import os
+import random
 
 class PathMapper(object):
     # Maps files to their absolute path

From b5c2eb693e2d5c27a1d5d5a152606e9c768003f8 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Feb 2015 17:03:28 -0500
Subject: [PATCH 037/221] Conformance tests updated and all pass!

---
 cwltool/draft2tool.py | 243 ++++++++++++++++++++++++------------------
 1 file changed, 138 insertions(+), 105 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 30ff54128..c9cb57978 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -27,93 +27,99 @@ def validate(expected_schema, datum):
 LONG_MAX_VALUE = (1 << 63) - 1
 
 def validate_ex(expected_schema, datum):
-  """Determine if a python datum is an instance of a schema."""
-  schema_type = expected_schema.type
-  if schema_type == 'null':
-    if datum is None:
-        return True
-    else:
-        raise ValidationException("'%s' is not None" % datum)
-  elif schema_type == 'boolean':
-    if isinstance(datum, bool):
-        return True
-    else:
-        raise ValidationException("'%s' is not bool" % datum)
-  elif schema_type == 'string':
-    if isinstance(datum, basestring):
-        return True
-    else:
-        raise ValidationException("'%s' is not string" % datum)
-  elif schema_type == 'bytes':
-    if isinstance(datum, str):
-        return True
-    else:
-        raise ValidationException("'%s' is not bytes" % datum)
-  elif schema_type == 'int':
-    if ((isinstance(datum, int) or isinstance(datum, long))
+    """Determine if a python datum is an instance of a schema."""
+    schema_type = expected_schema.type
+    if schema_type == 'null':
+        if datum is None:
+            return True
+        else:
+            raise ValidationException("`%s` is not null" % datum)
+    elif schema_type == 'boolean':
+        if isinstance(datum, bool):
+            return True
+        else:
+            raise ValidationException("`%s` is not boolean" % datum)
+    elif schema_type == 'string':
+        if isinstance(datum, basestring):
+            return True
+        else:
+            raise ValidationException("`%s` is not string" % datum)
+    elif schema_type == 'bytes':
+        if isinstance(datum, str):
+            return True
+        else:
+            raise ValidationException("`%s` is not bytes" % datum)
+    elif schema_type == 'int':
+        if ((isinstance(datum, int) or isinstance(datum, long))
             and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
-        return True
-    else:
-        raise ValidationException("'%s' is not int" % datum)
-  elif schema_type == 'long':
-    if ((isinstance(datum, int) or isinstance(datum, long))
+            return True
+        else:
+            raise ValidationException("`%s` is not int" % datum)
+    elif schema_type == 'long':
+        if ((isinstance(datum, int) or isinstance(datum, long))
             and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
-        return True
-    else:
-        raise ValidationException("'%s' is not long" % datum)
-  elif schema_type in ['float', 'double']:
-    if (isinstance(datum, int) or isinstance(datum, long)
+            return True
+        else:
+            raise ValidationException("`%s` is not long" % datum)
+    elif schema_type in ['float', 'double']:
+        if (isinstance(datum, int) or isinstance(datum, long)
             or isinstance(datum, float)):
-        return True
-    else:
-        raise ValidationException("'%s' is not float or double" % datum)
-  elif schema_type == 'fixed':
-    if isinstance(datum, str) and len(datum) == expected_schema.size:
-        return True
-    else:
-        raise ValidationException("'%s' is not fixed" % datum)
-  elif schema_type == 'enum':
-    if datum in expected_schema.symbols:
-        return True
-    else:
-        raise ValidationException("'%s'\n is not a valid enum symbol\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
-  elif schema_type == 'array':
-      if (isinstance(datum, list) and
-          False not in [validate(expected_schema.items, d) for d in datum]):
-          return True
-      else:
-          raise ValidationException("'%s'\n is not a valid list item\n %s" % (pprint.pformat(datum), expected_schema.items))
-  elif schema_type == 'map':
-      if (isinstance(datum, dict) and
-                 False not in [isinstance(k, basestring) for k in datum.keys()] and
-                 False not in
-                 [validate(expected_schema.values, v) for v in datum.values()]):
-          return True
-      else:
-          raise ValidationException("'%s' is not a valid map value %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
-  elif schema_type in ['union', 'error_union']:
-      if True in [validate(s, datum) for s in expected_schema.schemas]:
-          return True
-      else:
-          raise ValidationException("'%s' is not a valid union %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.schemas)))
-  elif schema_type in ['record', 'error', 'request']:
-      if (isinstance(datum, dict) and
-                 False not in
-                 [validate(f.type, datum.get(f.name)) for f in expected_schema.fields]):
-          return True
-      else:
-          if not isinstance(datum, dict):
-              raise ValidationException("'%s'\n is not a dict" % pprint.pformat(datum))
-          try:
-              [validate_ex(f.type, datum.get(f.name)) for f in expected_schema.fields]
-          except ValidationException as v:
-              raise ValidationException("%s\nValidating record %s" % (v, pprint.pformat(datum)))
-  raise ValidationException("Unrecognized schema_type %s" % schema_type)
+            return True
+        else:
+            raise ValidationException("`%s` is not float or double" % datum)
+    elif schema_type == 'fixed':
+        if isinstance(datum, str) and len(datum) == expected_schema.size:
+            return True
+        else:
+            raise ValidationException("`%s` is not fixed" % datum)
+    elif schema_type == 'enum':
+        if datum in expected_schema.symbols:
+            return True
+        else:
+            raise ValidationException("`%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
+    elif schema_type == 'array':
+        if isinstance(datum, list):
+            for i, d in enumerate(datum):
+                try:
+                    validate_ex(expected_schema.items, d)
+                except ValidationException as v:
+                    raise ValidationException("%s\n while validating item at position %i `%s`" % (v, i, d))
+            return True
+        else:
+            raise ValidationException("`%s`\n is not a list, expected list of\n %s" % (pprint.pformat(datum), expected_schema.items))
+    elif schema_type == 'map':
+        if (isinstance(datum, dict) and
+            False not in [isinstance(k, basestring) for k in datum.keys()] and
+            False not in [validate(expected_schema.values, v) for v in datum.values()]):
+            return True
+        else:
+            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
+    elif schema_type in ['union', 'error_union']:
+        if True in [validate(s, datum) for s in expected_schema.schemas]:
+            return True
+        else:
+            errors = []
+            for s in expected_schema.schemas:
+                try:
+                    validate_ex(s, datum)
+                except ValidationException as e:
+                    errors.append(str(e))
+            raise ValidationException("`%s`\n is not valid, expected one of:\n\n%s\n\n the individual errors are:\n%s" % (pprint.pformat(datum), ",\n\n  ".join([str(s) for s in expected_schema.schemas]), ";\n\n".join(errors)))
+    elif schema_type in ['record', 'error', 'request']:
+        if not isinstance(datum, dict):
+            raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
+        try:
+            for f in expected_schema.fields:
+                validate_ex(f.type, datum.get(f.name))
+            return True
+        except ValidationException as v:
+            raise ValidationException("%s\n while validating field `%s`" % (v, f.name))
+    raise ValidationException("Unrecognized schema_type %s" % schema_type)
 
 class Builder(object):
     def jseval(self, expression, context):
         if isinstance(expression, list):
-            exp = "{return %s(%s);}" % (expression[0], ",".join([self.do_eval(e) for e in expression[1:]]))
+            exp = "{return %s(%s);}" % (expression[0], ",".join([json.dumps(self.do_eval(e)) for e in expression[1:]]))
         elif expression.startswith('{'):
             exp = '{return function()%s();}' % (expression)
         else:
@@ -125,7 +131,7 @@ def do_eval(self, ex, context=None):
             if ex.get("expressionType") == "javascript":
                 return self.jseval(ex["value"], context)
             elif ex.get("ref"):
-                with open(os.path.join(basedir, ex["ref"]), "r") as f:
+                with open(os.path.join(self.basedir, ex["ref"]), "r") as f:
                     return f.read()
         else:
             return ex
@@ -135,31 +141,45 @@ def bind_input(self, schema, datum, key):
 
         # Handle union types
         if isinstance(schema["type"], list):
+            success = False
             for t in schema["type"]:
-                if validate(t, datum):
-                    return bind_input(t, datum)
-            raise ValidationException("'%s' is not a valid union %s" % (pprint.pformat(datum), pprint.pformat(schema["type"])))
-
-        if isinstance(schema["type"], dict):
+                if t in self.schemaDefs:
+                    t = self.schemaDefs[t]
+                avsc = avro.schema.make_avsc_object(t, None)
+                if validate(avsc, datum):
+                    if isinstance(t, basestring):
+                        t = {"type": t}
+                    bindings.extend(self.bind_input(t, datum, key))
+                    success = True
+                    break
+            if not success:
+                raise ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
+        elif isinstance(schema["type"], dict):
             bindings.extend(self.bind_input(schema["type"], datum, key))
+        else:
+            if schema["type"] in self.schemaDefs:
+                schema = self.schemaDefs[schema["type"]]
 
-        if schema["type"] == "record":
-            for f in schema["fields"]:
-                bindings.extend(self.bind_input(f, datum[f["name"]], f["name"]))
+            if schema["type"] == "record":
+                for f in schema["fields"]:
+                    if f["name"] in datum:
+                        bindings.extend(self.bind_input(f, datum[f["name"]], f["name"]))
 
-        if schema["type"] == "map":
-            for v in datum:
-                bindings.extend(self.bind_input(schema["values"], datum[v], v))
+            if schema["type"] == "map":
+                for v in datum:
+                    bindings.extend(self.bind_input(schema["values"], datum[v], v))
 
-        if schema["type"] == "array":
-            for n, item in enumerate(datum):
-                #print n, item, schema["items"]
-                b = self.bind_input({"type": schema["items"], "binding": schema.get("binding")}, item, format(n, '06'))
-                bindings.extend(b)
+            if schema["type"] == "array":
+                for n, item in enumerate(datum):
+                    b = self.bind_input({"type": schema["items"], "binding": schema.get("binding")}, item, "")
+                    for bi in b:
+                        bi["position"].insert(0, n)
+                    bindings.extend(b)
 
-        if schema["type"] == "File":
-            self.files.append(datum["path"])
+            if schema["type"] == "File":
+                self.files.append(datum["path"])
 
+        b = None
         if "binding" in schema and isinstance(schema["binding"], dict):
             b = copy.copy(schema["binding"])
 
@@ -179,7 +199,6 @@ def bind_input(self, schema, datum, key):
 
             if schema["type"] == "File":
                 b["is_file"] = True
-
             bindings.append(b)
 
         return bindings
@@ -234,9 +253,11 @@ def __init__(self, toolpath_object):
         validate_ex(self.names.get_name("CommandLineTool", ""), self.tool)
 
         # Import schema defs
+        self.schemaDefs = {}
         if self.tool.get("schemaDefs"):
             for i in self.tool["schemaDefs"]:
                 avro.schema.make_avsc_object(i, self.names)
+                self.schemaDefs[i["name"]] = i
 
         # Build record schema from inputs
         self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
@@ -262,12 +283,21 @@ def job(self, joborder, basedir, use_container=True):
         builder = Builder()
         builder.job = joborder
         builder.jslib = ''
+        builder.basedir = basedir
         builder.files = []
         builder.bindings = []
-        for n, b in enumerate(self.tool["baseCommand"]):
+        builder.schemaDefs = self.schemaDefs
+
+        if isinstance(self.tool["baseCommand"], list):
+            for n, b in enumerate(self.tool["baseCommand"]):
+                builder.bindings.append({
+                    "position": [-1000000, n],
+                    "valueFrom": b
+                })
+        else:
             builder.bindings.append({
-                "position": [-1000000, n],
-                "valueFrom": b
+                "position": [-1000000],
+                "valueFrom": self.tool["baseCommand"]
             })
 
         if self.tool.get("expressionDefs"):
@@ -297,7 +327,7 @@ def job(self, joborder, basedir, use_container=True):
 
         if self.tool.get("stdin"):
             j.stdin = builder.do_eval(self.tool["stdin"])
-            referenced_files.append(j.stdin)
+            builder.files.append(j.stdin)
         else:
             j.stdin = None
 
@@ -313,7 +343,7 @@ def job(self, joborder, basedir, use_container=True):
             j.generatefiles[t["filename"]] = builder.do_eval(t["value"])
 
         for r in self.tool.get("hints", []):
-            if r["requirementType"] == "DockerImage":
+            if r["requirementType"] == "DockerImage" and use_container:
                 j.container = {}
                 j.container["pull"] = r.get("dockerPull")
                 j.container["import"] = r.get("dockerImport")
@@ -323,5 +353,8 @@ def job(self, joborder, basedir, use_container=True):
         if builder.pathmapper is None:
             builder.pathmapper = PathMapper(builder.files, basedir)
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
+        if j.stdin:
+            j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
+
 
         return j

From 99f4e04c52dbf63557a015d2ad76f31686a3d6f9 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 16 Feb 2015 09:49:48 -0500
Subject: [PATCH 038/221] Tweak implementation of ordering for arrays.

---
 cwltool/draft2tool.py | 24 +++++++++++++++---------
 1 file changed, 15 insertions(+), 9 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index c9cb57978..aa863feb8 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -136,7 +136,7 @@ def do_eval(self, ex, context=None):
         else:
             return ex
 
-    def bind_input(self, schema, datum, key):
+    def bind_input(self, schema, datum):
         bindings = []
 
         # Handle union types
@@ -149,13 +149,13 @@ def bind_input(self, schema, datum, key):
                 if validate(avsc, datum):
                     if isinstance(t, basestring):
                         t = {"type": t}
-                    bindings.extend(self.bind_input(t, datum, key))
+                    bindings.extend(self.bind_input(t, datum))
                     success = True
                     break
             if not success:
                 raise ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
         elif isinstance(schema["type"], dict):
-            bindings.extend(self.bind_input(schema["type"], datum, key))
+            bindings.extend(self.bind_input(schema["type"], datum))
         else:
             if schema["type"] in self.schemaDefs:
                 schema = self.schemaDefs[schema["type"]]
@@ -163,15 +163,21 @@ def bind_input(self, schema, datum, key):
             if schema["type"] == "record":
                 for f in schema["fields"]:
                     if f["name"] in datum:
-                        bindings.extend(self.bind_input(f, datum[f["name"]], f["name"]))
+                        b = self.bind_input(f, datum[f["name"]])
+                        for bi in b:
+                            bi["position"].append(f["name"])
+                        bindings.extend(b)
 
             if schema["type"] == "map":
                 for v in datum:
-                    bindings.extend(self.bind_input(schema["values"], datum[v], v))
+                    b = self.bind_input(schema["values"], datum[v]))
+                    for bi in b:
+                        bi["position"].insert(0, v)
+                    bindings.extend(b)
 
             if schema["type"] == "array":
                 for n, item in enumerate(datum):
-                    b = self.bind_input({"type": schema["items"], "binding": schema.get("binding")}, item, "")
+                    b = self.bind_input({"type": schema["items"], "binding": schema.get("binding")}, item)
                     for bi in b:
                         bi["position"].insert(0, n)
                     bindings.extend(b)
@@ -184,9 +190,9 @@ def bind_input(self, schema, datum, key):
             b = copy.copy(schema["binding"])
 
             if b.get("position"):
-                b["position"] = [b["position"], key]
+                b["position"] = [b["position"]]
             else:
-                b["position"] = [0, key]
+                b["position"] = [0]
 
             # Position to front of the sort key
             for bi in bindings:
@@ -314,7 +320,7 @@ def job(self, joborder, basedir, use_container=True):
                 a["valueFrom"] = builder.do_eval(a["valueFrom"])
                 builder.bindings.append(a)
 
-        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder, ""))
+        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder))
         builder.bindings.sort(key=lambda a: a["position"])
 
         #pprint.pprint(builder.bindings)

From df7f590e7f8b8797287481e158109eba274d7146 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 22 Feb 2015 22:57:53 -0500
Subject: [PATCH 039/221] Reorganize examples/tests into draft-1 and draft-2
 directories.  Update tests. Running draft 2 jobs works, but collect_output
 has not yet been ported.

---
 cwltool/draft1tool.py  | 31 ++++++++++++++++++++++++++
 cwltool/draft2tool.py  | 43 ++++++++++++++++++++++++++++++++----
 cwltool/job.py         | 49 +++++++++++-------------------------------
 cwltool/pathmapper.py  |  4 ++--
 setup.py               |  3 ++-
 tests/test_examples.py | 24 +++++----------------
 6 files changed, 92 insertions(+), 62 deletions(-)

diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index d7cea8714..05cacce14 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -8,6 +8,7 @@
 import random
 import requests
 import urlparse
+import functools
 from pathmapper import PathMapper, DockerPathMapper
 from job import Job
 from flatten import flatten
@@ -334,5 +335,35 @@ def job(self, joborder, basedir, use_container=True):
         j.command_line = flatten(map(lambda a: builder.adapt(a, joborder, d.mapper), adapters))
 
         j.pathmapper = d
+        j.collect_outputs = functools.partial(self.collect_outputs, self.tool["outputs"], joborder)
 
         return j
+
+    def collect_outputs(self, schema, joborder, outdir):
+        result_path = os.path.join(outdir, "result.cwl.json")
+        if os.path.isfile(result_path):
+            print "Result file found."
+            with open(result_path) as fp:
+                return yaml.load(fp)
+
+        r = None
+        if isinstance(schema, dict):
+            if "adapter" in schema:
+                adapter = schema["adapter"]
+                if "glob" in adapter:
+                    r = [{"path": g} for g in glob.glob(os.path.join(outdir, adapter["glob"]))]
+                    if not ("type" in schema and schema["type"] == "array"):
+                        if r:
+                            r = r[0]
+                        else:
+                            r = None
+                if "value" in adapter:
+                    r = draft1tool.resolve_eval(joborder, adapter["value"])
+            if not r and "properties" in schema:
+                r = {}
+                for k, v in schema["properties"].items():
+                    out = self.collect_outputs(v, joborder, outdir)
+                    if out:
+                        r[k] = out
+
+        return r
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index aa863feb8..894269c99 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -3,6 +3,7 @@
 import pprint
 import copy
 from flatten import flatten
+import functools
 import os
 from pathmapper import PathMapper, DockerPathMapper
 import sandboxjs
@@ -170,7 +171,7 @@ def bind_input(self, schema, datum):
 
             if schema["type"] == "map":
                 for v in datum:
-                    b = self.bind_input(schema["values"], datum[v]))
+                    b = self.bind_input(schema["values"], datum[v])
                     for bi in b:
                         bi["position"].insert(0, v)
                     bindings.extend(b)
@@ -351,16 +352,50 @@ def job(self, joborder, basedir, use_container=True):
         for r in self.tool.get("hints", []):
             if r["requirementType"] == "DockerImage" and use_container:
                 j.container = {}
-                j.container["pull"] = r.get("dockerPull")
-                j.container["import"] = r.get("dockerImport")
-                j.container["imageId"] = r.get("dockerImageId")
+                j.container["type"] = "docker"
+                if "dockerPull" in r:
+                    j.container["pull"] = r["dockerPull"]
+                if "dockerImport" in r:
+                    j.container["import"] = r["dockerImport"]
+                if "dockerImageId" in r:
+                    j.container["imageId"] = r["dockerImageId"]
+                else:
+                    j.container["imageId"] = r["dockerPull"]
                 builder.pathmapper = DockerPathMapper(builder.files, basedir)
 
         if builder.pathmapper is None:
             builder.pathmapper = PathMapper(builder.files, basedir)
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
+
         if j.stdin:
             j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
 
+        j.pathmapper = builder.pathmapper
+        j.collect_outputs = functools.partial(self.collect_outputs, self.tool["outputs"], joborder)
 
         return j
+
+
+    def collect_outputs(self, schema, joborder, outdir):
+        r = None
+        if isinstance(schema, dict):
+            if "binding" in schema:
+                binding = schema["binding"]
+                if "glob" in binding:
+                    r = [{"path": g} for g in glob.glob(os.path.join(outdir, binding["glob"]))]
+                    # if not ("type" in schema and schema["type"] == "array"):
+                    #     if r:
+                    #         r = r[0]
+                    #     else:
+                    #         r = None
+                #if "value" in binding:
+                #    r = draft1tool.resolve_eval(joborder, binding["value"])
+            # if not r and "properties" in schema:
+            #     r = {}
+            #     for k, v in schema["properties"].items():
+            #         out = self.collect_outputs(v, joborder, outdir)
+            #         if out:
+            #             r[k] = out
+
+
+        return r
diff --git a/cwltool/job.py b/cwltool/job.py
index 895a9634c..8c9f79183 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -1,7 +1,6 @@
 import subprocess
 import os
 import tempfile
-import draft1tool
 import glob
 import json
 import yaml
@@ -24,15 +23,14 @@ def run(self, dry_run=False, pull_image=True):
                     subprocess.call(["docker", "pull", self.container["pull"]])
                 elif "import" in self.container:
                     subprocess.call(["docker", "import", self.container["import"]])
+
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
-                runtime.append("--volume=%s:%s:ro" % (d, self.pathmapper.dirs[d]))
+                runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
             runtime.append("--volume=%s:%s:ro" % (outdir, "/tmp/job_output"))
             runtime.append("--workdir=%s" % ("/tmp/job_output"))
             runtime.append("--user=%s" % (os.geteuid()))
             runtime.append(self.container["imageId"])
-        else:
-            os.chdir(outdir)
 
         stdin = None
         stdout = None
@@ -43,8 +41,10 @@ def run(self, dry_run=False, pull_image=True):
             if self.stdin:
                 stdin = open(self.stdin, "rb")
 
+            os.chdir(outdir)
+
             if self.stdout:
-                stdout = open(os.path.join(outdir, self.stdout), "wb")
+                stdout = open(self.stdout, "wb")
 
             for t in self.generatefiles:
                 with open(os.path.join(outdir, t), "w") as f:
@@ -60,36 +60,13 @@ def run(self, dry_run=False, pull_image=True):
                 stdout.close()
 
             print "Output directory is %s" % outdir
-            if 'outputs' in self.tool.tool:
-                return self.collect_outputs(self.tool.tool["outputs"], outdir)
 
-        return None
+            result_path = os.path.join(outdir, "result.cwl.json")
+            if os.path.isfile(result_path):
+                print "Result file found."
+                with open(result_path) as fp:
+                    return yaml.load(fp)
+            else:
+                return self.collect_outputs(outdir)
 
-    def collect_outputs(self, schema, outdir):
-        result_path = os.path.join(outdir, "result.cwl.json")
-        if os.path.isfile(result_path):
-            print "Result file found."
-            with open(result_path) as fp:
-                return yaml.load(fp)
-
-        r = None
-        if isinstance(schema, dict):
-            if "adapter" in schema:
-                adapter = schema["adapter"]
-                if "glob" in adapter:
-                    r = [{"path": g} for g in glob.glob(os.path.join(outdir, adapter["glob"]))]
-                    if not ("type" in schema and schema["type"] == "array"):
-                        if r:
-                            r = r[0]
-                        else:
-                            r = None
-                if "value" in adapter:
-                    r = draft1tool.resolve_eval(self.joborder, adapter["value"])
-            if not r and "properties" in schema:
-                r = {}
-                for k, v in schema["properties"].items():
-                    out = self.collect_outputs(v, outdir)
-                    if out:
-                        r[k] = out
-
-        return r
+        return None
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index fd64f7683..fcb783924 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -6,8 +6,8 @@ class PathMapper(object):
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
-            self._pathmap[src] = abs
+            ab = src if os.path.isabs(src) else os.path.join(basedir, src)
+            self._pathmap[src] = ab
 
     def mapper(self, src):
         return self._pathmap[src]
diff --git a/setup.py b/setup.py
index 32fc6275f..cf80929bd 100644
--- a/setup.py
+++ b/setup.py
@@ -37,7 +37,8 @@
       install_requires=[
           'jsonschema >= 2.4.0',
           'requests',
-          'PyYAML'
+          'PyYAML',
+          'avro'
         ],
       test_suite='tests',
       tests_require=[],
diff --git a/tests/test_examples.py b/tests/test_examples.py
index 891b9f5fb..5cc2b7cd1 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -1,27 +1,13 @@
 import unittest
-from cwltool import tool
-from cwltool.ref_resolver import from_url, resolve_pointer
+import cwltool.draft2tool as tool
+from cwltool.ref_resolver import from_url
 
 class TestExamples(unittest.TestCase):
-    def test_job_order(self):
-        t = tool.Tool(from_url("../examples/bwa-mem-tool.json"))
-        job = t.job(from_url("../examples/bwa-mem-job.json"))
-        self.assertEqual(job.command_line, ['bwa',
-                                            'mem',
-                                            '-t4',
-                                            '-m',
-                                            '3',
-                                            '-I1,2,3,4',
-                                            './rabix/tests/test-files/chr20.fa',
-                                            './rabix/tests/test-files/example_human_Illumina.pe_1.fastq',
-                                            './rabix/tests/test-files/example_human_Illumina.pe_2.fastq'])
-
-    def test_no_adapters(self):
-        t = tool.Tool(from_url("../examples/add_ints-tool.json"))
-        job = t.job(from_url("../examples/add_ints-job.json"), basedir='.')
+    def test_cat1(self):
+        t = tool.Tool(from_url("../examples/draft-2/cat4-tool.json"))
+        job = t.job(from_url("../examples/draft-2/cat-job.json"), basedir="../examples/draft-2")
         result = job.run()
         print result
-        self.assertEqual(result['c'], 3)
 
 
 if __name__ == '__main__':

From 770635f6af9acb99c4f6e6028d55c64cb48c540f Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 4 Mar 2015 14:57:19 -0500
Subject: [PATCH 040/221] Add draft-1 examples and tests back in.

---
 cwltool/draft1tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index 05cacce14..630b4a245 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -335,7 +335,7 @@ def job(self, joborder, basedir, use_container=True):
         j.command_line = flatten(map(lambda a: builder.adapt(a, joborder, d.mapper), adapters))
 
         j.pathmapper = d
-        j.collect_outputs = functools.partial(self.collect_outputs, self.tool["outputs"], joborder)
+        j.collect_outputs = functools.partial(self.collect_outputs, self.tool.get("outputs", {}), joborder)
 
         return j
 

From 1eb797938ec3ae8f836b8ccfca6d59e62c18a8cd Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 4 Mar 2015 17:08:45 -0500
Subject: [PATCH 041/221] Working on adding testing running actual containers
 not just command line generation.

---
 cwltool/__main__.py   |   2 +-
 cwltool/draft2tool.py |  53 ++++----
 cwltool/job.py        |  31 ++---
 cwltool/main.py       |  22 ++--
 cwltool/tool_new.py   | 220 --------------------------------
 cwltool/workflow.py   | 284 ------------------------------------------
 6 files changed, 54 insertions(+), 558 deletions(-)
 delete mode 100755 cwltool/tool_new.py
 delete mode 100644 cwltool/workflow.py

diff --git a/cwltool/__main__.py b/cwltool/__main__.py
index a952ff500..857f2ac79 100644
--- a/cwltool/__main__.py
+++ b/cwltool/__main__.py
@@ -1,3 +1,3 @@
 import main
 
-main.main()
+sys.exit(main.main())
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 894269c99..b828fcf80 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -8,6 +8,9 @@
 from pathmapper import PathMapper, DockerPathMapper
 import sandboxjs
 from job import Job
+import yaml
+import glob
+import logging
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-2-pa/schemas/draft-2/context.json"
 
@@ -324,8 +327,8 @@ def job(self, joborder, basedir, use_container=True):
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder))
         builder.bindings.sort(key=lambda a: a["position"])
 
-        #pprint.pprint(builder.bindings)
-        #pprint.pprint(builder.files)
+        logging.debug(pprint.pformat(builder.bindings))
+        logging.debug(pprint.pformat(builder.files))
 
         j = Job()
         j.joborder = joborder
@@ -371,31 +374,35 @@ def job(self, joborder, basedir, use_container=True):
             j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
 
         j.pathmapper = builder.pathmapper
-        j.collect_outputs = functools.partial(self.collect_outputs, self.tool["outputs"], joborder)
+        j.collect_outputs = functools.partial(self.collect_output_ports, self.tool["outputs"], builder)
 
         return j
 
+    def collect_output_ports(self, ports, builder, outdir):
+        custom_output = os.path.join(outdir, "output.cwl.json")
+        if os.path.exists(custom_output):
+            outputdoc = yaml.load(custom_output)
+            validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
+            return outputdoc
+        return {port["port"][1:]: self.collect_output(port, builder, outdir) for port in ports}
 
-    def collect_outputs(self, schema, joborder, outdir):
+    def collect_output(self, schema, builder, outdir):
         r = None
-        if isinstance(schema, dict):
-            if "binding" in schema:
-                binding = schema["binding"]
-                if "glob" in binding:
-                    r = [{"path": g} for g in glob.glob(os.path.join(outdir, binding["glob"]))]
-                    # if not ("type" in schema and schema["type"] == "array"):
-                    #     if r:
-                    #         r = r[0]
-                    #     else:
-                    #         r = None
-                #if "value" in binding:
-                #    r = draft1tool.resolve_eval(joborder, binding["value"])
-            # if not r and "properties" in schema:
-            #     r = {}
-            #     for k, v in schema["properties"].items():
-            #         out = self.collect_outputs(v, joborder, outdir)
-            #         if out:
-            #             r[k] = out
-
+        if "binding" in schema:
+            binding = schema["binding"]
+            if ("glob" in binding and
+                (schema["type"] == "File" or
+                 (schema["type"] == "array" and
+                  schema["items"] == "File"))):
+                r = [{"path": g} for g in glob.glob(os.path.join(outdir, binding["glob"]))]
+                if schema["type"] == "File":
+                    r = r[0] if r else None
+            elif "valueFrom" in binding:
+                r = builder.do_eval(binding["valueFrom"])
+
+        if not r and schema["type"] == "record":
+            r = {}
+            for f in schema["fields"]:
+                r[f["name"]] = self.collect_output(f, builder, outdir)
 
         return r
diff --git a/cwltool/job.py b/cwltool/job.py
index 8c9f79183..af5e9fea0 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -4,13 +4,15 @@
 import glob
 import json
 import yaml
+import logging
 
 class Job(object):
-    def run(self, dry_run=False, pull_image=True):
-        if not dry_run:
-            outdir = tempfile.mkdtemp()
-        else:
-            outdir = "/tmp"
+    def run(self, dry_run=False, pull_image=True, outdir=None):
+        if not outdir:
+            if not dry_run:
+                outdir = tempfile.mkdtemp()
+            else:
+                outdir = "/tmp"
 
         with open(os.path.join(outdir, "job.cwl.json"), "w") as fp:
             json.dump(self.joborder, fp)
@@ -20,14 +22,14 @@ def run(self, dry_run=False, pull_image=True):
         if self.container and self.container.get("type") == "docker":
             if pull_image:
                 if "pull" in self.container:
-                    subprocess.call(["docker", "pull", self.container["pull"]])
+                    subprocess.check_call(["docker", "pull", self.container["pull"]])
                 elif "import" in self.container:
-                    subprocess.call(["docker", "import", self.container["import"]])
+                    subprocess.check_call(["docker", "import", self.container["import"]])
 
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
-            runtime.append("--volume=%s:%s:ro" % (outdir, "/tmp/job_output"))
+            runtime.append("--volume=%s:%s:ro" % (os.path.abspath(outdir), "/tmp/job_output"))
             runtime.append("--workdir=%s" % ("/tmp/job_output"))
             runtime.append("--user=%s" % (os.geteuid()))
             runtime.append(self.container["imageId"])
@@ -35,7 +37,7 @@ def run(self, dry_run=False, pull_image=True):
         stdin = None
         stdout = None
 
-        print runtime + self.command_line
+        logging.info(str(runtime + self.command_line))
 
         if not dry_run:
             if self.stdin:
@@ -59,14 +61,7 @@ def run(self, dry_run=False, pull_image=True):
             if stdout:
                 stdout.close()
 
-            print "Output directory is %s" % outdir
-
-            result_path = os.path.join(outdir, "result.cwl.json")
-            if os.path.isfile(result_path):
-                print "Result file found."
-                with open(result_path) as fp:
-                    return yaml.load(fp)
-            else:
-                return self.collect_outputs(outdir)
+            logging.info("Output directory is %s", outdir)
+            return self.collect_outputs(outdir)
 
         return None
diff --git a/cwltool/main.py b/cwltool/main.py
index 4a53c37b1..927c295fe 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -8,6 +8,7 @@
 import json
 import os
 import sys
+import logging
 
 def main():
     parser = argparse.ArgumentParser()
@@ -15,6 +16,7 @@ def main():
     parser.add_argument("job_order", type=str)
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
+    parser.add_argument("--outdir", type=str)
     parser.add_argument("--no-container", action="store_true", help="Do not execute in a Docker container, even if one is specified in the tool file")
     parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
     parser.add_argument("--dry-run", action="store_true", help="Do not execute")
@@ -27,13 +29,8 @@ def main():
             t = draft1tool.Tool(u)
         else:
             t = draft2tool.Tool(u)
-    except jsonschema.exceptions.ValidationError as e:
-        print "Tool definition failed validation"
-        print e
-        return 1
-    except draft2tool.ValidationException as e:
-        print "Tool definition failed validation"
-        print e
+    except (jsonschema.exceptions.ValidationError, draft2tool.ValidationException):
+        logging.exception("Tool definition failed validation")
         return 1
 
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
@@ -50,13 +47,14 @@ def main():
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
-            print '%s%s%s' % (' '.join(job.command_line),
+            logging.info('%s%s%s', ' '.join(job.command_line),
                                 ' < %s' % (job.stdin) if job.stdin else '',
                                 ' > %s' % (job.stdout) if job.stdout else '')
-            print "Output json is " + json.dumps(job.run(dry_run=args.dry_run, pull_image=(not args.no_pull)))
-    except jsonschema.exceptions.ValidationError as e:
-        print "Job order failed validation"
-        print e
+
+            runjob = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
+            print json.dumps(runjob)
+    except jsonschema.exceptions.ValidationError:
+        logging.exception("Job order failed validation")
         return 1
 
     return 0
diff --git a/cwltool/tool_new.py b/cwltool/tool_new.py
deleted file mode 100755
index 0ca9751b8..000000000
--- a/cwltool/tool_new.py
+++ /dev/null
@@ -1,220 +0,0 @@
-#!/usr/bin/env python
-
-import os
-import sys
-import json
-import logging
-import tempfile
-from collections import namedtuple
-from tool import resolve_pointer, flatten
-import sandboxjs
-import avro.io
-import avro.schema
-
-Args = namedtuple('Args', ['position', 'args'])
-merge_args = lambda args: flatten([a.args for a in sorted(args, key=lambda x: x.position)])
-
-
-def jseval(job, expression, context=None):
-    if expression.startswith('{'):
-        exp_tpl = '''{
-        return function()%s();}
-        '''
-    else:
-        exp_tpl = '''{
-        return %s;}
-        '''
-    exp = exp_tpl % expression
-    return sandboxjs.execjs(exp, "var $job = %s, $self = %s;" % (json.dumps(job), json.dumps(context)))
-
-
-def resolve_transform(job, val, context=None):
-    if not isinstance(val, dict) or val.get('@type') != 'Transform':
-        return val
-    lang = val.get('language')
-    expr = val.get('value')
-    if lang == 'javascript':
-        return jseval(job, expr, context)
-    elif lang == 'jsonpointer':
-        return resolve_pointer(job, expr)
-    else:
-        raise Exception('Unknown language for Transform: %s' % lang)
-
-
-def get_args(job, adapter, value=None, schema=None, key=None, tool=None):
-    if schema and 'adapter' in schema:
-        adapter = schema['adapter']
-    if adapter is None:
-        return Args(None, [])
-
-    position = adapter.get('position', 0)
-    prefix = adapter.get('prefix')
-    sep = adapter.get('separator', ' ')
-    item_sep = adapter.get('itemSeparator')
-    arg_val = adapter.get('argValue')
-    pos = [position, key]
-
-    if isinstance(arg_val, dict) and arg_val.get('@type') == 'Transform':
-        value = resolve_transform(job, arg_val, value)
-    elif isinstance(value, dict) and value.get('@type') == 'File':
-        value = value.get('path')
-
-    if value is None:
-        return Args(pos, [])
-
-    if isinstance(value, bool):
-        if not prefix:
-            raise Exception('Boolean value without prefix in adapter')
-        return Args(pos, [prefix]) if value else Args(pos, [])
-
-    if isinstance(value, dict):
-        if not schema:
-            return Args(pos, [])
-        args = []
-        for k, v in value.iteritems():
-            field = filter(lambda x: x['name'] == k, schema['fields'])
-            if not field:
-                logging.error('Field not found in schema: "%s". Schema: %s', k, schema)
-                continue
-            field = field[0]
-            field_adapter = field.get('adapter')
-            field_schema = schema_by_name(field.get('type'), tool)
-            args.append(get_args(job, field_adapter, v, field_schema, k, tool=tool))
-        return Args(pos, merge_args(args))
-
-    if isinstance(value, list):
-        items = flatten([get_args(job, {}, i, schema_for_item(i, schema, tool), tool=tool).args for i in value])
-        if item_sep:
-            val = item_sep.join(items)
-            if not prefix:
-                return Args(pos, [val])
-            return Args(pos, [prefix, val] if sep == ' ' else [sep.join([prefix, val])])
-        if not prefix:
-            return Args(pos, items)
-        if sep == ' ':
-            return Args(pos, flatten([prefix, item] for item in items))
-        return Args(pos, [sep.join([prefix, item]) for item in items])
-
-    value = unicode(value)
-    if not prefix:
-        return Args(pos, [value])
-    if sep == ' ':
-        return Args(pos, [prefix, value])
-    return Args(pos, [sep.join([prefix, value])])
-
-
-def schema_by_name(type_name, tool):
-    if isinstance(type_name, dict):
-        return type_name
-    tds = filter(lambda x: x['name'] == type_name, tool.get('schemaDefs', []))
-    return tds[0] if tds else None
-
-
-def schema_for_item(value, array_schema, tool):
-    if not array_schema:
-        return None
-    opts = array_schema.get('items', [])
-    if not opts:
-        return None
-    if not isinstance(opts, list):
-        opts = [opts]
-    opts = [schema_by_name(opt, tool) for opt in opts]
-    if len(opts) == 1:
-        return opts[0]
-    for opt in opts:
-        sch = avro.schema.parse(json.dumps(opt))
-        if avro.io.validate(sch, value):
-            return opt
-    return None
-
-
-def get_proc_args_and_redirects(tool, job):
-    adaptable_inputs = [i for i in tool.get('inputs', []) if 'adapter' in i.get('schema', {})]
-    input_args = []
-    for i in adaptable_inputs:
-        inp_id = i['@id'][1:]
-        inp_val = job['inputs'].get(inp_id)
-        inp_adapter = i['schema']['adapter']
-        input_args.append(get_args(job, inp_adapter, inp_val, i['schema'], inp_id, tool=tool))
-    cli_adapter = tool['cliAdapter']
-    adapter_args = [get_args(job, a, tool=tool) for a in cli_adapter.get('argAdapters', [])]
-    if isinstance(cli_adapter.get('baseCmd'), basestring):
-        cli_adapter['baseCmd'] = [cli_adapter['baseCmd']]
-    base_cmd = [resolve_transform(job, v) for v in cli_adapter['baseCmd']]
-    argv = base_cmd + merge_args(input_args + adapter_args)
-    stdin = resolve_transform(job, cli_adapter.get('stdin'))
-    stdout = resolve_transform(job, cli_adapter.get('stdout'))
-    return argv, stdin, stdout
-
-
-def test(tool, job):
-    ex = os.path.join(os.path.dirname(__file__), '../../examples/')
-    with open(os.path.join(ex, tool)) as fp:
-        tool = json.load(fp)
-    with open(os.path.join(ex, job)) as fp:
-        job = json.load(fp)
-    argv, stdin, stdout = get_proc_args_and_redirects(tool, job)
-    print ' '.join(argv), '<', stdin, '>', stdout
-
-
-def conformance_test():
-    tool, job = filter(lambda x: x[0] != '-', sys.argv[1:])
-    assert os.path.isfile(tool)
-    assert os.path.isfile(job)
-    base_dir = filter(lambda x: x.startswith('--basedir='), sys.argv[1:])
-    if base_dir:
-        base_dir = base_dir[0][len('--basedir='):]
-
-    with open(tool) as t, open(job) as j:
-        tool = json.load(t)
-        job = json.load(j)
-
-    if base_dir:
-        job['inputs'] = map_paths(job.get('inputs', {}), base_dir)
-
-    argv, stdin, stdout = get_proc_args_and_redirects(tool, job)
-    print json.dumps({
-        'args': argv,
-        'stdin': stdin,
-        'stdout': stdout,
-    })
-
-
-def map_paths(obj, base_dir):
-    if isinstance(obj, list):
-        return [map_paths(i, base_dir) for i in obj]
-    if not isinstance(obj, dict):
-        return obj
-    if obj.get('@type') == 'File':
-        obj['path'] = os.path.join(base_dir, obj['path'])
-        return obj
-    return {k: map_paths(v, base_dir) for k, v in obj.iteritems()}
-
-
-def run(tool_path, job_path):
-    with open(tool_path) as fpt, open(job_path) as fpj:
-        tool = json.load(fpt)
-        job = json.load(fpj)
-    job = map_paths(job, os.path.join(os.path.dirname(__file__), '../../examples/'))
-    argv, stdin, stdout = get_proc_args_and_redirects(tool, job)
-    line = ' '.join(argv)
-    if stdin:
-        line += ' < ' + stdin
-    if stdout:
-        line += ' > ' + stdout
-    print line
-    job_dir = tempfile.mkdtemp()
-    os.chdir(job_dir)
-    if os.system(line):
-        raise Exception('Process failed.')
-    print os.listdir('.')
-
-
-if __name__ == '__main__':
-    if '--conformance-test' not in sys.argv:
-        run(*sys.argv[1:])
-        # test('bwa-mem-tool.json', 'bwa-mem-job.json')
-        # test('cat1-tool.json', 'cat-n-job.json')
-        # test('tmap-tool.json', 'tmap-job.json')
-    else:
-        conformance_test()
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
deleted file mode 100644
index 0a95c5602..000000000
--- a/cwltool/workflow.py
+++ /dev/null
@@ -1,284 +0,0 @@
-import os
-import logging
-import functools
-import json
-from datetime import datetime
-from copy import deepcopy
-from collections import defaultdict
-
-from rdflib import Graph, URIRef, Literal, RDF, XSD
-from rdflib.namespace import Namespace, NamespaceManager
-
-from tool_new import jseval
-
-
-log = logging.getLogger(__file__)
-
-CWL = Namespace('http://github.com/common-workflow-language/')
-WFD = Namespace('http://purl.org/wf4ever/wfdesc#')
-PROV = Namespace('http://www.w3.org/ns/prov#')
-DCT = Namespace('http://purl.org/dc/terms/')
-CNT = Namespace('http://www.w3.org/2011/content#')
-
-
-def get_value(graph, iri):
-    chars = graph.value(iri, CNT.chars)
-    if chars:
-        return json.load(chars.toPython())
-    return graph.value(iri).toPython()
-
-
-def set_value(graph, iri, val):
-    if isinstance(val, (dict, list)):
-        graph.set([iri, CNT.chars, Literal(json.dumps(val))])
-    else:
-        graph.set([iri, RDF.value, Literal(val)])
-
-
-class Inputs(object):
-    def __init__(self, graph, tuples):
-        self.g = graph
-        self.d = {}
-        self.wrapped = []
-        for k, v in tuples:
-            self[k] = v
-
-    def __getitem__(self, item):
-        return self.d[item]
-
-    def __setitem__(self, key, value):
-        if key not in self.d:
-            self.d[key] = get_value(self.g, value)
-        elif key in self.wrapped:
-            self.d[key].append(get_value(self.g, value))
-        else:
-            self.d[key] = [self.d[key], get_value(self.g, value)]
-            self.wrapped.append(key)
-
-    def to_dict(self):
-        return {k[k.rfind('/') + 1:]: v for k, v in self.d.iteritems()}
-
-
-def lazy(func):
-    attr = '__lazy_' + func.__name__
-
-    @functools.wraps(func)
-    def wrapped(self):
-        if not hasattr(self, attr):
-            setattr(self, attr, func(self))
-        return getattr(self, attr)
-    return property(wrapped)
-
-
-class Process(object):
-    def __init__(self, graph, iri):
-        self.g = graph
-        self.iri = URIRef(iri)
-
-    activity = lazy(lambda self: self.g.value(None, CWL.activityFor, self.iri))
-    inputs = lazy(lambda self: list(self.g.objects(self.iri, WFD.hasInput)))
-    outputs = lazy(lambda self: list(self.g.objects(self.iri, WFD.hasOutput)))
-    started = lazy(lambda self: self.g.value(self.activity, PROV.startedAtTime) if self.activity else None)
-    ended = lazy(lambda self: self.g.value(self.activity, PROV.endedAtTime) if self.activity else None)
-    has_prereqs = lazy(lambda self: all([None, CWL.producedByPort, src] in self.g for src in self.sources))
-
-    @lazy
-    def has_prereqs(self):
-        return all([None, CWL.producedByPort, src] in self.g for src in self.sources)
-
-    @lazy
-    def sources(self):
-        return [x[0] for x in self.g.query('''
-        select ?src
-        where {
-            <%s> wfd:hasInput ?port .
-            ?link   wfd:hasSink ?port ;
-                    wfd:hasSource ?src .
-        }
-        ''' % self.iri)]
-
-    @lazy
-    def input_values(self):
-        return self.g.query('''
-        select ?port ?val
-        where {
-            <%s> wfd:hasInput ?port .
-            ?link   wfd:hasSink ?port ;
-                    wfd:hasSource ?src .
-            ?val cwl:producedByPort ?src .
-        }
-        ''' % self.iri)
-
-
-class WorkflowRunner(object):
-    def __init__(self, path):
-        nm = NamespaceManager(Graph())
-        nm.bind('cwl', CWL)
-        nm.bind('wfd', WFD)
-        nm.bind('prov', PROV)
-        nm.bind('dct', DCT)
-        nm.bind('cnt', CNT)
-        self.g = Graph(namespace_manager=nm)
-        self.wf_iri = None
-        self.act_iri = None
-        self._load(path)
-
-    def _load(self, path):
-        self.g.parse(path, format='json-ld')
-        self.wf_iri = URIRef('file://' + path)  # TODO: Find a better way to do this
-        self.g.add([self.wf_iri, RDF.type, WFD.Process])
-        for sp in self.g.objects(self.wf_iri, WFD.hasSubProcess):
-            self.g.add([sp, RDF.type, WFD.Process])
-            tool = self.g.value(sp, CWL.hasImplementation)
-            log.debug('Loading reference %s', tool)
-            self.g.parse(tool, format='json-ld')
-
-    def start(self, proc_iri=None):
-        main_act = False
-        if not proc_iri:
-            proc_iri = self.wf_iri
-            main_act = True
-        proc_iri = URIRef(proc_iri)
-        iri = self.iri_for_activity(proc_iri)
-        log.debug('Starting %s', iri)
-        self.g.add([iri, RDF.type, CWL.Activity])
-        self.g.add([iri, CWL.activityFor, proc_iri])
-        self.g.add([iri, PROV.startedAtTime, Literal(datetime.now(), datatype=XSD.datetime)])
-        if main_act:
-            self.act_iri = iri
-        else:
-            self.g.add([self.act_iri, DCT.hasPart, iri])
-            for k, v in Process(self.g, proc_iri).input_values:
-                val = self.g.value(v)
-                log.debug('Value on %s is %s', k, val.toPython())
-        return iri
-
-    def end(self, act_iri):
-        act_iri = URIRef(act_iri)
-        self.g.add([act_iri, PROV.endedAtTime, Literal(datetime.now(), datatype=XSD.datetime)])
-
-    def iri_for_activity(self, process_iri):
-        sep = '/' if '#' in process_iri else '#'
-        return URIRef(process_iri + sep + '__activity__')  # TODO: Better IRIs
-
-    def iri_for_value(self, port_iri):
-        return URIRef(port_iri + '/__value__')  # TODO: Better IRIs
-
-    def queued(self):
-        ps = [Process(self.g, iri) for iri in self.g.subjects(RDF.type, CWL.Process)]
-        return [p for p in ps if p.has_prereqs and not p.started]
-
-    def set_value(self, port_iri, value, creator_iri=None):
-        if not port_iri.startswith(self.wf_iri):
-            port_iri = self.wf_iri + '#' + port_iri
-        port_iri = URIRef(port_iri)
-        iri = self.iri_for_value(port_iri)
-        set_value(self.g, iri, value)
-        self.g.add([iri, RDF.type, CWL.Value])
-        self.g.add([iri, CWL.producedByPort, URIRef(port_iri)])
-        if creator_iri:
-            self.g.add([iri, PROV.wasGeneratedBy, URIRef(creator_iri)])
-        return iri
-
-    def _depth_mismatch_port(self, proc, inputs):
-        depth_of = lambda x: 1 if isinstance(x, list) else 0  # TODO: fixme
-        incoming = {k: depth_of(v) for k, v in inputs.d.iteritems()}
-        expected = {k: self.g.value(k, CWL.hasDepth).toPython() for k in proc.inputs}
-        result = None
-        for k, v in incoming.iteritems():
-            if expected[k] != v:
-                if result:
-                    log.error('\nIncoming: %s\nExpected: %s', incoming, expected)
-                    raise Exception('More than one port has mismatching depth.')
-                if incoming[k] < expected[k]:
-                    raise Exception('depth(incoming) < depth(expected); Wrapping must be done explicitly.')
-                if incoming[k] - expected[k] > 1:
-                    raise NotImplementedError('Only handling one nesting level at the moment.')
-                result = k
-        return result
-
-    def run_component(self, tool, job):
-        cmp_type = self.g.value(tool, RDF.type)
-        if cmp_type == CWL.SimpleTransformTool:
-            return self.run_script(tool, job)
-        raise Exception('Unrecognized component type: %s' % cmp_type)
-
-    def run_workflow(self):
-        self.start()
-        while self.queued():
-            act = self.start(self.queued()[0].iri)
-            proc = Process(self.g, self.g.value(act, CWL.activityFor))
-            tool = self.g.value(proc.iri, CWL.hasImplementation)
-            inputs = Inputs(self.g, proc.input_values)  # TODO: propagate desc<->impl
-            dmp = self._depth_mismatch_port(proc, inputs)
-            if not dmp:
-                job = {'inputs': inputs.to_dict()}
-                outputs = self.run_component(tool, job)
-            else:
-                jobs, outputs = [], defaultdict(list)
-                for i in inputs[dmp]:
-                    inp_copy = deepcopy(inputs)
-                    inp_copy.d[dmp] = i
-                    jobs.append({'inputs': inp_copy.to_dict()})
-                for job in jobs:
-                    outs = self.run_component(tool, job)
-                    for k, v in outs.iteritems():
-                        outputs[k].append(v)
-            for k, v in outputs.iteritems():
-                self.set_value(proc.iri + '/' + k, v, act)
-            self.end(act)
-        self.end(self.act_iri)
-        outputs = dict(self.g.query('''
-        select ?port ?val
-        where {
-            <%s> wfd:hasOutput ?port .
-            ?link   wfd:hasSink ?port ;
-                    wfd:hasSource ?src .
-            ?val cwl:producedByPort ?src .
-        }
-        ''' % self.wf_iri))
-        return {k: get_value(self.g, v) for k, v in outputs.iteritems()}
-
-    def run_script(self, tool, job):
-        expr = self.g.value(self.g.value(tool, CWL.hasScript)).toPython()
-        log.debug('Running expr %s\nJob: %s', expr, job)
-        result = jseval(job, expr)
-        logging.debug('Result: %s', result)
-        return result
-
-
-def aplusbtimesc(wf_name, a, b, c):
-    print '\n\n--- %s ---\n\n' % wf_name
-    path = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../examples/' + wf_name))
-    rnr = WorkflowRunner(path)
-    rnr.set_value('a', a)
-    rnr.set_value('b', b)
-    rnr.set_value('c', c)
-    outs = rnr.run_workflow()
-    assert outs
-    print '\nDone. Workflow outputs:'
-    for k, v in outs.iteritems():
-        print k, v
-        assert v == (a+b)*c
-    return rnr
-
-
-def count_lines():
-    examples = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../examples'))
-    wf_path = os.path.join(examples, 'wf-count-lines.json')
-    job_path = os.path.join(examples, 'wf-count-lines-job.json')
-    with open(job_path) as fp:
-        inputs = json.load(fp)['inputs']
-    rnr = WorkflowRunner(wf_path)
-    for k, v in inputs.iteritems():
-        rnr.set_value(k, v)
-    print rnr.run_workflow()
-    return rnr
-
-
-if __name__ == '__main__':
-    logging.basicConfig(level=logging.DEBUG)
-    # aplusbtimesc('wf_simple.json', 2, 3, 4)
-    # aplusbtimesc('wf_lists.json', 2, 3, 4)
-    # aplusbtimesc('wf_map.json', 2, 3, 4)
-    count_lines()

From 18d6b2e53abb2e4ca46969d214c9e9e52755e230 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 5 Mar 2015 11:05:18 -0500
Subject: [PATCH 042/221] Can now have tests actually run tools.

---
 cwltool/draft2tool.py | 14 +++++++++++---
 cwltool/job.py        | 22 ++++++++++++++++------
 cwltool/main.py       | 12 ++++++++----
 3 files changed, 35 insertions(+), 13 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index b828fcf80..15071d5c9 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -11,6 +11,9 @@
 import yaml
 import glob
 import logging
+import hashlib
+
+_logger = logging.getLogger("cwltool")
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-2-pa/schemas/draft-2/context.json"
 
@@ -327,8 +330,8 @@ def job(self, joborder, basedir, use_container=True):
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder))
         builder.bindings.sort(key=lambda a: a["position"])
 
-        logging.debug(pprint.pformat(builder.bindings))
-        logging.debug(pprint.pformat(builder.files))
+        _logger.debug(pprint.pformat(builder.bindings))
+        _logger.debug(pprint.pformat(builder.files))
 
         j = Job()
         j.joborder = joborder
@@ -394,7 +397,12 @@ def collect_output(self, schema, builder, outdir):
                 (schema["type"] == "File" or
                  (schema["type"] == "array" and
                   schema["items"] == "File"))):
-                r = [{"path": g} for g in glob.glob(os.path.join(outdir, binding["glob"]))]
+                r = [{"path": g} for g in glob.glob(binding["glob"])]
+                for files in r:
+                    checksum = hashlib.sha1()
+                    with open(files["path"], "rb") as f:
+                        checksum.update(f.read())
+                    files["checksum"] = "sha1$%s" % checksum.hexdigest()
                 if schema["type"] == "File":
                     r = r[0] if r else None
             elif "valueFrom" in binding:
diff --git a/cwltool/job.py b/cwltool/job.py
index af5e9fea0..e8a9b0a16 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -5,6 +5,9 @@
 import json
 import yaml
 import logging
+import sys
+
+_logger = logging.getLogger("cwltool")
 
 class Job(object):
     def run(self, dry_run=False, pull_image=True, outdir=None):
@@ -22,9 +25,9 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
         if self.container and self.container.get("type") == "docker":
             if pull_image:
                 if "pull" in self.container:
-                    subprocess.check_call(["docker", "pull", self.container["pull"]])
+                    subprocess.check_call(["docker", "pull", self.container["pull"]], stdout=sys.stderr)
                 elif "import" in self.container:
-                    subprocess.check_call(["docker", "import", self.container["import"]])
+                    subprocess.check_call(["docker", "import", self.container["import"]], stdout=sys.stderr)
 
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
@@ -37,31 +40,38 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
         stdin = None
         stdout = None
 
-        logging.info(str(runtime + self.command_line))
+        _logger.info(str(runtime + self.command_line))
 
         if not dry_run:
             if self.stdin:
                 stdin = open(self.stdin, "rb")
+            else:
+                stdin = subprocess.PIPE
 
             os.chdir(outdir)
 
             if self.stdout:
                 stdout = open(self.stdout, "wb")
+            else:
+                stdout = sys.stderr
 
             for t in self.generatefiles:
                 with open(os.path.join(outdir, t), "w") as f:
                     f.write(self.generatefiles[t])
 
             sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
+
+            if stdin == subprocess.PIPE:
+                sp.stdin.close()
+
             sp.wait()
 
-            if stdin:
+            if stdin != subprocess.PIPE:
                 stdin.close()
 
             if stdout:
                 stdout.close()
 
-            logging.info("Output directory is %s", outdir)
-            return self.collect_outputs(outdir)
+            return (outdir, self.collect_outputs(outdir))
 
         return None
diff --git a/cwltool/main.py b/cwltool/main.py
index 927c295fe..96d0c3467 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -10,6 +10,9 @@
 import sys
 import logging
 
+_logger = logging.getLogger("cwltool")
+_logger.addHandler(logging.StreamHandler())
+
 def main():
     parser = argparse.ArgumentParser()
     parser.add_argument("tool", type=str)
@@ -30,7 +33,7 @@ def main():
         else:
             t = draft2tool.Tool(u)
     except (jsonschema.exceptions.ValidationError, draft2tool.ValidationException):
-        logging.exception("Tool definition failed validation")
+        _logger.exception("Tool definition failed validation")
         return 1
 
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
@@ -47,14 +50,15 @@ def main():
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
-            logging.info('%s%s%s', ' '.join(job.command_line),
+            _logger.info('%s%s%s', ' '.join(job.command_line),
                                 ' < %s' % (job.stdin) if job.stdin else '',
                                 ' > %s' % (job.stdout) if job.stdout else '')
 
-            runjob = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
+            (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
+            _logger.info("Output directory is %s", outdir)
             print json.dumps(runjob)
     except jsonschema.exceptions.ValidationError:
-        logging.exception("Job order failed validation")
+        _logger.exception("Job order failed validation")
         return 1
 
     return 0

From b7d51e343fecc63485bff9d9781e514900e0b64c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 5 Mar 2015 17:04:55 -0500
Subject: [PATCH 043/221] Added: ExpressionTool, loadContents flag, more
 conformance tests.

---
 cwltool/draft2tool.py | 96 ++++++++++++++++++++++++++++++++-----------
 cwltool/main.py       | 10 ++---
 2 files changed, 77 insertions(+), 29 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 15071d5c9..c85eb20f5 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -184,17 +184,20 @@ def bind_input(self, schema, datum):
 
             if schema["type"] == "array":
                 for n, item in enumerate(datum):
-                    b = self.bind_input({"type": schema["items"], "binding": schema.get("binding")}, item)
+                    b = self.bind_input({"type": schema["items"], "commandLineBinding": schema.get("commandLineBinding")}, item)
                     for bi in b:
                         bi["position"].insert(0, n)
                     bindings.extend(b)
 
             if schema["type"] == "File":
-                self.files.append(datum["path"])
+                if schema.get("loadContents"):
+                    with open(os.path.join(self.basedir, datum["path"]), "rb") as f:
+                        datum["contents"] = f.read()
+                self.files.append(datum)
 
         b = None
-        if "binding" in schema and isinstance(schema["binding"], dict):
-            b = copy.copy(schema["binding"])
+        if "commandLineBinding" in schema and isinstance(schema["commandLineBinding"], dict):
+            b = copy.copy(schema["commandLineBinding"])
 
             if b.get("position"):
                 b["position"] = [b["position"]]
@@ -249,8 +252,14 @@ def generate_arg(self, binding):
 
         return [a for a in args if a is not None]
 
+def makeTool(toolpath_object):
+    if toolpath_object["@type"] == "CommandLineTool":
+        return CommandLineTool(toolpath_object)
+    elif toolpath_object["@type"] == "ExpressionTool":
+        return ExpressionTool(toolpath_object)
+
 class Tool(object):
-    def __init__(self, toolpath_object):
+    def __init__(self, toolpath_object, validateAs):
         self.names = avro.schema.Names()
         cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
         with open(cwl_avsc) as f:
@@ -263,7 +272,7 @@ def __init__(self, toolpath_object):
             raise Exception("Missing or invalid '@context' field in tool description document, must be %s" % TOOL_CONTEXT_URL)
 
         # Validate tool documument
-        validate_ex(self.names.get_name("CommandLineTool", ""), self.tool)
+        validate_ex(self.names.get_name(validateAs, ""), self.tool)
 
         # Import schema defs
         self.schemaDefs = {}
@@ -289,18 +298,52 @@ def __init__(self, toolpath_object):
             self.outputs_record_schema["fields"].append(c)
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
-    def job(self, joborder, basedir, use_container=True):
+    def _init_job(self, joborder, basedir):
         # Validate job order
         validate_ex(self.names.get_name("input_record_schema", ""), joborder)
 
         builder = Builder()
-        builder.job = joborder
+        builder.job = copy.deepcopy(joborder)
         builder.jslib = ''
         builder.basedir = basedir
         builder.files = []
         builder.bindings = []
         builder.schemaDefs = self.schemaDefs
 
+        if self.tool.get("expressionDefs"):
+            for ex in self.tool['expressionDefs']:
+                builder.jslib += builder.do_eval(ex) + "\n"
+
+        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
+
+        return builder
+
+
+class ExpressionTool(Tool):
+    def __init__(self, toolpath_object):
+        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool")
+
+    class ExpressionJob(object):
+        def run(self, outdir=None, **kwargs):
+            return (outdir, self.builder.do_eval(self.script))
+
+    def job(self, joborder, basedir, **kwargs):
+        builder = self._init_job(joborder, basedir)
+
+        j = ExpressionTool.ExpressionJob()
+        j.builder = builder
+        j.script = self.tool["script"]
+
+        return j
+
+
+class CommandLineTool(Tool):
+    def __init__(self, toolpath_object):
+        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool")
+
+    def job(self, joborder, basedir, use_container=True):
+        builder = self._init_job(joborder, basedir)
+
         if isinstance(self.tool["baseCommand"], list):
             for n, b in enumerate(self.tool["baseCommand"]):
                 builder.bindings.append({
@@ -313,10 +356,6 @@ def job(self, joborder, basedir, use_container=True):
                 "valueFrom": self.tool["baseCommand"]
             })
 
-        if self.tool.get("expressionDefs"):
-            for ex in self.tool['expressionDefs']:
-                builder.jslib += builder.do_eval(ex) + "\n"
-
         if self.tool.get("arguments"):
             for i, a in enumerate(self.tool["arguments"]):
                 a = copy.copy(a)
@@ -327,14 +366,15 @@ def job(self, joborder, basedir, use_container=True):
                 a["valueFrom"] = builder.do_eval(a["valueFrom"])
                 builder.bindings.append(a)
 
-        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, joborder))
         builder.bindings.sort(key=lambda a: a["position"])
 
         _logger.debug(pprint.pformat(builder.bindings))
         _logger.debug(pprint.pformat(builder.files))
 
+        builder.files = [f["path"] for f in builder.files]
+
         j = Job()
-        j.joborder = joborder
+        j.joborder = builder.job
         j.container = None
         builder.pathmapper = None
 
@@ -391,22 +431,30 @@ def collect_output_ports(self, ports, builder, outdir):
 
     def collect_output(self, schema, builder, outdir):
         r = None
-        if "binding" in schema:
-            binding = schema["binding"]
-            if ("glob" in binding and
-                (schema["type"] == "File" or
-                 (schema["type"] == "array" and
-                  schema["items"] == "File"))):
+        if "outputBinding" in schema:
+            binding = schema["outputBinding"]
+            if "glob" in binding:
                 r = [{"path": g} for g in glob.glob(binding["glob"])]
                 for files in r:
                     checksum = hashlib.sha1()
                     with open(files["path"], "rb") as f:
-                        checksum.update(f.read())
+                        contents = f.read()
+                        checksum.update(contents)
+                        if binding.get("loadContents"):
+                            files["contents"] = contents
                     files["checksum"] = "sha1$%s" % checksum.hexdigest()
-                if schema["type"] == "File":
+
+                if schema["type"] == "array" and schema["items"] == "File":
+                    pass
+                elif schema["type"] == "File":
                     r = r[0] if r else None
-            elif "valueFrom" in binding:
-                r = builder.do_eval(binding["valueFrom"])
+                elif binding.get("loadContents"):
+                    r = [v["contents"] for v in r]
+                else:
+                    r = None
+
+            if "valueFrom" in binding:
+                r = builder.do_eval(binding["valueFrom"], r)
 
         if not r and schema["type"] == "record":
             r = {}
diff --git a/cwltool/main.py b/cwltool/main.py
index 96d0c3467..e36c9ec08 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -31,7 +31,7 @@ def main():
         if "schema" in u:
             t = draft1tool.Tool(u)
         else:
-            t = draft2tool.Tool(u)
+            t = draft2tool.makeTool(u)
     except (jsonschema.exceptions.ValidationError, draft2tool.ValidationException):
         _logger.exception("Tool definition failed validation")
         return 1
@@ -50,10 +50,10 @@ def main():
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
-            _logger.info('%s%s%s', ' '.join(job.command_line),
-                                ' < %s' % (job.stdin) if job.stdin else '',
-                                ' > %s' % (job.stdout) if job.stdout else '')
-
+            if isinstance(job, draft1tool.Tool) or isinstance(job, draft2tool.CommandLineTool):
+                _logger.info('%s%s%s', ' '.join(job.command_line),
+                                    ' < %s' % (job.stdin) if job.stdin else '',
+                                    ' > %s' % (job.stdout) if job.stdout else '')
             (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
             _logger.info("Output directory is %s", outdir)
             print json.dumps(runjob)

From 3efa0763e8b9859f2cfe729c8de508351a57c162 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 6 Mar 2015 09:56:47 -0500
Subject: [PATCH 044/221] Fix json-ld contexts to point to master branch.

---
 cwltool/draft2tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index c85eb20f5..8c3fecdfb 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -15,7 +15,7 @@
 
 _logger = logging.getLogger("cwltool")
 
-TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-2-pa/schemas/draft-2/context.json"
+TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 

From 4b883fedb9132ff2f1c41950e4d2f9eed0eccf97 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 6 Mar 2015 13:45:31 -0500
Subject: [PATCH 045/221] Change "port" to "id",
 "requirementType"/"expressionType" to "class". Add file size to when
 capturing outputs. Limit "loadContents" to first megabyte. stdin can
 reference an parameter defined in input and stdout can reference a parameter
 defined in output.

---
 cwltool/draft2tool.py | 68 +++++++++++++++++++++++++++++--------------
 1 file changed, 46 insertions(+), 22 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 8c3fecdfb..91473df72 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -12,10 +12,12 @@
 import glob
 import logging
 import hashlib
+import random
 
 _logger = logging.getLogger("cwltool")
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
+CONTENT_LIMIT = 1024 * 1024
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
@@ -135,11 +137,17 @@ def jseval(self, expression, context):
 
     def do_eval(self, ex, context=None):
         if isinstance(ex, dict):
-            if ex.get("expressionType") == "javascript":
-                return self.jseval(ex["value"], context)
-            elif ex.get("ref"):
-                with open(os.path.join(self.basedir, ex["ref"]), "r") as f:
-                    return f.read()
+            if ex.get("class") == "JavascriptExpression":
+                if "value" in ex:
+                    return self.jseval(ex["value"], context)
+                elif "invoke" in ex:
+                    return self.jseval(ex["invoke"], context)
+            elif ex.get("id"):
+                if ex["id"].startswith("#"):
+                    return self.job[ex["id"][1:]]
+                else:
+                    with open(os.path.join(self.basedir, ex["id"]), "r") as f:
+                        return f.read()
         else:
             return ex
 
@@ -192,7 +200,7 @@ def bind_input(self, schema, datum):
             if schema["type"] == "File":
                 if schema.get("loadContents"):
                     with open(os.path.join(self.basedir, datum["path"]), "rb") as f:
-                        datum["contents"] = f.read()
+                        datum["contents"] = f.read(CONTENT_LIMIT)
                 self.files.append(datum)
 
         b = None
@@ -253,9 +261,9 @@ def generate_arg(self, binding):
         return [a for a in args if a is not None]
 
 def makeTool(toolpath_object):
-    if toolpath_object["@type"] == "CommandLineTool":
+    if toolpath_object["class"] == "CommandLineTool":
         return CommandLineTool(toolpath_object)
-    elif toolpath_object["@type"] == "ExpressionTool":
+    elif toolpath_object["class"] == "ExpressionTool":
         return ExpressionTool(toolpath_object)
 
 class Tool(object):
@@ -285,16 +293,16 @@ def __init__(self, toolpath_object, validateAs):
         self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
         for i in self.tool["inputs"]:
             c = copy.copy(i)
-            c["name"] = c["port"][1:]
-            del c["port"]
+            c["name"] = c["id"][1:]
+            del c["id"]
             self.inputs_record_schema["fields"].append(c)
         avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
 
         self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
         for i in self.tool["outputs"]:
             c = copy.copy(i)
-            c["name"] = c["port"][1:]
-            del c["port"]
+            c["name"] = c["id"][1:]
+            del c["id"]
             self.outputs_record_schema["fields"].append(c)
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
@@ -376,27 +384,38 @@ def job(self, joborder, basedir, use_container=True):
         j = Job()
         j.joborder = builder.job
         j.container = None
+        j.stdin = None
+        j.stdout = None
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
             j.stdin = builder.do_eval(self.tool["stdin"])
+            if isinstance(j.stdin, dict):
+                j.stdin = j.stdin["path"]
             builder.files.append(j.stdin)
-        else:
-            j.stdin = None
 
         if self.tool.get("stdout"):
-            j.stdout = builder.do_eval(self.tool["stdout"])
+            if isinstance(self.tool["stdout"], dict) and "id" in self.tool["stdout"]:
+                for out in self.tool.get("outputs", []):
+                    if out["id"] == self.tool["stdout"]["id"]:
+                        filename = self.tool["stdout"]["id"][1:]
+                        j.stdout = filename
+                        out["outputBinding"] = out.get("outputBinding", {})
+                        out["outputBinding"]["glob"] = filename
+                if not j.stdout:
+                    raise Exception("stdout refers to invalid output")
+            else:
+                j.stdout = builder.do_eval(self.tool["stdout"])
             if os.path.isabs(j.stdout):
                 raise Exception("stdout must be a relative path")
-        else:
-            j.stdout = None
 
         j.generatefiles = {}
         for t in self.tool.get("fileDefs", []):
             j.generatefiles[t["filename"]] = builder.do_eval(t["value"])
 
-        for r in self.tool.get("hints", []):
-            if r["requirementType"] == "DockerImage" and use_container:
+        reqsAndHints = self.tool.get("requirements", []) + self.tool.get("hints", [])
+        for r in reqsAndHints:
+            if r["class"] == "DockerRequirement" and use_container:
                 j.container = {}
                 j.container["type"] = "docker"
                 if "dockerPull" in r:
@@ -427,7 +446,7 @@ def collect_output_ports(self, ports, builder, outdir):
             outputdoc = yaml.load(custom_output)
             validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
             return outputdoc
-        return {port["port"][1:]: self.collect_output(port, builder, outdir) for port in ports}
+        return {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
 
     def collect_output(self, schema, builder, outdir):
         r = None
@@ -438,11 +457,16 @@ def collect_output(self, schema, builder, outdir):
                 for files in r:
                     checksum = hashlib.sha1()
                     with open(files["path"], "rb") as f:
-                        contents = f.read()
-                        checksum.update(contents)
+                        contents = f.read(CONTENT_LIMIT)
                         if binding.get("loadContents"):
                             files["contents"] = contents
+                        filesize = 0
+                        while contents != "":
+                            checksum.update(contents)
+                            filesize += len(contents)
+                            contents = f.read(1024*1024)
                     files["checksum"] = "sha1$%s" % checksum.hexdigest()
+                    files["size"] = filesize
 
                 if schema["type"] == "array" and schema["items"] == "File":
                     pass

From 1d0f1ca33f28225daf45ae1533c1b80257959bbb Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 6 Mar 2015 15:50:57 -0500
Subject: [PATCH 046/221] Work-in-progress workflow runner!

---
 cwltool/__main__.py   |   1 +
 cwltool/draft1tool.py |   4 +-
 cwltool/draft2tool.py | 177 ++++--------------------------------------
 cwltool/job.py        |  63 ++++++++-------
 cwltool/main.py       |  21 ++---
 cwltool/process.py    |  48 ++++++++++++
 cwltool/validate.py   | 105 +++++++++++++++++++++++++
 cwltool/workflow.py   |  80 +++++++++++++++++++
 8 files changed, 298 insertions(+), 201 deletions(-)
 create mode 100644 cwltool/process.py
 create mode 100644 cwltool/validate.py
 create mode 100644 cwltool/workflow.py

diff --git a/cwltool/__main__.py b/cwltool/__main__.py
index 857f2ac79..ae4ff8a78 100644
--- a/cwltool/__main__.py
+++ b/cwltool/__main__.py
@@ -1,3 +1,4 @@
 import main
+import sys
 
 sys.exit(main.main())
diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index 630b4a245..fb9ae7357 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -10,7 +10,7 @@
 import urlparse
 import functools
 from pathmapper import PathMapper, DockerPathMapper
-from job import Job
+from job import CommandLineJob
 from flatten import flatten
 
 from jsonschema.validators import Draft4Validator
@@ -290,7 +290,7 @@ def job(self, joborder, basedir, use_container=True):
 
         referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: builder.find_files(a, joborder), adapters)))
 
-        j = Job()
+        j = CommandLineProcess()
         j.joborder = joborder
         j.container = None
 
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 91473df72..8b30eed2f 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -7,124 +7,21 @@
 import os
 from pathmapper import PathMapper, DockerPathMapper
 import sandboxjs
-from job import Job
+from job import CommandLineJob
 import yaml
 import glob
 import logging
 import hashlib
 import random
+from process import Process
+import validate
 
 _logger = logging.getLogger("cwltool")
 
-TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
 CONTENT_LIMIT = 1024 * 1024
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
-class ValidationException(Exception):
-    pass
-
-def validate(expected_schema, datum):
-    try:
-        return validate_ex(expected_schema, datum)
-    except ValidationException:
-        return False
-
-INT_MIN_VALUE = -(1 << 31)
-INT_MAX_VALUE = (1 << 31) - 1
-LONG_MIN_VALUE = -(1 << 63)
-LONG_MAX_VALUE = (1 << 63) - 1
-
-def validate_ex(expected_schema, datum):
-    """Determine if a python datum is an instance of a schema."""
-    schema_type = expected_schema.type
-    if schema_type == 'null':
-        if datum is None:
-            return True
-        else:
-            raise ValidationException("`%s` is not null" % datum)
-    elif schema_type == 'boolean':
-        if isinstance(datum, bool):
-            return True
-        else:
-            raise ValidationException("`%s` is not boolean" % datum)
-    elif schema_type == 'string':
-        if isinstance(datum, basestring):
-            return True
-        else:
-            raise ValidationException("`%s` is not string" % datum)
-    elif schema_type == 'bytes':
-        if isinstance(datum, str):
-            return True
-        else:
-            raise ValidationException("`%s` is not bytes" % datum)
-    elif schema_type == 'int':
-        if ((isinstance(datum, int) or isinstance(datum, long))
-            and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
-            return True
-        else:
-            raise ValidationException("`%s` is not int" % datum)
-    elif schema_type == 'long':
-        if ((isinstance(datum, int) or isinstance(datum, long))
-            and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
-            return True
-        else:
-            raise ValidationException("`%s` is not long" % datum)
-    elif schema_type in ['float', 'double']:
-        if (isinstance(datum, int) or isinstance(datum, long)
-            or isinstance(datum, float)):
-            return True
-        else:
-            raise ValidationException("`%s` is not float or double" % datum)
-    elif schema_type == 'fixed':
-        if isinstance(datum, str) and len(datum) == expected_schema.size:
-            return True
-        else:
-            raise ValidationException("`%s` is not fixed" % datum)
-    elif schema_type == 'enum':
-        if datum in expected_schema.symbols:
-            return True
-        else:
-            raise ValidationException("`%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
-    elif schema_type == 'array':
-        if isinstance(datum, list):
-            for i, d in enumerate(datum):
-                try:
-                    validate_ex(expected_schema.items, d)
-                except ValidationException as v:
-                    raise ValidationException("%s\n while validating item at position %i `%s`" % (v, i, d))
-            return True
-        else:
-            raise ValidationException("`%s`\n is not a list, expected list of\n %s" % (pprint.pformat(datum), expected_schema.items))
-    elif schema_type == 'map':
-        if (isinstance(datum, dict) and
-            False not in [isinstance(k, basestring) for k in datum.keys()] and
-            False not in [validate(expected_schema.values, v) for v in datum.values()]):
-            return True
-        else:
-            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
-    elif schema_type in ['union', 'error_union']:
-        if True in [validate(s, datum) for s in expected_schema.schemas]:
-            return True
-        else:
-            errors = []
-            for s in expected_schema.schemas:
-                try:
-                    validate_ex(s, datum)
-                except ValidationException as e:
-                    errors.append(str(e))
-            raise ValidationException("`%s`\n is not valid, expected one of:\n\n%s\n\n the individual errors are:\n%s" % (pprint.pformat(datum), ",\n\n  ".join([str(s) for s in expected_schema.schemas]), ";\n\n".join(errors)))
-    elif schema_type in ['record', 'error', 'request']:
-        if not isinstance(datum, dict):
-            raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
-        try:
-            for f in expected_schema.fields:
-                validate_ex(f.type, datum.get(f.name))
-            return True
-        except ValidationException as v:
-            raise ValidationException("%s\n while validating field `%s`" % (v, f.name))
-    raise ValidationException("Unrecognized schema_type %s" % schema_type)
-
 class Builder(object):
     def jseval(self, expression, context):
         if isinstance(expression, list):
@@ -161,7 +58,7 @@ def bind_input(self, schema, datum):
                 if t in self.schemaDefs:
                     t = self.schemaDefs[t]
                 avsc = avro.schema.make_avsc_object(t, None)
-                if validate(avsc, datum):
+                if validate.validate(avsc, datum):
                     if isinstance(t, basestring):
                         t = {"type": t}
                     bindings.extend(self.bind_input(t, datum))
@@ -260,55 +157,11 @@ def generate_arg(self, binding):
 
         return [a for a in args if a is not None]
 
-def makeTool(toolpath_object):
-    if toolpath_object["class"] == "CommandLineTool":
-        return CommandLineTool(toolpath_object)
-    elif toolpath_object["class"] == "ExpressionTool":
-        return ExpressionTool(toolpath_object)
-
-class Tool(object):
-    def __init__(self, toolpath_object, validateAs):
-        self.names = avro.schema.Names()
-        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
-        with open(cwl_avsc) as f:
-            j = json.load(f)
-            for t in j:
-                avro.schema.make_avsc_object(t, self.names)
-
-        self.tool = toolpath_object
-        if self.tool.get("@context") != TOOL_CONTEXT_URL:
-            raise Exception("Missing or invalid '@context' field in tool description document, must be %s" % TOOL_CONTEXT_URL)
-
-        # Validate tool documument
-        validate_ex(self.names.get_name(validateAs, ""), self.tool)
-
-        # Import schema defs
-        self.schemaDefs = {}
-        if self.tool.get("schemaDefs"):
-            for i in self.tool["schemaDefs"]:
-                avro.schema.make_avsc_object(i, self.names)
-                self.schemaDefs[i["name"]] = i
-
-        # Build record schema from inputs
-        self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
-        for i in self.tool["inputs"]:
-            c = copy.copy(i)
-            c["name"] = c["id"][1:]
-            del c["id"]
-            self.inputs_record_schema["fields"].append(c)
-        avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
-
-        self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
-        for i in self.tool["outputs"]:
-            c = copy.copy(i)
-            c["name"] = c["id"][1:]
-            del c["id"]
-            self.outputs_record_schema["fields"].append(c)
-        avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
+class Tool(Process):
     def _init_job(self, joborder, basedir):
         # Validate job order
-        validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
 
         builder = Builder()
         builder.job = copy.deepcopy(joborder)
@@ -344,6 +197,11 @@ def job(self, joborder, basedir, **kwargs):
 
         return j
 
+def aslist(l):
+    if isinstance(l, list):
+        return l
+    else:
+        return [l]
 
 class CommandLineTool(Tool):
     def __init__(self, toolpath_object):
@@ -352,17 +210,12 @@ def __init__(self, toolpath_object):
     def job(self, joborder, basedir, use_container=True):
         builder = self._init_job(joborder, basedir)
 
-        if isinstance(self.tool["baseCommand"], list):
-            for n, b in enumerate(self.tool["baseCommand"]):
+        if self.tool["baseCommand"]:
+            for n, b in enumerate(aslist(self.tool["baseCommand"])):
                 builder.bindings.append({
                     "position": [-1000000, n],
                     "valueFrom": b
                 })
-        else:
-            builder.bindings.append({
-                "position": [-1000000],
-                "valueFrom": self.tool["baseCommand"]
-            })
 
         if self.tool.get("arguments"):
             for i, a in enumerate(self.tool["arguments"]):
@@ -381,7 +234,7 @@ def job(self, joborder, basedir, use_container=True):
 
         builder.files = [f["path"] for f in builder.files]
 
-        j = Job()
+        j = CommandLineJob()
         j.joborder = builder.job
         j.container = None
         j.stdin = None
@@ -444,7 +297,7 @@ def collect_output_ports(self, ports, builder, outdir):
         custom_output = os.path.join(outdir, "output.cwl.json")
         if os.path.exists(custom_output):
             outputdoc = yaml.load(custom_output)
-            validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
+            validate.validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
             return outputdoc
         return {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
 
diff --git a/cwltool/job.py b/cwltool/job.py
index e8a9b0a16..6a5469265 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -9,7 +9,7 @@
 
 _logger = logging.getLogger("cwltool")
 
-class Job(object):
+class CommandLineJob(object):
     def run(self, dry_run=False, pull_image=True, outdir=None):
         if not outdir:
             if not dry_run:
@@ -25,9 +25,15 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
         if self.container and self.container.get("type") == "docker":
             if pull_image:
                 if "pull" in self.container:
-                    subprocess.check_call(["docker", "pull", self.container["pull"]], stdout=sys.stderr)
+                    cmd = ["docker", "pull", self.container["pull"]]
+                    _logger.info(str(cmd))
+                    if not dry_run:
+                        subprocess.check_call(["docker", "pull", self.container["pull"]], stdout=sys.stderr)
                 elif "import" in self.container:
-                    subprocess.check_call(["docker", "import", self.container["import"]], stdout=sys.stderr)
+                    cmd = ["docker", "import", self.container["import"]]
+                    _logger.info(str(cmd))
+                    if not dry_run:
+                        subprocess.check_call(["docker", "import", self.container["import"]], stdout=sys.stderr)
 
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
@@ -40,38 +46,41 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
         stdin = None
         stdout = None
 
-        _logger.info(str(runtime + self.command_line))
+        _logger.info("%s%s%s",
+                     " ".join(runtime + self.command_line),
+                     ' < %s' % (self.stdin) if self.stdin else '',
+                     ' > %s' % (self.stdout) if self.stdout else '')
 
-        if not dry_run:
-            if self.stdin:
-                stdin = open(self.stdin, "rb")
-            else:
-                stdin = subprocess.PIPE
+        if dry_run:
+            return (outdir, {})
 
-            os.chdir(outdir)
+        if self.stdin:
+            stdin = open(self.stdin, "rb")
+        else:
+            stdin = subprocess.PIPE
 
-            if self.stdout:
-                stdout = open(self.stdout, "wb")
-            else:
-                stdout = sys.stderr
+        os.chdir(outdir)
 
-            for t in self.generatefiles:
-                with open(os.path.join(outdir, t), "w") as f:
-                    f.write(self.generatefiles[t])
+        if self.stdout:
+            stdout = open(self.stdout, "wb")
+        else:
+            stdout = sys.stderr
 
-            sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
+        for t in self.generatefiles:
+            with open(os.path.join(outdir, t), "w") as f:
+                f.write(self.generatefiles[t])
 
-            if stdin == subprocess.PIPE:
-                sp.stdin.close()
+        sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
 
-            sp.wait()
+        if stdin == subprocess.PIPE:
+            sp.stdin.close()
 
-            if stdin != subprocess.PIPE:
-                stdin.close()
+        sp.wait()
 
-            if stdout:
-                stdout.close()
+        if stdin != subprocess.PIPE:
+            stdin.close()
 
-            return (outdir, self.collect_outputs(outdir))
+        if stdout:
+            stdout.close()
 
-        return None
+        return (outdir, self.collect_outputs(outdir))
diff --git a/cwltool/main.py b/cwltool/main.py
index e36c9ec08..ea6796f39 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -9,6 +9,8 @@
 import os
 import sys
 import logging
+import workflow
+import validate
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
@@ -23,16 +25,19 @@ def main():
     parser.add_argument("--no-container", action="store_true", help="Do not execute in a Docker container, even if one is specified in the tool file")
     parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
     parser.add_argument("--dry-run", action="store_true", help="Do not execute")
+    parser.add_argument("--verbose", action="store_true", help="Print more logging")
+    parser.add_argument("--debug", action="store_true", help="Print even more logging")
 
     args = parser.parse_args()
 
+    if args.verbose:
+        logging.getLogger("cwltool").setLevel(logging.INFO)
+    if args.debug:
+        logging.getLogger("cwltool").setLevel(logging.DEBUG)
+
     try:
-        u = from_url(args.tool)
-        if "schema" in u:
-            t = draft1tool.Tool(u)
-        else:
-            t = draft2tool.makeTool(u)
-    except (jsonschema.exceptions.ValidationError, draft2tool.ValidationException):
+        t = workflow.makeTool(from_url(args.tool))
+    except (jsonschema.exceptions.ValidationError, validate.ValidationException):
         _logger.exception("Tool definition failed validation")
         return 1
 
@@ -50,10 +55,6 @@ def main():
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
-            if isinstance(job, draft1tool.Tool) or isinstance(job, draft2tool.CommandLineTool):
-                _logger.info('%s%s%s', ' '.join(job.command_line),
-                                    ' < %s' % (job.stdin) if job.stdin else '',
-                                    ' > %s' % (job.stdout) if job.stdout else '')
             (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
             _logger.info("Output directory is %s", outdir)
             print json.dumps(runjob)
diff --git a/cwltool/process.py b/cwltool/process.py
new file mode 100644
index 000000000..cf05b62ec
--- /dev/null
+++ b/cwltool/process.py
@@ -0,0 +1,48 @@
+import avro.schema
+import os
+import json
+import validate
+import copy
+
+TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
+module_dir = os.path.dirname(os.path.abspath(__file__))
+
+class Process(object):
+    def __init__(self, toolpath_object, validateAs):
+        self.names = avro.schema.Names()
+        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
+        with open(cwl_avsc) as f:
+            j = json.load(f)
+            for t in j:
+                avro.schema.make_avsc_object(t, self.names)
+
+        self.tool = toolpath_object
+        #if self.tool.get("@context") != TOOL_CONTEXT_URL:
+        #    raise Exception("Missing or invalid '@context' field in tool description document, must be %s" % TOOL_CONTEXT_URL)
+
+        # Validate tool documument
+        validate.validate_ex(self.names.get_name(validateAs, ""), self.tool)
+
+        # Import schema defs
+        self.schemaDefs = {}
+        if self.tool.get("schemaDefs"):
+            for i in self.tool["schemaDefs"]:
+                avro.schema.make_avsc_object(i, self.names)
+                self.schemaDefs[i["name"]] = i
+
+        # Build record schema from inputs
+        self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
+        for i in self.tool["inputs"]:
+            c = copy.copy(i)
+            c["name"] = c["id"][1:]
+            del c["id"]
+            self.inputs_record_schema["fields"].append(c)
+        avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
+
+        self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
+        for i in self.tool["outputs"]:
+            c = copy.copy(i)
+            c["name"] = c["id"][1:]
+            del c["id"]
+            self.outputs_record_schema["fields"].append(c)
+        avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
diff --git a/cwltool/validate.py b/cwltool/validate.py
new file mode 100644
index 000000000..dbb589733
--- /dev/null
+++ b/cwltool/validate.py
@@ -0,0 +1,105 @@
+import pprint
+
+class ValidationException(Exception):
+    pass
+
+def validate(expected_schema, datum):
+    try:
+        return validate_ex(expected_schema, datum)
+    except ValidationException:
+        return False
+
+INT_MIN_VALUE = -(1 << 31)
+INT_MAX_VALUE = (1 << 31) - 1
+LONG_MIN_VALUE = -(1 << 63)
+LONG_MAX_VALUE = (1 << 63) - 1
+
+def validate_ex(expected_schema, datum):
+    """Determine if a python datum is an instance of a schema."""
+    schema_type = expected_schema.type
+    if schema_type == 'null':
+        if datum is None:
+            return True
+        else:
+            raise ValidationException("`%s` is not null" % datum)
+    elif schema_type == 'boolean':
+        if isinstance(datum, bool):
+            return True
+        else:
+            raise ValidationException("`%s` is not boolean" % datum)
+    elif schema_type == 'string':
+        if isinstance(datum, basestring):
+            return True
+        else:
+            raise ValidationException("`%s` is not string" % datum)
+    elif schema_type == 'bytes':
+        if isinstance(datum, str):
+            return True
+        else:
+            raise ValidationException("`%s` is not bytes" % datum)
+    elif schema_type == 'int':
+        if ((isinstance(datum, int) or isinstance(datum, long))
+            and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
+            return True
+        else:
+            raise ValidationException("`%s` is not int" % datum)
+    elif schema_type == 'long':
+        if ((isinstance(datum, int) or isinstance(datum, long))
+            and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
+            return True
+        else:
+            raise ValidationException("`%s` is not long" % datum)
+    elif schema_type in ['float', 'double']:
+        if (isinstance(datum, int) or isinstance(datum, long)
+            or isinstance(datum, float)):
+            return True
+        else:
+            raise ValidationException("`%s` is not float or double" % datum)
+    elif schema_type == 'fixed':
+        if isinstance(datum, str) and len(datum) == expected_schema.size:
+            return True
+        else:
+            raise ValidationException("`%s` is not fixed" % datum)
+    elif schema_type == 'enum':
+        if datum in expected_schema.symbols:
+            return True
+        else:
+            raise ValidationException("`%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
+    elif schema_type == 'array':
+        if isinstance(datum, list):
+            for i, d in enumerate(datum):
+                try:
+                    validate_ex(expected_schema.items, d)
+                except ValidationException as v:
+                    raise ValidationException("%s\n while validating item at position %i `%s`" % (v, i, d))
+            return True
+        else:
+            raise ValidationException("`%s`\n is not a list, expected list of\n %s" % (pprint.pformat(datum), expected_schema.items))
+    elif schema_type == 'map':
+        if (isinstance(datum, dict) and
+            False not in [isinstance(k, basestring) for k in datum.keys()] and
+            False not in [validate(expected_schema.values, v) for v in datum.values()]):
+            return True
+        else:
+            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
+    elif schema_type in ['union', 'error_union']:
+        if True in [validate(s, datum) for s in expected_schema.schemas]:
+            return True
+        else:
+            errors = []
+            for s in expected_schema.schemas:
+                try:
+                    validate_ex(s, datum)
+                except ValidationException as e:
+                    errors.append(str(e))
+            raise ValidationException("`%s`\n is not valid, expected one of:\n\n%s\n\n the individual errors are:\n%s" % (pprint.pformat(datum), ",\n\n  ".join([str(s) for s in expected_schema.schemas]), ";\n\n".join(errors)))
+    elif schema_type in ['record', 'error', 'request']:
+        if not isinstance(datum, dict):
+            raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
+        try:
+            for f in expected_schema.fields:
+                validate_ex(f.type, datum.get(f.name))
+            return True
+        except ValidationException as v:
+            raise ValidationException("%s\n while validating field `%s`" % (v, f.name))
+    raise ValidationException("Unrecognized schema_type %s" % schema_type)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
new file mode 100644
index 000000000..4ff1ef577
--- /dev/null
+++ b/cwltool/workflow.py
@@ -0,0 +1,80 @@
+import job
+import draft1tool
+import draft2tool
+from process import Process
+import copy
+import logging
+
+_logger = logging.getLogger("cwltool")
+
+def makeTool(toolpath_object):
+    if "schema" in toolpath_object:
+        return draft1tool.Tool(toolpath_object)
+    elif toolpath_object["class"] == "CommandLineTool":
+        return draft2tool.CommandLineTool(toolpath_object)
+    elif toolpath_object["class"] == "ExpressionTool":
+        return draft2tool.ExpressionTool(toolpath_object)
+    elif toolpath_object["class"] == "Workflow":
+        return Workflow(toolpath_object)
+    elif "impl" in toolpath_object:
+        return Step(toolpath_object)
+
+
+class WorkflowJob(object):
+    def try_make_joborder(self, s):
+        jo = {}
+        for i in s.tool["inputs"]:
+            _logger.debug(i)
+            if "connect" in i:
+                src = i["connect"]["source"][1:]
+                if self.state.get(src):
+                    jo[i["id"][1:]] = self.state.get(src)
+                else:
+                    return None
+        return jo
+
+    def run(self, outdir=None, **kwargs):
+        for s in self.steps:
+            s.completed = False
+
+        run_all = len(self.steps)
+        while run_all:
+            made_progress = False
+            for s in self.steps:
+                if not s.completed:
+                    joborder = self.try_make_joborder(s)
+                    if joborder:
+                        output = s.job(joborder).run()
+                        for i in s.tool["outputs"]:
+                            if "id" in i:
+                                self.state[i["id"][1:]] = output[i["id"][1:]]
+                        s.completed = True
+                        made_progress = True
+                        run_all -= 1
+            if not made_progress:
+                raise Exception("Deadlocked")
+
+        wo = {}
+        for i in self.tool["outputs"]:
+            if "connect" in i:
+                src = i["source"][1:]
+                wo[i["id"][1:]] = self.state[src]
+
+        return wo
+
+
+class Workflow(Process):
+    def __init__(self, toolpath_object):
+        super(Workflow, self).__init__(toolpath_object, "Workflow")
+
+    def job(self, joborder, basedir, use_container=True):
+        wj = WorkflowJob()
+        wj.basedir = basedir
+        wj.steps = [makeTool(s) for s in self.tool.get("steps", [])]
+        wj.state = copy.deepcopy(joborder)
+        return wj
+
+class Step(Process):
+    def job(self, joborder, basedir, use_container=True):
+        # load the impl and instantiate that.
+        pass

From d994fb9bddc0c9c7e4c265a9ee093547b953703c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 6 Mar 2015 21:54:10 -0500
Subject: [PATCH 047/221] Can now run count-lines2-wf.json

---
 cwltool/draft2tool.py |  2 +-
 cwltool/workflow.py   | 21 +++++++++++++--------
 2 files changed, 14 insertions(+), 9 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 8b30eed2f..31a0f73bb 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -306,7 +306,7 @@ def collect_output(self, schema, builder, outdir):
         if "outputBinding" in schema:
             binding = schema["outputBinding"]
             if "glob" in binding:
-                r = [{"path": g} for g in glob.glob(binding["glob"])]
+                r = [{"path": g} for g in glob.glob(os.path.join(outdir, binding["glob"]))]
                 for files in r:
                     checksum = hashlib.sha1()
                     with open(files["path"], "rb") as f:
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 4ff1ef577..182cf91c3 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -4,6 +4,7 @@
 from process import Process
 import copy
 import logging
+import random
 
 _logger = logging.getLogger("cwltool")
 
@@ -21,7 +22,7 @@ def makeTool(toolpath_object):
 
 
 class WorkflowJob(object):
-    def try_make_joborder(self, s):
+    def try_make_job(self, s):
         jo = {}
         for i in s.tool["inputs"]:
             _logger.debug(i)
@@ -31,7 +32,8 @@ def try_make_joborder(self, s):
                     jo[i["id"][1:]] = self.state.get(src)
                 else:
                     return None
-        return jo
+        _logger.info("Creating job with input: %s", jo)
+        return s.job(jo, self.basedir)
 
     def run(self, outdir=None, **kwargs):
         for s in self.steps:
@@ -42,10 +44,11 @@ def run(self, outdir=None, **kwargs):
             made_progress = False
             for s in self.steps:
                 if not s.completed:
-                    joborder = self.try_make_joborder(s)
-                    if joborder:
-                        output = s.job(joborder).run()
+                    job = self.try_make_job(s)
+                    if job:
+                        (joutdir, output) = job.run(outdir=outdir)
                         for i in s.tool["outputs"]:
+                            _logger.info("Job got output: %s", output)
                             if "id" in i:
                                 self.state[i["id"][1:]] = output[i["id"][1:]]
                         s.completed = True
@@ -55,12 +58,12 @@ def run(self, outdir=None, **kwargs):
                 raise Exception("Deadlocked")
 
         wo = {}
-        for i in self.tool["outputs"]:
+        for i in self.outputs:
             if "connect" in i:
-                src = i["source"][1:]
+                src = i["connect"]["source"][1:]
                 wo[i["id"][1:]] = self.state[src]
 
-        return wo
+        return (outdir, wo)
 
 
 class Workflow(Process):
@@ -71,7 +74,9 @@ def job(self, joborder, basedir, use_container=True):
         wj = WorkflowJob()
         wj.basedir = basedir
         wj.steps = [makeTool(s) for s in self.tool.get("steps", [])]
+        random.shuffle(wj.steps)
         wj.state = copy.deepcopy(joborder)
+        wj.outputs = self.tool["outputs"]
         return wj
 
 class Step(Process):

From 6bbda41d18ea0a27c80a2bb66af540ed5dcee156 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Mar 2015 15:12:46 -0400
Subject: [PATCH 048/221] Renamed files to .cwl and added #!/usr/bin/env
 cwl-runner so that cwl files are now directly executable.

---
 cwltool/cwl-runner | 1 +
 1 file changed, 1 insertion(+)
 create mode 120000 cwltool/cwl-runner

diff --git a/cwltool/cwl-runner b/cwltool/cwl-runner
new file mode 120000
index 000000000..11a5d8e18
--- /dev/null
+++ b/cwltool/cwl-runner
@@ -0,0 +1 @@
+main.py
\ No newline at end of file

From 765a479e8d1b1105e249d279c0e5b1678c783f78 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Mar 2015 16:17:42 -0400
Subject: [PATCH 049/221] Support external process definitions.

---
 cwltool/workflow.py | 65 +++++++++++++++++++++++++++++++++++++++------
 1 file changed, 57 insertions(+), 8 deletions(-)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 182cf91c3..828be8077 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -5,21 +5,21 @@
 import copy
 import logging
 import random
+from ref_resolver import from_url
 
 _logger = logging.getLogger("cwltool")
 
 def makeTool(toolpath_object):
     if "schema" in toolpath_object:
         return draft1tool.Tool(toolpath_object)
+    elif "impl" in toolpath_object and toolpath_object.get("class", "External") == "External":
+        return External(toolpath_object)
     elif toolpath_object["class"] == "CommandLineTool":
         return draft2tool.CommandLineTool(toolpath_object)
     elif toolpath_object["class"] == "ExpressionTool":
         return draft2tool.ExpressionTool(toolpath_object)
     elif toolpath_object["class"] == "Workflow":
         return Workflow(toolpath_object)
-    elif "impl" in toolpath_object:
-        return Step(toolpath_object)
-
 
 class WorkflowJob(object):
     def try_make_job(self, s):
@@ -50,7 +50,10 @@ def run(self, outdir=None, **kwargs):
                         for i in s.tool["outputs"]:
                             _logger.info("Job got output: %s", output)
                             if "id" in i:
-                                self.state[i["id"][1:]] = output[i["id"][1:]]
+                                if i["id"][1:] in output:
+                                    self.state[i["id"][1:]] = output[i["id"][1:]]
+                                else:
+                                    raise Exception("Output is missing expected field %s" % i["id"][1:])
                         s.completed = True
                         made_progress = True
                         run_all -= 1
@@ -79,7 +82,53 @@ def job(self, joborder, basedir, use_container=True):
         wj.outputs = self.tool["outputs"]
         return wj
 
-class Step(Process):
-    def job(self, joborder, basedir, use_container=True):
-        # load the impl and instantiate that.
-        pass
+class ExternalJob(object):
+    def __init__(self, tool, innerjob):
+        self.tool = tool
+        self.innerjob = innerjob
+
+    def run(self, **kwargs):
+        self.impl = self.tool["impl"]
+        (outdir, output) = self.innerjob.run(**kwargs)
+        for i in self.tool["outputs"]:
+            d = i["def"][len(self.impl)+1:]
+            output[i["id"][1:]] = output[d]
+            del output[d]
+
+        return (outdir, output)
+
+class External(Process):
+    def __init__(self, toolpath_object):
+        self.impl = toolpath_object["impl"]
+        self.embedded_tool = makeTool(from_url(self.impl))
+
+        if "id" in toolpath_object:
+            self.id = toolpath_object["id"]
+        else:
+            self.id = "#step_" + str(random.randint(1, 1000000000))
+
+        for i in toolpath_object["inputs"]:
+            d = i["def"][len(self.impl):]
+            toolid = i.get("id", self.id + "." + d[1:])
+            for a in self.embedded_tool.tool["inputs"]:
+                if a["id"] == d:
+                    i.update(a)
+            i["id"] = toolid
+
+        for i in toolpath_object["outputs"]:
+            d = i["def"][len(self.impl):]
+            toolid = i["id"]
+            for a in self.embedded_tool.tool["outputs"]:
+                if a["id"] == d:
+                    i.update(a)
+            i["id"] = toolid
+
+        super(External, self).__init__(toolpath_object, "Process")
+
+    def job(self, joborder, basedir, **kwargs):
+        for i in self.tool["inputs"]:
+            d = i["def"][len(self.impl)+1:]
+            joborder[d] = joborder[i["id"][1:]]
+            del joborder[i["id"][1:]]
+
+        return ExternalJob(self.tool, self.embedded_tool.job(joborder, basedir, **kwargs))

From fa97a41751470e836880c24a6408ff122ed60403 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Mar 2015 17:13:07 -0400
Subject: [PATCH 050/221] Better error reporting, allow plain strings in
 arguments

---
 cwltool/draft2tool.py | 18 ++++++++++++------
 cwltool/workflow.py   | 15 +++++++++------
 2 files changed, 21 insertions(+), 12 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 31a0f73bb..834422e5b 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -219,13 +219,19 @@ def job(self, joborder, basedir, use_container=True):
 
         if self.tool.get("arguments"):
             for i, a in enumerate(self.tool["arguments"]):
-                a = copy.copy(a)
-                if a.get("position"):
-                    a["position"] = [a["position"], i]
+                if isinstance(a, dict):
+                    a = copy.copy(a)
+                    if a.get("position"):
+                        a["position"] = [a["position"], i]
+                    else:
+                        a["position"] = [0, i]
+                    a["valueFrom"] = builder.do_eval(a["valueFrom"])
+                    builder.bindings.append(a)
                 else:
-                    a["position"] = [0, i]
-                a["valueFrom"] = builder.do_eval(a["valueFrom"])
-                builder.bindings.append(a)
+                    builder.bindings.append({
+                        "position": [0, i],
+                        "valueFrom": a
+                    })
 
         builder.bindings.sort(key=lambda a: a["position"])
 
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 828be8077..d1ed4d975 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -14,12 +14,15 @@ def makeTool(toolpath_object):
         return draft1tool.Tool(toolpath_object)
     elif "impl" in toolpath_object and toolpath_object.get("class", "External") == "External":
         return External(toolpath_object)
-    elif toolpath_object["class"] == "CommandLineTool":
-        return draft2tool.CommandLineTool(toolpath_object)
-    elif toolpath_object["class"] == "ExpressionTool":
-        return draft2tool.ExpressionTool(toolpath_object)
-    elif toolpath_object["class"] == "Workflow":
-        return Workflow(toolpath_object)
+    if "class" in toolpath_object:
+        if toolpath_object["class"] == "CommandLineTool":
+            return draft2tool.CommandLineTool(toolpath_object)
+        elif toolpath_object["class"] == "ExpressionTool":
+            return draft2tool.ExpressionTool(toolpath_object)
+        elif toolpath_object["class"] == "Workflow":
+            return Workflow(toolpath_object)
+    else:
+        raise Exception("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
 class WorkflowJob(object):
     def try_make_job(self, s):

From e0972abc41e140c95fc4d2c28fa7de9ceeef2edc Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 9 Mar 2015 22:06:19 -0400
Subject: [PATCH 051/221] Add basic type checking for data links.

---
 cwltool/workflow.py | 31 ++++++++++++++++++++++++-------
 1 file changed, 24 insertions(+), 7 deletions(-)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index d1ed4d975..195a7021c 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -1,6 +1,7 @@
 import job
 import draft1tool
 import draft2tool
+from draft2tool import aslist
 from process import Process
 import copy
 import logging
@@ -24,17 +25,28 @@ def makeTool(toolpath_object):
     else:
         raise Exception("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
+def check_types(src, dest):
+    return src["type"] == dest["type"]
+
 class WorkflowJob(object):
     def try_make_job(self, s):
         jo = {}
         for i in s.tool["inputs"]:
             _logger.debug(i)
             if "connect" in i:
-                src = i["connect"]["source"][1:]
-                if self.state.get(src):
-                    jo[i["id"][1:]] = self.state.get(src)
+                connect = i["connect"]
+                if isinstance(connect, list):
+                    # Handle multiple inputs
+                    pass
                 else:
-                    return None
+                    src = connect["source"][1:]
+                    if src in self.state:
+                        if check_types(self.state[src][0], i):
+                            jo[i["id"][1:]] = self.state[src][1]
+                        else:
+                            raise Exception("Type mismatch '%s' and '%s'" % (src, i["id"][1:]))
+                    else:
+                        return None
         _logger.info("Creating job with input: %s", jo)
         return s.job(jo, self.basedir)
 
@@ -54,7 +66,7 @@ def run(self, outdir=None, **kwargs):
                             _logger.info("Job got output: %s", output)
                             if "id" in i:
                                 if i["id"][1:] in output:
-                                    self.state[i["id"][1:]] = output[i["id"][1:]]
+                                    self.state[i["id"][1:]] = (i, output[i["id"][1:]])
                                 else:
                                     raise Exception("Output is missing expected field %s" % i["id"][1:])
                         s.completed = True
@@ -67,7 +79,7 @@ def run(self, outdir=None, **kwargs):
         for i in self.outputs:
             if "connect" in i:
                 src = i["connect"]["source"][1:]
-                wo[i["id"][1:]] = self.state[src]
+                wo[i["id"][1:]] = self.state[src][1]
 
         return (outdir, wo)
 
@@ -81,7 +93,12 @@ def job(self, joborder, basedir, use_container=True):
         wj.basedir = basedir
         wj.steps = [makeTool(s) for s in self.tool.get("steps", [])]
         random.shuffle(wj.steps)
-        wj.state = copy.deepcopy(joborder)
+
+        wj.state = {}
+        for i in self.tool["inputs"]:
+            iid = i["id"][1:]
+            wj.state[iid] = (i, copy.deepcopy(joborder[iid]))
+        print wj.state
         wj.outputs = self.tool["outputs"]
         return wj
 

From 633a340146ee5c6087f506bdec43f399856f4811 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Mar 2015 11:41:35 -0400
Subject: [PATCH 052/221] Support fanout workflow steps and multiple incoming
 connections on a port. Support default values.

---
 cwltool/draft2tool.py | 17 ++++----
 cwltool/main.py       |  6 +--
 cwltool/workflow.py   | 91 ++++++++++++++++++++++++++++++++++++-------
 3 files changed, 90 insertions(+), 24 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 834422e5b..fe5f81cde 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -115,6 +115,7 @@ def bind_input(self, schema, datum):
 
             if "valueFrom" in b:
                 b["valueFrom"] = self.do_eval(b["valueFrom"], datum)
+                b["is_eval"] = True
             else:
                 b["valueFrom"] = datum
 
@@ -133,18 +134,20 @@ def generate_arg(self, binding):
         if isinstance(value, list):
             if binding.get("itemSeparator"):
                 l = [binding["itemSeparator"].join([str(v) for v in value])]
+            elif binding.get("is_eval"):
+                return ([prefix] if prefix else []) + value
             elif prefix:
                 return [prefix]
+            else:
+                return []
         elif binding.get("is_file"):
             l = [self.pathmapper.mapper(value["path"])]
         elif isinstance(value, dict):
-            if prefix:
-                return [prefix]
-        elif isinstance(value, bool):
-            if value and prefix:
-                return [prefix]
-            else:
-                return []
+            return [prefix] if prefix else []
+        elif value is True and prefix:
+            return [prefix]
+        elif value is False or value is None:
+            return []
         else:
             l = [value]
 
diff --git a/cwltool/main.py b/cwltool/main.py
index ea6796f39..cfaef081b 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -35,14 +35,14 @@ def main():
     if args.debug:
         logging.getLogger("cwltool").setLevel(logging.DEBUG)
 
+    basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
+
     try:
-        t = workflow.makeTool(from_url(args.tool))
+        t = workflow.makeTool(from_url(args.tool), basedir)
     except (jsonschema.exceptions.ValidationError, validate.ValidationException):
         _logger.exception("Tool definition failed validation")
         return 1
 
-    basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
-
     try:
         job = t.job(from_url(args.job_order), basedir, use_container=(not args.no_container))
         if args.conformance_test:
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 195a7021c..404bebff9 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -7,14 +7,15 @@
 import logging
 import random
 from ref_resolver import from_url
+import os
 
 _logger = logging.getLogger("cwltool")
 
-def makeTool(toolpath_object):
+def makeTool(toolpath_object, basedir):
     if "schema" in toolpath_object:
         return draft1tool.Tool(toolpath_object)
     elif "impl" in toolpath_object and toolpath_object.get("class", "External") == "External":
-        return External(toolpath_object)
+        return External(toolpath_object, basedir)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
             return draft2tool.CommandLineTool(toolpath_object)
@@ -25,29 +26,55 @@ def makeTool(toolpath_object):
     else:
         raise Exception("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
-def check_types(src, dest):
-    return src["type"] == dest["type"]
+
+def should_fanout(src_type, dest_type):
+    if isinstance(src_type, dict):
+        if src_type["type"] == "array" and src_type["items"] == dest_type:
+            return True
+    return False
 
 class WorkflowJob(object):
     def try_make_job(self, s):
         jo = {}
+        fanout = None
         for i in s.tool["inputs"]:
             _logger.debug(i)
             if "connect" in i:
                 connect = i["connect"]
                 if isinstance(connect, list):
                     # Handle multiple inputs
-                    pass
-                else:
-                    src = connect["source"][1:]
+                    if not fanout:
+                        fanout = i["id"][1:]
+                        jo[i["id"][1:]] = []
+                    else:
+                        raise Exception("Can only fanout on one port")
+                for c in aslist(connect):
+                    src = c["source"][1:]
                     if src in self.state:
-                        if check_types(self.state[src][0], i):
-                            jo[i["id"][1:]] = self.state[src][1]
+                        if self.state[src][0]["type"] == i["type"]:
+                            if fanout:
+                                jo[i["id"][1:]].append(self.state[src][1])
+                            else:
+                                jo[i["id"][1:]] = self.state[src][1]
+                        elif should_fanout(self.state[src][0]["type"], i["type"]):
+                            if fanout:
+                                if fanout == i["id"][1:]:
+                                    jo[i["id"][1:]].extend(self.state[src][1])
+                                else:
+                                    raise Exception("Can only fanout on one port")
+                            else:
+                                fanout = i["id"][1:]
+                                jo[i["id"][1:]] = self.state[src][1]
                         else:
                             raise Exception("Type mismatch '%s' and '%s'" % (src, i["id"][1:]))
                     else:
                         return None
+            elif "default" in i:
+                jo[i["id"][1:]] = i["default"]
+
         _logger.info("Creating job with input: %s", jo)
+        if fanout:
+            s = Fanout(s, fanout)
         return s.job(jo, self.basedir)
 
     def run(self, outdir=None, **kwargs):
@@ -91,14 +118,16 @@ def __init__(self, toolpath_object):
     def job(self, joborder, basedir, use_container=True):
         wj = WorkflowJob()
         wj.basedir = basedir
-        wj.steps = [makeTool(s) for s in self.tool.get("steps", [])]
+        wj.steps = [makeTool(s, basedir) for s in self.tool.get("steps", [])]
         random.shuffle(wj.steps)
 
         wj.state = {}
         for i in self.tool["inputs"]:
             iid = i["id"][1:]
-            wj.state[iid] = (i, copy.deepcopy(joborder[iid]))
-        print wj.state
+            if iid in joborder:
+                wj.state[iid] = (i, copy.deepcopy(joborder[iid]))
+            elif "default" in i:
+                wj.state[iid] = (i, copy.deepcopy(i["default"]))
         wj.outputs = self.tool["outputs"]
         return wj
 
@@ -118,9 +147,9 @@ def run(self, **kwargs):
         return (outdir, output)
 
 class External(Process):
-    def __init__(self, toolpath_object):
+    def __init__(self, toolpath_object, basedir):
         self.impl = toolpath_object["impl"]
-        self.embedded_tool = makeTool(from_url(self.impl))
+        self.embedded_tool = makeTool(from_url(os.path.join(basedir, self.impl)), basedir)
 
         if "id" in toolpath_object:
             self.id = toolpath_object["id"]
@@ -152,3 +181,37 @@ def job(self, joborder, basedir, **kwargs):
             del joborder[i["id"][1:]]
 
         return ExternalJob(self.tool, self.embedded_tool.job(joborder, basedir, **kwargs))
+
+class FanoutJob(object):
+    def __init__(self, outputports, jobs):
+        self.outputports = outputports
+        self.jobs = jobs
+
+    def run(self, **kwargs):
+        outputs = {}
+        for outschema in self.outputports:
+            outputs[outschema["id"][1:]] = []
+        for j in self.jobs:
+            (_, out) = j.run(**kwargs)
+            for outschema in self.outputports:
+                outputs[outschema["id"][1:]].append(out[outschema["id"][1:]])
+        return (None, outputs)
+
+class Fanout(object):
+    def __init__(self, process, fanout_key):
+        self.process = process
+        self.fanout_key = fanout_key
+        self.outputports = []
+        for out in self.process.tool["outputs"]:
+            newout = copy.deepcopy(out)
+            newout["type"] = {"type": "array", "items": out["type"]}
+            self.outputports.append(newout)
+        self.tool = {"outputs": self.outputports}
+
+    def job(self, joborder, basedir, **kwargs):
+        jobs = []
+        for fn in joborder[self.fanout_key]:
+            jo = copy.copy(joborder)
+            jo[self.fanout_key] = fn
+            jobs.append(self.process.job(jo, basedir, **kwargs))
+        return FanoutJob(self.outputports, jobs)

From 09ca5b79d0704e1eae31ac3dd27e8fcee922609b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Mar 2015 13:04:17 -0400
Subject: [PATCH 053/221] Example workflow with externally defined
 sub-workflow.

---
 cwltool/workflow.py | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 404bebff9..8cf11bef4 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -159,17 +159,27 @@ def __init__(self, toolpath_object, basedir):
         for i in toolpath_object["inputs"]:
             d = i["def"][len(self.impl):]
             toolid = i.get("id", self.id + "." + d[1:])
+            found = False
             for a in self.embedded_tool.tool["inputs"]:
                 if a["id"] == d:
                     i.update(a)
+                    found = True
+            if not found:
+                raise Exception("Did not find input '%s' in external process" % (i["def"]))
+
             i["id"] = toolid
 
         for i in toolpath_object["outputs"]:
             d = i["def"][len(self.impl):]
             toolid = i["id"]
+            found = False
             for a in self.embedded_tool.tool["outputs"]:
                 if a["id"] == d:
                     i.update(a)
+                    found = True
+            if not found:
+                raise Exception("Did not find output '%s' in external process" % (i["def"]))
+
             i["id"] = toolid
 
         super(External, self).__init__(toolpath_object, "Process")

From ac5923726bd3fb4f0e648f54ea325fa014f5899b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 11 Mar 2015 11:09:58 -0400
Subject: [PATCH 054/221] Add contributers section. Rename dockerImport to
 dockerLoad and fix implementation to load tar from local filesystem or http.
 Move expression evaluation to occur after file paths are mapped. Add
 secondaryFiles to File schema. Fix bugs.

---
 cwltool/draft2tool.py | 36 +++++++++++++++++----------
 cwltool/job.py        | 57 ++++++++++++++++++++++++++++++++-----------
 cwltool/main.py       |  2 +-
 3 files changed, 67 insertions(+), 28 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index fe5f81cde..c50851a29 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -114,10 +114,8 @@ def bind_input(self, schema, datum):
                 bi["position"] = b["position"] + bi["position"]
 
             if "valueFrom" in b:
-                b["valueFrom"] = self.do_eval(b["valueFrom"], datum)
-                b["is_eval"] = True
-            else:
-                b["valueFrom"] = datum
+                b["do_eval"] = b["valueFrom"]
+            b["valueFrom"] = datum
 
             if schema["type"] == "File":
                 b["is_file"] = True
@@ -127,6 +125,9 @@ def bind_input(self, schema, datum):
 
     def generate_arg(self, binding):
         value = binding["valueFrom"]
+        if "do_eval" in binding:
+            value = self.do_eval(binding["do_eval"], value)
+
         prefix = binding.get("prefix")
         sep = binding.get("separator")
 
@@ -134,7 +135,7 @@ def generate_arg(self, binding):
         if isinstance(value, list):
             if binding.get("itemSeparator"):
                 l = [binding["itemSeparator"].join([str(v) for v in value])]
-            elif binding.get("is_eval"):
+            elif binding.get("do_eval"):
                 return ([prefix] if prefix else []) + value
             elif prefix:
                 return [prefix]
@@ -228,7 +229,8 @@ def job(self, joborder, basedir, use_container=True):
                         a["position"] = [a["position"], i]
                     else:
                         a["position"] = [0, i]
-                    a["valueFrom"] = builder.do_eval(a["valueFrom"])
+                    a["do_eval"] = a["valueFrom"]
+                    a["valueFrom"] = None
                     builder.bindings.append(a)
                 else:
                     builder.bindings.append({
@@ -241,7 +243,7 @@ def job(self, joborder, basedir, use_container=True):
         _logger.debug(pprint.pformat(builder.bindings))
         _logger.debug(pprint.pformat(builder.files))
 
-        builder.files = [f["path"] for f in builder.files]
+        reffiles = [f["path"] for f in builder.files]
 
         j = CommandLineJob()
         j.joborder = builder.job
@@ -254,7 +256,7 @@ def job(self, joborder, basedir, use_container=True):
             j.stdin = builder.do_eval(self.tool["stdin"])
             if isinstance(j.stdin, dict):
                 j.stdin = j.stdin["path"]
-            builder.files.append(j.stdin)
+            reffiles.append(j.stdin)
 
         if self.tool.get("stdout"):
             if isinstance(self.tool["stdout"], dict) and "id" in self.tool["stdout"]:
@@ -282,16 +284,23 @@ def job(self, joborder, basedir, use_container=True):
                 j.container["type"] = "docker"
                 if "dockerPull" in r:
                     j.container["pull"] = r["dockerPull"]
-                if "dockerImport" in r:
-                    j.container["import"] = r["dockerImport"]
+                if "dockerLoad" in r:
+                    if r["dockerLoad"].startswith("http"):
+                        j.container["load"] = r["dockerLoad"]
+                    else:
+                        j.container["load"] = os.path.join(basedir, r["dockerLoad"])
                 if "dockerImageId" in r:
                     j.container["imageId"] = r["dockerImageId"]
                 else:
                     j.container["imageId"] = r["dockerPull"]
-                builder.pathmapper = DockerPathMapper(builder.files, basedir)
+                builder.pathmapper = DockerPathMapper(reffiles, basedir)
 
         if builder.pathmapper is None:
-            builder.pathmapper = PathMapper(builder.files, basedir)
+            builder.pathmapper = PathMapper(reffiles, basedir)
+
+        for f in builder.files:
+            f["path"] = builder.pathmapper.mapper(f["path"])
+
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
         if j.stdin:
@@ -308,7 +317,8 @@ def collect_output_ports(self, ports, builder, outdir):
             outputdoc = yaml.load(custom_output)
             validate.validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
             return outputdoc
-        return {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
+        ret = {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
+        return ret if ret is not None else {}
 
     def collect_output(self, schema, builder, outdir):
         r = None
diff --git a/cwltool/job.py b/cwltool/job.py
index 6a5469265..d183d7216 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -6,6 +6,7 @@
 import yaml
 import logging
 import sys
+import requests
 
 _logger = logging.getLogger("cwltool")
 
@@ -23,25 +24,53 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
         runtime = []
 
         if self.container and self.container.get("type") == "docker":
-            if pull_image:
+            found = False
+            for ln in subprocess.check_output(["docker", "images", "--no-trunc"]).splitlines():
+                try:
+                    ln.index(self.container["imageId"])
+                    found = True
+                except ValueError:
+                    pass
+
+            if not found and pull_image:
                 if "pull" in self.container:
                     cmd = ["docker", "pull", self.container["pull"]]
                     _logger.info(str(cmd))
                     if not dry_run:
-                        subprocess.check_call(["docker", "pull", self.container["pull"]], stdout=sys.stderr)
-                elif "import" in self.container:
-                    cmd = ["docker", "import", self.container["import"]]
+                        subprocess.check_call(cmd, stdout=sys.stderr)
+                        found = True
+                elif "load" in self.container:
+                    cmd = ["docker", "load"]
                     _logger.info(str(cmd))
                     if not dry_run:
-                        subprocess.check_call(["docker", "import", self.container["import"]], stdout=sys.stderr)
-
-            runtime = ["docker", "run", "-i"]
-            for d in self.pathmapper.dirs:
-                runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
-            runtime.append("--volume=%s:%s:ro" % (os.path.abspath(outdir), "/tmp/job_output"))
-            runtime.append("--workdir=%s" % ("/tmp/job_output"))
-            runtime.append("--user=%s" % (os.geteuid()))
-            runtime.append(self.container["imageId"])
+                        if os.path.exists(self.container["load"]):
+                            _logger.info("Loading docker image from %s", self.container["load"])
+                            with open(self.container["load"], "rb") as f:
+                                loadproc = subprocess.Popen(cmd, stdin=f, stdout=sys.stderr)
+                        else:
+                            _logger.info("Sending GET request to %s", self.container["load"])
+                            req = requests.get(self.container["load"], stream=True)
+                            n = 0
+                            for chunk in req.iter_content(1024*1024):
+                                n += len(chunk)
+                                _logger.info(str(n))
+                                loadproc.stdin.write(chunk)
+                            loadproc.stdin.close()
+                        rcode = loadproc.wait()
+                        if rcode != 0:
+                            raise Exception("Docker load returned non-zero exit status %i" % (rcode))
+                        found = True
+
+            if found:
+                runtime = ["docker", "run", "-i"]
+                for d in self.pathmapper.dirs:
+                    runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
+                runtime.append("--volume=%s:%s:rw" % (os.path.abspath(outdir), "/tmp/job_output"))
+                runtime.append("--workdir=%s" % ("/tmp/job_output"))
+                runtime.append("--user=%s" % (os.geteuid()))
+                runtime.append(self.container["imageId"])
+            else:
+                raise Exception("Docker image %s not found" % (self.container["imageId"]))
 
         stdin = None
         stdout = None
@@ -80,7 +109,7 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
         if stdin != subprocess.PIPE:
             stdin.close()
 
-        if stdout:
+        if stdout != sys.stderr:
             stdout.close()
 
         return (outdir, self.collect_outputs(outdir))
diff --git a/cwltool/main.py b/cwltool/main.py
index cfaef081b..93048e4ff 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -58,7 +58,7 @@ def main():
             (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
             _logger.info("Output directory is %s", outdir)
             print json.dumps(runjob)
-    except jsonschema.exceptions.ValidationError:
+    except (jsonschema.exceptions.ValidationError, validate.ValidationException):
         _logger.exception("Job order failed validation")
         return 1
 

From 71056452381ad70361718addb6c637e43387c4be Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 16 Mar 2015 21:53:50 -0400
Subject: [PATCH 055/221] Fix Python package generation.  Fix path mapping.

---
 cwltool/draft2tool.py |  2 +-
 cwltool/job.py        |  2 +-
 gittaggers.py         | 20 ++++++++++++++++++++
 setup.py              | 26 ++++++++++----------------
 4 files changed, 32 insertions(+), 18 deletions(-)
 create mode 100644 gittaggers.py

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index c50851a29..01ed157b4 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -142,7 +142,7 @@ def generate_arg(self, binding):
             else:
                 return []
         elif binding.get("is_file"):
-            l = [self.pathmapper.mapper(value["path"])]
+            l = [value["path"]]
         elif isinstance(value, dict):
             return [prefix] if prefix else []
         elif value is True and prefix:
diff --git a/cwltool/job.py b/cwltool/job.py
index d183d7216..d84687f37 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -25,7 +25,7 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
 
         if self.container and self.container.get("type") == "docker":
             found = False
-            for ln in subprocess.check_output(["docker", "images", "--no-trunc"]).splitlines():
+            for ln in subprocess.check_output(["docker", "images", "--no-trunc", "--all"]).splitlines():
                 try:
                     ln.index(self.container["imageId"])
                     found = True
diff --git a/gittaggers.py b/gittaggers.py
new file mode 100644
index 000000000..922344381
--- /dev/null
+++ b/gittaggers.py
@@ -0,0 +1,20 @@
+from setuptools.command.egg_info import egg_info
+import subprocess
+import time
+
+class EggInfoFromGit(egg_info):
+    """Tag the build with git commit timestamp.
+
+    If a build tag has already been set (e.g., "egg_info -b", building
+    from source package), leave it alone.
+    """
+    def git_timestamp_tag(self):
+        gitinfo = subprocess.check_output(
+            ['git', 'log', '--first-parent', '--max-count=1',
+             '--format=format:%ct', '.']).strip()
+        return time.strftime('.%Y%m%d%H%M%S', time.gmtime(int(gitinfo)))
+
+    def tags(self):
+        if self.tag_build is None:
+            self.tag_build = self.git_timestamp_tag()
+        return egg_info.tags(self)
diff --git a/setup.py b/setup.py
index cf80929bd..10915c201 100644
--- a/setup.py
+++ b/setup.py
@@ -1,29 +1,22 @@
 #!/usr/bin/env python
 
 import os
-import subprocess
-import time
+import sys
+import setuptools.command.egg_info as egg_info_cmd
 
 from setuptools import setup, find_packages
 
 SETUP_DIR = os.path.dirname(__file__)
 README = os.path.join(SETUP_DIR, 'README.rst')
 
-cmd_opts = {'egg_info': {}}
 try:
-    git_tags = subprocess.check_output(
-        ['git', 'log', '--first-parent', '--max-count=1',
-         '--format=format:%ct %h', SETUP_DIR]).split()
-    assert len(git_tags) == 2
-except (AssertionError, OSError, subprocess.CalledProcessError):
-    pass
-else:
-    git_tags[0] = time.strftime('%Y%m%d%H%M%S', time.gmtime(int(git_tags[0])))
-    cmd_opts['egg_info']['tag_build'] = '.{}.{}'.format(*git_tags)
-
+    import gittaggers
+    tagger = gittaggers.EggInfoFromGit
+except ImportError:
+    tagger = egg_info_cmd.egg_info
 
 setup(name='cwltool',
-      version='0.1',
+      version='1.0',
       description='Common workflow language reference implementation',
       long_description=open(README).read(),
       author='Common workflow language working group',
@@ -32,7 +25,7 @@
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
-      package_data={'cwltool': ['schemas/*.json']},
+      package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
       include_package_data=True,
       install_requires=[
           'jsonschema >= 2.4.0',
@@ -45,5 +38,6 @@
       entry_points={
           'console_scripts': [ "cwltool=cwltool.main:main" ]
       },
-      options=cmd_opts,
+      zip_safe=False,
+      cmdclass={'egg_info': tagger},
 )

From 332870c0ac479c5ec20c9f01a215e40bfd866c81 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 17 Mar 2015 21:08:28 -0400
Subject: [PATCH 056/221] Add "environmentDefs" to specify environment
 variables.

---
 cwltool/draft2tool.py |  4 ++++
 cwltool/job.py        | 13 ++++++++++++-
 2 files changed, 16 insertions(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 01ed157b4..4ab22aa90 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -277,6 +277,10 @@ def job(self, joborder, basedir, use_container=True):
         for t in self.tool.get("fileDefs", []):
             j.generatefiles[t["filename"]] = builder.do_eval(t["value"])
 
+        j.environment = {}
+        for t in self.tool.get("environmentDefs", []):
+            j.environment[t["env"]] = builder.do_eval(t["value"])
+
         reqsAndHints = self.tool.get("requirements", []) + self.tool.get("hints", [])
         for r in reqsAndHints:
             if r["class"] == "DockerRequirement" and use_container:
diff --git a/cwltool/job.py b/cwltool/job.py
index d84687f37..98b0652d9 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -22,6 +22,7 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
             json.dump(self.joborder, fp)
 
         runtime = []
+        env = {}
 
         if self.container and self.container.get("type") == "docker":
             found = False
@@ -68,9 +69,13 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
                 runtime.append("--volume=%s:%s:rw" % (os.path.abspath(outdir), "/tmp/job_output"))
                 runtime.append("--workdir=%s" % ("/tmp/job_output"))
                 runtime.append("--user=%s" % (os.geteuid()))
+                for t,v in self.environment.items():
+                    runtime.append("--env=%s=%s" % (t, v))
                 runtime.append(self.container["imageId"])
             else:
                 raise Exception("Docker image %s not found" % (self.container["imageId"]))
+        else:
+            env = self.environment
 
         stdin = None
         stdout = None
@@ -99,7 +104,13 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
             with open(os.path.join(outdir, t), "w") as f:
                 f.write(self.generatefiles[t])
 
-        sp = subprocess.Popen(runtime + self.command_line, shell=False, stdin=stdin, stdout=stdout)
+        sp = subprocess.Popen(runtime + self.command_line,
+                              shell=False,
+                              close_fds=True,
+                              stdin=stdin,
+                              stdout=stdout,
+                              env=env,
+                              cwd=outdir)
 
         if stdin == subprocess.PIPE:
             sp.stdin.close()

From 41ca2e64e45a9ce13dde6a44d6be702dab76e047 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 17 Mar 2015 21:56:54 -0400
Subject: [PATCH 057/221] Add --print-rdf to cwltool to print rdf graph
 corresponding to a workflow or tool.

---
 cwltool/main.py | 22 ++++++++++++++++++----
 setup.py        |  4 +++-
 2 files changed, 21 insertions(+), 5 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 93048e4ff..1ab182c13 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -15,18 +15,28 @@
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
 
+
+def printrdf(workflow, sr):
+    from rdflib import Graph, plugin
+    from rdflib.serializer import Serializer
+    wf = from_url(workflow)
+    g = Graph().parse(data=json.dumps(wf), format='json-ld', location=workflow)
+    print(g.serialize(format=sr))
+
 def main():
     parser = argparse.ArgumentParser()
-    parser.add_argument("tool", type=str)
-    parser.add_argument("job_order", type=str)
+    parser.add_argument("workflow", type=str)
+    parser.add_argument("job_order", type=str, nargs="?", default=None)
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
     parser.add_argument("--outdir", type=str)
-    parser.add_argument("--no-container", action="store_true", help="Do not execute in a Docker container, even if one is specified in the tool file")
+    parser.add_argument("--no-container", action="store_true", help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool")
     parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
     parser.add_argument("--dry-run", action="store_true", help="Do not execute")
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
+    parser.add_argument("--print-rdf", action="store_true", help="Print corresponding RDF graph for workflow")
+    parser.add_argument("--rdf-serializer", help="Output RDF serialization format (one of turtle (default), n3, nt, xml)", default="turtle")
 
     args = parser.parse_args()
 
@@ -35,10 +45,14 @@ def main():
     if args.debug:
         logging.getLogger("cwltool").setLevel(logging.DEBUG)
 
+    if args.print_rdf:
+        printrdf(args.workflow, args.rdf_serializer)
+        return 0
+
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
 
     try:
-        t = workflow.makeTool(from_url(args.tool), basedir)
+        t = workflow.makeTool(from_url(args.workflow), basedir)
     except (jsonschema.exceptions.ValidationError, validate.ValidationException):
         _logger.exception("Tool definition failed validation")
         return 1
diff --git a/setup.py b/setup.py
index 10915c201..6cfea5762 100644
--- a/setup.py
+++ b/setup.py
@@ -31,7 +31,9 @@
           'jsonschema >= 2.4.0',
           'requests',
           'PyYAML',
-          'avro'
+          'avro',
+          'rdflib',
+          'rdflib-jsonld'
         ],
       test_suite='tests',
       tests_require=[],

From 3d6577432444c46f0b35bd4b39e0a05f39c37e7f Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 23 Mar 2015 21:02:51 -0400
Subject: [PATCH 058/221] Fix Python packaging to use correct git log for
 package time/version stamps.

---
 gittaggers.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/gittaggers.py b/gittaggers.py
index 922344381..65ad8242b 100644
--- a/gittaggers.py
+++ b/gittaggers.py
@@ -11,7 +11,7 @@ class EggInfoFromGit(egg_info):
     def git_timestamp_tag(self):
         gitinfo = subprocess.check_output(
             ['git', 'log', '--first-parent', '--max-count=1',
-             '--format=format:%ct', '.']).strip()
+             '--format=format:%ct', '..']).strip()
         return time.strftime('.%Y%m%d%H%M%S', time.gmtime(int(gitinfo)))
 
     def tags(self):

From fbb93749870b1ba9a228afa7c1bc1791ca449dca Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 23 Mar 2015 21:10:20 -0400
Subject: [PATCH 059/221] Fix Python packaging to use correct git log for
 package time/version stamps (2nd try)

---
 gittaggers.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/gittaggers.py b/gittaggers.py
index 65ad8242b..55c3c2af3 100644
--- a/gittaggers.py
+++ b/gittaggers.py
@@ -11,7 +11,7 @@ class EggInfoFromGit(egg_info):
     def git_timestamp_tag(self):
         gitinfo = subprocess.check_output(
             ['git', 'log', '--first-parent', '--max-count=1',
-             '--format=format:%ct', '..']).strip()
+             '--format=format:%ct']).strip()
         return time.strftime('.%Y%m%d%H%M%S', time.gmtime(int(gitinfo)))
 
     def tags(self):

From d3d1fde2533bc256b17b71f2e8bfad37273c4984 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 23 Mar 2015 21:27:06 -0400
Subject: [PATCH 060/221] Removed very misleading 'include_package_data' option
 from setup.py

---
 setup.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/setup.py b/setup.py
index 6cfea5762..ff52d0290 100644
--- a/setup.py
+++ b/setup.py
@@ -26,7 +26,6 @@
       license='Apache 2.0',
       packages=["cwltool"],
       package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
-      include_package_data=True,
       install_requires=[
           'jsonschema >= 2.4.0',
           'requests',

From cf63d3265a5534eb286c776f1261a2fd1f2e0f0c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <tetron@ci.curoverse.com>
Date: Tue, 24 Mar 2015 17:26:33 +0000
Subject: [PATCH 061/221] setup.py workaround to ensure that schema files are
 included in sdist

---
 setup.py | 13 ++++++++++++-
 1 file changed, 12 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index ff52d0290..7b27b8d12 100644
--- a/setup.py
+++ b/setup.py
@@ -3,6 +3,7 @@
 import os
 import sys
 import setuptools.command.egg_info as egg_info_cmd
+import shutil
 
 from setuptools import setup, find_packages
 
@@ -15,6 +16,13 @@
 except ImportError:
     tagger = egg_info_cmd.egg_info
 
+# Remove the symlink and copy the schemas directory.
+# This is a total hack, but older versions of setuptools
+# won't follow symlinks or follow relative paths outside the
+# source directory (ugh!)
+os.unlink("cwltool/schemas")
+shutil.copytree("../schemas", "cwltool/schemas")
+
 setup(name='cwltool',
       version='1.0',
       description='Common workflow language reference implementation',
@@ -25,7 +33,6 @@
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
-      package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
       install_requires=[
           'jsonschema >= 2.4.0',
           'requests',
@@ -42,3 +49,7 @@
       zip_safe=False,
       cmdclass={'egg_info': tagger},
 )
+
+# Restore the symlink
+shutil.rmtree("cwltool/schemas")
+os.symlink("../../schemas", "cwltool/schemas")

From af0c00e3f6941aa31fcf5c9f75f91dcf531a7fc0 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <tetron@ci.curoverse.com>
Date: Tue, 24 Mar 2015 20:00:38 +0000
Subject: [PATCH 062/221] revert to copy workaround

---
 setup.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/setup.py b/setup.py
index 7b27b8d12..fe7562bdd 100644
--- a/setup.py
+++ b/setup.py
@@ -33,6 +33,7 @@
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
+      package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
       install_requires=[
           'jsonschema >= 2.4.0',
           'requests',

From 70f4b89bbe7a46d78ed9ac8cdf17847fb3f18c3c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 24 Mar 2015 16:32:44 -0400
Subject: [PATCH 063/221] Check for source tree or install.

---
 setup.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/setup.py b/setup.py
index fe7562bdd..d5a4720b0 100644
--- a/setup.py
+++ b/setup.py
@@ -20,8 +20,11 @@
 # This is a total hack, but older versions of setuptools
 # won't follow symlinks or follow relative paths outside the
 # source directory (ugh!)
-os.unlink("cwltool/schemas")
-shutil.copytree("../schemas", "cwltool/schemas")
+restore = False
+if os.path.islink("cwltool/schemas") and os.path.exists("../schemas"):
+    os.unlink("cwltool/schemas")
+    shutil.copytree("../schemas", "cwltool/schemas")
+    restore = True
 
 setup(name='cwltool',
       version='1.0',
@@ -51,6 +54,7 @@
       cmdclass={'egg_info': tagger},
 )
 
-# Restore the symlink
-shutil.rmtree("cwltool/schemas")
-os.symlink("../../schemas", "cwltool/schemas")
+if restore:
+    # Restore the symlink
+    shutil.rmtree("cwltool/schemas")
+    os.symlink("../../schemas", "cwltool/schemas")

From 708635aa8c7ca3902b74af9a304939bd30720486 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 26 Mar 2015 12:30:35 -0400
Subject: [PATCH 064/221] Tools for generating specification documentation.

---
 cwltool/process.py | 59 +++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 56 insertions(+), 3 deletions(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index cf05b62ec..2524cbdb0 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -3,16 +3,55 @@
 import json
 import validate
 import copy
+import yaml
+import copy
+import logging
+import pprint
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
+_logger = logging.getLogger("cwltool")
+
+def specialize(items, spec):
+    if isinstance(items, dict):
+        for n in ("type", "items", "values"):
+            if n in items:
+                items[n] = specialize(items[n], spec)
+        return items
+    if isinstance(items, list):
+        n = []
+        for i in items:
+            n.append(specialize(i, spec))
+        return n
+    if isinstance(items, basestring):
+        if items in spec:
+            return spec[items]
+    return items
+
+def extend_avro(items):
+    types = {t["name"]: t for t in items}
+    n = []
+    for t in items:
+        if "extends" in t:
+            r = copy.deepcopy(types[t["extends"]])
+            r["name"] = t["name"]
+            if "specialize" in t:
+                r["fields"] = specialize(r["fields"], t["specialize"])
+            r["fields"].extend(t["fields"])
+            r["extends"] = t["extends"]
+            types[t["name"]] = r
+            t = r
+        n.append(t)
+    return n
+
 class Process(object):
     def __init__(self, toolpath_object, validateAs):
         self.names = avro.schema.Names()
-        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl.avsc')
+        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
         with open(cwl_avsc) as f:
-            j = json.load(f)
+            j = yaml.load(f)
+            j = extend_avro(j)
             for t in j:
                 avro.schema.make_avsc_object(t, self.names)
 
@@ -24,7 +63,21 @@ def __init__(self, toolpath_object, validateAs):
         validate.validate_ex(self.names.get_name(validateAs, ""), self.tool)
 
         # Import schema defs
-        self.schemaDefs = {}
+        self.schemaDefs = {
+            "Any": [
+                "null",
+                "boolean",
+                "int",
+                "long",
+                "float",
+                "double",
+                "bytes",
+                "string",
+                "File",
+                {"type": "array", "items": "Any"},
+                {"type": "map", "values": "Any"}
+            ]}
+
         if self.tool.get("schemaDefs"):
             for i in self.tool["schemaDefs"]:
                 avro.schema.make_avsc_object(i, self.names)

From dcf636db6839a5df1b65be60f90c60ade98cd83a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 26 Mar 2015 17:15:08 -0400
Subject: [PATCH 065/221] Now embedding major documenation directly in schema. 
 Lots of progress, but still haven't gotten to describing CommandLineTool and
 Workflow.

---
 cwltool/process.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/cwltool/process.py b/cwltool/process.py
index 2524cbdb0..9e9da8b03 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -40,6 +40,7 @@ def extend_avro(items):
                 r["fields"] = specialize(r["fields"], t["specialize"])
             r["fields"].extend(t["fields"])
             r["extends"] = t["extends"]
+            r["doc"] = t.get("doc", "")
             types[t["name"]] = r
             t = r
         n.append(t)

From 4acb2e89cd20f03216a8b611171a8775e65dfc32 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 27 Mar 2015 13:42:19 -0400
Subject: [PATCH 066/221] Run document generation as a workflow.

---
 cwltool/draft2tool.py | 20 +++++++++++++-------
 cwltool/job.py        | 13 ++++++++++++-
 cwltool/main.py       |  7 ++++++-
 cwltool/pathmapper.py |  4 ++--
 cwltool/workflow.py   |  2 +-
 5 files changed, 34 insertions(+), 12 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 4ab22aa90..6b332a2fd 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -39,11 +39,11 @@ def do_eval(self, ex, context=None):
                     return self.jseval(ex["value"], context)
                 elif "invoke" in ex:
                     return self.jseval(ex["invoke"], context)
-            elif ex.get("id"):
-                if ex["id"].startswith("#"):
-                    return self.job[ex["id"][1:]]
+            elif ex.get("ref"):
+                if ex["ref"].startswith("#"):
+                    return self.job[ex["ref"][1:]]
                 else:
-                    with open(os.path.join(self.basedir, ex["id"]), "r") as f:
+                    with open(os.path.join(self.basedir, ex["ref"]), "r") as f:
                         return f.read()
         else:
             return ex
@@ -259,10 +259,10 @@ def job(self, joborder, basedir, use_container=True):
             reffiles.append(j.stdin)
 
         if self.tool.get("stdout"):
-            if isinstance(self.tool["stdout"], dict) and "id" in self.tool["stdout"]:
+            if isinstance(self.tool["stdout"], dict) and "ref" in self.tool["stdout"]:
                 for out in self.tool.get("outputs", []):
-                    if out["id"] == self.tool["stdout"]["id"]:
-                        filename = self.tool["stdout"]["id"][1:]
+                    if out["id"] == self.tool["stdout"]["ref"]:
+                        filename = self.tool["stdout"]["ref"][1:]
                         j.stdout = filename
                         out["outputBinding"] = out.get("outputBinding", {})
                         out["outputBinding"]["glob"] = filename
@@ -281,6 +281,10 @@ def job(self, joborder, basedir, use_container=True):
         for t in self.tool.get("environmentDefs", []):
             j.environment[t["env"]] = builder.do_eval(t["value"])
 
+        for r in self.tool.get("requirements", []):
+            if r["class"] not in ("DockerRequirement", "MemoryRequirement"):
+                raise Exception("Unknown requirement %s" % (r["class"]))
+
         reqsAndHints = self.tool.get("requirements", []) + self.tool.get("hints", [])
         for r in reqsAndHints:
             if r["class"] == "DockerRequirement" and use_container:
@@ -288,6 +292,8 @@ def job(self, joborder, basedir, use_container=True):
                 j.container["type"] = "docker"
                 if "dockerPull" in r:
                     j.container["pull"] = r["dockerPull"]
+                if "dockerFile" in r:
+                    j.container["file"] = r["dockerFile"]
                 if "dockerLoad" in r:
                     if r["dockerLoad"].startswith("http"):
                         j.container["load"] = r["dockerLoad"]
diff --git a/cwltool/job.py b/cwltool/job.py
index 98b0652d9..76895e378 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -11,7 +11,7 @@
 _logger = logging.getLogger("cwltool")
 
 class CommandLineJob(object):
-    def run(self, dry_run=False, pull_image=True, outdir=None):
+    def run(self, dry_run=False, pull_image=True, outdir=None, rm_container=True):
         if not outdir:
             if not dry_run:
                 outdir = tempfile.mkdtemp()
@@ -34,6 +34,15 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
                     pass
 
             if not found and pull_image:
+                if "file" in self.container:
+                    dockerfile_dir = tempfile.mkdtemp()
+                    with open(os.path.join(dockerfile_dir, "Dockerfile"), "w") as df:
+                        df.write(self.container["file"])
+                    cmd = ["docker", "build", "--tag=%s" % self.container["imageId"], dockerfile_dir]
+                    _logger.info(str(cmd))
+                    if not dry_run:
+                        subprocess.check_call(cmd, stdout=sys.stderr)
+                        found = True
                 if "pull" in self.container:
                     cmd = ["docker", "pull", self.container["pull"]]
                     _logger.info(str(cmd))
@@ -69,6 +78,8 @@ def run(self, dry_run=False, pull_image=True, outdir=None):
                 runtime.append("--volume=%s:%s:rw" % (os.path.abspath(outdir), "/tmp/job_output"))
                 runtime.append("--workdir=%s" % ("/tmp/job_output"))
                 runtime.append("--user=%s" % (os.geteuid()))
+                if rm_container:
+                    runtime.append("--rm")
                 for t,v in self.environment.items():
                     runtime.append("--env=%s=%s" % (t, v))
                 runtime.append(self.container["imageId"])
diff --git a/cwltool/main.py b/cwltool/main.py
index 1ab182c13..50f921cb2 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -31,6 +31,7 @@ def main():
     parser.add_argument("--basedir", type=str)
     parser.add_argument("--outdir", type=str)
     parser.add_argument("--no-container", action="store_true", help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool")
+    parser.add_argument("--leave-container", action="store_true", help="Do not delete Docker container after it exits")
     parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
     parser.add_argument("--dry-run", action="store_true", help="Do not execute")
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
@@ -49,6 +50,10 @@ def main():
         printrdf(args.workflow, args.rdf_serializer)
         return 0
 
+    if not args.job_order:
+        _logger.error("Input object required")
+        return 1
+
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
 
     try:
@@ -69,7 +74,7 @@ def main():
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
-            (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir)
+            (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir, rm_container=(not args.leave_container))
             _logger.info("Output directory is %s", outdir)
             print json.dumps(runjob)
     except (jsonschema.exceptions.ValidationError, validate.ValidationException):
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index fcb783924..45310f65e 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -18,7 +18,7 @@ def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         self.dirs = {}
         for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            abs = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
             dir, fn = os.path.split(abs)
 
             subdir = False
@@ -47,7 +47,7 @@ def __init__(self, referenced_files, basedir):
             self.dirs[d] = name
 
         for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.join(basedir, src)
+            abs = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
             for d in self.dirs:
                 if abs.startswith(d):
                     self._pathmap[src] = os.path.join(self.dirs[d], abs[len(d)+1:])
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 8cf11bef4..714131f75 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -88,7 +88,7 @@ def run(self, outdir=None, **kwargs):
                 if not s.completed:
                     job = self.try_make_job(s)
                     if job:
-                        (joutdir, output) = job.run(outdir=outdir)
+                        (joutdir, output) = job.run(outdir=outdir, **kwargs)
                         for i in s.tool["outputs"]:
                             _logger.info("Job got output: %s", output)
                             if "id" in i:

From a83dc12cff30679ab83847d2471afdcfcbad8aa7 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 30 Mar 2015 17:13:00 -0400
Subject: [PATCH 067/221] Finished documentation for command line tool, added
 documentation for workflow, updated examples based on schema changes, initial
 commit of the actual specification document!

---
 cwltool/draft2tool.py | 8 +++-----
 cwltool/job.py        | 2 +-
 2 files changed, 4 insertions(+), 6 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 6b332a2fd..274395ff0 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -35,10 +35,8 @@ def jseval(self, expression, context):
     def do_eval(self, ex, context=None):
         if isinstance(ex, dict):
             if ex.get("class") == "JavascriptExpression":
-                if "value" in ex:
-                    return self.jseval(ex["value"], context)
-                elif "invoke" in ex:
-                    return self.jseval(ex["invoke"], context)
+                if "script" in ex:
+                    return self.jseval(ex["script"], context)
             elif ex.get("ref"):
                 if ex["ref"].startswith("#"):
                     return self.job[ex["ref"][1:]]
@@ -322,7 +320,7 @@ def job(self, joborder, basedir, use_container=True):
         return j
 
     def collect_output_ports(self, ports, builder, outdir):
-        custom_output = os.path.join(outdir, "output.cwl.json")
+        custom_output = os.path.join(outdir, "cwl.output.json")
         if os.path.exists(custom_output):
             outputdoc = yaml.load(custom_output)
             validate.validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
diff --git a/cwltool/job.py b/cwltool/job.py
index 76895e378..724559f1c 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -18,7 +18,7 @@ def run(self, dry_run=False, pull_image=True, outdir=None, rm_container=True):
             else:
                 outdir = "/tmp"
 
-        with open(os.path.join(outdir, "job.cwl.json"), "w") as fp:
+        with open(os.path.join(outdir, "cwl.input.json"), "w") as fp:
             json.dump(self.joborder, fp)
 
         runtime = []

From c963b3ef5c7bf922859f6209d256eca0c522bd54 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 7 Apr 2015 17:13:42 -0400
Subject: [PATCH 068/221] New explicit scatter.  Incomplete, only "dotproduct"
 method implemented, still need to add "nested_crossproduct" and
 "flat_crossproduct".

---
 cwltool/draft2tool.py |   6 +-
 cwltool/workflow.py   | 142 +++++++++++++++++++++++++-----------------
 2 files changed, 90 insertions(+), 58 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 274395ff0..3d16dac8f 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -163,7 +163,11 @@ def generate_arg(self, binding):
 class Tool(Process):
     def _init_job(self, joborder, basedir):
         # Validate job order
-        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+        try:
+            validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+        except validate.ValidationException as v:
+            _logger.error("Failed to validate %s\n%s" % (pprint.pformat(joborder), v))
+            raise
 
         builder = Builder()
         builder.job = copy.deepcopy(joborder)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 714131f75..1126cbcfe 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -8,9 +8,20 @@
 import random
 from ref_resolver import from_url
 import os
+from collections import namedtuple
+import pprint
 
 _logger = logging.getLogger("cwltool")
 
+WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
+
+def idk(key):
+    if len(key) <= 1:
+        raise Exception("Identifier is too short")
+    if key[0] != '#':
+        raise Exception("Must start with #")
+    return key[1:]
+
 def makeTool(toolpath_object, basedir):
     if "schema" in toolpath_object:
         return draft1tool.Tool(toolpath_object)
@@ -27,55 +38,61 @@ def makeTool(toolpath_object, basedir):
         raise Exception("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
 
-def should_fanout(src_type, dest_type):
-    if isinstance(src_type, dict):
-        if src_type["type"] == "array" and src_type["items"] == dest_type:
-            return True
-    return False
-
 class WorkflowJob(object):
-    def try_make_job(self, s):
-        jo = {}
-        fanout = None
-        for i in s.tool["inputs"]:
+    def try_make_job(self, step):
+        inputobj = {}
+
+        if "scatter" in step.tool:
+            inputparms = copy.deepcopy(step.tool["inputs"])
+            scatter = aslist(step.tool["scatter"])
+            for i in inputparms:
+                if i["id"] in scatter:
+                    i["type"] = {"type": "array", "items": i["type"]}
+        else:
+            inputparms = step.tool["inputs"]
+
+        for i in inputparms:
             _logger.debug(i)
             if "connect" in i:
                 connect = i["connect"]
-                if isinstance(connect, list):
-                    # Handle multiple inputs
-                    if not fanout:
-                        fanout = i["id"][1:]
-                        jo[i["id"][1:]] = []
-                    else:
-                        raise Exception("Can only fanout on one port")
+                is_array = isinstance(i["type"], dict) and i["type"]["type"] == "array"
+
                 for c in aslist(connect):
-                    src = c["source"][1:]
+                    src = idk(c["source"])
                     if src in self.state:
-                        if self.state[src][0]["type"] == i["type"]:
-                            if fanout:
-                                jo[i["id"][1:]].append(self.state[src][1])
+                        if self.state[src].parameter["type"] == i["type"]:
+                            # source and input types are the same
+                            if is_array and idk(i["id"]) in inputobj:
+                                # concatenate arrays
+                                inputobj[idk(i["id"])].extend(self.state[src].value)
                             else:
-                                jo[i["id"][1:]] = self.state[src][1]
-                        elif should_fanout(self.state[src][0]["type"], i["type"]):
-                            if fanout:
-                                if fanout == i["id"][1:]:
-                                    jo[i["id"][1:]].extend(self.state[src][1])
-                                else:
-                                    raise Exception("Can only fanout on one port")
+                                # just assign the value from state to input
+                                inputobj[idk(i["id"])] = copy.deepcopy(self.state[src].value)
+                        elif is_array and self.state[src].parameter["type"] == i["type"]["items"]:
+                            # source type is the item type on the input array
+                            # promote single item to array entry
+                            if idk(i["id"]) in inputobj:
+                                inputobj[idk(i["id"])].append(self.state[src][1])
                             else:
-                                fanout = i["id"][1:]
-                                jo[i["id"][1:]] = self.state[src][1]
+                                inputobj[idk(i["id"])] = [self.state[src][1]]
                         else:
                             raise Exception("Type mismatch '%s' and '%s'" % (src, i["id"][1:]))
                     else:
                         return None
             elif "default" in i:
-                jo[i["id"][1:]] = i["default"]
-
-        _logger.info("Creating job with input: %s", jo)
-        if fanout:
-            s = Fanout(s, fanout)
-        return s.job(jo, self.basedir)
+                inputobj[idk(i["id"])] = i["default"]
+            else:
+                raise Exception("Value for %s not specified" % (i["id"]))
+
+        _logger.info("Creating job with input: %s", inputobj)
+        if "scatter" in step.tool:
+            if step.tool.get("scatterType") == "dotproduct" or step.tool.get("scatterType") is None:
+                step = DotProductScatter(step, aslist(step.tool["scatter"]))
+            elif step.tool.get("scatterType") == "nested_crossproduct":
+                step = NestedCrossProductScatter(step, aslist(step.tool["scatter"]))
+            elif step.tool.get("scatterType") == "flat_crossproduct":
+                step = FlatCrossProductScatter(step, aslist(step.tool["scatter"]))
+        return step.job(inputobj, self.basedir)
 
     def run(self, outdir=None, **kwargs):
         for s in self.steps:
@@ -92,10 +109,10 @@ def run(self, outdir=None, **kwargs):
                         for i in s.tool["outputs"]:
                             _logger.info("Job got output: %s", output)
                             if "id" in i:
-                                if i["id"][1:] in output:
-                                    self.state[i["id"][1:]] = (i, output[i["id"][1:]])
+                                if idk(i["id"]) in output:
+                                    self.state[idk(i["id"])] = WorkflowStateItem(i, output[idk(i["id"])])
                                 else:
-                                    raise Exception("Output is missing expected field %s" % i["id"][1:])
+                                    raise Exception("Output is missing expected field %s" % idk(i["id"]))
                         s.completed = True
                         made_progress = True
                         run_all -= 1
@@ -105,8 +122,8 @@ def run(self, outdir=None, **kwargs):
         wo = {}
         for i in self.outputs:
             if "connect" in i:
-                src = i["connect"]["source"][1:]
-                wo[i["id"][1:]] = self.state[src][1]
+                src = idk(i["connect"]["source"])
+                wo[idk(i["id"])] = self.state[src][1]
 
         return (outdir, wo)
 
@@ -123,11 +140,11 @@ def job(self, joborder, basedir, use_container=True):
 
         wj.state = {}
         for i in self.tool["inputs"]:
-            iid = i["id"][1:]
+            iid = idk(i["id"])
             if iid in joborder:
-                wj.state[iid] = (i, copy.deepcopy(joborder[iid]))
+                wj.state[iid] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
             elif "default" in i:
-                wj.state[iid] = (i, copy.deepcopy(i["default"]))
+                wj.state[iid] = WorkflowStateItem(i, copy.deepcopy(i["default"]))
         wj.outputs = self.tool["outputs"]
         return wj
 
@@ -141,7 +158,7 @@ def run(self, **kwargs):
         (outdir, output) = self.innerjob.run(**kwargs)
         for i in self.tool["outputs"]:
             d = i["def"][len(self.impl)+1:]
-            output[i["id"][1:]] = output[d]
+            output[idk(i["id"])] = output[d]
             del output[d]
 
         return (outdir, output)
@@ -158,7 +175,7 @@ def __init__(self, toolpath_object, basedir):
 
         for i in toolpath_object["inputs"]:
             d = i["def"][len(self.impl):]
-            toolid = i.get("id", self.id + "." + d[1:])
+            toolid = i.get("id", self.id + "." + idk(d))
             found = False
             for a in self.embedded_tool.tool["inputs"]:
                 if a["id"] == d:
@@ -187,12 +204,12 @@ def __init__(self, toolpath_object, basedir):
     def job(self, joborder, basedir, **kwargs):
         for i in self.tool["inputs"]:
             d = i["def"][len(self.impl)+1:]
-            joborder[d] = joborder[i["id"][1:]]
-            del joborder[i["id"][1:]]
+            joborder[d] = joborder[idk(i["id"])]
+            del joborder[idk(i["id"])]
 
         return ExternalJob(self.tool, self.embedded_tool.job(joborder, basedir, **kwargs))
 
-class FanoutJob(object):
+class ScatterJob(object):
     def __init__(self, outputports, jobs):
         self.outputports = outputports
         self.jobs = jobs
@@ -200,17 +217,18 @@ def __init__(self, outputports, jobs):
     def run(self, **kwargs):
         outputs = {}
         for outschema in self.outputports:
-            outputs[outschema["id"][1:]] = []
+            outputs[idk(outschema["id"])] = []
         for j in self.jobs:
             (_, out) = j.run(**kwargs)
             for outschema in self.outputports:
-                outputs[outschema["id"][1:]].append(out[outschema["id"][1:]])
+                outputs[idk(outschema["id"])].append(out[idk(outschema["id"])])
         return (None, outputs)
 
-class Fanout(object):
-    def __init__(self, process, fanout_key):
+class DotProductScatter(object):
+    def __init__(self, process, scatter_keys):
         self.process = process
-        self.fanout_key = fanout_key
+        self.scatter_keys = scatter_keys
+
         self.outputports = []
         for out in self.process.tool["outputs"]:
             newout = copy.deepcopy(out)
@@ -220,8 +238,18 @@ def __init__(self, process, fanout_key):
 
     def job(self, joborder, basedir, **kwargs):
         jobs = []
-        for fn in joborder[self.fanout_key]:
+
+        l = None
+        for s in self.scatter_keys:
+            if l is None:
+                l = len(joborder[idk(s)])
+            elif l != len(joborder[idk(s)]):
+                raise Exception("Length of input arrays must be equal when performing dotproduct scatter.")
+
+        for i in range(0, l):
             jo = copy.copy(joborder)
-            jo[self.fanout_key] = fn
+            for s in self.scatter_keys:
+                jo[idk(s)] = joborder[idk(s)][i]
             jobs.append(self.process.job(jo, basedir, **kwargs))
-        return FanoutJob(self.outputports, jobs)
+
+        return ScatterJob(self.outputports, jobs)

From a231fb9e124d356d134a9d0a9804b4fa42c1ee43 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 8 Apr 2015 16:25:35 -0400
Subject: [PATCH 069/221] Use iterator-based inversion of control to separate
 job generation from job execution.

---
 cwltool/draft1tool.py |   5 +-
 cwltool/draft2tool.py |  13 +-
 cwltool/job.py        |  10 +-
 cwltool/main.py       |  21 ++-
 cwltool/workflow.py   | 349 ++++++++++++++++++++++++++----------------
 5 files changed, 244 insertions(+), 154 deletions(-)

diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index fb9ae7357..06daf093f 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -254,7 +254,7 @@ def __init__(self, toolpath_object):
             raise Exception("Missing or invalid 'schema' field in tool description document, must be %s" % TOOL_SCHEMA_URL)
         tool_schema.validate(self.tool)
 
-    def job(self, joborder, basedir, use_container=True):
+    def job(self, joborder, basedir, output_callback, use_container=True):
         inputs = joborder['inputs']
         Draft4Validator(self.tool['inputs']).validate(inputs)
 
@@ -336,8 +336,9 @@ def job(self, joborder, basedir, use_container=True):
 
         j.pathmapper = d
         j.collect_outputs = functools.partial(self.collect_outputs, self.tool.get("outputs", {}), joborder)
+        j.output_callback = output_callback
 
-        return j
+        yield j
 
     def collect_outputs(self, schema, joborder, outdir):
         result_path = os.path.join(outdir, "result.cwl.json")
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 3d16dac8f..21507ca58 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -192,16 +192,16 @@ def __init__(self, toolpath_object):
 
     class ExpressionJob(object):
         def run(self, outdir=None, **kwargs):
-            return (outdir, self.builder.do_eval(self.script))
+            self.output_callback(self.builder.do_eval(self.script))
 
-    def job(self, joborder, basedir, **kwargs):
+    def job(self, joborder, basedir, output_callback, **kwargs):
         builder = self._init_job(joborder, basedir)
 
         j = ExpressionTool.ExpressionJob()
         j.builder = builder
         j.script = self.tool["script"]
-
-        return j
+        j.output_callback = output_callback
+        yield j
 
 def aslist(l):
     if isinstance(l, list):
@@ -213,7 +213,7 @@ class CommandLineTool(Tool):
     def __init__(self, toolpath_object):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool")
 
-    def job(self, joborder, basedir, use_container=True):
+    def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         builder = self._init_job(joborder, basedir)
 
         if self.tool["baseCommand"]:
@@ -320,8 +320,9 @@ def job(self, joborder, basedir, use_container=True):
 
         j.pathmapper = builder.pathmapper
         j.collect_outputs = functools.partial(self.collect_output_ports, self.tool["outputs"], builder)
+        j.output_callback = output_callback
 
-        return j
+        yield j
 
     def collect_output_ports(self, ports, builder, outdir):
         custom_output = os.path.join(outdir, "cwl.output.json")
diff --git a/cwltool/job.py b/cwltool/job.py
index 724559f1c..ba5f93292 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -11,13 +11,7 @@
 _logger = logging.getLogger("cwltool")
 
 class CommandLineJob(object):
-    def run(self, dry_run=False, pull_image=True, outdir=None, rm_container=True):
-        if not outdir:
-            if not dry_run:
-                outdir = tempfile.mkdtemp()
-            else:
-                outdir = "/tmp"
-
+    def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         with open(os.path.join(outdir, "cwl.input.json"), "w") as fp:
             json.dump(self.joborder, fp)
 
@@ -134,4 +128,4 @@ def run(self, dry_run=False, pull_image=True, outdir=None, rm_container=True):
         if stdout != sys.stderr:
             stdout.close()
 
-        return (outdir, self.collect_outputs(outdir))
+        self.output_callback(self.collect_outputs(outdir))
diff --git a/cwltool/main.py b/cwltool/main.py
index 50f921cb2..30600d54f 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -11,6 +11,7 @@
 import logging
 import workflow
 import validate
+import tempfile
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
@@ -63,8 +64,13 @@ def main():
         return 1
 
     try:
-        job = t.job(from_url(args.job_order), basedir, use_container=(not args.no_container))
+        final_output = []
+        def output_callback(out):
+            final_output.append(out)
+
+        jobiter = t.job(from_url(args.job_order), basedir, output_callback, use_container=(not args.no_container))
         if args.conformance_test:
+            job = jobiter.next()
             a = {"args": job.command_line}
             if job.stdin:
                 a["stdin"] = job.stdin
@@ -74,9 +80,18 @@ def main():
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
-            (outdir, runjob) = job.run(dry_run=args.dry_run, pull_image=(not args.no_pull), outdir=args.outdir, rm_container=(not args.leave_container))
+            for r in jobiter:
+                if r:
+                    if args.dry_run:
+                        outdir = "/tmp"
+                    elif args.outdir:
+                        outdir = args.outdir
+                    else:
+                        outdir = tempfile.mkdtemp()
+                    r.run(outdir, dry_run=args.dry_run, pull_image=(not args.no_pull), rm_container=(not args.leave_container))
+
             _logger.info("Output directory is %s", outdir)
-            print json.dumps(runjob)
+            print json.dumps(final_output[0])
     except (jsonschema.exceptions.ValidationError, validate.ValidationException):
         _logger.exception("Job order failed validation")
         return 1
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 1126cbcfe..2603015b8 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -10,6 +10,7 @@
 import os
 from collections import namedtuple
 import pprint
+import functools
 
 _logger = logging.getLogger("cwltool")
 
@@ -38,130 +39,130 @@ def makeTool(toolpath_object, basedir):
         raise Exception("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
 
-class WorkflowJob(object):
-    def try_make_job(self, step):
+class Workflow(Process):
+    def __init__(self, toolpath_object):
+        super(Workflow, self).__init__(toolpath_object, "Workflow")
+
+    def receive_output(self, step, outputparms, jobout):
+        _logger.info("Job got output: %s", jobout)
+        for i in outputparms:
+            if "id" in i:
+                if idk(i["id"]) in jobout:
+                    self.state[idk(i["id"])] = WorkflowStateItem(i, jobout[idk(i["id"])])
+                else:
+                    raise Exception("Output is missing expected field %s" % idk(i["id"]))
+        step.completed = True
+
+    def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
         if "scatter" in step.tool:
             inputparms = copy.deepcopy(step.tool["inputs"])
+            outputparms = copy.deepcopy(step.tool["outputs"])
             scatter = aslist(step.tool["scatter"])
             for i in inputparms:
                 if i["id"] in scatter:
                     i["type"] = {"type": "array", "items": i["type"]}
-        else:
-            inputparms = step.tool["inputs"]
 
-        for i in inputparms:
-            _logger.debug(i)
-            if "connect" in i:
-                connect = i["connect"]
-                is_array = isinstance(i["type"], dict) and i["type"]["type"] == "array"
+            if step.tool.get("scatterType") == "nested_crossproduct":
+                nesting = len(aslist(step.tool["scatter"]))
+            else:
+                nesting = 1
 
-                for c in aslist(connect):
-                    src = idk(c["source"])
+            for r in xrange(0, nesting):
+                for i in outputparms:
+                    i["type"] = {"type": "array", "items": i["type"]}
+        else:
+            inputparms = step.tool["inputs"]
+            outputparms = step.tool["outputs"]
+
+        for inp in inputparms:
+            _logger.debug(inp)
+            iid = idk(inp["id"])
+            if "connect" in inp:
+                connections = inp["connect"]
+                is_array = isinstance(inp["type"], dict) and inp["type"]["type"] == "array"
+                for connection in aslist(connections):
+                    src = idk(connection["source"])
                     if src in self.state:
-                        if self.state[src].parameter["type"] == i["type"]:
+                        if self.state[src].parameter["type"] == inp["type"]:
                             # source and input types are the same
-                            if is_array and idk(i["id"]) in inputobj:
-                                # concatenate arrays
-                                inputobj[idk(i["id"])].extend(self.state[src].value)
+                            if is_array and iid in inputobj:
+                                # there's already a value in the input object, so extend the existing array
+                                inputobj[iid].extend(self.state[src].value)
                             else:
-                                # just assign the value from state to input
-                                inputobj[idk(i["id"])] = copy.deepcopy(self.state[src].value)
-                        elif is_array and self.state[src].parameter["type"] == i["type"]["items"]:
+                                # simply assign the value from state to input
+                                inputobj[iid] = copy.deepcopy(self.state[src].value)
+                        elif is_array and self.state[src].parameter["type"] == inp["type"]["items"]:
                             # source type is the item type on the input array
                             # promote single item to array entry
-                            if idk(i["id"]) in inputobj:
-                                inputobj[idk(i["id"])].append(self.state[src][1])
+                            if iid in inputobj:
+                                inputobj[iid].append(self.state[src].value)
                             else:
-                                inputobj[idk(i["id"])] = [self.state[src][1]]
+                                inputobj[iid] = [self.state[src].value]
                         else:
-                            raise Exception("Type mismatch '%s' and '%s'" % (src, i["id"][1:]))
+                            raise Exception("Type mismatch '%s' and '%s'" % (src, inp["id"][1:]))
                     else:
-                        return None
-            elif "default" in i:
-                inputobj[idk(i["id"])] = i["default"]
+                        return
+            elif "default" in inp:
+                inputobj[iid] = inp["default"]
             else:
-                raise Exception("Value for %s not specified" % (i["id"]))
+                raise Exception("Value for %s not specified" % (inp["id"]))
 
         _logger.info("Creating job with input: %s", inputobj)
-        if "scatter" in step.tool:
+
+        callback = functools.partial(self.receive_output, step, outputparms)
+
+        if step.tool.get("scatter"):
             if step.tool.get("scatterType") == "dotproduct" or step.tool.get("scatterType") is None:
-                step = DotProductScatter(step, aslist(step.tool["scatter"]))
+                jobs = dotproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
             elif step.tool.get("scatterType") == "nested_crossproduct":
-                step = NestedCrossProductScatter(step, aslist(step.tool["scatter"]))
+                jobs = nested_rossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
             elif step.tool.get("scatterType") == "flat_crossproduct":
-                step = FlatCrossProductScatter(step, aslist(step.tool["scatter"]))
-        return step.job(inputobj, self.basedir)
+                jobs = flat_crossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, 0, **kwargs)
+        else:
+            jobs = step.job(inputobj, basedir, callback, **kwargs)
+
+        for j in jobs:
+            yield j
 
-    def run(self, outdir=None, **kwargs):
-        for s in self.steps:
+    def job(self, joborder, basedir, output_callback, **kwargs):
+        steps = [makeTool(step, basedir) for step in self.tool.get("steps", [])]
+        random.shuffle(steps)
+
+        self.state = {}
+        for i in self.tool["inputs"]:
+            iid = idk(i["id"])
+            if iid in joborder:
+                self.state[iid] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
+            elif "default" in i:
+                self.state[iid] = WorkflowStateItem(i, copy.deepcopy(i["default"]))
+
+        for s in steps:
             s.completed = False
 
-        run_all = len(self.steps)
-        while run_all:
+        completed = 0
+        while completed < len(steps):
             made_progress = False
-            for s in self.steps:
-                if not s.completed:
-                    job = self.try_make_job(s)
-                    if job:
-                        (joutdir, output) = job.run(outdir=outdir, **kwargs)
-                        for i in s.tool["outputs"]:
-                            _logger.info("Job got output: %s", output)
-                            if "id" in i:
-                                if idk(i["id"]) in output:
-                                    self.state[idk(i["id"])] = WorkflowStateItem(i, output[idk(i["id"])])
-                                else:
-                                    raise Exception("Output is missing expected field %s" % idk(i["id"]))
-                        s.completed = True
-                        made_progress = True
-                        run_all -= 1
+            completed = 0
+            for step in steps:
+                if step.completed:
+                    completed += 1
+                else:
+                    for newjob in self.try_make_job(step, basedir, **kwargs):
+                        if newjob:
+                            made_progress = True
+                            yield newjob
             if not made_progress:
-                raise Exception("Deadlocked")
+                yield None
 
         wo = {}
-        for i in self.outputs:
+        for i in self.tool["outputs"]:
             if "connect" in i:
                 src = idk(i["connect"]["source"])
-                wo[idk(i["id"])] = self.state[src][1]
+                wo[idk(i["id"])] = self.state[src].value
 
-        return (outdir, wo)
-
-
-class Workflow(Process):
-    def __init__(self, toolpath_object):
-        super(Workflow, self).__init__(toolpath_object, "Workflow")
-
-    def job(self, joborder, basedir, use_container=True):
-        wj = WorkflowJob()
-        wj.basedir = basedir
-        wj.steps = [makeTool(s, basedir) for s in self.tool.get("steps", [])]
-        random.shuffle(wj.steps)
-
-        wj.state = {}
-        for i in self.tool["inputs"]:
-            iid = idk(i["id"])
-            if iid in joborder:
-                wj.state[iid] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
-            elif "default" in i:
-                wj.state[iid] = WorkflowStateItem(i, copy.deepcopy(i["default"]))
-        wj.outputs = self.tool["outputs"]
-        return wj
-
-class ExternalJob(object):
-    def __init__(self, tool, innerjob):
-        self.tool = tool
-        self.innerjob = innerjob
-
-    def run(self, **kwargs):
-        self.impl = self.tool["impl"]
-        (outdir, output) = self.innerjob.run(**kwargs)
-        for i in self.tool["outputs"]:
-            d = i["def"][len(self.impl)+1:]
-            output[idk(i["id"])] = output[d]
-            del output[d]
-
-        return (outdir, output)
+        output_callback(wo)
 
 class External(Process):
     def __init__(self, toolpath_object, basedir):
@@ -201,55 +202,133 @@ def __init__(self, toolpath_object, basedir):
 
         super(External, self).__init__(toolpath_object, "Process")
 
-    def job(self, joborder, basedir, **kwargs):
+    def receive_output(self, jobout):
+        self.output  = {}
+        for i in self.tool["outputs"]:
+            if i["def"][:len(self.impl)] != self.impl:
+                raise Exception("'def' is '%s' but must refer to fragment of resource '%s' listed in 'impl'" % (i["def"], self.impl))
+            d = idk(i["def"][len(self.impl):])
+            self.output[idk(i["id"])] = jobout[d]
+
+    def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["inputs"]:
             d = i["def"][len(self.impl)+1:]
             joborder[d] = joborder[idk(i["id"])]
             del joborder[idk(i["id"])]
 
-        return ExternalJob(self.tool, self.embedded_tool.job(joborder, basedir, **kwargs))
-
-class ScatterJob(object):
-    def __init__(self, outputports, jobs):
-        self.outputports = outputports
-        self.jobs = jobs
-
-    def run(self, **kwargs):
-        outputs = {}
-        for outschema in self.outputports:
-            outputs[idk(outschema["id"])] = []
-        for j in self.jobs:
-            (_, out) = j.run(**kwargs)
-            for outschema in self.outputports:
-                outputs[idk(outschema["id"])].append(out[idk(outschema["id"])])
-        return (None, outputs)
-
-class DotProductScatter(object):
-    def __init__(self, process, scatter_keys):
-        self.process = process
-        self.scatter_keys = scatter_keys
-
-        self.outputports = []
-        for out in self.process.tool["outputs"]:
-            newout = copy.deepcopy(out)
-            newout["type"] = {"type": "array", "items": out["type"]}
-            self.outputports.append(newout)
-        self.tool = {"outputs": self.outputports}
-
-    def job(self, joborder, basedir, **kwargs):
-        jobs = []
-
-        l = None
-        for s in self.scatter_keys:
-            if l is None:
-                l = len(joborder[idk(s)])
-            elif l != len(joborder[idk(s)]):
-                raise Exception("Length of input arrays must be equal when performing dotproduct scatter.")
-
-        for i in range(0, l):
+        self.output = None
+        for t in self.embedded_tool.job(joborder, basedir, self.receive_output, **kwargs):
+            yield t
+
+        while self.output is None:
+            yield None
+
+        output_callback(self.output)
+
+
+class ReceiveScatterOutput(object):
+    def __init__(self, dest):
+        self.dest = dest
+        self.completed = 0
+
+    def receive_scatter_output(self, index, jobout):
+        for k,v in jobout.items():
+            self.dest[k][index] = v
+        self.completed += 1
+
+def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
+    l = None
+    for s in scatter_keys:
+        if l is None:
+            l = len(joborder[idk(s)])
+        elif l != len(joborder[idk(s)]):
+            raise Exception("Length of input arrays must be equal when performing dotproduct scatter.")
+
+    output = {}
+    for i in process.tool["outputs"]:
+        output[idk(i["id"])] = [None] * l
+
+    rc = ReceiveScatterOutput(output)
+
+    for n in range(0, l):
+        jo = copy.copy(joborder)
+        for s in scatter_keys:
+            jo[idk(s)] = joborder[idk(s)][n]
+
+        for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, n), **kwargs):
+            yield j
+
+    while rc.completed < l:
+        yield None
+
+    output_callback(output)
+
+
+def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
+    scatter_key = idk(scatter_keys[0])
+    l = len(joborder[scatter_key])
+    output = {}
+    for i in process["outputs"]:
+        output[idk(i["id"])] = [None] * l
+
+    rc = ReceiveScatterOutput(output)
+
+    for n in range(0, l):
+        jo = copy.copy(joborder)
+        jo[scatter_key] = joborder[scatter_key][n]
+
+        if len(scatter_keys) == 1:
+            for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, n), **kwargs):
+               yield j
+        else:
+            for j in nested_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], functools.partial(rc.receive_scatter_output, n)):
+               yield j
+
+    while rc.completed < l:
+        yield None
+
+    output_callback(output)
+
+def crossproduct_size(joborder, scatter_keys):
+    scatter_key = idk(scatter_keys[0])
+    if len(scatter_keys) == 1:
+        sum = len(joborder[scatter_key])
+    else:
+        sum = 0
+        for n in range(0, l):
             jo = copy.copy(joborder)
-            for s in self.scatter_keys:
-                jo[idk(s)] = joborder[idk(s)][i]
-            jobs.append(self.process.job(jo, basedir, **kwargs))
+            jo[scatter_key] = joborder[scatter_key][n]
+            sum += crossproduct_size(joborder, scatter_keys[1:])
+    return sum
+
+def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, startindex, **kwargs):
+    scatter_key = idk(scatter_keys[0])
+    l = len(joborder[scatter_key])
+
+    if startindex == 0:
+        output = {}
+        for i in process["outputs"]:
+            output[idk(i["id"])] = [None] * crossproduct_size(joborder, scatter_keys)
+        rc = ReceiveScatterOutput(output)
+    else:
+        rc = output_callback
+
+    put = startindex
+    for n in range(0, l):
+        jo = copy.copy(joborder)
+        jo[scatter_key] = joborder[scatter_key][n]
+
+        if len(scatter_keys) == 1:
+            for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, put), **kwargs):
+                yield j
+            put += 1
+        else:
+            for j in flat_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], functools.partial(rc.receive_scatter_output, put)):
+                put += 1
+                yield j
+
+    if startindex == 0:
+        while rc.completed < put:
+            yield None
 
-        return ScatterJob(self.outputports, jobs)
+        output_callback(output)

From 1b9e6f580a1dd8ba92bf9f9fbed41faa13c1536c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 9 Apr 2015 15:26:51 -0400
Subject: [PATCH 070/221] Move "examples" to "conformance" since they are
 really test cases.  Add tests for scatter/gather methods.

---
 cwltool/draft2tool.py |  2 ++
 cwltool/main.py       | 27 +++++++++++++---
 cwltool/validate.py   | 16 ++++++++--
 cwltool/workflow.py   | 73 +++++++++++++++++++++++++++----------------
 4 files changed, 84 insertions(+), 34 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 21507ca58..41a0d8bb7 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -359,6 +359,8 @@ def collect_output(self, schema, builder, outdir):
                     r = r[0] if r else None
                 elif binding.get("loadContents"):
                     r = [v["contents"] for v in r]
+                    if len(r) == 1:
+                        r = r[0]
                 else:
                     r = None
 
diff --git a/cwltool/main.py b/cwltool/main.py
index 30600d54f..a35ee5139 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -59,8 +59,15 @@ def main():
 
     try:
         t = workflow.makeTool(from_url(args.workflow), basedir)
-    except (jsonschema.exceptions.ValidationError, validate.ValidationException):
-        _logger.exception("Tool definition failed validation")
+    except (jsonschema.exceptions.ValidationError, validate.ValidationException) as e:
+        _logger.error("Tool definition failed validation:\n%s" % e)
+        if args.debug:
+            _logger.exception()
+        return 1
+    except RuntimeError as e:
+        _logger.error(e)
+        if args.debug:
+            _logger.exception()
         return 1
 
     try:
@@ -80,6 +87,7 @@ def output_callback(out):
                 a["generatefiles"] = job.generatefiles
             print json.dumps(a)
         else:
+            last = None
             for r in jobiter:
                 if r:
                     if args.dry_run:
@@ -89,11 +97,22 @@ def output_callback(out):
                     else:
                         outdir = tempfile.mkdtemp()
                     r.run(outdir, dry_run=args.dry_run, pull_image=(not args.no_pull), rm_container=(not args.leave_container))
+                else:
+                    print "Workflow deadlocked."
+                    return 1
+                last = r
 
             _logger.info("Output directory is %s", outdir)
             print json.dumps(final_output[0])
-    except (jsonschema.exceptions.ValidationError, validate.ValidationException):
-        _logger.exception("Job order failed validation")
+    except (jsonschema.exceptions.ValidationError, validate.ValidationException) as e:
+        _logger.error("Input object failed validation:\n%s" % e)
+        if args.debug:
+            _logger.exception()
+        return 1
+    except workflow.WorkflowException as e:
+        _logger.error("Workflow error:\n%s" % e)
+        if args.debug:
+            _logger.exception()
         return 1
 
     return 0
diff --git a/cwltool/validate.py b/cwltool/validate.py
index dbb589733..91a8c72a3 100644
--- a/cwltool/validate.py
+++ b/cwltool/validate.py
@@ -14,9 +14,13 @@ def validate(expected_schema, datum):
 LONG_MIN_VALUE = -(1 << 63)
 LONG_MAX_VALUE = (1 << 63) - 1
 
+def indent(v):
+    return "\n".join(["  " + l for l in v.splitlines()])
+
 def validate_ex(expected_schema, datum):
     """Determine if a python datum is an instance of a schema."""
     schema_type = expected_schema.type
+
     if schema_type == 'null':
         if datum is None:
             return True
@@ -74,7 +78,7 @@ def validate_ex(expected_schema, datum):
                     raise ValidationException("%s\n while validating item at position %i `%s`" % (v, i, d))
             return True
         else:
-            raise ValidationException("`%s`\n is not a list, expected list of\n %s" % (pprint.pformat(datum), expected_schema.items))
+            raise ValidationException("`%s` is not a list, expected list of %s" % (pprint.pformat(datum), expected_schema.items))
     elif schema_type == 'map':
         if (isinstance(datum, dict) and
             False not in [isinstance(k, basestring) for k in datum.keys()] and
@@ -98,8 +102,14 @@ def validate_ex(expected_schema, datum):
             raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
         try:
             for f in expected_schema.fields:
-                validate_ex(f.type, datum.get(f.name))
+                try:
+                    validate_ex(f.type, datum.get(f.name))
+                except ValidationException as v:
+                    if f.name not in datum:
+                        raise ValidationException("Missing required field `%s`" % f.name)
+                    else:
+                        raise
             return True
         except ValidationException as v:
-            raise ValidationException("%s\n while validating field `%s`" % (v, f.name))
+            raise ValidationException("Validating field `%s`:\n%s" % (f.name, indent(str(v))))
     raise ValidationException("Unrecognized schema_type %s" % schema_type)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 2603015b8..c795dcb57 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -11,16 +11,20 @@
 from collections import namedtuple
 import pprint
 import functools
+import validate
 
 _logger = logging.getLogger("cwltool")
 
 WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
 
+class WorkflowException(Exception):
+    pass
+
 def idk(key):
     if len(key) <= 1:
-        raise Exception("Identifier is too short")
+        raise WorkflowException("Identifier is too short")
     if key[0] != '#':
-        raise Exception("Must start with #")
+        raise WorkflowException("Must start with #")
     return key[1:]
 
 def makeTool(toolpath_object, basedir):
@@ -36,7 +40,7 @@ def makeTool(toolpath_object, basedir):
         elif toolpath_object["class"] == "Workflow":
             return Workflow(toolpath_object)
     else:
-        raise Exception("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
+        raise WorkflowException("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
 
 class Workflow(Process):
@@ -50,7 +54,7 @@ def receive_output(self, step, outputparms, jobout):
                 if idk(i["id"]) in jobout:
                     self.state[idk(i["id"])] = WorkflowStateItem(i, jobout[idk(i["id"])])
                 else:
-                    raise Exception("Output is missing expected field %s" % idk(i["id"]))
+                    raise WorkflowException("Output is missing expected field %s" % idk(i["id"]))
         step.completed = True
 
     def try_make_job(self, step, basedir, **kwargs):
@@ -60,11 +64,15 @@ def try_make_job(self, step, basedir, **kwargs):
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])
             scatter = aslist(step.tool["scatter"])
-            for i in inputparms:
-                if i["id"] in scatter:
-                    i["type"] = {"type": "array", "items": i["type"]}
 
-            if step.tool.get("scatterType") == "nested_crossproduct":
+            inp_map = {i["id"]: i for i in inputparms}
+            for s in aslist(step.tool["scatter"]):
+                if s not in inp_map:
+                    raise WorkflowException("Invalid Scatter parameter '%s'" % s)
+
+                inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
+
+            if step.tool.get("scatterMethod") == "nested_crossproduct":
                 nesting = len(aslist(step.tool["scatter"]))
             else:
                 nesting = 1
@@ -101,24 +109,28 @@ def try_make_job(self, step, basedir, **kwargs):
                             else:
                                 inputobj[iid] = [self.state[src].value]
                         else:
-                            raise Exception("Type mismatch '%s' and '%s'" % (src, inp["id"][1:]))
+                            raise WorkflowException("Type mismatch between '%s' (%s) and '%s' (%s)" % (src, self.state[src].parameter["type"], idk(inp["id"]), inp["type"]))
                     else:
-                        return
+                        raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % ())
             elif "default" in inp:
                 inputobj[iid] = inp["default"]
             else:
-                raise Exception("Value for %s not specified" % (inp["id"]))
+                raise WorkflowException("Value for %s not specified" % (inp["id"]))
 
         _logger.info("Creating job with input: %s", inputobj)
 
         callback = functools.partial(self.receive_output, step, outputparms)
 
         if step.tool.get("scatter"):
-            if step.tool.get("scatterType") == "dotproduct" or step.tool.get("scatterType") is None:
+            method = step.tool.get("scatterMethod")
+            if method is None and len(aslist(step.tool["scatter"])) != 1:
+                raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
+
+            if method == "dotproduct" or method is None:
                 jobs = dotproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
-            elif step.tool.get("scatterType") == "nested_crossproduct":
-                jobs = nested_rossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
-            elif step.tool.get("scatterType") == "flat_crossproduct":
+            elif method == "nested_crossproduct":
+                jobs = nested_crossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
+            elif method == "flat_crossproduct":
                 jobs = flat_crossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, 0, **kwargs)
         else:
             jobs = step.job(inputobj, basedir, callback, **kwargs)
@@ -127,6 +139,9 @@ def try_make_job(self, step, basedir, **kwargs):
             yield j
 
     def job(self, joborder, basedir, output_callback, **kwargs):
+        # Validate job order
+        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+
         steps = [makeTool(step, basedir) for step in self.tool.get("steps", [])]
         random.shuffle(steps)
 
@@ -137,8 +152,12 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                 self.state[iid] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
             elif "default" in i:
                 self.state[iid] = WorkflowStateItem(i, copy.deepcopy(i["default"]))
+            else:
+                raise WorkflowException("Input '%s' not in input object and does not have a default value." % (i["id"]))
 
         for s in steps:
+            for out in s.tool["outputs"]:
+                self.state[idk(out["id"])] = None
             s.completed = False
 
         completed = 0
@@ -153,7 +172,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                         if newjob:
                             made_progress = True
                             yield newjob
-            if not made_progress:
+            if not made_progress and completed < len(steps):
                 yield None
 
         wo = {}
@@ -183,7 +202,7 @@ def __init__(self, toolpath_object, basedir):
                     i.update(a)
                     found = True
             if not found:
-                raise Exception("Did not find input '%s' in external process" % (i["def"]))
+                raise WorkflowException("Did not find input '%s' in external process" % (i["def"]))
 
             i["id"] = toolid
 
@@ -196,7 +215,7 @@ def __init__(self, toolpath_object, basedir):
                     i.update(a)
                     found = True
             if not found:
-                raise Exception("Did not find output '%s' in external process" % (i["def"]))
+                raise WorkflowException("Did not find output '%s' in external process" % (i["def"]))
 
             i["id"] = toolid
 
@@ -206,7 +225,7 @@ def receive_output(self, jobout):
         self.output  = {}
         for i in self.tool["outputs"]:
             if i["def"][:len(self.impl)] != self.impl:
-                raise Exception("'def' is '%s' but must refer to fragment of resource '%s' listed in 'impl'" % (i["def"], self.impl))
+                raise WorkflowException("'def' is '%s' but must refer to fragment of resource '%s' listed in 'impl'" % (i["def"], self.impl))
             d = idk(i["def"][len(self.impl):])
             self.output[idk(i["id"])] = jobout[d]
 
@@ -242,7 +261,7 @@ def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback
         if l is None:
             l = len(joborder[idk(s)])
         elif l != len(joborder[idk(s)]):
-            raise Exception("Length of input arrays must be equal when performing dotproduct scatter.")
+            raise WorkflowException("Length of input arrays must be equal when performing dotproduct scatter.")
 
     output = {}
     for i in process.tool["outputs"]:
@@ -268,7 +287,7 @@ def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output
     scatter_key = idk(scatter_keys[0])
     l = len(joborder[scatter_key])
     output = {}
-    for i in process["outputs"]:
+    for i in process.tool["outputs"]:
         output[idk(i["id"])] = [None] * l
 
     rc = ReceiveScatterOutput(output)
@@ -281,7 +300,7 @@ def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output
             for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, n), **kwargs):
                yield j
         else:
-            for j in nested_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], functools.partial(rc.receive_scatter_output, n)):
+            for j in nested_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], functools.partial(rc.receive_scatter_output, n), **kwargs):
                yield j
 
     while rc.completed < l:
@@ -295,7 +314,7 @@ def crossproduct_size(joborder, scatter_keys):
         sum = len(joborder[scatter_key])
     else:
         sum = 0
-        for n in range(0, l):
+        for n in range(0, len(joborder[scatter_key])):
             jo = copy.copy(joborder)
             jo[scatter_key] = joborder[scatter_key][n]
             sum += crossproduct_size(joborder, scatter_keys[1:])
@@ -305,9 +324,9 @@ def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_c
     scatter_key = idk(scatter_keys[0])
     l = len(joborder[scatter_key])
 
-    if startindex == 0:
+    if startindex == 0 and not isinstance(output_callback, ReceiveScatterOutput):
         output = {}
-        for i in process["outputs"]:
+        for i in process.tool["outputs"]:
             output[idk(i["id"])] = [None] * crossproduct_size(joborder, scatter_keys)
         rc = ReceiveScatterOutput(output)
     else:
@@ -323,11 +342,11 @@ def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_c
                 yield j
             put += 1
         else:
-            for j in flat_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], functools.partial(rc.receive_scatter_output, put)):
+            for j in flat_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], rc, put, **kwargs):
                 put += 1
                 yield j
 
-    if startindex == 0:
+    if startindex == 0 and not isinstance(output_callback, ReceiveScatterOutput):
         while rc.completed < put:
             yield None
 

From 65f3232387646d82c0e040dfd74cc6577c1335b1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 9 Apr 2015 17:17:51 -0400
Subject: [PATCH 071/221] Propagate requirements and hints.  Greatly improve
 validation error messages.

---
 cwltool/draft2tool.py | 30 ++++++++---------------
 cwltool/job.py        |  1 +
 cwltool/process.py    |  3 +++
 cwltool/validate.py   | 56 ++++++++++++++++++++++++++++++-------------
 cwltool/workflow.py   | 14 +++++++----
 5 files changed, 63 insertions(+), 41 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 41a0d8bb7..37c1d58d5 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -14,6 +14,7 @@
 import hashlib
 import random
 from process import Process
+from process import WorkflowException
 import validate
 
 _logger = logging.getLogger("cwltool")
@@ -22,6 +23,8 @@
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
+supportedProcessRequirements = ("DockerRequirement", "MemoryRequirement", "ExpressionEngineRequirement")
+
 class Builder(object):
     def jseval(self, expression, context):
         if isinstance(expression, list):
@@ -283,28 +286,15 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         for t in self.tool.get("environmentDefs", []):
             j.environment[t["env"]] = builder.do_eval(t["value"])
 
-        for r in self.tool.get("requirements", []):
-            if r["class"] not in ("DockerRequirement", "MemoryRequirement"):
-                raise Exception("Unknown requirement %s" % (r["class"]))
+        j.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        j.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+
+        for r in j.requirements:
+            if r["class"] not in supportedProcessRequirements:
+                raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
 
-        reqsAndHints = self.tool.get("requirements", []) + self.tool.get("hints", [])
-        for r in reqsAndHints:
+        for r in (j.requirements + j.hints):
             if r["class"] == "DockerRequirement" and use_container:
-                j.container = {}
-                j.container["type"] = "docker"
-                if "dockerPull" in r:
-                    j.container["pull"] = r["dockerPull"]
-                if "dockerFile" in r:
-                    j.container["file"] = r["dockerFile"]
-                if "dockerLoad" in r:
-                    if r["dockerLoad"].startswith("http"):
-                        j.container["load"] = r["dockerLoad"]
-                    else:
-                        j.container["load"] = os.path.join(basedir, r["dockerLoad"])
-                if "dockerImageId" in r:
-                    j.container["imageId"] = r["dockerImageId"]
-                else:
-                    j.container["imageId"] = r["dockerPull"]
                 builder.pathmapper = DockerPathMapper(reffiles, basedir)
 
         if builder.pathmapper is None:
diff --git a/cwltool/job.py b/cwltool/job.py
index ba5f93292..17ac16756 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -12,6 +12,7 @@
 
 class CommandLineJob(object):
     def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
+
         with open(os.path.join(outdir, "cwl.input.json"), "w") as fp:
             json.dump(self.joborder, fp)
 
diff --git a/cwltool/process.py b/cwltool/process.py
index 9e9da8b03..cacda56af 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -13,6 +13,9 @@
 
 _logger = logging.getLogger("cwltool")
 
+class WorkflowException(Exception):
+    pass
+
 def specialize(items, spec):
     if isinstance(items, dict):
         for n in ("type", "items", "values"):
diff --git a/cwltool/validate.py b/cwltool/validate.py
index 91a8c72a3..3a1f6266a 100644
--- a/cwltool/validate.py
+++ b/cwltool/validate.py
@@ -1,4 +1,5 @@
 import pprint
+import avro.schema
 
 class ValidationException(Exception):
     pass
@@ -14,8 +15,29 @@ def validate(expected_schema, datum):
 LONG_MIN_VALUE = -(1 << 63)
 LONG_MAX_VALUE = (1 << 63) - 1
 
-def indent(v):
-    return "\n".join(["  " + l for l in v.splitlines()])
+def indent(v, nolead=False):
+    if nolead:
+        return v.splitlines()[0] + "\n".join(["  " + l for l in v.splitlines()[1:]])
+    else:
+        return "\n".join(["  " + l for l in v.splitlines()])
+
+def friendly(v):
+    if isinstance(v, avro.schema.NamedSchema):
+        return v.name
+    if isinstance(v, avro.schema.ArraySchema):
+        return "array of <%s>" % friendly(v.items)
+    elif isinstance(v, avro.schema.PrimitiveSchema):
+        return v.type
+    elif isinstance(v, avro.schema.UnionSchema):
+        return " or ".join([friendly(s) for s in v.schemas])
+    else:
+        return v
+
+def multi(v, q=""):
+    if '\n' in v:
+        return "%s%s%s\n" % (q, v, q)
+    else:
+        return "%s%s%s" % (q, v, q)
 
 def validate_ex(expected_schema, datum):
     """Determine if a python datum is an instance of a schema."""
@@ -25,60 +47,60 @@ def validate_ex(expected_schema, datum):
         if datum is None:
             return True
         else:
-            raise ValidationException("`%s` is not null" % datum)
+            raise ValidationException("the value `%s` is not null" % pprint.pformat(datum))
     elif schema_type == 'boolean':
         if isinstance(datum, bool):
             return True
         else:
-            raise ValidationException("`%s` is not boolean" % datum)
+            raise ValidationException("the value `%s` is not boolean" % pprint.pformat(datum))
     elif schema_type == 'string':
         if isinstance(datum, basestring):
             return True
         else:
-            raise ValidationException("`%s` is not string" % datum)
+            raise ValidationException("the value `%s` is not string" % pprint.pformat(datum))
     elif schema_type == 'bytes':
         if isinstance(datum, str):
             return True
         else:
-            raise ValidationException("`%s` is not bytes" % datum)
+            raise ValidationException("the value `%s` is not bytes" % pprint.pformat(datum))
     elif schema_type == 'int':
         if ((isinstance(datum, int) or isinstance(datum, long))
             and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
             return True
         else:
-            raise ValidationException("`%s` is not int" % datum)
+            raise ValidationException("`%s` is not int" % pprint.pformat(datum))
     elif schema_type == 'long':
         if ((isinstance(datum, int) or isinstance(datum, long))
             and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
             return True
         else:
-            raise ValidationException("`%s` is not long" % datum)
+            raise ValidationException("the value `%s` is not long" % pprint.pformat(datum))
     elif schema_type in ['float', 'double']:
         if (isinstance(datum, int) or isinstance(datum, long)
             or isinstance(datum, float)):
             return True
         else:
-            raise ValidationException("`%s` is not float or double" % datum)
+            raise ValidationException("the value `%s` is not float or double" % pprint.pformat(datum))
     elif schema_type == 'fixed':
         if isinstance(datum, str) and len(datum) == expected_schema.size:
             return True
         else:
-            raise ValidationException("`%s` is not fixed" % datum)
+            raise ValidationException("the value `%s` is not fixed" % pprint.pformat(datum))
     elif schema_type == 'enum':
         if datum in expected_schema.symbols:
             return True
         else:
-            raise ValidationException("`%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
+            raise ValidationException("the value `%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
     elif schema_type == 'array':
         if isinstance(datum, list):
             for i, d in enumerate(datum):
                 try:
                     validate_ex(expected_schema.items, d)
                 except ValidationException as v:
-                    raise ValidationException("%s\n while validating item at position %i `%s`" % (v, i, d))
+                    raise ValidationException("At position %i\n%s" % (i, indent(str(v))))
             return True
         else:
-            raise ValidationException("`%s` is not a list, expected list of %s" % (pprint.pformat(datum), expected_schema.items))
+            raise ValidationException("the value `%s` is not a list, expected list of %s" % (pprint.pformat(datum), expected_schema.items))
     elif schema_type == 'map':
         if (isinstance(datum, dict) and
             False not in [isinstance(k, basestring) for k in datum.keys()] and
@@ -96,7 +118,9 @@ def validate_ex(expected_schema, datum):
                     validate_ex(s, datum)
                 except ValidationException as e:
                     errors.append(str(e))
-            raise ValidationException("`%s`\n is not valid, expected one of:\n\n%s\n\n the individual errors are:\n%s" % (pprint.pformat(datum), ",\n\n  ".join([str(s) for s in expected_schema.schemas]), ";\n\n".join(errors)))
+            raise ValidationException("the value %s is not a valid type in the union, expected one of:\n%s" % (multi(pprint.pformat(datum), '`'),
+                                                                                     "\n".join(["- %s, but\n %s" % (friendly(expected_schema.schemas[i]), indent(multi(errors[i]))) for i in range(0, len(expected_schema.schemas))])))
+
     elif schema_type in ['record', 'error', 'request']:
         if not isinstance(datum, dict):
             raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
@@ -106,10 +130,10 @@ def validate_ex(expected_schema, datum):
                     validate_ex(f.type, datum.get(f.name))
                 except ValidationException as v:
                     if f.name not in datum:
-                        raise ValidationException("Missing required field `%s`" % f.name)
+                        raise ValidationException("missing required field `%s`" % f.name)
                     else:
                         raise
             return True
         except ValidationException as v:
-            raise ValidationException("Validating field `%s`:\n%s" % (f.name, indent(str(v))))
+            raise ValidationException("could not validate field `%s` because\n%s" % (f.name, multi(indent(str(v)))))
     raise ValidationException("Unrecognized schema_type %s" % schema_type)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index c795dcb57..42d215dfc 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -3,6 +3,7 @@
 import draft2tool
 from draft2tool import aslist
 from process import Process
+from process import WorkflowException
 import copy
 import logging
 import random
@@ -17,9 +18,6 @@
 
 WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
 
-class WorkflowException(Exception):
-    pass
-
 def idk(key):
     if len(key) <= 1:
         raise WorkflowException("Identifier is too short")
@@ -142,6 +140,9 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         # Validate job order
         validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
 
+        requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+
         steps = [makeTool(step, basedir) for step in self.tool.get("steps", [])]
         random.shuffle(steps)
 
@@ -168,7 +169,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                 if step.completed:
                     completed += 1
                 else:
-                    for newjob in self.try_make_job(step, basedir, **kwargs):
+                    for newjob in self.try_make_job(step, basedir, requirements=requirements, hints=hints, **kwargs):
                         if newjob:
                             made_progress = True
                             yield newjob
@@ -235,8 +236,11 @@ def job(self, joborder, basedir, output_callback, **kwargs):
             joborder[d] = joborder[idk(i["id"])]
             del joborder[idk(i["id"])]
 
+        requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+
         self.output = None
-        for t in self.embedded_tool.job(joborder, basedir, self.receive_output, **kwargs):
+        for t in self.embedded_tool.job(joborder, basedir, self.receive_output, requirements=requirements, hints=hints, **kwargs):
             yield t
 
         while self.output is None:

From e73f3c3a3cce00c6f07bdf4f81118bde80a44f64 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sat, 11 Apr 2015 23:00:10 -0400
Subject: [PATCH 072/221] Pluggable expression engine work in progress.

---
 cwltool/aslist.py     |  5 +++
 cwltool/docker.py     | 67 ++++++++++++++++++++++++++++++++++++++
 cwltool/draft2tool.py |  8 +----
 cwltool/expression.py | 34 +++++++++++++++++++
 cwltool/job.py        | 76 +++++++++----------------------------------
 cwltool/workflow.py   |  2 +-
 6 files changed, 123 insertions(+), 69 deletions(-)
 create mode 100644 cwltool/aslist.py
 create mode 100644 cwltool/docker.py
 create mode 100644 cwltool/expression.py

diff --git a/cwltool/aslist.py b/cwltool/aslist.py
new file mode 100644
index 000000000..f34a0485b
--- /dev/null
+++ b/cwltool/aslist.py
@@ -0,0 +1,5 @@
+def aslist(l):
+    if isinstance(l, list):
+        return l
+    else:
+        return [l]
diff --git a/cwltool/docker.py b/cwltool/docker.py
new file mode 100644
index 000000000..7d6bcbc9b
--- /dev/null
+++ b/cwltool/docker.py
@@ -0,0 +1,67 @@
+import subprocess
+
+def get_image(dockerRequirement, pull_image):
+    found = False
+    for ln in subprocess.check_output(["docker", "images", "--no-trunc", "--all"]).splitlines():
+        try:
+            ln.index(dockerRequirement["dockerImageId"])
+            found = True
+        except ValueError:
+            pass
+
+    if not found and pull_image:
+        if "dockerPull" in dockerRequirement:
+            cmd = ["docker", "pull", dockerRequirement["dockerPull"]]
+            _logger.info(str(cmd))
+            if not dry_run:
+                subprocess.check_call(cmd, stdout=sys.stderr)
+                found = True
+        elif "dockerFile" in dockerRequirement:
+            dockerfile_dir = tempfile.mkdtemp()
+            with open(os.path.join(dockerfile_dir, "Dockerfile"), "w") as df:
+                df.write(dockerRequirement["dockerFile"])
+            cmd = ["docker", "build", "--tag=%s" % dockerRequirement["dockerImageId"], dockerfile_dir]
+            _logger.info(str(cmd))
+            if not dry_run:
+                subprocess.check_call(cmd, stdout=sys.stderr)
+                found = True
+        elif "dockerLoad" in dockerRequirement:
+            cmd = ["docker", "load"]
+            _logger.info(str(cmd))
+            if not dry_run:
+                if os.path.exists(dockerRequirement["dockerLoad"]):
+                    _logger.info("Loading docker image from %s", dockerRequirement["dockerLoad"])
+                    with open(dockerRequirement["dockerLoad"], "rb") as f:
+                        loadproc = subprocess.Popen(cmd, stdin=f, stdout=sys.stderr)
+                else:
+                    _logger.info("Sending GET request to %s", dockerRequirement["dockerLoad"])
+                    req = requests.get(dockerRequirement["dockerLoad"], stream=True)
+                    n = 0
+                    for chunk in req.iter_content(1024*1024):
+                        n += len(chunk)
+                        _logger.info(str(n))
+                        loadproc.stdin.write(chunk)
+                    loadproc.stdin.close()
+                rcode = loadproc.wait()
+                if rcode != 0:
+                    raise Exception("Docker load returned non-zero exit status %i" % (rcode))
+                found = True
+
+    return found
+
+
+def get_from_requirements(requirements, hints, pull_image):
+    if requirements:
+        for r in reversed(requirements):
+            if r["class"] == "DockerRequirement":
+                if docker.get_image(r, pull_image):
+                    return r["dockerImageId"]
+                else:
+                    raise Exception("Docker image %s not found" % (self.container["imageId"]))
+    if hints:
+        for r in reversed(hints):
+            if r["class"] == "DockerRequirement":
+                if docker.get_image(r, pull_image):
+                    return r["dockerImageId"]
+
+    return None
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 37c1d58d5..2ad3d70cc 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -16,6 +16,7 @@
 from process import Process
 from process import WorkflowException
 import validate
+from aslist import aslist
 
 _logger = logging.getLogger("cwltool")
 
@@ -206,12 +207,6 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         j.output_callback = output_callback
         yield j
 
-def aslist(l):
-    if isinstance(l, list):
-        return l
-    else:
-        return [l]
-
 class CommandLineTool(Tool):
     def __init__(self, toolpath_object):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool")
@@ -252,7 +247,6 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
 
         j = CommandLineJob()
         j.joborder = builder.job
-        j.container = None
         j.stdin = None
         j.stdout = None
         builder.pathmapper = None
diff --git a/cwltool/expression.py b/cwltool/expression.py
new file mode 100644
index 000000000..510e31c11
--- /dev/null
+++ b/cwltool/expression.py
@@ -0,0 +1,34 @@
+import docker
+import subprocess
+import json
+
+def exeval(ex, jobinput, requirements, context, pull_image):
+    for r in reversed(requirements):
+        if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
+            runtime = []
+            img_id = docker.get_from_requirements(r.get("requirements"), r.get("hints"), pull_image)
+            if img_id:
+                runtime = ["docker", "run", "-i", "--rm", img_id]
+
+            sp = subprocess.Popen(runtime + aslist(r["engineCommand"]),
+                             shell=False,
+                             close_fds=True,
+                             stdin=subprocess.PIPE,
+                             stdout=subprocess.PIPE)
+
+            inp = {
+                "script": ex["script"],
+                "expressionDefs": r.get("expressionDefs"),
+                "job": jobinput,
+                "context": context
+            }
+
+            (stdoutdata, stderrdata) = sp.communicate(json.dumps(inp))
+
+    raise WorkflowException("Unknown expression engine '%s'" % ex["engine"])
+
+def do_eval(self, ex, jobinput, requirements, context=None, pull_image=True):
+    if isinstance(ex, dict) and "engine" in ex and "script" in ex:
+        return exeval(ex, jobinput, requirements, context)
+    else:
+        return ex
diff --git a/cwltool/job.py b/cwltool/job.py
index 17ac16756..751d8fa50 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -7,6 +7,7 @@
 import logging
 import sys
 import requests
+import docker
 
 _logger = logging.getLogger("cwltool")
 
@@ -19,67 +20,20 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         runtime = []
         env = {}
 
-        if self.container and self.container.get("type") == "docker":
-            found = False
-            for ln in subprocess.check_output(["docker", "images", "--no-trunc", "--all"]).splitlines():
-                try:
-                    ln.index(self.container["imageId"])
-                    found = True
-                except ValueError:
-                    pass
-
-            if not found and pull_image:
-                if "file" in self.container:
-                    dockerfile_dir = tempfile.mkdtemp()
-                    with open(os.path.join(dockerfile_dir, "Dockerfile"), "w") as df:
-                        df.write(self.container["file"])
-                    cmd = ["docker", "build", "--tag=%s" % self.container["imageId"], dockerfile_dir]
-                    _logger.info(str(cmd))
-                    if not dry_run:
-                        subprocess.check_call(cmd, stdout=sys.stderr)
-                        found = True
-                if "pull" in self.container:
-                    cmd = ["docker", "pull", self.container["pull"]]
-                    _logger.info(str(cmd))
-                    if not dry_run:
-                        subprocess.check_call(cmd, stdout=sys.stderr)
-                        found = True
-                elif "load" in self.container:
-                    cmd = ["docker", "load"]
-                    _logger.info(str(cmd))
-                    if not dry_run:
-                        if os.path.exists(self.container["load"]):
-                            _logger.info("Loading docker image from %s", self.container["load"])
-                            with open(self.container["load"], "rb") as f:
-                                loadproc = subprocess.Popen(cmd, stdin=f, stdout=sys.stderr)
-                        else:
-                            _logger.info("Sending GET request to %s", self.container["load"])
-                            req = requests.get(self.container["load"], stream=True)
-                            n = 0
-                            for chunk in req.iter_content(1024*1024):
-                                n += len(chunk)
-                                _logger.info(str(n))
-                                loadproc.stdin.write(chunk)
-                            loadproc.stdin.close()
-                        rcode = loadproc.wait()
-                        if rcode != 0:
-                            raise Exception("Docker load returned non-zero exit status %i" % (rcode))
-                        found = True
-
-            if found:
-                runtime = ["docker", "run", "-i"]
-                for d in self.pathmapper.dirs:
-                    runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
-                runtime.append("--volume=%s:%s:rw" % (os.path.abspath(outdir), "/tmp/job_output"))
-                runtime.append("--workdir=%s" % ("/tmp/job_output"))
-                runtime.append("--user=%s" % (os.geteuid()))
-                if rm_container:
-                    runtime.append("--rm")
-                for t,v in self.environment.items():
-                    runtime.append("--env=%s=%s" % (t, v))
-                runtime.append(self.container["imageId"])
-            else:
-                raise Exception("Docker image %s not found" % (self.container["imageId"]))
+        img_id = docker.get_from_requirements(self.requirements, self.hints, pull_image)
+
+        if img_id:
+            runtime = ["docker", "run", "-i"]
+            for d in self.pathmapper.dirs:
+                runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
+            runtime.append("--volume=%s:%s:rw" % (os.path.abspath(outdir), "/tmp/job_output"))
+            runtime.append("--workdir=%s" % ("/tmp/job_output"))
+            runtime.append("--user=%s" % (os.geteuid()))
+            if rm_container:
+                runtime.append("--rm")
+            for t,v in self.environment.items():
+                runtime.append("--env=%s=%s" % (t, v))
+            runtime.append(img_id)
         else:
             env = self.environment
 
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 42d215dfc..f7d5e37e9 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -1,7 +1,7 @@
 import job
 import draft1tool
 import draft2tool
-from draft2tool import aslist
+from aslist import aslist
 from process import Process
 from process import WorkflowException
 import copy

From 9e4d5bc4f20fa06752c5fb716565efc52abe04de Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 15 Apr 2015 11:22:06 -0400
Subject: [PATCH 073/221] Pluggable expression engine works.  Test cases are
 updated.  Also added feature gating for "scatter".

---
 cwltool/docker.py                   |  18 +++--
 cwltool/draft2tool.py               | 107 +++++++++++++---------------
 cwltool/expression.py               |  50 ++++++++++---
 cwltool/process.py                  |  62 +++++++++++++---
 cwltool/validate.py                 |   2 +-
 cwltool/workflow.py                 |  38 ++++++----
 docker-node-engine.sh               |   4 ++
 docker-node-engine/Dockerfile       |   3 +
 docker-node-engine/cwlNodeEngine.js |  41 +++++++++++
 setup.py                            |   4 +-
 10 files changed, 233 insertions(+), 96 deletions(-)
 create mode 100755 docker-node-engine.sh
 create mode 100644 docker-node-engine/Dockerfile
 create mode 100755 docker-node-engine/cwlNodeEngine.js

diff --git a/cwltool/docker.py b/cwltool/docker.py
index 7d6bcbc9b..17318a364 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -1,7 +1,17 @@
 import subprocess
+import logging
+import sys
+import requests
+import os
 
-def get_image(dockerRequirement, pull_image):
+_logger = logging.getLogger("cwltool")
+
+def get_image(dockerRequirement, pull_image, dry_run=False):
     found = False
+
+    if "dockerImageId" not in dockerRequirement and "dockerPull" in dockerRequirement:
+        dockerRequirement["dockerImageId"] = dockerRequirement["dockerPull"]
+
     for ln in subprocess.check_output(["docker", "images", "--no-trunc", "--all"]).splitlines():
         try:
             ln.index(dockerRequirement["dockerImageId"])
@@ -50,18 +60,18 @@ def get_image(dockerRequirement, pull_image):
     return found
 
 
-def get_from_requirements(requirements, hints, pull_image):
+def get_from_requirements(requirements, hints, pull_image, dry_run=False):
     if requirements:
         for r in reversed(requirements):
             if r["class"] == "DockerRequirement":
-                if docker.get_image(r, pull_image):
+                if get_image(r, pull_image, dry_run):
                     return r["dockerImageId"]
                 else:
                     raise Exception("Docker image %s not found" % (self.container["imageId"]))
     if hints:
         for r in reversed(hints):
             if r["class"] == "DockerRequirement":
-                if docker.get_image(r, pull_image):
+                if get_image(r, pull_image, dry_run):
                     return r["dockerImageId"]
 
     return None
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 2ad3d70cc..9423a87d1 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -17,6 +17,7 @@
 from process import WorkflowException
 import validate
 from aslist import aslist
+import expression
 
 _logger = logging.getLogger("cwltool")
 
@@ -24,31 +25,20 @@
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
-supportedProcessRequirements = ("DockerRequirement", "MemoryRequirement", "ExpressionEngineRequirement")
+supportedProcessRequirements = ("DockerRequirement",
+                                "MemoryRequirement",
+                                "ExpressionEngineRequirement",
+                                "ScatterFeature")
 
 class Builder(object):
-    def jseval(self, expression, context):
-        if isinstance(expression, list):
-            exp = "{return %s(%s);}" % (expression[0], ",".join([json.dumps(self.do_eval(e)) for e in expression[1:]]))
-        elif expression.startswith('{'):
-            exp = '{return function()%s();}' % (expression)
-        else:
-            exp = '{return %s;}' % (expression)
-        return sandboxjs.execjs(exp, "var $job = %s; var $self = %s; %s" % (json.dumps(self.job), json.dumps(context), self.jslib))
-
-    def do_eval(self, ex, context=None):
-        if isinstance(ex, dict):
-            if ex.get("class") == "JavascriptExpression":
-                if "script" in ex:
-                    return self.jseval(ex["script"], context)
-            elif ex.get("ref"):
-                if ex["ref"].startswith("#"):
-                    return self.job[ex["ref"][1:]]
-                else:
-                    with open(os.path.join(self.basedir, ex["ref"]), "r") as f:
-                        return f.read()
-        else:
-            return ex
+    # def jseval(self, expression, context):
+    #     if isinstance(expression, list):
+    #         exp = "{return %s(%s);}" % (expression[0], ",".join([json.dumps(self.do_eval(e)) for e in expression[1:]]))
+    #     elif expression.startswith('{'):
+    #         exp = '{return function()%s();}' % (expression)
+    #     else:
+    #         exp = '{return %s;}' % (expression)
+    #     return sandboxjs.execjs(exp, "var $job = %s; var $self = %s; %s" % (json.dumps(self.job), json.dumps(context), self.jslib))
 
     def bind_input(self, schema, datum):
         bindings = []
@@ -128,7 +118,7 @@ def bind_input(self, schema, datum):
     def generate_arg(self, binding):
         value = binding["valueFrom"]
         if "do_eval" in binding:
-            value = self.do_eval(binding["do_eval"], value)
+            value = expression.do_eval(binding["do_eval"], self.job, self.requirements, self.docpath, value)
 
         prefix = binding.get("prefix")
         sep = binding.get("separator")
@@ -165,7 +155,7 @@ def generate_arg(self, binding):
 
 
 class Tool(Process):
-    def _init_job(self, joborder, basedir):
+    def _init_job(self, joborder, basedir, **kwargs):
         # Validate job order
         try:
             validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
@@ -173,6 +163,13 @@ def _init_job(self, joborder, basedir):
             _logger.error("Failed to validate %s\n%s" % (pprint.pformat(joborder), v))
             raise
 
+        for r in self.tool.get("requirements", []):
+            if r["class"] not in supportedProcessRequirements:
+                raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
+
+        self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+
         builder = Builder()
         builder.job = copy.deepcopy(joborder)
         builder.jslib = ''
@@ -180,10 +177,7 @@ def _init_job(self, joborder, basedir):
         builder.files = []
         builder.bindings = []
         builder.schemaDefs = self.schemaDefs
-
-        if self.tool.get("expressionDefs"):
-            for ex in self.tool['expressionDefs']:
-                builder.jslib += builder.do_eval(ex) + "\n"
+        builder.docpath = self.docpath
 
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
 
@@ -191,28 +185,31 @@ def _init_job(self, joborder, basedir):
 
 
 class ExpressionTool(Tool):
-    def __init__(self, toolpath_object):
-        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool")
+    def __init__(self, toolpath_object, docpath):
+        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", docpath)
 
     class ExpressionJob(object):
         def run(self, outdir=None, **kwargs):
-            self.output_callback(self.builder.do_eval(self.script))
+            self.output_callback(expression.do_eval(self.script, self.builder.job, self.requirements, self.builder.docpath))
 
     def job(self, joborder, basedir, output_callback, **kwargs):
-        builder = self._init_job(joborder, basedir)
+        builder = self._init_job(joborder, basedir, **kwargs)
 
         j = ExpressionTool.ExpressionJob()
         j.builder = builder
-        j.script = self.tool["script"]
+        j.script = self.tool["expression"]
         j.output_callback = output_callback
+        j.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        j.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+
         yield j
 
 class CommandLineTool(Tool):
-    def __init__(self, toolpath_object):
-        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool")
+    def __init__(self, toolpath_object, docpath):
+        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", docpath)
 
     def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
-        builder = self._init_job(joborder, basedir)
+        builder = self._init_job(joborder, basedir, **kwargs)
 
         if self.tool["baseCommand"]:
             for n, b in enumerate(aslist(self.tool["baseCommand"])):
@@ -252,9 +249,9 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
-            j.stdin = builder.do_eval(self.tool["stdin"])
-            if isinstance(j.stdin, dict):
-                j.stdin = j.stdin["path"]
+            j.stdin = self.tool["stdin"]
+            if isinstance(j.stdin, dict) and "ref" in j.stdin:
+                j.stdin = builder.job[j.stdin["ref"][1:]]["path"]
             reffiles.append(j.stdin)
 
         if self.tool.get("stdout"):
@@ -268,24 +265,12 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
                 if not j.stdout:
                     raise Exception("stdout refers to invalid output")
             else:
-                j.stdout = builder.do_eval(self.tool["stdout"])
+                j.stdout = self.tool["stdout"]
             if os.path.isabs(j.stdout):
                 raise Exception("stdout must be a relative path")
 
-        j.generatefiles = {}
-        for t in self.tool.get("fileDefs", []):
-            j.generatefiles[t["filename"]] = builder.do_eval(t["value"])
-
-        j.environment = {}
-        for t in self.tool.get("environmentDefs", []):
-            j.environment[t["env"]] = builder.do_eval(t["value"])
-
-        j.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
-        j.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
-
-        for r in j.requirements:
-            if r["class"] not in supportedProcessRequirements:
-                raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
+        j.requirements = self.requirements
+        j.hints = self.hints
 
         for r in (j.requirements + j.hints):
             if r["class"] == "DockerRequirement" and use_container:
@@ -297,6 +282,16 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         for f in builder.files:
             f["path"] = builder.pathmapper.mapper(f["path"])
 
+        builder.requirements = j.requirements
+
+        j.generatefiles = {}
+        for t in self.tool.get("fileDefs", []):
+            j.generatefiles[t["filename"]] = expression.do_eval(t["value"], builder.job, j.requirements, self.docpath)
+
+        j.environment = {}
+        for t in self.tool.get("environmentDefs", []):
+            j.environment[t["env"]] = expression.do_eval(t["value"], builder.job, j.requirements, self.docpath)
+
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
         if j.stdin:
@@ -349,7 +344,7 @@ def collect_output(self, schema, builder, outdir):
                     r = None
 
             if "valueFrom" in binding:
-                r = builder.do_eval(binding["valueFrom"], r)
+                r = expression.do_eval(binding["valueFrom"], builder.job, self.requirements, self.docpath, r)
 
         if not r and schema["type"] == "record":
             r = {}
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 510e31c11..967755ae6 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -1,34 +1,64 @@
 import docker
 import subprocess
 import json
+from aslist import aslist
+import logging
+import os
+from process import WorkflowException
+import process
+import yaml
+import validate
 
-def exeval(ex, jobinput, requirements, context, pull_image):
+_logger = logging.getLogger("cwltool")
+
+def exeval(ex, jobinput, requirements, docpath, context, pull_image):
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
+            if r["id"][0] != "#":
+                with open(os.path.join(docpath, r["id"])) as f:
+                    ex_obj = yaml.load(f)
+                sch = process.get_schema()
+                validate.validate_ex(sch.get_name("ExpressionEngineRequirement", ""), ex_obj)
+                r = ex_obj
+
             runtime = []
             img_id = docker.get_from_requirements(r.get("requirements"), r.get("hints"), pull_image)
             if img_id:
                 runtime = ["docker", "run", "-i", "--rm", img_id]
 
-            sp = subprocess.Popen(runtime + aslist(r["engineCommand"]),
-                             shell=False,
-                             close_fds=True,
-                             stdin=subprocess.PIPE,
-                             stdout=subprocess.PIPE)
+            exdefs = []
+            for exdef in r.get("expressionDefs", []):
+                if isinstance(exdef, dict) and "ref" in exdef:
+                    with open(os.path.join(r["_docpath"], exdef["ref"])) as f:
+                        exdefs.append(f.read())
+                elif isinstance(exdef, basestring):
+                    exdefs.append(exdef)
 
             inp = {
                 "script": ex["script"],
-                "expressionDefs": r.get("expressionDefs"),
+                "expressionDefs": exdefs,
                 "job": jobinput,
                 "context": context
             }
 
-            (stdoutdata, stderrdata) = sp.communicate(json.dumps(inp))
+            _logger.debug(json.dumps(inp))
+
+            sp = subprocess.Popen(runtime + aslist(r["engineCommand"]),
+                             shell=False,
+                             close_fds=True,
+                             stdin=subprocess.PIPE,
+                             stdout=subprocess.PIPE)
+
+            (stdoutdata, stderrdata) = sp.communicate(json.dumps(inp) + "\n\n")
+            if sp.returncode != 0:
+                raise WorkflowException("Expression engine returned non-zero exit code.")
+
+            return json.loads(stdoutdata)
 
     raise WorkflowException("Unknown expression engine '%s'" % ex["engine"])
 
-def do_eval(self, ex, jobinput, requirements, context=None, pull_image=True):
+def do_eval(ex, jobinput, requirements, docpath, context=None, pull_image=True):
     if isinstance(ex, dict) and "engine" in ex and "script" in ex:
-        return exeval(ex, jobinput, requirements, context)
+        return exeval(ex, jobinput, requirements, docpath, context, pull_image)
     else:
         return ex
diff --git a/cwltool/process.py b/cwltool/process.py
index cacda56af..d712cd344 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -7,6 +7,7 @@
 import copy
 import logging
 import pprint
+from aslist import aslist
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
 module_dir = os.path.dirname(os.path.abspath(__file__))
@@ -49,23 +50,47 @@ def extend_avro(items):
         n.append(t)
     return n
 
+def get_schema():
+    names = avro.schema.Names()
+    cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
+    with open(cwl_avsc) as f:
+        j = yaml.load(f)
+        j = extend_avro(j)
+        for t in j:
+            avro.schema.make_avsc_object(t, names)
+    return names
+
 class Process(object):
-    def __init__(self, toolpath_object, validateAs):
-        self.names = avro.schema.Names()
-        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
-        with open(cwl_avsc) as f:
-            j = yaml.load(f)
-            j = extend_avro(j)
-            for t in j:
-                avro.schema.make_avsc_object(t, self.names)
+    def check_feature(self, feature, kwargs):
+        for t in kwargs.get("requirements", []):
+            if t["class"] == feature:
+                return True
+        for t in kwargs.get("hints", []):
+            if t["class"] == feature:
+                return True
+        return False
+
+    def __init__(self, toolpath_object, validateAs, docpath):
+        self.names = get_schema()
+        self.docpath = docpath
 
         self.tool = toolpath_object
+
         #if self.tool.get("@context") != TOOL_CONTEXT_URL:
         #    raise Exception("Missing or invalid '@context' field in tool description document, must be %s" % TOOL_CONTEXT_URL)
 
         # Validate tool documument
         validate.validate_ex(self.names.get_name(validateAs, ""), self.tool)
 
+        self.validate_requirements(self.tool, "requirements")
+        self.validate_requirements(self.tool, "hints")
+
+        for t in self.tool.get("requirements", []):
+            t["_docpath"] = docpath
+
+        for t in self.tool.get("hints", []):
+            t["_docpath"] = docpath
+
         # Import schema defs
         self.schemaDefs = {
             "Any": [
@@ -93,6 +118,8 @@ def __init__(self, toolpath_object, validateAs):
             c = copy.copy(i)
             c["name"] = c["id"][1:]
             del c["id"]
+            if "default" in c:
+                c["type"] = ["null"] + aslist(c["type"])
             self.inputs_record_schema["fields"].append(c)
         avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
 
@@ -101,5 +128,24 @@ def __init__(self, toolpath_object, validateAs):
             c = copy.copy(i)
             c["name"] = c["id"][1:]
             del c["id"]
+            if "default" in c:
+                c["type"] = ["null"] + aslist(c["type"])
             self.outputs_record_schema["fields"].append(c)
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
+
+    def validate_requirements(self, tool, field):
+        for r in tool.get(field, []):
+            try:
+                if self.names.get_name(r["class"], "") is None:
+                    raise validate.ValidationException("Unknown requirement %s" % (r["class"]))
+                validate.validate_ex(self.names.get_name(r["class"], ""), r)
+                if "requirements" in r:
+                    self.validate_requirements(r, "requirements")
+                if "hints" in r:
+                    self.validate_requirements(r, "hints")
+            except validate.ValidationException as v:
+                err = "While validating %s %s\n%s" % (field, r["class"], validate.indent(str(v)))
+                if field == "hints":
+                    _logger.warn(err)
+                else:
+                    raise validate.ValidationException(err)
diff --git a/cwltool/validate.py b/cwltool/validate.py
index 3a1f6266a..34a5a4b83 100644
--- a/cwltool/validate.py
+++ b/cwltool/validate.py
@@ -100,7 +100,7 @@ def validate_ex(expected_schema, datum):
                     raise ValidationException("At position %i\n%s" % (i, indent(str(v))))
             return True
         else:
-            raise ValidationException("the value `%s` is not a list, expected list of %s" % (pprint.pformat(datum), expected_schema.items))
+            raise ValidationException("the value `%s` is not a list, expected list of %s" % (pprint.pformat(datum), friendly(expected_schema.items)))
     elif schema_type == 'map':
         if (isinstance(datum, dict) and
             False not in [isinstance(k, basestring) for k in datum.keys()] and
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index f7d5e37e9..9581c9763 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -25,25 +25,26 @@ def idk(key):
         raise WorkflowException("Must start with #")
     return key[1:]
 
-def makeTool(toolpath_object, basedir):
+def makeTool(toolpath_object, docpath):
+    """docpath is the directory the tool file is located."""
     if "schema" in toolpath_object:
         return draft1tool.Tool(toolpath_object)
     elif "impl" in toolpath_object and toolpath_object.get("class", "External") == "External":
-        return External(toolpath_object, basedir)
+        return External(toolpath_object, docpath)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
-            return draft2tool.CommandLineTool(toolpath_object)
+            return draft2tool.CommandLineTool(toolpath_object, docpath)
         elif toolpath_object["class"] == "ExpressionTool":
-            return draft2tool.ExpressionTool(toolpath_object)
+            return draft2tool.ExpressionTool(toolpath_object, docpath)
         elif toolpath_object["class"] == "Workflow":
-            return Workflow(toolpath_object)
+            return Workflow(toolpath_object, docpath)
     else:
         raise WorkflowException("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
 
 class Workflow(Process):
-    def __init__(self, toolpath_object):
-        super(Workflow, self).__init__(toolpath_object, "Workflow")
+    def __init__(self, toolpath_object, docpath):
+        super(Workflow, self).__init__(toolpath_object, "Workflow", docpath)
 
     def receive_output(self, step, outputparms, jobout):
         _logger.info("Job got output: %s", jobout)
@@ -59,6 +60,8 @@ def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
         if "scatter" in step.tool:
+            if not self.check_feature("ScatterFeature", kwargs):
+                raise WorkflowException("Must include ScatterFeature in requirements.")
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])
             scatter = aslist(step.tool["scatter"])
@@ -90,7 +93,7 @@ def try_make_job(self, step, basedir, **kwargs):
                 is_array = isinstance(inp["type"], dict) and inp["type"]["type"] == "array"
                 for connection in aslist(connections):
                     src = idk(connection["source"])
-                    if src in self.state:
+                    if src in self.state and self.state[src] is not None:
                         if self.state[src].parameter["type"] == inp["type"]:
                             # source and input types are the same
                             if is_array and iid in inputobj:
@@ -108,8 +111,10 @@ def try_make_job(self, step, basedir, **kwargs):
                                 inputobj[iid] = [self.state[src].value]
                         else:
                             raise WorkflowException("Type mismatch between '%s' (%s) and '%s' (%s)" % (src, self.state[src].parameter["type"], idk(inp["id"]), inp["type"]))
+                    elif src not in self.state:
+                        raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
                     else:
-                        raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % ())
+                        return
             elif "default" in inp:
                 inputobj[iid] = inp["default"]
             else:
@@ -185,9 +190,12 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         output_callback(wo)
 
 class External(Process):
-    def __init__(self, toolpath_object, basedir):
+    def __init__(self, toolpath_object, docpath):
         self.impl = toolpath_object["impl"]
-        self.embedded_tool = makeTool(from_url(os.path.join(basedir, self.impl)), basedir)
+        try:
+            self.embedded_tool = makeTool(from_url(os.path.join(docpath, self.impl)), docpath)
+        except validate.ValidationException as v:
+            raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, self.impl), validate.indent(str(v))))
 
         if "id" in toolpath_object:
             self.id = toolpath_object["id"]
@@ -220,7 +228,7 @@ def __init__(self, toolpath_object, basedir):
 
             i["id"] = toolid
 
-        super(External, self).__init__(toolpath_object, "Process")
+        super(External, self).__init__(toolpath_object, "Process", docpath)
 
     def receive_output(self, jobout):
         self.output  = {}
@@ -236,11 +244,11 @@ def job(self, joborder, basedir, output_callback, **kwargs):
             joborder[d] = joborder[idk(i["id"])]
             del joborder[idk(i["id"])]
 
-        requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
-        hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+        kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
         self.output = None
-        for t in self.embedded_tool.job(joborder, basedir, self.receive_output, requirements=requirements, hints=hints, **kwargs):
+        for t in self.embedded_tool.job(joborder, basedir, self.receive_output, **kwargs):
             yield t
 
         while self.output is None:
diff --git a/docker-node-engine.sh b/docker-node-engine.sh
new file mode 100755
index 000000000..10957a3bb
--- /dev/null
+++ b/docker-node-engine.sh
@@ -0,0 +1,4 @@
+#!/bin/sh
+
+cd docker-node-engine
+docker build --tag=cwl-nodejs-engine .
diff --git a/docker-node-engine/Dockerfile b/docker-node-engine/Dockerfile
new file mode 100644
index 000000000..41d162897
--- /dev/null
+++ b/docker-node-engine/Dockerfile
@@ -0,0 +1,3 @@
+FROM debian:8
+RUN apt-get update && apt-get install -qq nodejs
+ADD cwlNodeEngine.js /usr/local/bin/
diff --git a/docker-node-engine/cwlNodeEngine.js b/docker-node-engine/cwlNodeEngine.js
new file mode 100755
index 000000000..a98503f1a
--- /dev/null
+++ b/docker-node-engine/cwlNodeEngine.js
@@ -0,0 +1,41 @@
+#!/usr/bin/env nodejs
+
+"use strict";
+
+process.stdin.setEncoding('utf8');
+
+var incoming = "";
+
+process.stdin.on('readable', function() {
+  var chunk = process.stdin.read();
+    if (chunk !== null) {
+        incoming += chunk;
+    }
+});
+
+process.stdin.on('end', function() {
+    var j = JSON.parse(incoming);
+    var exp = ""
+
+    if (j.script[0] == "{") {
+        exp = "{return function()" + j.script + "();}";
+    }
+    else {
+        exp = "{return " + j.script + ";}";
+    }
+
+    var fn = '"use strict";\n';
+
+    if (j.expressionDefs) {
+        for (var index = 0; index < j.expressionDefs.length; ++index) {
+            fn += j.expressionDefs[index] + "\n";
+        }
+    }
+
+    fn += "var $job = " + JSON.stringify(j.job) + ";\n";
+    fn += "var $self = " + JSON.stringify(j.context) + ";\n"
+
+    fn += "(function()" + exp + ")()";
+
+    process.stdout.write(JSON.stringify(require("vm").runInNewContext(fn, {})));
+});
diff --git a/setup.py b/setup.py
index d5a4720b0..dca391b03 100644
--- a/setup.py
+++ b/setup.py
@@ -42,8 +42,8 @@
           'requests',
           'PyYAML',
           'avro',
-          'rdflib',
-          'rdflib-jsonld'
+          'rdflib >= 4.2.0',
+          'rdflib-jsonld >= 0.3.0'
         ],
       test_suite='tests',
       tests_require=[],

From 960f29ed100ab2f75afaa1900960a7a53250d547 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 3 May 2015 22:59:49 -0400
Subject: [PATCH 074/221] improvements to doc organization

---
 cwltool/process.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index d712cd344..88add6e92 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -44,6 +44,7 @@ def extend_avro(items):
                 r["fields"] = specialize(r["fields"], t["specialize"])
             r["fields"].extend(t["fields"])
             r["extends"] = t["extends"]
+            r["abstract"] = t.get("abstract", False)
             r["doc"] = t.get("doc", "")
             types[t["name"]] = r
             t = r
@@ -57,7 +58,8 @@ def get_schema():
         j = yaml.load(f)
         j = extend_avro(j)
         for t in j:
-            avro.schema.make_avsc_object(t, names)
+            if not t.get("abstract"):
+                avro.schema.make_avsc_object(t, names)
     return names
 
 class Process(object):

From 782f28a31c9aaa5f402a7cb6b07a80121318ca0c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 4 May 2015 23:08:40 -0400
Subject: [PATCH 075/221] consolodated schema stuff into avro_ld

---
 avro_ld/__init__.py       |   0
 avro_ld/jsonld_context.py | 100 +++++++++++++
 avro_ld/makedoc.py        | 305 ++++++++++++++++++++++++++++++++++++++
 avro_ld/schema.py         |  44 ++++++
 cwltool/main.py           |  27 +++-
 cwltool/process.py        |  42 +-----
 6 files changed, 475 insertions(+), 43 deletions(-)
 create mode 100644 avro_ld/__init__.py
 create mode 100755 avro_ld/jsonld_context.py
 create mode 100644 avro_ld/makedoc.py
 create mode 100644 avro_ld/schema.py

diff --git a/avro_ld/__init__.py b/avro_ld/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/avro_ld/jsonld_context.py b/avro_ld/jsonld_context.py
new file mode 100755
index 000000000..1da690523
--- /dev/null
+++ b/avro_ld/jsonld_context.py
@@ -0,0 +1,100 @@
+import shutil
+import json
+import yaml
+import os
+import subprocess
+import copy
+import pprint
+import re
+import sys
+import rdflib
+from rdflib import Graph
+import rdflib.namespace
+from rdflib.namespace import RDF, RDFS
+
+def pred(datatype, field, name, context, defaultPrefix):
+    v = None
+    if field and "jsonldPredicate" in field:
+        v = field["jsonldPredicate"]
+    elif "jsonldPredicate" in datatype:
+        for d in datatype["jsonldPredicate"]:
+            if d["symbol"] == name:
+                v = d["predicate"]
+    elif field and "jsonldPrefix" in field:
+        defaultPrefix = field["jsonldPrefix"]
+    elif "jsonldPrefix" in datatype:
+        defaultPrefix = datatype["jsonldPrefix"]
+
+    if not v:
+        v = "%s:%s" % (defaultPrefix, name)
+
+    if name in context:
+        if context[name] != v:
+            raise Exception("Predicate collision on %s, %s != %s" % (name, context[name], v))
+    else:
+        context[name] = v
+
+    return v
+
+def avrold_to_jsonld_context(j):
+    context = {}
+    namespaces = {}
+    g = Graph()
+    defaultPrefix = ""
+
+    for t in j:
+        if "jsonldVocab" in t:
+            for prefix in t["jsonldPrefixes"]:
+                context[prefix] = t["jsonldPrefixes"][prefix]
+                namespaces[prefix] = rdflib.namespace.Namespace(t["jsonldPrefixes"][prefix])
+        if "jsonldVocab" in t:
+            defaultPrefix = t["jsonldVocab"]
+
+    for k,v in namespaces.items():
+        g.bind(k, v)
+
+    for t in j:
+        if t["type"] == "record":
+            classnode = namespaces["cwl"][t["name"]]
+            g.add((classnode, RDF.type, RDFS.Class))
+
+            if "jsonldPrefix" in t:
+                predicate = "%s:%s" % (t["jsonldPrefix"], t["name"])
+            else:
+                predicate = "%s:%s" % (defaultPrefix, t["name"])
+
+            if context.get(t["name"], predicate) != predicate:
+                raise Exception("Predicate collision on '%s', '%s' != '%s'" % (t["name"], context[t["name"]], predicate))
+
+            context[t["name"]] = predicate
+
+            for i in t["fields"]:
+                v = pred(t, i, i["name"], context, defaultPrefix)
+
+                if isinstance(v, basestring):
+                    v = v if v[0] != "@" else None
+                else:
+                    v = v["@id"] if v["@id"][0] != "@" else None
+
+                if v:
+                    (ns, ln) = rdflib.namespace.split_uri(unicode(v))
+                    propnode = namespaces[ns[0:-1]][ln]
+                    g.add((propnode, RDF.type, RDF.Property))
+                    g.add((propnode, RDFS.domain, classnode))
+
+                    # TODO generate range from datatype.
+
+            if "extends" in t:
+                g.add((classnode, RDFS.subClassOf, namespaces["cwl"][t["extends"]]))
+        elif t["type"] == "enum":
+            for i in t["symbols"]:
+                pred(t, None, i, context, defaultPrefix)
+
+    return (context, g)
+
+if __name__ == "__main__":
+    with open(sys.argv[1]) as f:
+        j = yaml.load(f)
+        (ctx, g) = avrold_to_jsonld_context(j)
+        print json.dumps(ctx, indent=4, sort_keys=True)
+
diff --git a/avro_ld/makedoc.py b/avro_ld/makedoc.py
new file mode 100644
index 000000000..50a427c74
--- /dev/null
+++ b/avro_ld/makedoc.py
@@ -0,0 +1,305 @@
+import mistune
+import schema
+import json
+import yaml
+import os
+import copy
+import re
+import sys
+import StringIO
+
+def has_types(items):
+    r = []
+    if isinstance(items, dict):
+        for n in ("type", "items", "values"):
+            if n in items:
+                r.extend(has_types(items[n]))
+        return r
+    if isinstance(items, list):
+        for i in items:
+            r.extend(has_types(i))
+        return r
+    if isinstance(items, basestring):
+        return [items]
+    return []
+
+class MyRenderer(mistune.Renderer):
+    def header(self, text, level, raw=None):
+        return """<h1 id="%s">%s</h1>""" % (to_id(text), text)
+
+def to_id(text):
+    textid = text
+    if text[0] in ("0", "1", "2", "3", "4", "5", "6", "7", "8", "9"):
+        try:
+            textid = text[text.index(" ")+1:]
+        except ValueError:
+            pass
+    textid = textid.lower().replace(" ", "_")
+    return textid
+
+class ToC(object):
+    def __init__(self):
+        self.first_toc_entry = True
+        self.numbering = [0]
+        self.toc = ""
+        self.start_numbering = True
+
+    def add_entry(self, thisdepth, title):
+        depth = len(self.numbering)
+        if thisdepth < depth:
+            self.toc += "</ol>"
+            for n in range(0, depth-thisdepth):
+                self.numbering.pop()
+                self.toc += "</li></ol>"
+            self.numbering[-1] += 1
+        elif thisdepth == depth:
+            if not self.first_toc_entry:
+                self.toc += "</ol>"
+            else:
+                self.first_toc_entry = False
+            self.numbering[-1] += 1
+        elif thisdepth > depth:
+            self.numbering.append(1)
+
+        if self.start_numbering:
+            num = "%i.%s" % (self.numbering[0], ".".join([str(n) for n in self.numbering[1:]]))
+        else:
+            num = ""
+        self.toc += """<li><a href="#%s">%s %s</a><ol class="nav nav-pills nav-stacked nav-secondary">\n""" %(to_id(title),
+            num, title)
+        return num
+
+    def contents(self, id):
+        c = """<nav id="%s"><ol class="nav nav-pills nav-stacked">%s""" % (id, self.toc)
+        c += "</ol>"
+        for i in range(0, len(self.numbering)):
+            c += "</li></ol>"
+        c += """</nav>"""
+        return c
+
+def typefmt(tp, nbsp=False):
+    if isinstance(tp, list):
+        if nbsp:
+            return "&nbsp;|&nbsp;".join([typefmt(n) for n in tp])
+        else:
+            return " | ".join([typefmt(n) for n in tp])
+    if isinstance(tp, dict):
+        if tp["type"] == "array":
+            return "array&lt;%s&gt;" % (typefmt(tp["items"], True))
+    else:
+        if str(tp) in ("null", "boolean", "int", "long", "float", "double", "bytes", "string", "record", "enum", "array", "map"):
+            return """<a href="#datatype">%s</a>""" % str(tp)
+        else:
+            return """<a href="#%s">%s</a>""" % (to_id(str(tp)), str(tp))
+
+def add_dictlist(di, key, val):
+    if key not in di:
+        di[key] = []
+    di[key].append(val)
+
+def number_headings(toc, maindoc):
+    mdlines = []
+    for line in maindoc.splitlines():
+        if line.strip() == "# Introduction":
+            toc.start_numbering = True
+            toc.numbering = [0]
+
+        m = re.match(r'^(#+) (.*)', line)
+        if m:
+            num = toc.add_entry(len(m.group(1)), m.group(2))
+            line = "%s %s %s" % (m.group(1), num, m.group(2))
+        #elif len(line) > 0 and line[0] == "#":
+        #    toc += """<li><a href="#%s">%s</a></li>\n""" % (to_id(line[2:]), line[2:])
+        line = re.sub(r'^(https?://\S+)', r'[\1](\1)', line)
+        mdlines.append(line)
+
+    maindoc = '\n'.join(mdlines)
+    return maindoc
+
+class RenderType(object):
+    def __init__(self, toc, j):
+        self.typedoc = StringIO.StringIO()
+        self.toc = toc
+        self.subs = {}
+        self.docParent = {}
+        for t in j:
+            if "extends" in t:
+                add_dictlist(self.subs, t["extends"], t["name"])
+                if "docParent" not in t:
+                    add_dictlist(self.docParent, t["extends"], t["name"])
+
+            if t.get("docParent"):
+                add_dictlist(self.docParent, t["docParent"], t["name"])
+
+        alltypes = schema.extend_avro(j)
+
+        self.typemap = {}
+        self.uses = {}
+        for t in alltypes:
+            self.typemap[t["name"]] = t
+            if t["type"] == "record":
+                for f in t["fields"]:
+                    p = has_types(f)
+                    for tp in p:
+                        if tp not in self.uses:
+                            self.uses[tp] = []
+                        if (t["name"], f["name"]) not in self.uses[tp]:
+                            self.uses[tp].append((t["name"], f["name"]))
+
+        for f in alltypes:
+            if "extends" not in f and not f.get("docParent"):
+                self.render_type(f, 1)
+
+
+    def render_type(self, f, depth):
+        if "doc" not in f:
+            f["doc"] = ""
+
+        f["type"] = copy.deepcopy(f)
+        f["doc"] = ""
+        f = f["type"]
+
+        if "doc" not in f:
+            f["doc"] = ""
+        if f["type"] == "record":
+            for field in f["fields"]:
+                if "doc" not in field:
+                    field["doc"] = ""
+
+        if f["type"] != "doc":
+            lines = []
+            for l in f["doc"].splitlines():
+                if len(l) > 0 and l[0] == "#":
+                    l = "#" + l
+                lines.append(l)
+            f["doc"] = "\n".join(lines)
+
+        num = self.toc.add_entry(depth, f["name"])
+        doc = "## %s %s\n" % (num, f["name"])
+
+        if f["type"] == "doc":
+            f["doc"] = number_headings(self.toc, f["doc"])
+
+        if "extends" in f:
+            doc += "\n\nExtends [%s](#%s)" % (f["extends"], to_id(f["extends"]))
+        if f["name"] in self.subs:
+            doc += "\n\nExtended by"
+            doc += ", ".join([" [%s](#%s)" % (s, to_id(s)) for s in self.subs[f["name"]]])
+        if f["name"] in self.uses:
+            doc += "\n\nReferenced by"
+            doc += ", ".join([" [%s.%s](#%s)" % (s[0], s[1], to_id(s[0])) for s in self.uses[f["name"]]])
+        doc = doc + "\n\n" + f["doc"]
+
+        doc = mistune.markdown(doc, renderer=MyRenderer())
+
+        if f["type"] == "record": # and not f.get("abstract"):
+            doc += "<h3>Fields</h3>"
+            doc += """<table class="table table-striped">"""
+            doc += "<tr><th>field</th><th>type</th><th>required</th><th>description</th></tr>"
+            for i in f["fields"]:
+                doc += "<tr>"
+                tp = i["type"]
+                if isinstance(tp, list) and tp[0] == "null":
+                    opt = False
+                    tp = tp[1:]
+                else:
+                    opt = True
+                doc += "<td><code>%s</code></td><td>%s</td><td>%s</td><td>%s</td>" % (i["name"], typefmt(tp), opt, mistune.markdown(i["doc"]))
+                doc += "</tr>"
+            doc += """</table>"""
+        f["doc"] = doc
+
+        self.typedoc.write(f["doc"])
+
+        for s in self.docParent.get(f["name"], []):
+            self.render_type(self.typemap[s], depth+1)
+
+def avrold_doc(j, outdoc):
+    toc = ToC()
+    toc.start_numbering = False
+
+    rt = RenderType(toc, j)
+
+    outdoc.write("""
+    <!DOCTYPE html>
+    <html>
+    <head>
+    <meta charset="UTF-8">
+    <script src="http://code.jquery.com/jquery-1.11.2.min.js"></script>
+    <script src="http://code.jquery.com/jquery-migrate-1.2.1.min.js"></script>
+    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.4/css/bootstrap.min.css">
+    <script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.4/js/bootstrap.min.js"></script>
+    <style>
+    html {
+      height:100%;
+    }
+
+    body {
+      height:100%;
+      position: relative;
+      background-color: aliceblue;
+    }
+
+    #main {
+     background-color: white;
+    }
+
+    .nav > li > a {
+      padding: 0px;
+    }
+
+    ol > li > ol {
+      list-style-type: none;
+    }
+    ol > li > ol > li {
+      padding-left: 1em;
+    }
+
+    .nav-secondary > li.active > a, .nav-pills > li.active > a:focus, .nav-pills > li.active > a:hover {
+      text-decoration: underline;
+      color: #337AB7;
+      background-color: transparent;
+    }
+
+    .container-fluid {
+      height: 100%;
+    }
+
+    .lefttoc {
+      height: 100%;
+      overflow-y: auto;
+    }
+
+    </style>
+    </head>
+    <body data-spy="scroll" data-target="#toc">
+    <div class="container-fluid">
+    """)
+
+    outdoc.write("""
+    <div class="row">
+    <div class="col-md-3 affix lefttoc" role="complementary">
+    """)
+    outdoc.write(toc.contents("toc"))
+    outdoc.write("""
+    </div>
+    </div>
+    """)
+
+    outdoc.write("""
+    <div class="col-md-9 col-md-offset-3" role="main" id="main">""")
+
+    outdoc.write(rt.typedoc.getvalue().encode("utf-8"))
+
+    outdoc.write("""</div>""")
+
+    outdoc.write("""
+    </div>
+    </body>
+    </html>""")
+
+if __name__ == "__main__":
+    with open(sys.argv[1]) as f:
+        with open("index.html", "w") as i:
+            j = yaml.load(f)
+            avrold_doc(j, i)
diff --git a/avro_ld/schema.py b/avro_ld/schema.py
new file mode 100644
index 000000000..c305f537c
--- /dev/null
+++ b/avro_ld/schema.py
@@ -0,0 +1,44 @@
+import avro
+import copy
+
+def specialize(items, spec):
+    if isinstance(items, dict):
+        for n in ("type", "items", "values"):
+            if n in items:
+                items[n] = specialize(items[n], spec)
+        return items
+    if isinstance(items, list):
+        n = []
+        for i in items:
+            n.append(specialize(i, spec))
+        return n
+    if isinstance(items, basestring):
+        if items in spec:
+            return spec[items]
+    return items
+
+def extend_avro(items):
+    types = {t["name"]: t for t in items}
+    n = []
+    for t in items:
+        if "extends" in t:
+            r = copy.deepcopy(types[t["extends"]])
+            r["name"] = t["name"]
+            if "specialize" in t:
+                r["fields"] = specialize(r["fields"], t["specialize"])
+            r["fields"].extend(t["fields"])
+            r["extends"] = t["extends"]
+            r["abstract"] = t.get("abstract", False)
+            r["doc"] = t.get("doc", "")
+            types[t["name"]] = r
+            t = r
+        n.append(t)
+    return n
+
+def schema(j):
+    names = avro.schema.Names()
+    j = extend_avro(j)
+    for t in j:
+        if not t.get("abstract"):
+            avro.schema.make_avsc_object(t, names)
+    return names
diff --git a/cwltool/main.py b/cwltool/main.py
index a35ee5139..9193f0564 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -12,10 +12,13 @@
 import workflow
 import validate
 import tempfile
+import avro_ld.jsonld_context
+import yaml
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
 
+module_dir = os.path.dirname(os.path.abspath(__file__))
 
 def printrdf(workflow, sr):
     from rdflib import Graph, plugin
@@ -26,7 +29,7 @@ def printrdf(workflow, sr):
 
 def main():
     parser = argparse.ArgumentParser()
-    parser.add_argument("workflow", type=str)
+    parser.add_argument("workflow", type=str, nargs="?", default=None)
     parser.add_argument("job_order", type=str, nargs="?", default=None)
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
@@ -35,11 +38,15 @@ def main():
     parser.add_argument("--leave-container", action="store_true", help="Do not delete Docker container after it exits")
     parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
     parser.add_argument("--dry-run", action="store_true", help="Do not execute")
-    parser.add_argument("--verbose", action="store_true", help="Print more logging")
-    parser.add_argument("--debug", action="store_true", help="Print even more logging")
+
+    parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file")
     parser.add_argument("--print-rdf", action="store_true", help="Print corresponding RDF graph for workflow")
     parser.add_argument("--rdf-serializer", help="Output RDF serialization format (one of turtle (default), n3, nt, xml)", default="turtle")
 
+    parser.add_argument("--verbose", action="store_true", help="Print more logging")
+    parser.add_argument("--debug", action="store_true", help="Print even more logging")
+
+
     args = parser.parse_args()
 
     if args.verbose:
@@ -47,12 +54,26 @@ def main():
     if args.debug:
         logging.getLogger("cwltool").setLevel(logging.DEBUG)
 
+    if args.print_jsonld_context:
+        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
+        with open(cwl_avsc) as f:
+            j = yaml.load(f)
+        (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
+        print json.dumps(ctx, indent=4, sort_keys=True)
+        return 0
+
+    if not args.workflow:
+        _logger.error("CWL document required")
+        parser.print_help()
+        return 1
+
     if args.print_rdf:
         printrdf(args.workflow, args.rdf_serializer)
         return 0
 
     if not args.job_order:
         _logger.error("Input object required")
+        parser.print_help()
         return 1
 
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
diff --git a/cwltool/process.py b/cwltool/process.py
index 88add6e92..b269f9ad1 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -8,6 +8,7 @@
 import logging
 import pprint
 from aslist import aslist
+import avro_ld.schema
 
 TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
 module_dir = os.path.dirname(os.path.abspath(__file__))
@@ -17,50 +18,11 @@
 class WorkflowException(Exception):
     pass
 
-def specialize(items, spec):
-    if isinstance(items, dict):
-        for n in ("type", "items", "values"):
-            if n in items:
-                items[n] = specialize(items[n], spec)
-        return items
-    if isinstance(items, list):
-        n = []
-        for i in items:
-            n.append(specialize(i, spec))
-        return n
-    if isinstance(items, basestring):
-        if items in spec:
-            return spec[items]
-    return items
-
-def extend_avro(items):
-    types = {t["name"]: t for t in items}
-    n = []
-    for t in items:
-        if "extends" in t:
-            r = copy.deepcopy(types[t["extends"]])
-            r["name"] = t["name"]
-            if "specialize" in t:
-                r["fields"] = specialize(r["fields"], t["specialize"])
-            r["fields"].extend(t["fields"])
-            r["extends"] = t["extends"]
-            r["abstract"] = t.get("abstract", False)
-            r["doc"] = t.get("doc", "")
-            types[t["name"]] = r
-            t = r
-        n.append(t)
-    return n
-
 def get_schema():
-    names = avro.schema.Names()
     cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
     with open(cwl_avsc) as f:
         j = yaml.load(f)
-        j = extend_avro(j)
-        for t in j:
-            if not t.get("abstract"):
-                avro.schema.make_avsc_object(t, names)
-    return names
+        return avro_ld.schema.schema(j)
 
 class Process(object):
     def check_feature(self, feature, kwargs):

From 0cb55372d922506315b546eb3092278ecadc4a90 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 8 May 2015 02:33:16 +0000
Subject: [PATCH 076/221] Build and run cwltool in Docker

---
 Dockerfile          |  31 ++++++++++++
 build-cwl-docker.sh |  13 +++++
 cwl-docker.sh       |   2 +
 wrapdocker          | 115 ++++++++++++++++++++++++++++++++++++++++++++
 4 files changed, 161 insertions(+)
 create mode 100644 Dockerfile
 create mode 100755 build-cwl-docker.sh
 create mode 100755 cwl-docker.sh
 create mode 100755 wrapdocker

diff --git a/Dockerfile b/Dockerfile
new file mode 100644
index 000000000..4b524c57b
--- /dev/null
+++ b/Dockerfile
@@ -0,0 +1,31 @@
+FROM ubuntu:14.04
+MAINTAINER jerome.petazzoni@docker.com
+
+# Based on https://github.com/jpetazzo/dind
+
+# Let's start with some basic stuff.
+RUN apt-get update -qq && apt-get install -qqy \
+    apt-transport-https \
+    ca-certificates \
+    curl \
+    lxc \
+    iptables \
+    python-setuptools
+    
+# Install Docker from Docker Inc. repositories.
+RUN curl -sSL https://get.docker.com/ubuntu/ | sh
+
+# Install the magic wrapper.
+ADD ./wrapdocker /usr/local/bin/wrapdocker
+RUN chmod +x /usr/local/bin/wrapdocker
+
+# Install cwltool
+ADD setup.py README.rst cwltool/ /root/cwltool/
+ADD cwltool/ /root/cwltool/cwltool
+ADD cwltool/schemas/ /root/cwltool/cwltool/schemas
+RUN cd /root/cwltool && easy_install .
+
+# Define additional metadata for our image.
+VOLUME /var/lib/docker
+ENTRYPOINT ["wrapdocker", "cwltool"]
+
diff --git a/build-cwl-docker.sh b/build-cwl-docker.sh
new file mode 100755
index 000000000..d28561b28
--- /dev/null
+++ b/build-cwl-docker.sh
@@ -0,0 +1,13 @@
+#!/bin/sh
+
+restore=0
+if test -L cwltool/schemas ; then
+  rm cwltool/schemas
+  cp -r ../schemas cwltool/schemas
+  restore=1
+fi
+docker build -t cwltool .
+if test $restore = 1 ; then
+  rm -r cwltool/schemas
+  ln -s ../../schemas cwltool/schemas
+fi
diff --git a/cwl-docker.sh b/cwl-docker.sh
new file mode 100755
index 000000000..190d1db8b
--- /dev/null
+++ b/cwl-docker.sh
@@ -0,0 +1,2 @@
+#!/bin/sh
+docker run --privileged -ti --volume=$PWD:/tmp/workdir -w=/tmp/workdir cwltool $*
diff --git a/wrapdocker b/wrapdocker
new file mode 100755
index 000000000..f84897528
--- /dev/null
+++ b/wrapdocker
@@ -0,0 +1,115 @@
+#!/bin/bash
+
+# Taken from https://github.com/jpetazzo/dind
+
+# Ensure that all nodes in /dev/mapper correspond to mapped devices currently loaded by the device-mapper kernel driver
+dmsetup mknodes
+
+# First, make sure that cgroups are mounted correctly.
+CGROUP=/sys/fs/cgroup
+: {LOG:=stdio}
+
+[ -d $CGROUP ] || 
+	mkdir $CGROUP
+
+mountpoint -q $CGROUP || 
+	mount -n -t tmpfs -o uid=0,gid=0,mode=0755 cgroup $CGROUP || {
+		echo "Could not make a tmpfs mount. Did you use --privileged?"
+		exit 1
+	}
+
+if [ -d /sys/kernel/security ] && ! mountpoint -q /sys/kernel/security
+then
+    mount -t securityfs none /sys/kernel/security || {
+        echo "Could not mount /sys/kernel/security."
+        echo "AppArmor detection and --privileged mode might break."
+    }
+fi
+
+# Mount the cgroup hierarchies exactly as they are in the parent system.
+for SUBSYS in $(cut -d: -f2 /proc/1/cgroup)
+do
+        [ -d $CGROUP/$SUBSYS ] || mkdir $CGROUP/$SUBSYS
+        mountpoint -q $CGROUP/$SUBSYS || 
+                mount -n -t cgroup -o $SUBSYS cgroup $CGROUP/$SUBSYS
+
+        # The two following sections address a bug which manifests itself
+        # by a cryptic "lxc-start: no ns_cgroup option specified" when
+        # trying to start containers withina container.
+        # The bug seems to appear when the cgroup hierarchies are not
+        # mounted on the exact same directories in the host, and in the
+        # container.
+
+        # Named, control-less cgroups are mounted with "-o name=foo"
+        # (and appear as such under /proc/<pid>/cgroup) but are usually
+        # mounted on a directory named "foo" (without the "name=" prefix).
+        # Systemd and OpenRC (and possibly others) both create such a
+        # cgroup. To avoid the aforementioned bug, we symlink "foo" to
+        # "name=foo". This shouldn't have any adverse effect.
+        echo $SUBSYS | grep -q ^name= && {
+                NAME=$(echo $SUBSYS | sed s/^name=//)
+                ln -s $SUBSYS $CGROUP/$NAME
+        }
+
+        # Likewise, on at least one system, it has been reported that
+        # systemd would mount the CPU and CPU accounting controllers
+        # (respectively "cpu" and "cpuacct") with "-o cpuacct,cpu"
+        # but on a directory called "cpu,cpuacct" (note the inversion
+        # in the order of the groups). This tries to work around it.
+        [ $SUBSYS = cpuacct,cpu ] && ln -s $SUBSYS $CGROUP/cpu,cpuacct
+done
+
+# Note: as I write those lines, the LXC userland tools cannot setup
+# a "sub-container" properly if the "devices" cgroup is not in its
+# own hierarchy. Let's detect this and issue a warning.
+grep -q :devices: /proc/1/cgroup ||
+	echo "WARNING: the 'devices' cgroup should be in its own hierarchy."
+grep -qw devices /proc/1/cgroup ||
+	echo "WARNING: it looks like the 'devices' cgroup is not mounted."
+
+# Now, close extraneous file descriptors.
+pushd /proc/self/fd >/dev/null
+for FD in *
+do
+	case "$FD" in
+	# Keep stdin/stdout/stderr
+	[012])
+		;;
+	# Nuke everything else
+	*)
+		eval exec "$FD>&-"
+		;;
+	esac
+done
+popd >/dev/null
+
+
+# If a pidfile is still around (for example after a container restart),
+# delete it so that docker can start.
+rm -rf /var/run/docker.pid
+
+# If we were given a PORT environment variable, start as a simple daemon;
+# otherwise, spawn a shell as well
+if [ "$PORT" ]
+then
+	exec docker -d -H 0.0.0.0:$PORT -H unix:///var/run/docker.sock \
+		$DOCKER_DAEMON_ARGS
+else
+	if [ "$LOG" == "file" ]
+	then
+		docker -d $DOCKER_DAEMON_ARGS &>/var/log/docker.log &
+	else
+		docker -d $DOCKER_DAEMON_ARGS &
+	fi
+	(( timeout = 60 + SECONDS ))
+	until docker info >/dev/null 2>&1
+	do
+		if (( SECONDS >= timeout )); then
+			echo 'Timed out trying to connect to internal docker host.' >&2
+			break
+		fi
+		sleep 1
+	done
+	[[ $1 ]] && exec "$@"
+	exec bash --login
+fi

From 46e610347766c16a31b16980d2ec412b726136e4 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 11 May 2015 13:15:23 -0400
Subject: [PATCH 077/221] Fix Docker loading from http.  Add secondaryFiles
 support.

---
 cwltool/docker.py     |  1 +
 cwltool/draft2tool.py | 30 +++++++++++++++++++++++-------
 cwltool/job.py        |  5 +++++
 cwltool/pathmapper.py |  7 +++----
 4 files changed, 32 insertions(+), 11 deletions(-)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index 17318a364..d92bc1be6 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -44,6 +44,7 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
                     with open(dockerRequirement["dockerLoad"], "rb") as f:
                         loadproc = subprocess.Popen(cmd, stdin=f, stdout=sys.stderr)
                 else:
+                    loadproc = subprocess.Popen(cmd, stdin=subprocess.PIPE, stdout=sys.stderr)
                     _logger.info("Sending GET request to %s", dockerRequirement["dockerLoad"])
                     req = requests.get(dockerRequirement["dockerLoad"], stream=True)
                     n = 0
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 9423a87d1..e6b45acbf 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -18,6 +18,7 @@
 import validate
 from aslist import aslist
 import expression
+import re
 
 _logger = logging.getLogger("cwltool")
 
@@ -30,6 +31,12 @@
                                 "ExpressionEngineRequirement",
                                 "ScatterFeature")
 
+def substitute(value, replace):
+    if replace[0] == "^":
+        return substitute(value[0:value.rindex('.')], replace[1:])
+    else:
+        return value + replace
+
 class Builder(object):
     # def jseval(self, expression, context):
     #     if isinstance(expression, list):
@@ -91,6 +98,19 @@ def bind_input(self, schema, datum):
                     with open(os.path.join(self.basedir, datum["path"]), "rb") as f:
                         datum["contents"] = f.read(CONTENT_LIMIT)
                 self.files.append(datum)
+                if "secondaryFiles" in schema:
+                    if "secondaryFiles" not in datum:
+                        datum["secondaryFiles"] = []
+                    for sf in aslist(schema["secondaryFiles"]):
+                        if isinstance(sf, dict):
+                            sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, datum["path"])
+                        else:
+                            sfpath = {"path": substitute(datum["path"], sf)}
+                        if isinstance(sfpath, list):
+                            datum["secondaryFiles"].extend(sfpath)
+                        else:
+                            datum["secondaryFiles"].append(sfpath)
+                        self.files.append(sfpath)
 
         b = None
         if "commandLineBinding" in schema and isinstance(schema["commandLineBinding"], dict):
@@ -157,11 +177,7 @@ def generate_arg(self, binding):
 class Tool(Process):
     def _init_job(self, joborder, basedir, **kwargs):
         # Validate job order
-        try:
-            validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
-        except validate.ValidationException as v:
-            _logger.error("Failed to validate %s\n%s" % (pprint.pformat(joborder), v))
-            raise
+        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
 
         for r in self.tool.get("requirements", []):
             if r["class"] not in supportedProcessRequirements:
@@ -263,11 +279,11 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
                         out["outputBinding"] = out.get("outputBinding", {})
                         out["outputBinding"]["glob"] = filename
                 if not j.stdout:
-                    raise Exception("stdout refers to invalid output")
+                    raise validate.ValidationException("stdout refers to invalid output")
             else:
                 j.stdout = self.tool["stdout"]
             if os.path.isabs(j.stdout):
-                raise Exception("stdout must be a relative path")
+                raise validate.ValidationException("stdout must be a relative path")
 
         j.requirements = self.requirements
         j.hints = self.hints
diff --git a/cwltool/job.py b/cwltool/job.py
index 751d8fa50..eccdea497 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -8,6 +8,7 @@
 import sys
 import requests
 import docker
+from process import WorkflowException
 
 _logger = logging.getLogger("cwltool")
 
@@ -22,6 +23,10 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
 
         img_id = docker.get_from_requirements(self.requirements, self.hints, pull_image)
 
+        for f in self.pathmapper.files():
+            if not os.path.exists(f):
+                raise WorkflowException("Required input file %s not found" % f)
+
         if img_id:
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index 45310f65e..cdbd187dc 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -12,8 +12,10 @@ def __init__(self, referenced_files, basedir):
     def mapper(self, src):
         return self._pathmap[src]
 
+    def files(self):
+        return self._pathmap.keys()
 
-class DockerPathMapper(object):
+class DockerPathMapper(PathMapper):
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         self.dirs = {}
@@ -51,6 +53,3 @@ def __init__(self, referenced_files, basedir):
             for d in self.dirs:
                 if abs.startswith(d):
                     self._pathmap[src] = os.path.join(self.dirs[d], abs[len(d)+1:])
-
-    def mapper(self, src):
-        return self._pathmap[src]

From 8d30574de0e0f763f745cec9a3730bd5e513eae3 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 11 May 2015 13:22:42 -0400
Subject: [PATCH 078/221] Scatter specified as requirement

---
 cwltool/draft2tool.py |  2 +-
 cwltool/process.py    |  8 ++++----
 cwltool/workflow.py   | 15 +++++++--------
 3 files changed, 12 insertions(+), 13 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index e6b45acbf..23f295855 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -29,7 +29,7 @@
 supportedProcessRequirements = ("DockerRequirement",
                                 "MemoryRequirement",
                                 "ExpressionEngineRequirement",
-                                "ScatterFeature")
+                                "Scatter")
 
 def substitute(value, replace):
     if replace[0] == "^":
diff --git a/cwltool/process.py b/cwltool/process.py
index d712cd344..c2c07e086 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -61,14 +61,14 @@ def get_schema():
     return names
 
 class Process(object):
-    def check_feature(self, feature, kwargs):
+    def get_feature(self, feature, kwargs):
         for t in kwargs.get("requirements", []):
             if t["class"] == feature:
-                return True
+                return t
         for t in kwargs.get("hints", []):
             if t["class"] == feature:
-                return True
-        return False
+                return t
+        return None
 
     def __init__(self, toolpath_object, validateAs, docpath):
         self.names = get_schema()
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 9581c9763..0173ccde4 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -59,12 +59,11 @@ def receive_output(self, step, outputparms, jobout):
     def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
-        if "scatter" in step.tool:
-            if not self.check_feature("ScatterFeature", kwargs):
-                raise WorkflowException("Must include ScatterFeature in requirements.")
+        scatterSpec = self.get_feature("Scatter", requirements=self.tool["requirements"], hints=self.tool["hints"])
+        if scatterSpec:
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])
-            scatter = aslist(step.tool["scatter"])
+            scatter = aslist(scatterSpec["scatter"])
 
             inp_map = {i["id"]: i for i in inputparms}
             for s in aslist(step.tool["scatter"]):
@@ -73,7 +72,7 @@ def try_make_job(self, step, basedir, **kwargs):
 
                 inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
 
-            if step.tool.get("scatterMethod") == "nested_crossproduct":
+            if scatterSpec.get("scatterMethod") == "nested_crossproduct":
                 nesting = len(aslist(step.tool["scatter"]))
             else:
                 nesting = 1
@@ -124,9 +123,9 @@ def try_make_job(self, step, basedir, **kwargs):
 
         callback = functools.partial(self.receive_output, step, outputparms)
 
-        if step.tool.get("scatter"):
-            method = step.tool.get("scatterMethod")
-            if method is None and len(aslist(step.tool["scatter"])) != 1:
+        if scatterSpec:
+            method = scatterSpec.get("scatterMethod")
+            if method is None and len(aslist(scatterSpec["scatter"])) != 1:
                 raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
 
             if method == "dotproduct" or method is None:

From bd56b0357bcf54bed639c4ea97ed0cf5e748a380 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 11 May 2015 21:55:18 -0400
Subject: [PATCH 079/221] Moved avro-ld under cwltool.  Fixing tests.

---
 {avro_ld => cwltool/avro_ld}/__init__.py       | 0
 {avro_ld => cwltool/avro_ld}/jsonld_context.py | 0
 {avro_ld => cwltool/avro_ld}/makedoc.py        | 0
 {avro_ld => cwltool/avro_ld}/schema.py         | 0
 cwltool/docker.py                              | 2 +-
 cwltool/workflow.py                            | 2 +-
 6 files changed, 2 insertions(+), 2 deletions(-)
 rename {avro_ld => cwltool/avro_ld}/__init__.py (100%)
 rename {avro_ld => cwltool/avro_ld}/jsonld_context.py (100%)
 rename {avro_ld => cwltool/avro_ld}/makedoc.py (100%)
 rename {avro_ld => cwltool/avro_ld}/schema.py (100%)

diff --git a/avro_ld/__init__.py b/cwltool/avro_ld/__init__.py
similarity index 100%
rename from avro_ld/__init__.py
rename to cwltool/avro_ld/__init__.py
diff --git a/avro_ld/jsonld_context.py b/cwltool/avro_ld/jsonld_context.py
similarity index 100%
rename from avro_ld/jsonld_context.py
rename to cwltool/avro_ld/jsonld_context.py
diff --git a/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
similarity index 100%
rename from avro_ld/makedoc.py
rename to cwltool/avro_ld/makedoc.py
diff --git a/avro_ld/schema.py b/cwltool/avro_ld/schema.py
similarity index 100%
rename from avro_ld/schema.py
rename to cwltool/avro_ld/schema.py
diff --git a/cwltool/docker.py b/cwltool/docker.py
index 17318a364..cb278f691 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -67,7 +67,7 @@ def get_from_requirements(requirements, hints, pull_image, dry_run=False):
                 if get_image(r, pull_image, dry_run):
                     return r["dockerImageId"]
                 else:
-                    raise Exception("Docker image %s not found" % (self.container["imageId"]))
+                    raise Exception("Docker image %s not found" % r["dockerImageId"])
     if hints:
         for r in reversed(hints):
             if r["class"] == "DockerRequirement":
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 9581c9763..920779622 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -228,7 +228,7 @@ def __init__(self, toolpath_object, docpath):
 
             i["id"] = toolid
 
-        super(External, self).__init__(toolpath_object, "Process", docpath)
+        super(External, self).__init__(toolpath_object, "External", docpath)
 
     def receive_output(self, jobout):
         self.output  = {}

From 09f5112028b0e4cf570a8121a81f51ed6011d8c5 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 12 May 2015 09:08:55 -0400
Subject: [PATCH 080/221] Updating to load on "id" instead of draft-1 "$ref"

---
 cwltool/ref_resolver.py | 56 +++++++++++++++++------------------------
 1 file changed, 23 insertions(+), 33 deletions(-)

diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index c71f7cdb2..613a3a28b 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -35,11 +35,12 @@ def __init__(self):
 
     def load(self, url, base_url=None):
         base_url = base_url or 'file://%s/' % os.path.abspath('.')
-        return self.resolve_ref({'$ref': url}, base_url)
+        return self.resolve_ref({'id': url}, base_url)
 
     def resolve_ref(self, obj, base_url):
-        ref, mixin, checksum = obj.pop('$ref', None), obj.pop('$mixin', None), obj.pop('$checksum', None)
-        ref = ref or mixin
+        ref, mixin = obj.pop('id', None)
+        if ref[0] == "#":
+            return obj
         url = urlparse.urljoin(base_url, ref)
         if url in self.resolved:
             return self.resolved[url]
@@ -48,11 +49,9 @@ def resolve_ref(self, obj, base_url):
         self.resolving[url] = True
         doc_url, pointer = urlparse.urldefrag(url)
         document = self.fetch(doc_url)
-        fragment = copy.deepcopy(resolve_pointer(document, pointer))
+        fragment = copy.deepcopy(resolve_fragment(document, pointer))
         try:
-            self.verify_checksum(checksum, fragment)
-            if isinstance(fragment, dict) and mixin:
-                fragment = dict(obj, **fragment)
+            fragment = dict(obj, **fragment)
             result = self.resolve_all(fragment, doc_url)
         finally:
             del self.resolving[url]
@@ -62,7 +61,7 @@ def resolve_all(self, document, base_url):
         if isinstance(document, list):
             iterator = enumerate(document)
         elif isinstance(document, dict):
-            if '$ref' in document or '$mixin' in document:
+            if 'id' in document:
                 return self.resolve_ref(document, base_url)
             iterator = document.iteritems()
         else:
@@ -95,24 +94,24 @@ def fetch(self, url):
         self.fetched[url] = result
         return result
 
-    def verify_checksum(self, checksum, document):
-        if not checksum:
-            return
-        hash_method, hexdigest = checksum.split('$')
-        if hexdigest != self.checksum(document, hash_method):
-            raise RuntimeError('Checksum does not match: %s' % checksum)
-
-    def checksum(self, document, method='sha1'):
-        if method not in ('md5', 'sha1'):
-            raise NotImplementedError('Unsupported hash method: %s' % method)
-        normalized = json.dumps(document, sort_keys=True, separators=(',', ':'))
-        return getattr(hashlib, method)(normalized).hexdigest
-
-
 POINTER_DEFAULT = object()
 
-
-def resolve_pointer(document, pointer, default=POINTER_DEFAULT):
+def resolve_fragment(document, frag):
+    if isinstance(document, dict):
+        if document.get("id") == frag:
+            return document
+        for d in document:
+            r = resolve_fragment(document[d], frag)
+            if r:
+                return r
+    elif isinstance(document, list):
+        for d in document:
+            r = resolve_fragment(d, frag)
+            if r:
+                return r
+    return None
+
+def resolve_json_pointer(document, pointer, default=POINTER_DEFAULT):
     parts = urlparse.unquote(pointer.lstrip('/#')).split('/') \
         if pointer else []
     for part in parts:
@@ -130,16 +129,7 @@ def resolve_pointer(document, pointer, default=POINTER_DEFAULT):
                 raise ValueError('Unresolvable JSON pointer: %r' % pointer)
     return document
 
-
 loader = Loader()
 
-
-def to_json(obj, fp=None):
-    default = lambda o: (o.__json__() if callable(getattr(o, '__json__', None))
-                         else str(o))
-    kwargs = dict(default=default, indent=2, sort_keys=True)
-    return json.dump(obj, fp, **kwargs) if fp else json.dumps(obj, **kwargs)
-
-
 def from_url(url, base_url=None):
     return loader.load(url, base_url)

From 59b8144e6ab62ab02c9ef57811a6aa869d4af4ca Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 12 May 2015 09:19:14 -0400
Subject: [PATCH 081/221] Switch to avro_ld.makedoc for generating
 specification.

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index dca391b03..d75b6638a 100644
--- a/setup.py
+++ b/setup.py
@@ -35,7 +35,7 @@
       url="https://github.com/common-workflow-language/common-workflow-language",
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
-      packages=["cwltool"],
+      packages=["cwltool", "cwltool.avro_ld"],
       package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
       install_requires=[
           'jsonschema >= 2.4.0',

From 95c667d03aae6e535270324a6799a89c4bcc48f6 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 12 May 2015 11:35:45 -0400
Subject: [PATCH 082/221] Use css media query to adjust behavior of table of
 contents based on screen size and Bootstrap behavior.

---
 cwltool/avro_ld/makedoc.py | 27 ++++++++++++++++-----------
 1 file changed, 16 insertions(+), 11 deletions(-)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 50a427c74..30798ea74 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -237,7 +237,6 @@ def avrold_doc(j, outdoc):
     body {
       height:100%;
       position: relative;
-      background-color: aliceblue;
     }
 
     #main {
@@ -261,33 +260,38 @@ def avrold_doc(j, outdoc):
       background-color: transparent;
     }
 
-    .container-fluid {
-      height: 100%;
+    #main {
+      overflow-y: auto;
     }
 
-    .lefttoc {
-      height: 100%;
+    #lefttoc {
+      background-color: aliceblue;
       overflow-y: auto;
     }
 
+    @media (min-width: 992px) {
+      .full-height {
+        height: 100%;
+      }
+    }
+
     </style>
     </head>
-    <body data-spy="scroll" data-target="#toc">
-    <div class="container-fluid">
+    <body>
+    <div class="container-fluid full-height">
     """)
 
     outdoc.write("""
-    <div class="row">
-    <div class="col-md-3 affix lefttoc" role="complementary">
+    <div class="row full-height">
+    <div id="lefttoc" class="col-md-3 full-height" role="complementary">
     """)
     outdoc.write(toc.contents("toc"))
     outdoc.write("""
     </div>
-    </div>
     """)
 
     outdoc.write("""
-    <div class="col-md-9 col-md-offset-3" role="main" id="main">""")
+    <div class="col-md-9 full-height" role="main" id="main" data-spy="scroll" data-target="#toc">""")
 
     outdoc.write(rt.typedoc.getvalue().encode("utf-8"))
 
@@ -295,6 +299,7 @@ def avrold_doc(j, outdoc):
 
     outdoc.write("""
     </div>
+    </div>
     </body>
     </html>""")
 

From 42a7b4a3f90ca9dd11e3ddb3f59d21ff68859579 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 12 May 2015 11:42:47 -0400
Subject: [PATCH 083/221] Add thin border between TOC and main.

---
 cwltool/avro_ld/makedoc.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 30798ea74..2bddbabd9 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -273,6 +273,9 @@ def avrold_doc(j, outdoc):
       .full-height {
         height: 100%;
       }
+      #lefttoc {
+        border-right: thin solid #C0C0C0;
+      }
     }
 
     </style>

From 0d01ea66d92e22e79ba6e7e7d1eb4ac569382907 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 13 May 2015 22:22:55 -0400
Subject: [PATCH 084/221] Refactored features into CreateFilesRequirement,
 EnvironmentVarRequirement, SchemaRequirement based on SBG proposal.

---
 cwltool/main.py | 28 +++++++++++++++++++++++-----
 1 file changed, 23 insertions(+), 5 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 9193f0564..ac1db1496 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -13,6 +13,7 @@
 import validate
 import tempfile
 import avro_ld.jsonld_context
+import avro_ld.makedoc
 import yaml
 
 _logger = logging.getLogger("cwltool")
@@ -35,14 +36,17 @@ def main():
     parser.add_argument("--basedir", type=str)
     parser.add_argument("--outdir", type=str)
     parser.add_argument("--no-container", action="store_true", help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool")
-    parser.add_argument("--leave-container", action="store_true", help="Do not delete Docker container after it exits")
-    parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull the Docker image")
-    parser.add_argument("--dry-run", action="store_true", help="Do not execute")
+    parser.add_argument("--leave-container", action="store_true", help="Do not delete Docker container used by jobs after they exit")
+    parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull Docker images")
+    parser.add_argument("--dry-run", action="store_true", help="Load and validate but do not execute")
 
-    parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file")
     parser.add_argument("--print-rdf", action="store_true", help="Print corresponding RDF graph for workflow")
     parser.add_argument("--rdf-serializer", help="Output RDF serialization format (one of turtle (default), n3, nt, xml)", default="turtle")
 
+    parser.add_argument("--print-spec", action="store_true", help="Print HTML specification document")
+    parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file")
+    parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file")
+
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
 
@@ -54,14 +58,28 @@ def main():
     if args.debug:
         logging.getLogger("cwltool").setLevel(logging.DEBUG)
 
+    cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
+
     if args.print_jsonld_context:
-        cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
         with open(cwl_avsc) as f:
             j = yaml.load(f)
         (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
         print json.dumps(ctx, indent=4, sort_keys=True)
         return 0
 
+    if args.print_rdfs:
+        with open(cwl_avsc) as f:
+            j = yaml.load(f)
+        (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
+        print(g.serialize(format=args.rdf_serializer))
+        return 0
+
+    if args.print_spec:
+        with open(cwl_avsc) as f:
+            j = yaml.load(f)
+        avro_ld.makedoc.avrold_doc(j, sys.stdout)
+        return 0
+
     if not args.workflow:
         _logger.error("CWL document required")
         parser.print_help()

From cde6c9615389e8015b29affa70011ca2c1403836 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 18 May 2015 21:03:57 -0400
Subject: [PATCH 085/221] Add 'docAfter' (alternative to docParent) to organize
 of the spec.

---
 cwltool/avro_ld/makedoc.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 2bddbabd9..4d1e160da 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -122,6 +122,7 @@ def __init__(self, toc, j):
         self.toc = toc
         self.subs = {}
         self.docParent = {}
+        self.docAfter = {}
         for t in j:
             if "extends" in t:
                 add_dictlist(self.subs, t["extends"], t["name"])
@@ -131,6 +132,9 @@ def __init__(self, toc, j):
             if t.get("docParent"):
                 add_dictlist(self.docParent, t["docParent"], t["name"])
 
+            if t.get("docAfter"):
+                add_dictlist(self.docAfter, t["docAfter"], t["name"])
+
         alltypes = schema.extend_avro(j)
 
         self.typemap = {}
@@ -214,6 +218,9 @@ def render_type(self, f, depth):
         for s in self.docParent.get(f["name"], []):
             self.render_type(self.typemap[s], depth+1)
 
+        for s in self.docAfter.get(f["name"], []):
+            self.render_type(self.typemap[s], depth)
+
 def avrold_doc(j, outdoc):
     toc = ToC()
     toc.start_numbering = False

From 045befc8beb025bf0eb64de96e19e13ad597e95c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 18 May 2015 21:13:51 -0400
Subject: [PATCH 086/221] Fix docAfter

---
 cwltool/avro_ld/makedoc.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 4d1e160da..9de72d048 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -151,7 +151,7 @@ def __init__(self, toc, j):
                             self.uses[tp].append((t["name"], f["name"]))
 
         for f in alltypes:
-            if "extends" not in f and not f.get("docParent"):
+            if "extends" not in f and "docParent" not in f and "docAfter" not in f:
                 self.render_type(f, 1)
 
 

From 967a21d4b6d1873e4d67edc77894cfd020e2e871 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 18 May 2015 22:51:59 -0400
Subject: [PATCH 087/221] Implement issue #36 and #40, updating test cases in
 progress.

---
 cwltool/docker.py     | 21 ++++++-------
 cwltool/draft2tool.py | 72 ++++++++++++++++++++++++++-----------------
 cwltool/expression.py |  4 +++
 cwltool/process.py    | 25 ++++++++-------
 cwltool/sandboxjs.py  | 32 -------------------
 cwltool/workflow.py   |  2 +-
 6 files changed, 70 insertions(+), 86 deletions(-)
 delete mode 100644 cwltool/sandboxjs.py

diff --git a/cwltool/docker.py b/cwltool/docker.py
index f4c1793a4..57a85b88f 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -3,6 +3,7 @@
 import sys
 import requests
 import os
+import process
 
 _logger = logging.getLogger("cwltool")
 
@@ -62,17 +63,13 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
 
 
 def get_from_requirements(requirements, hints, pull_image, dry_run=False):
-    if requirements:
-        for r in reversed(requirements):
-            if r["class"] == "DockerRequirement":
-                if get_image(r, pull_image, dry_run):
-                    return r["dockerImageId"]
-                else:
-                    raise Exception("Docker image %s not found" % r["dockerImageId"])
-    if hints:
-        for r in reversed(hints):
-            if r["class"] == "DockerRequirement":
-                if get_image(r, pull_image, dry_run):
-                    return r["dockerImageId"]
+    (r, req) = process.get_feature("DockerRequirement", requirements=requirements, hints=hints)
+
+    if r:
+        if get_image(r, pull_image, dry_run):
+            return r["dockerImageId"]
+        else:
+            if req:
+                raise Exception("Docker image %s not found" % r["dockerImage"])
 
     return None
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 23f295855..b90ecb7af 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -15,6 +15,7 @@
 import random
 from process import Process
 from process import WorkflowException
+from process import get_feature
 import validate
 from aslist import aslist
 import expression
@@ -22,14 +23,17 @@
 
 _logger = logging.getLogger("cwltool")
 
-CONTENT_LIMIT = 1024 * 1024
+CONTENT_LIMIT = 64 * 1024
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
 supportedProcessRequirements = ("DockerRequirement",
                                 "MemoryRequirement",
                                 "ExpressionEngineRequirement",
-                                "Scatter")
+                                "Scatter",
+                                "SchemaDefRequirement",
+                                "EnvVarRequirement",
+                                "CreateFileRequirement")
 
 def substitute(value, replace):
     if replace[0] == "^":
@@ -38,14 +42,6 @@ def substitute(value, replace):
         return value + replace
 
 class Builder(object):
-    # def jseval(self, expression, context):
-    #     if isinstance(expression, list):
-    #         exp = "{return %s(%s);}" % (expression[0], ",".join([json.dumps(self.do_eval(e)) for e in expression[1:]]))
-    #     elif expression.startswith('{'):
-    #         exp = '{return function()%s();}' % (expression)
-    #     else:
-    #         exp = '{return %s;}' % (expression)
-    #     return sandboxjs.execjs(exp, "var $job = %s; var $self = %s; %s" % (json.dumps(self.job), json.dumps(context), self.jslib))
 
     def bind_input(self, schema, datum):
         bindings = []
@@ -141,7 +137,7 @@ def generate_arg(self, binding):
             value = expression.do_eval(binding["do_eval"], self.job, self.requirements, self.docpath, value)
 
         prefix = binding.get("prefix")
-        sep = binding.get("separator")
+        sep = binding.get("separate", True)
 
         l = []
         if isinstance(value, list):
@@ -166,10 +162,10 @@ def generate_arg(self, binding):
 
         args = []
         for j in l:
-            if sep is None or sep == " ":
+            if sep:
                 args.extend([prefix, str(j)])
             else:
-                args.extend([prefix + sep + str(j)])
+                args.extend([prefix + str(j)])
 
         return [a for a in args if a is not None]
 
@@ -265,7 +261,7 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
-            j.stdin = self.tool["stdin"]
+            j.stdin = expression.do_eval(self.tool["stdin"], builder.job, self.requirements, self.docpath, j.stdin)
             if isinstance(j.stdin, dict) and "ref" in j.stdin:
                 j.stdin = builder.job[j.stdin["ref"][1:]]["path"]
             reffiles.append(j.stdin)
@@ -288,8 +284,8 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         j.requirements = self.requirements
         j.hints = self.hints
 
-        for r in (j.requirements + j.hints):
-            if r["class"] == "DockerRequirement" and use_container:
+        dockerReq, _ = get_feature("DockerRequirement", requirements=self.requirements, hints=self.hints)
+        if dockerReq and use_container:
                 builder.pathmapper = DockerPathMapper(reffiles, basedir)
 
         if builder.pathmapper is None:
@@ -301,12 +297,16 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         builder.requirements = j.requirements
 
         j.generatefiles = {}
-        for t in self.tool.get("fileDefs", []):
-            j.generatefiles[t["filename"]] = expression.do_eval(t["value"], builder.job, j.requirements, self.docpath)
+        createFiles, _ = get_feature("CreateFileRequirement", requirements=self.requirements, hints=self.hints)
+        if createFiles:
+            for t in createFiles["fileDef"]:
+                j.generatefiles[t["filename"]] = expression.do_eval(t["fileContent"], builder.job, j.requirements, self.docpath)
 
         j.environment = {}
-        for t in self.tool.get("environmentDefs", []):
-            j.environment[t["env"]] = expression.do_eval(t["value"], builder.job, j.requirements, self.docpath)
+        evr, _ = get_feature("EnvVarRequirement", requirements=self.requirements, hints=self.hints)
+        if evr:
+            for t in evr["envDef"]:
+                j.environment[t["envName"]] = expression.do_eval(t["envValue"], builder.job, j.requirements, self.docpath)
 
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
@@ -333,7 +333,10 @@ def collect_output(self, schema, builder, outdir):
         if "outputBinding" in schema:
             binding = schema["outputBinding"]
             if "glob" in binding:
-                r = [{"path": g} for g in glob.glob(os.path.join(outdir, binding["glob"]))]
+                r = []
+                bg = expression.do_eval(binding["glob"], builder.job, self.requirements, self.docpath)
+                for gb in aslist(bg):
+                    r.extend([{"path": g} for g in glob.glob(os.path.join(outdir, gb))])
                 for files in r:
                     checksum = hashlib.sha1()
                     with open(files["path"], "rb") as f:
@@ -351,16 +354,29 @@ def collect_output(self, schema, builder, outdir):
                 if schema["type"] == "array" and schema["items"] == "File":
                     pass
                 elif schema["type"] == "File":
-                    r = r[0] if r else None
-                elif binding.get("loadContents"):
-                    r = [v["contents"] for v in r]
-                    if len(r) == 1:
-                        r = r[0]
+                    if len(r) != 1:
+                        raise WorkflowException("Multiple matches for output item that is a single file.")
+                    r = r[0]
                 else:
                     r = None
 
-            if "valueFrom" in binding:
-                r = expression.do_eval(binding["valueFrom"], builder.job, self.requirements, self.docpath, r)
+            if "outputEval" in binding:
+                r = expression.do_eval(binding["outputEval"], builder.job, self.requirements, self.docpath, r)
+                if schema["type"] == "File" and (not isinstance(r, dict) or "path" not in r):
+                    raise WorkflowException("Expression must return a file object.")
+
+            if schema["type"] == "File" and "secondaryFiles" in binding:
+                r["secondaryFiles"] = []
+                for sf in aslist(binding["secondaryFiles"]):
+                    if isinstance(sf, dict):
+                        sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, r["path"])
+                    else:
+                        sfpath = {"path": substitute(r["path"], sf)}
+                    if isinstance(sfpath, list):
+                        r["secondaryFiles"].extend(sfpath)
+                    else:
+                        r["secondaryFiles"].append(sfpath)
+
 
         if not r and schema["type"] == "record":
             r = {}
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 967755ae6..3135655af 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -8,10 +8,14 @@
 import process
 import yaml
 import validate
+import ref_resolver
 
 _logger = logging.getLogger("cwltool")
 
 def exeval(ex, jobinput, requirements, docpath, context, pull_image):
+    if ex["engine"] == "JsonPointer":
+        return ref_resolver.resolve_pointer({"job": jobinput, "context": context}, ex["script"])
+
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
             if r["id"][0] != "#":
diff --git a/cwltool/process.py b/cwltool/process.py
index 001d7d8d0..5ed931f3b 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -10,7 +10,6 @@
 from aslist import aslist
 import avro_ld.schema
 
-TOOL_CONTEXT_URL = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/master/schemas/draft-2/cwl-context.json"
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
 _logger = logging.getLogger("cwltool")
@@ -24,25 +23,24 @@ def get_schema():
         j = yaml.load(f)
         return avro_ld.schema.schema(j)
 
-class Process(object):
-    def get_feature(self, feature, kwargs):
-        for t in kwargs.get("requirements", []):
+def get_feature(feature, **kwargs):
+    if kwargs.get("requirements"):
+        for t in reversed(kwargs["requirements"]):
             if t["class"] == feature:
-                return t
-        for t in kwargs.get("hints", []):
+                return (t, True)
+    if kwargs.get("hints"):
+        for t in reversed(kwargs.get("hints", [])):
             if t["class"] == feature:
-                return t
-        return None
+                return (t, False)
+    return (None, None)
 
+class Process(object):
     def __init__(self, toolpath_object, validateAs, docpath):
         self.names = get_schema()
         self.docpath = docpath
 
         self.tool = toolpath_object
 
-        #if self.tool.get("@context") != TOOL_CONTEXT_URL:
-        #    raise Exception("Missing or invalid '@context' field in tool description document, must be %s" % TOOL_CONTEXT_URL)
-
         # Validate tool documument
         validate.validate_ex(self.names.get_name(validateAs, ""), self.tool)
 
@@ -71,8 +69,9 @@ def __init__(self, toolpath_object, validateAs, docpath):
                 {"type": "map", "values": "Any"}
             ]}
 
-        if self.tool.get("schemaDefs"):
-            for i in self.tool["schemaDefs"]:
+        sd, _ = get_feature("SchemaDefRequirement", requirements=self.tool.get("requirements"), hints=self.tool.get("hints"))
+        if sd:
+            for i in sd["types"]:
                 avro.schema.make_avsc_object(i, self.names)
                 self.schemaDefs[i["name"]] = i
 
diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
deleted file mode 100644
index 752ff02db..000000000
--- a/cwltool/sandboxjs.py
+++ /dev/null
@@ -1,32 +0,0 @@
-import subprocess
-import json
-import threading
-
-class JavascriptException(Exception):
-    pass
-
-def execjs(js, jslib):
-    nodejs = subprocess.Popen(["nodejs"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
-
-    fn = "\"use strict\";%s\n(function()%s)()" % (jslib, js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
-    script = "console.log(JSON.stringify(require(\"vm\").runInNewContext(%s, {})))" % json.dumps(fn)
-
-    #print script
-
-    def term():
-        try:
-            nodejs.terminate()
-        except OSError:
-            pass
-
-    # Time out after 5 seconds
-    tm = threading.Timer(5, term)
-    tm.start()
-
-    stdoutdata, stderrdata = nodejs.communicate(script)
-    tm.cancel()
-
-    if stderrdata.strip() or nodejs.returncode != 0:
-        raise JavascriptException(script + "\n" + stderrdata)
-    else:
-        return json.loads(stdoutdata)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 9d5b4bb8c..dd166bff4 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -59,7 +59,7 @@ def receive_output(self, step, outputparms, jobout):
     def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
-        scatterSpec = self.get_feature("Scatter", requirements=self.tool["requirements"], hints=self.tool["hints"])
+        (scatterSpec, _) = self.get_feature("Scatter", requirements=self.tool["requirements"], hints=self.tool["hints"])
         if scatterSpec:
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])

From a724b5654a529097bff4c74d43178062a1c58aca Mon Sep 17 00:00:00 2001
From: Luka Stojanovic <luka.stojanovic@sbgenomics.com>
Date: Wed, 20 May 2015 10:11:53 +0200
Subject: [PATCH 088/221] Added missing 'mistune' dependency.

---
 setup.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index d75b6638a..dd3313b92 100644
--- a/setup.py
+++ b/setup.py
@@ -43,7 +43,8 @@
           'PyYAML',
           'avro',
           'rdflib >= 4.2.0',
-          'rdflib-jsonld >= 0.3.0'
+          'rdflib-jsonld >= 0.3.0',
+          'mistune'
         ],
       test_suite='tests',
       tests_require=[],

From 4d3a95cffe260b4074186d54dcbc4796b2350aee Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 21 May 2015 22:52:01 -0400
Subject: [PATCH 089/221] All tests pass again with most recent schema changes

---
 cwltool/draft2tool.py | 39 +++++++++++++++++++++------------------
 cwltool/job.py        |  4 ++--
 cwltool/pathmapper.py | 12 +++++++-----
 cwltool/workflow.py   | 19 +++++++++----------
 4 files changed, 39 insertions(+), 35 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index b90ecb7af..ce906e69f 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -173,7 +173,10 @@ def generate_arg(self, binding):
 class Tool(Process):
     def _init_job(self, joborder, basedir, **kwargs):
         # Validate job order
-        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+        try:
+            validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+        except validate.ValidationException as e:
+            raise WorkflowException("Error validating input record, " + str(e))
 
         for r in self.tool.get("requirements", []):
             if r["class"] not in supportedProcessRequirements:
@@ -292,7 +295,7 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
             builder.pathmapper = PathMapper(reffiles, basedir)
 
         for f in builder.files:
-            f["path"] = builder.pathmapper.mapper(f["path"])
+            f["path"] = builder.pathmapper.mapper(f["path"])[1]
 
         builder.requirements = j.requirements
 
@@ -320,13 +323,17 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         yield j
 
     def collect_output_ports(self, ports, builder, outdir):
-        custom_output = os.path.join(outdir, "cwl.output.json")
-        if os.path.exists(custom_output):
-            outputdoc = yaml.load(custom_output)
-            validate.validate_ex(self.names.get_name("output_record_schema", ""), outputdoc)
-            return outputdoc
-        ret = {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
-        return ret if ret is not None else {}
+        try:
+            custom_output = os.path.join(outdir, "cwl.output.json")
+            if os.path.exists(custom_output):
+                outputdoc = yaml.load(custom_output)
+                validate.validate_ex(self.names.get_name("outputs_record_schema", ""), outputdoc)
+                return outputdoc
+            ret = {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
+            validate.validate_ex(self.names.get_name("outputs_record_schema", ""), ret)
+            return ret if ret is not None else {}
+        except validate.ValidationException as e:
+            raise WorkflowException("Error validating output record, " + str(e))
 
     def collect_output(self, schema, builder, outdir):
         r = None
@@ -351,20 +358,16 @@ def collect_output(self, schema, builder, outdir):
                     files["checksum"] = "sha1$%s" % checksum.hexdigest()
                     files["size"] = filesize
 
-                if schema["type"] == "array" and schema["items"] == "File":
-                    pass
-                elif schema["type"] == "File":
-                    if len(r) != 1:
-                        raise WorkflowException("Multiple matches for output item that is a single file.")
-                    r = r[0]
-                else:
-                    r = None
-
             if "outputEval" in binding:
                 r = expression.do_eval(binding["outputEval"], builder.job, self.requirements, self.docpath, r)
                 if schema["type"] == "File" and (not isinstance(r, dict) or "path" not in r):
                     raise WorkflowException("Expression must return a file object.")
 
+            if schema["type"] == "File":
+                if len(r) != 1:
+                    raise WorkflowException("Multiple matches for output item that is a single file.")
+                r = r[0]
+
             if schema["type"] == "File" and "secondaryFiles" in binding:
                 r["secondaryFiles"] = []
                 for sf in aslist(binding["secondaryFiles"]):
diff --git a/cwltool/job.py b/cwltool/job.py
index eccdea497..2c2e8b90d 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -24,8 +24,8 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         img_id = docker.get_from_requirements(self.requirements, self.hints, pull_image)
 
         for f in self.pathmapper.files():
-            if not os.path.exists(f):
-                raise WorkflowException("Required input file %s not found" % f)
+            if not os.path.exists(self.pathmapper.mapper(f)[0]):
+                raise WorkflowException("Required input file %s not found" % self.pathmapper.mapper(f)[0])
 
         if img_id:
             runtime = ["docker", "run", "-i"]
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index cdbd187dc..be338515b 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -2,12 +2,14 @@
 import random
 
 class PathMapper(object):
-    # Maps files to their absolute path
+    """Mapping of files from relative path provided in the file to a tuple of
+    (absolute local path, absolute container path)"""
+
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         for src in referenced_files:
             ab = src if os.path.isabs(src) else os.path.join(basedir, src)
-            self._pathmap[src] = ab
+            self._pathmap[src] = (ab, ab)
 
     def mapper(self, src):
         return self._pathmap[src]
@@ -49,7 +51,7 @@ def __init__(self, referenced_files, basedir):
             self.dirs[d] = name
 
         for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
+            ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
             for d in self.dirs:
-                if abs.startswith(d):
-                    self._pathmap[src] = os.path.join(self.dirs[d], abs[len(d)+1:])
+                if ab.startswith(d):
+                    self._pathmap[src] = (ab, os.path.join(self.dirs[d], abs[len(d)+1:]))
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index dd166bff4..71910ba16 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -2,8 +2,7 @@
 import draft1tool
 import draft2tool
 from aslist import aslist
-from process import Process
-from process import WorkflowException
+from process import Process, WorkflowException, get_feature
 import copy
 import logging
 import random
@@ -59,21 +58,21 @@ def receive_output(self, step, outputparms, jobout):
     def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
-        (scatterSpec, _) = self.get_feature("Scatter", requirements=self.tool["requirements"], hints=self.tool["hints"])
+        (scatterSpec, _) = get_feature("Scatter", requirements=step.tool.get("requirements"), hints=step.tool.get("hints"))
         if scatterSpec:
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])
             scatter = aslist(scatterSpec["scatter"])
 
             inp_map = {i["id"]: i for i in inputparms}
-            for s in aslist(step.tool["scatter"]):
+            for s in scatter:
                 if s not in inp_map:
                     raise WorkflowException("Invalid Scatter parameter '%s'" % s)
 
                 inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
 
             if scatterSpec.get("scatterMethod") == "nested_crossproduct":
-                nesting = len(aslist(step.tool["scatter"]))
+                nesting = len(scatter)
             else:
                 nesting = 1
 
@@ -109,7 +108,7 @@ def try_make_job(self, step, basedir, **kwargs):
                             else:
                                 inputobj[iid] = [self.state[src].value]
                         else:
-                            raise WorkflowException("Type mismatch between '%s' (%s) and '%s' (%s)" % (src, self.state[src].parameter["type"], idk(inp["id"]), inp["type"]))
+                            raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], idk(inp["id"]), inp["type"]))
                     elif src not in self.state:
                         raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
                     else:
@@ -125,15 +124,15 @@ def try_make_job(self, step, basedir, **kwargs):
 
         if scatterSpec:
             method = scatterSpec.get("scatterMethod")
-            if method is None and len(aslist(scatterSpec["scatter"])) != 1:
+            if method is None and len(scatter) != 1:
                 raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
 
             if method == "dotproduct" or method is None:
-                jobs = dotproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
+                jobs = dotproduct_scatter(step, inputobj, basedir, scatter, callback, **kwargs)
             elif method == "nested_crossproduct":
-                jobs = nested_crossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, **kwargs)
+                jobs = nested_crossproduct_scatter(step, inputobj, basedir, scatter, callback, **kwargs)
             elif method == "flat_crossproduct":
-                jobs = flat_crossproduct_scatter(step, inputobj, basedir, aslist(step.tool["scatter"]), callback, 0, **kwargs)
+                jobs = flat_crossproduct_scatter(step, inputobj, basedir, scatter, callback, 0, **kwargs)
         else:
             jobs = step.job(inputobj, basedir, callback, **kwargs)
 

From 2c0addbf474fa39e7a78dff6ea15a076a2b8ca21 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 24 May 2015 21:04:01 -0400
Subject: [PATCH 090/221] Implement issue #42: require "class: File" for
 file-type input objects.

---
 cwltool/avro_ld/schema.py | 5 +++++
 cwltool/draft2tool.py     | 2 +-
 2 files changed, 6 insertions(+), 1 deletion(-)

diff --git a/cwltool/avro_ld/schema.py b/cwltool/avro_ld/schema.py
index c305f537c..857081db3 100644
--- a/cwltool/avro_ld/schema.py
+++ b/cwltool/avro_ld/schema.py
@@ -27,6 +27,11 @@ def extend_avro(items):
             if "specialize" in t:
                 r["fields"] = specialize(r["fields"], t["specialize"])
             r["fields"].extend(t["fields"])
+
+            for y in [x for x in r["fields"] if x["name"] == "class"]:
+                y["type"] = {"type": "enum", "symbols": [r["name"]], "name": r["name"]+"_class"}
+
+
             r["extends"] = t["extends"]
             r["abstract"] = t.get("abstract", False)
             r["doc"] = t.get("doc", "")
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index ce906e69f..7ad560dd0 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -343,7 +343,7 @@ def collect_output(self, schema, builder, outdir):
                 r = []
                 bg = expression.do_eval(binding["glob"], builder.job, self.requirements, self.docpath)
                 for gb in aslist(bg):
-                    r.extend([{"path": g} for g in glob.glob(os.path.join(outdir, gb))])
+                    r.extend([{"path": g, "class": "File"} for g in glob.glob(os.path.join(outdir, gb))])
                 for files in r:
                     checksum = hashlib.sha1()
                     with open(files["path"], "rb") as f:

From b57b23fa698a427e5b2c87f104e02b071bf57e33 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 24 May 2015 23:19:07 -0400
Subject: [PATCH 091/221] Work in progress on 'id' loading.  Fixing tests and
 reference code.

---
 cwltool/avro_ld/jsonld_context.py |  3 +--
 cwltool/draft1tool.py             |  4 ++--
 cwltool/draft2tool.py             | 26 ++++++++++++--------
 cwltool/expression.py             | 13 +++-------
 cwltool/main.py                   | 35 +++++++++++++++++++--------
 cwltool/process.py                |  7 ++++--
 cwltool/ref_resolver.py           | 40 ++++++++++++++++++-------------
 7 files changed, 76 insertions(+), 52 deletions(-)

diff --git a/cwltool/avro_ld/jsonld_context.py b/cwltool/avro_ld/jsonld_context.py
index 1da690523..7e7cfbc5f 100755
--- a/cwltool/avro_ld/jsonld_context.py
+++ b/cwltool/avro_ld/jsonld_context.py
@@ -74,7 +74,7 @@ def avrold_to_jsonld_context(j):
                 if isinstance(v, basestring):
                     v = v if v[0] != "@" else None
                 else:
-                    v = v["@id"] if v["@id"][0] != "@" else None
+                    v = v["@id"] if v.get("@id", "@")[0] != "@" else None
 
                 if v:
                     (ns, ln) = rdflib.namespace.split_uri(unicode(v))
@@ -97,4 +97,3 @@ def avrold_to_jsonld_context(j):
         j = yaml.load(f)
         (ctx, g) = avrold_to_jsonld_context(j)
         print json.dumps(ctx, indent=4, sort_keys=True)
-
diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index 06daf093f..221e2683f 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -15,7 +15,7 @@
 
 from jsonschema.validators import Draft4Validator
 import ref_resolver
-from ref_resolver import from_url, resolve_pointer
+from ref_resolver import from_url, resolve_json_pointer
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
@@ -89,7 +89,7 @@ def resolve_eval(self, job, v):
                 ex += ")"
                 return self.jseval(job, ex)
             elif "$job" in v:
-                return resolve_pointer(job, v["$job"])
+                return resolve_json_pointer(job, v["$job"])
             elif "$import" in v:
                 # TODO: check checksum
                 url = urlparse.urljoin(self.base_url, v["$import"])
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 7ad560dd0..b583ba46d 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -20,6 +20,7 @@
 from aslist import aslist
 import expression
 import re
+import urlparse
 
 _logger = logging.getLogger("cwltool")
 
@@ -271,14 +272,15 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
 
         if self.tool.get("stdout"):
             if isinstance(self.tool["stdout"], dict) and "ref" in self.tool["stdout"]:
-                for out in self.tool.get("outputs", []):
-                    if out["id"] == self.tool["stdout"]["ref"]:
-                        filename = self.tool["stdout"]["ref"][1:]
-                        j.stdout = filename
-                        out["outputBinding"] = out.get("outputBinding", {})
-                        out["outputBinding"]["glob"] = filename
-                if not j.stdout:
-                    raise validate.ValidationException("stdout refers to invalid output")
+                pass
+                # for out in self.tool.get("outputs", []):
+                #     if out["id"] == self.tool["stdout"]["ref"]:
+                #         filename = self.tool["stdout"]["ref"][1:]
+                #         j.stdout = filename
+                #         out["outputBinding"] = out.get("outputBinding", {})
+                #         out["outputBinding"]["glob"] = filename
+                # if not j.stdout:
+                #     raise validate.ValidationException("stdout refers to invalid output")
             else:
                 j.stdout = self.tool["stdout"]
             if os.path.isabs(j.stdout):
@@ -329,11 +331,15 @@ def collect_output_ports(self, ports, builder, outdir):
                 outputdoc = yaml.load(custom_output)
                 validate.validate_ex(self.names.get_name("outputs_record_schema", ""), outputdoc)
                 return outputdoc
-            ret = {port["id"][1:]: self.collect_output(port, builder, outdir) for port in ports}
+
+            ret = {}
+            for port in ports:
+                doc_url, fragment = urlparse.urldefrag(port['id'])
+                ret[fragment] = self.collect_output(port, builder, outdir)
             validate.validate_ex(self.names.get_name("outputs_record_schema", ""), ret)
             return ret if ret is not None else {}
         except validate.ValidationException as e:
-            raise WorkflowException("Error validating output record, " + str(e))
+            raise WorkflowException("Error validating output record, " + str(e) + "\n in " + json.dumps(ret, indent=4))
 
     def collect_output(self, schema, builder, outdir):
         r = None
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 3135655af..d82ba2039 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -13,18 +13,11 @@
 _logger = logging.getLogger("cwltool")
 
 def exeval(ex, jobinput, requirements, docpath, context, pull_image):
-    if ex["engine"] == "JsonPointer":
-        return ref_resolver.resolve_pointer({"job": jobinput, "context": context}, ex["script"])
+    if ex["engine"].endswith("/JsonPointer"):
+        return ref_resolver.resolve_json_pointer({"job": jobinput, "context": context}, ex["script"])
 
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
-            if r["id"][0] != "#":
-                with open(os.path.join(docpath, r["id"])) as f:
-                    ex_obj = yaml.load(f)
-                sch = process.get_schema()
-                validate.validate_ex(sch.get_name("ExpressionEngineRequirement", ""), ex_obj)
-                r = ex_obj
-
             runtime = []
             img_id = docker.get_from_requirements(r.get("requirements"), r.get("hints"), pull_image)
             if img_id:
@@ -33,7 +26,7 @@ def exeval(ex, jobinput, requirements, docpath, context, pull_image):
             exdefs = []
             for exdef in r.get("expressionDefs", []):
                 if isinstance(exdef, dict) and "ref" in exdef:
-                    with open(os.path.join(r["_docpath"], exdef["ref"])) as f:
+                    with open(exdef["ref"][7:]) as f:
                         exdefs.append(f.read())
                 elif isinstance(exdef, basestring):
                     exdefs.append(exdef)
diff --git a/cwltool/main.py b/cwltool/main.py
index ac1db1496..c61f58683 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -46,11 +46,12 @@ def main():
     parser.add_argument("--print-spec", action="store_true", help="Print HTML specification document")
     parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file")
     parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file")
+    parser.add_argument("--print-avro", action="store_true", help="Print Avro schema")
+    parser.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing")
 
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
 
-
     args = parser.parse_args()
 
     if args.verbose:
@@ -60,35 +61,49 @@ def main():
 
     cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
 
+    with open(cwl_avsc) as f:
+        j = yaml.load(f)
+    (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
+
+    url_fields = []
+    for c in ctx:
+        if c != "id" and (ctx[c] == "@id") or (isinstance(ctx[c], dict) and ctx[c].get("@type") == "@id"):
+            url_fields.append(c)
+
     if args.print_jsonld_context:
-        with open(cwl_avsc) as f:
-            j = yaml.load(f)
-        (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
         print json.dumps(ctx, indent=4, sort_keys=True)
         return 0
 
     if args.print_rdfs:
-        with open(cwl_avsc) as f:
-            j = yaml.load(f)
-        (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
         print(g.serialize(format=args.rdf_serializer))
         return 0
 
     if args.print_spec:
-        with open(cwl_avsc) as f:
-            j = yaml.load(f)
         avro_ld.makedoc.avrold_doc(j, sys.stdout)
         return 0
 
+    if args.print_avro:
+        names = avro_ld.schema.schema(j)
+        print "["
+        print ", ".join([json.dumps(names.names[n].to_json(), indent=4, sort_keys=True) for n in names.names])
+        print "]"
+        return 0
+
     if not args.workflow:
         _logger.error("CWL document required")
         parser.print_help()
         return 1
 
+    processobj = from_url(args.workflow, url_fields=url_fields)
+
     if args.print_rdf:
         printrdf(args.workflow, args.rdf_serializer)
         return 0
 
+    if args.print_pre:
+        print json.dumps(processobj, indent=4)
+        return 0
+
     if not args.job_order:
         _logger.error("Input object required")
         parser.print_help()
@@ -97,7 +112,7 @@ def main():
     basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
 
     try:
-        t = workflow.makeTool(from_url(args.workflow), basedir)
+        t = workflow.makeTool(processobj, basedir)
     except (jsonschema.exceptions.ValidationError, validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
diff --git a/cwltool/process.py b/cwltool/process.py
index 5ed931f3b..f58ff0a1d 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -9,6 +9,7 @@
 import pprint
 from aslist import aslist
 import avro_ld.schema
+import urlparse
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
@@ -79,7 +80,8 @@ def __init__(self, toolpath_object, validateAs, docpath):
         self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
         for i in self.tool["inputs"]:
             c = copy.copy(i)
-            c["name"] = c["id"][1:]
+            doc_url, fragment = urlparse.urldefrag(c['id'])
+            c["name"] = fragment
             del c["id"]
             if "default" in c:
                 c["type"] = ["null"] + aslist(c["type"])
@@ -89,7 +91,8 @@ def __init__(self, toolpath_object, validateAs, docpath):
         self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
         for i in self.tool["outputs"]:
             c = copy.copy(i)
-            c["name"] = c["id"][1:]
+            doc_url, fragment = urlparse.urldefrag(c['id'])
+            c["name"] = fragment
             del c["id"]
             if "default" in c:
                 c["type"] = ["null"] + aslist(c["type"])
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index 613a3a28b..fa125067c 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -8,8 +8,7 @@
 import urlparse
 import yaml
 
-log = logging.getLogger(__name__)
-
+log = logging.getLogger("cwltool")
 
 class NormDict(dict):
     def __init__(self, normalize=unicode):
@@ -33,41 +32,48 @@ def __init__(self):
         self.resolved = NormDict(normalize)
         self.resolving = NormDict(normalize)
 
-    def load(self, url, base_url=None):
+    def load(self, url, base_url=None, url_fields=[]):
         base_url = base_url or 'file://%s/' % os.path.abspath('.')
-        return self.resolve_ref({'id': url}, base_url)
+        return self.resolve_ref({'id': url}, base_url, url_fields=url_fields)
 
-    def resolve_ref(self, obj, base_url):
-        ref, mixin = obj.pop('id', None)
+    def resolve_ref(self, obj, base_url, url_fields=[]):
+        ref = obj['id']
+        url = urlparse.urljoin(base_url, ref)
         if ref[0] == "#":
+            obj = copy.deepcopy(obj)
+            obj['id'] = url
             return obj
-        url = urlparse.urljoin(base_url, ref)
+        if len(obj) != 1:
+            raise RuntimeError("External references cannot have other fields.")
         if url in self.resolved:
             return self.resolved[url]
         if url in self.resolving:
             raise RuntimeError('Circular reference for url %s' % url)
         self.resolving[url] = True
-        doc_url, pointer = urlparse.urldefrag(url)
+        doc_url, fragment = urlparse.urldefrag(url)
         document = self.fetch(doc_url)
-        fragment = copy.deepcopy(resolve_fragment(document, pointer))
+        fragment = copy.deepcopy(resolve_fragment(document, fragment))
         try:
-            fragment = dict(obj, **fragment)
-            result = self.resolve_all(fragment, doc_url)
+            result = self.resolve_all(fragment, doc_url, url_fields)
         finally:
             del self.resolving[url]
+        result["id"] = url
         return result
 
-    def resolve_all(self, document, base_url):
+    def resolve_all(self, document, base_url, url_fields):
         if isinstance(document, list):
             iterator = enumerate(document)
         elif isinstance(document, dict):
             if 'id' in document:
-                return self.resolve_ref(document, base_url)
+                document = self.resolve_ref(document, base_url, url_fields)
+            for d in url_fields:
+                if d in document and isinstance(document[d], basestring):
+                    document[d] = urlparse.urljoin(base_url, document[d])
             iterator = document.iteritems()
         else:
             return document
         for key, val in iterator:
-            document[key] = self.resolve_all(val, base_url)
+            document[key] = self.resolve_all(val, base_url, url_fields)
         return document
 
     def fetch(self, url):
@@ -97,6 +103,8 @@ def fetch(self, url):
 POINTER_DEFAULT = object()
 
 def resolve_fragment(document, frag):
+    if not frag:
+        return document
     if isinstance(document, dict):
         if document.get("id") == frag:
             return document
@@ -131,5 +139,5 @@ def resolve_json_pointer(document, pointer, default=POINTER_DEFAULT):
 
 loader = Loader()
 
-def from_url(url, base_url=None):
-    return loader.load(url, base_url)
+def from_url(url, base_url=None, url_fields=[]):
+    return loader.load(url, base_url, url_fields=url_fields)

From f7c7a1419b9211479d6c9b4905d22e0fae537c73 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 27 May 2015 13:24:38 -0400
Subject: [PATCH 092/221] Restore sandboxjs.py.  Fix docker images to use
 commonworkflowlanguage/ prefix.

---
 build-cwl-docker.sh    |  2 +-
 cwltool/docker.py      |  2 +-
 cwltool/sandboxjs.py   | 32 ++++++++++++++++++++++++++++++++
 docker-node-engine.sh  |  2 +-
 tests/test_examples.py |  9 +++++----
 5 files changed, 40 insertions(+), 7 deletions(-)
 create mode 100644 cwltool/sandboxjs.py

diff --git a/build-cwl-docker.sh b/build-cwl-docker.sh
index d28561b28..40a0e0315 100755
--- a/build-cwl-docker.sh
+++ b/build-cwl-docker.sh
@@ -6,7 +6,7 @@ if test -L cwltool/schemas ; then
   cp -r ../schemas cwltool/schemas
   restore=1
 fi
-docker build -t cwltool .
+docker build --tag=commonworkflowlanguage/cwltool .
 if test $restore = 1 ; then
   rm -r cwltool/schemas
   ln -s ../../schemas cwltool/schemas
diff --git a/cwltool/docker.py b/cwltool/docker.py
index 57a85b88f..a2690dcff 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -70,6 +70,6 @@ def get_from_requirements(requirements, hints, pull_image, dry_run=False):
             return r["dockerImageId"]
         else:
             if req:
-                raise Exception("Docker image %s not found" % r["dockerImage"])
+                raise Exception("Docker image %s not found" % r["dockerImageId"])
 
     return None
diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
new file mode 100644
index 000000000..752ff02db
--- /dev/null
+++ b/cwltool/sandboxjs.py
@@ -0,0 +1,32 @@
+import subprocess
+import json
+import threading
+
+class JavascriptException(Exception):
+    pass
+
+def execjs(js, jslib):
+    nodejs = subprocess.Popen(["nodejs"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+
+    fn = "\"use strict\";%s\n(function()%s)()" % (jslib, js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
+    script = "console.log(JSON.stringify(require(\"vm\").runInNewContext(%s, {})))" % json.dumps(fn)
+
+    #print script
+
+    def term():
+        try:
+            nodejs.terminate()
+        except OSError:
+            pass
+
+    # Time out after 5 seconds
+    tm = threading.Timer(5, term)
+    tm.start()
+
+    stdoutdata, stderrdata = nodejs.communicate(script)
+    tm.cancel()
+
+    if stderrdata.strip() or nodejs.returncode != 0:
+        raise JavascriptException(script + "\n" + stderrdata)
+    else:
+        return json.loads(stdoutdata)
diff --git a/docker-node-engine.sh b/docker-node-engine.sh
index 10957a3bb..f0080fa27 100755
--- a/docker-node-engine.sh
+++ b/docker-node-engine.sh
@@ -1,4 +1,4 @@
 #!/bin/sh
 
 cd docker-node-engine
-docker build --tag=cwl-nodejs-engine .
+docker build --tag=commonworkflowlanguage/nodejs-engine .
diff --git a/tests/test_examples.py b/tests/test_examples.py
index 5cc2b7cd1..cde4228f9 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -4,10 +4,11 @@
 
 class TestExamples(unittest.TestCase):
     def test_cat1(self):
-        t = tool.Tool(from_url("../examples/draft-2/cat4-tool.json"))
-        job = t.job(from_url("../examples/draft-2/cat-job.json"), basedir="../examples/draft-2")
-        result = job.run()
-        print result
+        pass
+        #t = tool.Tool(from_url("../examples/draft-2/cat4-tool.json"))
+        #job = t.job(from_url("../examples/draft-2/cat-job.json"), basedir="../examples/draft-2")
+        #result = job.run()
+        #print result
 
 
 if __name__ == '__main__':

From f0809b6bb95287c992586eb0386220e6f347cf01 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 28 May 2015 11:33:43 -0400
Subject: [PATCH 093/221] Refactoring work in progress

---
 cwltool/avro_ld/jsonld_context.py |   9 +-
 cwltool/docker.py                 |   2 +-
 cwltool/draft1tool.py             |   1 -
 cwltool/draft2tool.py             |   3 +-
 cwltool/expression.py             |   2 +-
 cwltool/main.py                   |  34 ++++----
 cwltool/process.py                |  20 +++--
 cwltool/ref_resolver.py           |  20 +++--
 cwltool/validate.py               | 139 ------------------------------
 cwltool/workflow.py               |  16 ++--
 10 files changed, 62 insertions(+), 184 deletions(-)
 delete mode 100644 cwltool/validate.py

diff --git a/cwltool/avro_ld/jsonld_context.py b/cwltool/avro_ld/jsonld_context.py
index 7e7cfbc5f..fc8e5f3fa 100755
--- a/cwltool/avro_ld/jsonld_context.py
+++ b/cwltool/avro_ld/jsonld_context.py
@@ -20,10 +20,11 @@ def pred(datatype, field, name, context, defaultPrefix):
         for d in datatype["jsonldPredicate"]:
             if d["symbol"] == name:
                 v = d["predicate"]
-    elif field and "jsonldPrefix" in field:
-        defaultPrefix = field["jsonldPrefix"]
-    elif "jsonldPrefix" in datatype:
-        defaultPrefix = datatype["jsonldPrefix"]
+    if not v:
+        if field and "jsonldPrefix" in field:
+            defaultPrefix = field["jsonldPrefix"]
+        elif "jsonldPrefix" in datatype:
+            defaultPrefix = datatype["jsonldPrefix"]
 
     if not v:
         v = "%s:%s" % (defaultPrefix, name)
diff --git a/cwltool/docker.py b/cwltool/docker.py
index 57a85b88f..a2690dcff 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -70,6 +70,6 @@ def get_from_requirements(requirements, hints, pull_image, dry_run=False):
             return r["dockerImageId"]
         else:
             if req:
-                raise Exception("Docker image %s not found" % r["dockerImage"])
+                raise Exception("Docker image %s not found" % r["dockerImageId"])
 
     return None
diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
index 221e2683f..b77519d72 100644
--- a/cwltool/draft1tool.py
+++ b/cwltool/draft1tool.py
@@ -1,7 +1,6 @@
 import os
 import pprint
 import json
-import sandboxjs
 import copy
 import sys
 import jsonschema.exceptions
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index b583ba46d..0bd7b20c0 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -6,7 +6,6 @@
 import functools
 import os
 from pathmapper import PathMapper, DockerPathMapper
-import sandboxjs
 from job import CommandLineJob
 import yaml
 import glob
@@ -16,7 +15,7 @@
 from process import Process
 from process import WorkflowException
 from process import get_feature
-import validate
+import avro_ld.validate as validate
 from aslist import aslist
 import expression
 import re
diff --git a/cwltool/expression.py b/cwltool/expression.py
index d82ba2039..57845dde0 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -7,7 +7,7 @@
 from process import WorkflowException
 import process
 import yaml
-import validate
+import avro_ld.validate as validate
 import ref_resolver
 
 _logger = logging.getLogger("cwltool")
diff --git a/cwltool/main.py b/cwltool/main.py
index c61f58683..fbf69982d 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -10,7 +10,7 @@
 import sys
 import logging
 import workflow
-import validate
+import avro_ld.validate as validate
 import tempfile
 import avro_ld.jsonld_context
 import avro_ld.makedoc
@@ -21,10 +21,10 @@
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
-def printrdf(workflow, sr):
+def printrdf(workflow, wf, ctx, sr):
     from rdflib import Graph, plugin
     from rdflib.serializer import Serializer
-    wf = from_url(workflow)
+    wf["@context"] = ctx
     g = Graph().parse(data=json.dumps(wf), format='json-ld', location=workflow)
     print(g.serialize(format=sr))
 
@@ -48,6 +48,7 @@ def main():
     parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file")
     parser.add_argument("--print-avro", action="store_true", help="Print Avro schema")
     parser.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing")
+    parser.add_argument("--strict", action="store_true", help="Strict validation (unrecognized fields are an error) (default false)")
 
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
@@ -96,24 +97,18 @@ def main():
 
     processobj = from_url(args.workflow, url_fields=url_fields)
 
-    if args.print_rdf:
-        printrdf(args.workflow, args.rdf_serializer)
-        return 0
-
     if args.print_pre:
         print json.dumps(processobj, indent=4)
         return 0
 
-    if not args.job_order:
-        _logger.error("Input object required")
-        parser.print_help()
-        return 1
-
-    basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
+    if args.job_order:
+        basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
+    else:
+        basedir = args.basedir
 
     try:
-        t = workflow.makeTool(processobj, basedir)
-    except (jsonschema.exceptions.ValidationError, validate.ValidationException) as e:
+        t = workflow.makeTool(processobj, basedir, strict=args.strict)
+    except (jsonschema.exceptions.ValidationError, avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
             _logger.exception()
@@ -124,6 +119,15 @@ def main():
             _logger.exception()
         return 1
 
+    if args.print_rdf:
+        printrdf(args.workflow, processobj, ctx, args.rdf_serializer)
+        return 0
+
+    if not args.job_order:
+        _logger.error("Input object required")
+        parser.print_help()
+        return 1
+
     try:
         final_output = []
         def output_callback(out):
diff --git a/cwltool/process.py b/cwltool/process.py
index f58ff0a1d..1077c3004 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -1,7 +1,7 @@
 import avro.schema
 import os
 import json
-import validate
+import avro_ld.validate as validate
 import copy
 import yaml
 import copy
@@ -36,14 +36,17 @@ def get_feature(feature, **kwargs):
     return (None, None)
 
 class Process(object):
-    def __init__(self, toolpath_object, validateAs, docpath):
+    def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
         self.names = get_schema()
         self.docpath = docpath
 
         self.tool = toolpath_object
 
-        # Validate tool documument
-        validate.validate_ex(self.names.get_name(validateAs, ""), self.tool)
+        try:
+            # Validate tool documument
+            validate.validate_ex(self.names.get_name(validateAs, ""), self.tool, **kwargs)
+        except validate.ValidationException as v:
+            raise validate.ValidationException("Could not validate %s:\n%s" % (self.tool.get("id"), validate.indent(str(v))))
 
         self.validate_requirements(self.tool, "requirements")
         self.validate_requirements(self.tool, "hints")
@@ -84,8 +87,11 @@ def __init__(self, toolpath_object, validateAs, docpath):
             c["name"] = fragment
             del c["id"]
             if "default" in c:
-                c["type"] = ["null"] + aslist(c["type"])
+                c["type"] = ["null"] + aslist(c["datatype"])
+            else:
+                c["type"] = c["datatype"]
             self.inputs_record_schema["fields"].append(c)
+
         avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
 
         self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
@@ -95,7 +101,9 @@ def __init__(self, toolpath_object, validateAs, docpath):
             c["name"] = fragment
             del c["id"]
             if "default" in c:
-                c["type"] = ["null"] + aslist(c["type"])
+                c["type"] = ["null"] + aslist(c["datatype"])
+            else:
+                c["type"] = c["datatype"]
             self.outputs_record_schema["fields"].append(c)
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index fa125067c..ba716cb78 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -38,13 +38,15 @@ def load(self, url, base_url=None, url_fields=[]):
 
     def resolve_ref(self, obj, base_url, url_fields=[]):
         ref = obj['id']
-        url = urlparse.urljoin(base_url, ref)
-        if ref[0] == "#":
-            obj = copy.deepcopy(obj)
-            obj['id'] = url
+        split = urlparse.urlparse(ref)
+        if split.scheme:
+            url = ref
+        else:
+            url = urlparse.urljoin(base_url, ref)
+        obj = copy.deepcopy(obj)
+        obj['id'] = url
+        if ref[0] == "#" or len(obj) != 1:
             return obj
-        if len(obj) != 1:
-            raise RuntimeError("External references cannot have other fields.")
         if url in self.resolved:
             return self.resolved[url]
         if url in self.resolving:
@@ -68,7 +70,11 @@ def resolve_all(self, document, base_url, url_fields):
                 document = self.resolve_ref(document, base_url, url_fields)
             for d in url_fields:
                 if d in document and isinstance(document[d], basestring):
-                    document[d] = urlparse.urljoin(base_url, document[d])
+                    url = document[d]
+                    split = urlparse.urlparse(url)
+                    if not split.scheme:
+                        url = urlparse.urljoin(base_url, url)
+                    document[d] = url
             iterator = document.iteritems()
         else:
             return document
diff --git a/cwltool/validate.py b/cwltool/validate.py
deleted file mode 100644
index 34a5a4b83..000000000
--- a/cwltool/validate.py
+++ /dev/null
@@ -1,139 +0,0 @@
-import pprint
-import avro.schema
-
-class ValidationException(Exception):
-    pass
-
-def validate(expected_schema, datum):
-    try:
-        return validate_ex(expected_schema, datum)
-    except ValidationException:
-        return False
-
-INT_MIN_VALUE = -(1 << 31)
-INT_MAX_VALUE = (1 << 31) - 1
-LONG_MIN_VALUE = -(1 << 63)
-LONG_MAX_VALUE = (1 << 63) - 1
-
-def indent(v, nolead=False):
-    if nolead:
-        return v.splitlines()[0] + "\n".join(["  " + l for l in v.splitlines()[1:]])
-    else:
-        return "\n".join(["  " + l for l in v.splitlines()])
-
-def friendly(v):
-    if isinstance(v, avro.schema.NamedSchema):
-        return v.name
-    if isinstance(v, avro.schema.ArraySchema):
-        return "array of <%s>" % friendly(v.items)
-    elif isinstance(v, avro.schema.PrimitiveSchema):
-        return v.type
-    elif isinstance(v, avro.schema.UnionSchema):
-        return " or ".join([friendly(s) for s in v.schemas])
-    else:
-        return v
-
-def multi(v, q=""):
-    if '\n' in v:
-        return "%s%s%s\n" % (q, v, q)
-    else:
-        return "%s%s%s" % (q, v, q)
-
-def validate_ex(expected_schema, datum):
-    """Determine if a python datum is an instance of a schema."""
-    schema_type = expected_schema.type
-
-    if schema_type == 'null':
-        if datum is None:
-            return True
-        else:
-            raise ValidationException("the value `%s` is not null" % pprint.pformat(datum))
-    elif schema_type == 'boolean':
-        if isinstance(datum, bool):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not boolean" % pprint.pformat(datum))
-    elif schema_type == 'string':
-        if isinstance(datum, basestring):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not string" % pprint.pformat(datum))
-    elif schema_type == 'bytes':
-        if isinstance(datum, str):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not bytes" % pprint.pformat(datum))
-    elif schema_type == 'int':
-        if ((isinstance(datum, int) or isinstance(datum, long))
-            and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
-            return True
-        else:
-            raise ValidationException("`%s` is not int" % pprint.pformat(datum))
-    elif schema_type == 'long':
-        if ((isinstance(datum, int) or isinstance(datum, long))
-            and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not long" % pprint.pformat(datum))
-    elif schema_type in ['float', 'double']:
-        if (isinstance(datum, int) or isinstance(datum, long)
-            or isinstance(datum, float)):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not float or double" % pprint.pformat(datum))
-    elif schema_type == 'fixed':
-        if isinstance(datum, str) and len(datum) == expected_schema.size:
-            return True
-        else:
-            raise ValidationException("the value `%s` is not fixed" % pprint.pformat(datum))
-    elif schema_type == 'enum':
-        if datum in expected_schema.symbols:
-            return True
-        else:
-            raise ValidationException("the value `%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
-    elif schema_type == 'array':
-        if isinstance(datum, list):
-            for i, d in enumerate(datum):
-                try:
-                    validate_ex(expected_schema.items, d)
-                except ValidationException as v:
-                    raise ValidationException("At position %i\n%s" % (i, indent(str(v))))
-            return True
-        else:
-            raise ValidationException("the value `%s` is not a list, expected list of %s" % (pprint.pformat(datum), friendly(expected_schema.items)))
-    elif schema_type == 'map':
-        if (isinstance(datum, dict) and
-            False not in [isinstance(k, basestring) for k in datum.keys()] and
-            False not in [validate(expected_schema.values, v) for v in datum.values()]):
-            return True
-        else:
-            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
-    elif schema_type in ['union', 'error_union']:
-        if True in [validate(s, datum) for s in expected_schema.schemas]:
-            return True
-        else:
-            errors = []
-            for s in expected_schema.schemas:
-                try:
-                    validate_ex(s, datum)
-                except ValidationException as e:
-                    errors.append(str(e))
-            raise ValidationException("the value %s is not a valid type in the union, expected one of:\n%s" % (multi(pprint.pformat(datum), '`'),
-                                                                                     "\n".join(["- %s, but\n %s" % (friendly(expected_schema.schemas[i]), indent(multi(errors[i]))) for i in range(0, len(expected_schema.schemas))])))
-
-    elif schema_type in ['record', 'error', 'request']:
-        if not isinstance(datum, dict):
-            raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
-        try:
-            for f in expected_schema.fields:
-                try:
-                    validate_ex(f.type, datum.get(f.name))
-                except ValidationException as v:
-                    if f.name not in datum:
-                        raise ValidationException("missing required field `%s`" % f.name)
-                    else:
-                        raise
-            return True
-        except ValidationException as v:
-            raise ValidationException("could not validate field `%s` because\n%s" % (f.name, multi(indent(str(v)))))
-    raise ValidationException("Unrecognized schema_type %s" % schema_type)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 71910ba16..95cd66358 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -11,7 +11,7 @@
 from collections import namedtuple
 import pprint
 import functools
-import validate
+import avro_ld.validate as validate
 
 _logger = logging.getLogger("cwltool")
 
@@ -24,7 +24,7 @@ def idk(key):
         raise WorkflowException("Must start with #")
     return key[1:]
 
-def makeTool(toolpath_object, docpath):
+def makeTool(toolpath_object, docpath, **kwargs):
     """docpath is the directory the tool file is located."""
     if "schema" in toolpath_object:
         return draft1tool.Tool(toolpath_object)
@@ -32,18 +32,18 @@ def makeTool(toolpath_object, docpath):
         return External(toolpath_object, docpath)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
-            return draft2tool.CommandLineTool(toolpath_object, docpath)
+            return draft2tool.CommandLineTool(toolpath_object, docpath, **kwargs)
         elif toolpath_object["class"] == "ExpressionTool":
-            return draft2tool.ExpressionTool(toolpath_object, docpath)
+            return draft2tool.ExpressionTool(toolpath_object, docpath, **kwargs)
         elif toolpath_object["class"] == "Workflow":
-            return Workflow(toolpath_object, docpath)
+            return Workflow(toolpath_object, docpath, **kwargs)
     else:
         raise WorkflowException("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
 
 
 class Workflow(Process):
-    def __init__(self, toolpath_object, docpath):
-        super(Workflow, self).__init__(toolpath_object, "Workflow", docpath)
+    def __init__(self, toolpath_object, docpath, **kwargs):
+        super(Workflow, self).__init__(toolpath_object, "Workflow", docpath, **kwargs)
 
     def receive_output(self, step, outputparms, jobout):
         _logger.info("Job got output: %s", jobout)
@@ -191,7 +191,7 @@ class External(Process):
     def __init__(self, toolpath_object, docpath):
         self.impl = toolpath_object["impl"]
         try:
-            self.embedded_tool = makeTool(from_url(os.path.join(docpath, self.impl)), docpath)
+            self.embedded_tool = makeTool(from_url(self.impl), docpath)
         except validate.ValidationException as v:
             raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, self.impl), validate.indent(str(v))))
 

From 326e84a9a2d0af5393ec47f1cc6971e2b20d4bc5 Mon Sep 17 00:00:00 2001
From: James Porter <porterjamesj@gmail.com>
Date: Thu, 28 May 2015 14:49:37 -0500
Subject: [PATCH 094/221] make error message on wrong glob less confusing

---
 cwltool/draft2tool.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 7ad560dd0..bfef4a68a 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -364,7 +364,9 @@ def collect_output(self, schema, builder, outdir):
                     raise WorkflowException("Expression must return a file object.")
 
             if schema["type"] == "File":
-                if len(r) != 1:
+                if not r:
+                    raise WorkflowException("No matches for output file with glob: {}.".format(binding["glob"]))
+                if len(r) > 1:
                     raise WorkflowException("Multiple matches for output item that is a single file.")
                 r = r[0]
 

From adbbc5df1ab6b90a3759374da3a294a2e589c5ac Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 28 May 2015 15:59:29 -0400
Subject: [PATCH 095/221] Refactoring resolved, updating tests

---
 cwltool/avro_ld/jsonld_context.py |   2 +-
 cwltool/avro_ld/schema.py         |  26 ++++--
 cwltool/avro_ld/validate.py       | 149 ++++++++++++++++++++++++++++++
 cwltool/draft2tool.py             |   8 +-
 cwltool/expression.py             |   2 +-
 cwltool/process.py                |   2 +
 6 files changed, 177 insertions(+), 12 deletions(-)
 create mode 100644 cwltool/avro_ld/validate.py

diff --git a/cwltool/avro_ld/jsonld_context.py b/cwltool/avro_ld/jsonld_context.py
index fc8e5f3fa..a625bca1a 100755
--- a/cwltool/avro_ld/jsonld_context.py
+++ b/cwltool/avro_ld/jsonld_context.py
@@ -69,7 +69,7 @@ def avrold_to_jsonld_context(j):
 
             context[t["name"]] = predicate
 
-            for i in t["fields"]:
+            for i in t.get("fields", []):
                 v = pred(t, i, i["name"], context, defaultPrefix)
 
                 if isinstance(v, basestring):
diff --git a/cwltool/avro_ld/schema.py b/cwltool/avro_ld/schema.py
index 857081db3..2ce52a319 100644
--- a/cwltool/avro_ld/schema.py
+++ b/cwltool/avro_ld/schema.py
@@ -1,43 +1,56 @@
 import avro
 import copy
+from  makedoc import add_dictlist
 
-def specialize(items, spec):
+def specialize(items, spec, extended_by):
     if isinstance(items, dict):
         for n in ("type", "items", "values"):
             if n in items:
-                items[n] = specialize(items[n], spec)
+                items[n] = specialize(items[n], spec, extended_by)
         return items
     if isinstance(items, list):
         n = []
         for i in items:
-            n.append(specialize(i, spec))
+            n.append(specialize(i, spec, extended_by))
         return n
     if isinstance(items, basestring):
         if items in spec:
             return spec[items]
+        if items in extended_by:
+            return extended_by[items]
     return items
 
 def extend_avro(items):
     types = {t["name"]: t for t in items}
     n = []
+
+    extended_by = {}
+    for t in items:
+        if "extends" in t and types[t["extends"]].get("abstract"):
+            add_dictlist(extended_by, t["extends"], t["name"])
+
     for t in items:
         if "extends" in t:
             r = copy.deepcopy(types[t["extends"]])
             r["name"] = t["name"]
             if "specialize" in t:
-                r["fields"] = specialize(r["fields"], t["specialize"])
-            r["fields"].extend(t["fields"])
+                r["fields"] = specialize(r["fields"], t["specialize"], {})
+            r["fields"].extend(t.get("fields", []))
 
             for y in [x for x in r["fields"] if x["name"] == "class"]:
                 y["type"] = {"type": "enum", "symbols": [r["name"]], "name": r["name"]+"_class"}
 
-
             r["extends"] = t["extends"]
             r["abstract"] = t.get("abstract", False)
             r["doc"] = t.get("doc", "")
             types[t["name"]] = r
             t = r
         n.append(t)
+
+    # for t in n:
+    #     if "fields" in t:
+    #         t["fields"] = specialize(t["fields"], "", extended_by)
+
     return n
 
 def schema(j):
@@ -46,4 +59,5 @@ def schema(j):
     for t in j:
         if not t.get("abstract"):
             avro.schema.make_avsc_object(t, names)
+
     return names
diff --git a/cwltool/avro_ld/validate.py b/cwltool/avro_ld/validate.py
new file mode 100644
index 000000000..54a1c7180
--- /dev/null
+++ b/cwltool/avro_ld/validate.py
@@ -0,0 +1,149 @@
+import pprint
+import avro.schema
+
+class ValidationException(Exception):
+    pass
+
+def validate(expected_schema, datum, strict=False):
+    try:
+        return validate_ex(expected_schema, datum, strict=strict)
+    except ValidationException:
+        return False
+
+INT_MIN_VALUE = -(1 << 31)
+INT_MAX_VALUE = (1 << 31) - 1
+LONG_MIN_VALUE = -(1 << 63)
+LONG_MAX_VALUE = (1 << 63) - 1
+
+def indent(v, nolead=False):
+    if nolead:
+        return v.splitlines()[0] + "\n".join(["  " + l for l in v.splitlines()[1:]])
+    else:
+        return "\n".join(["  " + l for l in v.splitlines()])
+
+def friendly(v):
+    if isinstance(v, avro.schema.NamedSchema):
+        return v.name
+    if isinstance(v, avro.schema.ArraySchema):
+        return "array of <%s>" % friendly(v.items)
+    elif isinstance(v, avro.schema.PrimitiveSchema):
+        return v.type
+    elif isinstance(v, avro.schema.UnionSchema):
+        return " or ".join([friendly(s) for s in v.schemas])
+    else:
+        return v
+
+def multi(v, q=""):
+    if '\n' in v:
+        return "%s%s%s\n" % (q, v, q)
+    else:
+        return "%s%s%s" % (q, v, q)
+
+def validate_ex(expected_schema, datum, strict=False):
+    """Determine if a python datum is an instance of a schema."""
+    schema_type = expected_schema.type
+
+    if schema_type == 'null':
+        if datum is None:
+            return True
+        else:
+            raise ValidationException("the value `%s` is not null" % pprint.pformat(datum))
+    elif schema_type == 'boolean':
+        if isinstance(datum, bool):
+            return True
+        else:
+            raise ValidationException("the value `%s` is not boolean" % pprint.pformat(datum))
+    elif schema_type == 'string':
+        if isinstance(datum, basestring):
+            return True
+        else:
+            raise ValidationException("the value `%s` is not string" % pprint.pformat(datum))
+    elif schema_type == 'bytes':
+        if isinstance(datum, str):
+            return True
+        else:
+            raise ValidationException("the value `%s` is not bytes" % pprint.pformat(datum))
+    elif schema_type == 'int':
+        if ((isinstance(datum, int) or isinstance(datum, long))
+            and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
+            return True
+        else:
+            raise ValidationException("`%s` is not int" % pprint.pformat(datum))
+    elif schema_type == 'long':
+        if ((isinstance(datum, int) or isinstance(datum, long))
+            and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
+            return True
+        else:
+            raise ValidationException("the value `%s` is not long" % pprint.pformat(datum))
+    elif schema_type in ['float', 'double']:
+        if (isinstance(datum, int) or isinstance(datum, long)
+            or isinstance(datum, float)):
+            return True
+        else:
+            raise ValidationException("the value `%s` is not float or double" % pprint.pformat(datum))
+    elif schema_type == 'fixed':
+        if isinstance(datum, str) and len(datum) == expected_schema.size:
+            return True
+        else:
+            raise ValidationException("the value `%s` is not fixed" % pprint.pformat(datum))
+    elif schema_type == 'enum':
+        if datum in expected_schema.symbols:
+            return True
+        else:
+            raise ValidationException("the value `%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
+    elif schema_type == 'array':
+        if isinstance(datum, list):
+            for i, d in enumerate(datum):
+                try:
+                    validate_ex(expected_schema.items, d, strict=strict)
+                except ValidationException as v:
+                    raise ValidationException("At position %i\n%s" % (i, indent(str(v))))
+            return True
+        else:
+            raise ValidationException("the value `%s` is not a list, expected list of %s" % (pprint.pformat(datum), friendly(expected_schema.items)))
+    elif schema_type == 'map':
+        if (isinstance(datum, dict) and
+            False not in [isinstance(k, basestring) for k in datum.keys()] and
+            False not in [validate(expected_schema.values, v, strict=strict) for v in datum.values()]):
+            return True
+        else:
+            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
+    elif schema_type in ['union', 'error_union']:
+        if True in [validate(s, datum, strict=strict) for s in expected_schema.schemas]:
+            return True
+        else:
+            errors = []
+            for s in expected_schema.schemas:
+                try:
+                    validate_ex(s, datum, strict=strict)
+                except ValidationException as e:
+                    errors.append(str(e))
+            raise ValidationException("the value %s is not a valid type in the union, expected one of:\n%s" % (multi(pprint.pformat(datum), '`'),
+                                                                                     "\n".join(["- %s, but\n %s" % (friendly(expected_schema.schemas[i]), indent(multi(errors[i]))) for i in range(0, len(expected_schema.schemas))])))
+
+    elif schema_type in ['record', 'error', 'request']:
+        if not isinstance(datum, dict):
+            raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
+
+        errors = []
+        for f in expected_schema.fields:
+            try:
+                validate_ex(f.type, datum.get(f.name), strict=strict)
+            except ValidationException as v:
+                if f.name not in datum:
+                    errors.append("missing required field `%s`" % f.name)
+                else:
+                    errors.append("could not validate field `%s` because\n%s" % (f.name, multi(indent(str(v)))))
+        if strict:
+            for d in datum:
+                found = False
+                for f in expected_schema.fields:
+                    if d == f.name:
+                        found = True
+                if not found:
+                    errors.append("could not validate field `%s` because it is not recognized and strict is True" % d)
+        if errors:
+            raise ValidationException("\n".join(errors))
+        else:
+            return True
+    raise ValidationException("Unrecognized schema_type %s" % schema_type)
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 0bd7b20c0..5a77218d6 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -200,8 +200,8 @@ def _init_job(self, joborder, basedir, **kwargs):
 
 
 class ExpressionTool(Tool):
-    def __init__(self, toolpath_object, docpath):
-        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", docpath)
+    def __init__(self, toolpath_object, docpath, **kwargs):
+        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", docpath, **kwargs)
 
     class ExpressionJob(object):
         def run(self, outdir=None, **kwargs):
@@ -220,8 +220,8 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         yield j
 
 class CommandLineTool(Tool):
-    def __init__(self, toolpath_object, docpath):
-        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", docpath)
+    def __init__(self, toolpath_object, docpath, **kwargs):
+        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", docpath, **kwargs)
 
     def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         builder = self._init_job(joborder, basedir, **kwargs)
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 57845dde0..fbc59d992 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -13,7 +13,7 @@
 _logger = logging.getLogger("cwltool")
 
 def exeval(ex, jobinput, requirements, docpath, context, pull_image):
-    if ex["engine"].endswith("/JsonPointer"):
+    if ex["engine"] == "cwl:JsonPointer":
         return ref_resolver.resolve_json_pointer({"job": jobinput, "context": context}, ex["script"])
 
     for r in reversed(requirements):
diff --git a/cwltool/process.py b/cwltool/process.py
index 1077c3004..e3c48d037 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -105,6 +105,8 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
             else:
                 c["type"] = c["datatype"]
             self.outputs_record_schema["fields"].append(c)
+
+        print self.names.get_name("File", "")
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
     def validate_requirements(self, tool, field):

From bc4c427f2e80d73b049469bd8bdb7825653ed80d Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 28 May 2015 17:45:13 -0400
Subject: [PATCH 096/221] Fixing tests and working on reducing boilerplate.

---
 cwltool/draft2tool.py | 13 +++---
 cwltool/process.py    | 17 +++++---
 cwltool/schemas       |  1 -
 cwltool/workflow.py   | 96 ++++++++++++++++++++-----------------------
 4 files changed, 64 insertions(+), 63 deletions(-)
 delete mode 120000 cwltool/schemas

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 5a77218d6..fc1689402 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -84,17 +84,18 @@ def bind_input(self, schema, datum):
 
             if schema["type"] == "array":
                 for n, item in enumerate(datum):
-                    b = self.bind_input({"type": schema["items"], "commandLineBinding": schema.get("commandLineBinding")}, item)
+                    b = self.bind_input({"type": schema["items"], "inputBinding": schema.get("inputBinding")}, item)
                     for bi in b:
                         bi["position"].insert(0, n)
                     bindings.extend(b)
 
-            if schema["type"] == "File":
-                if schema.get("loadContents"):
+            if schema["type"] == "File" and "inputBinding" in schema:
+                binding = schema["inputBinding"]
+                if binding.get("loadContents"):
                     with open(os.path.join(self.basedir, datum["path"]), "rb") as f:
                         datum["contents"] = f.read(CONTENT_LIMIT)
                 self.files.append(datum)
-                if "secondaryFiles" in schema:
+                if "secondaryFiles" in binding:
                     if "secondaryFiles" not in datum:
                         datum["secondaryFiles"] = []
                     for sf in aslist(schema["secondaryFiles"]):
@@ -109,8 +110,8 @@ def bind_input(self, schema, datum):
                         self.files.append(sfpath)
 
         b = None
-        if "commandLineBinding" in schema and isinstance(schema["commandLineBinding"], dict):
-            b = copy.copy(schema["commandLineBinding"])
+        if "inputBinding" in schema and isinstance(schema["inputBinding"], dict):
+            b = copy.copy(schema["inputBinding"])
 
             if b.get("position"):
                 b["position"] = [b["position"]]
diff --git a/cwltool/process.py b/cwltool/process.py
index e3c48d037..fe1136b9c 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -86,10 +86,14 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
             doc_url, fragment = urlparse.urldefrag(c['id'])
             c["name"] = fragment
             del c["id"]
+
+            if "type" not in c:
+                raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
+
             if "default" in c:
-                c["type"] = ["null"] + aslist(c["datatype"])
+                c["type"] = ["null"] + aslist(c["type"])
             else:
-                c["type"] = c["datatype"]
+                c["type"] = c["type"]
             self.inputs_record_schema["fields"].append(c)
 
         avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
@@ -100,13 +104,16 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
             doc_url, fragment = urlparse.urldefrag(c['id'])
             c["name"] = fragment
             del c["id"]
+
+            if "type" not in c:
+                raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
+
             if "default" in c:
-                c["type"] = ["null"] + aslist(c["datatype"])
+                c["type"] = ["null"] + aslist(c["type"])
             else:
-                c["type"] = c["datatype"]
+                c["type"] = c["type"]
             self.outputs_record_schema["fields"].append(c)
 
-        print self.names.get_name("File", "")
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
     def validate_requirements(self, tool, field):
diff --git a/cwltool/schemas b/cwltool/schemas
deleted file mode 120000
index 30aed58dd..000000000
--- a/cwltool/schemas
+++ /dev/null
@@ -1 +0,0 @@
-../../schemas
\ No newline at end of file
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 95cd66358..a406c68b3 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -12,23 +12,17 @@
 import pprint
 import functools
 import avro_ld.validate as validate
+import urlparse
 
 _logger = logging.getLogger("cwltool")
 
 WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
 
-def idk(key):
-    if len(key) <= 1:
-        raise WorkflowException("Identifier is too short")
-    if key[0] != '#':
-        raise WorkflowException("Must start with #")
-    return key[1:]
-
 def makeTool(toolpath_object, docpath, **kwargs):
     """docpath is the directory the tool file is located."""
     if "schema" in toolpath_object:
         return draft1tool.Tool(toolpath_object)
-    elif "impl" in toolpath_object and toolpath_object.get("class", "External") == "External":
+    elif "run" in toolpath_object and toolpath_object.get("class", "External") == "External":
         return External(toolpath_object, docpath)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
@@ -38,7 +32,7 @@ def makeTool(toolpath_object, docpath, **kwargs):
         elif toolpath_object["class"] == "Workflow":
             return Workflow(toolpath_object, docpath, **kwargs)
     else:
-        raise WorkflowException("Missing 'class' field, expecting one of: Workflow, CommandLineTool, ExpressionTool, External")
+        raise WorkflowException("Missing 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
 
 
 class Workflow(Process):
@@ -46,18 +40,20 @@ def __init__(self, toolpath_object, docpath, **kwargs):
         super(Workflow, self).__init__(toolpath_object, "Workflow", docpath, **kwargs)
 
     def receive_output(self, step, outputparms, jobout):
-        _logger.info("Job got output: %s", jobout)
+        _logger.debug("WorkflowStep completed with %s", jobout)
         for i in outputparms:
             if "id" in i:
-                if idk(i["id"]) in jobout:
-                    self.state[idk(i["id"])] = WorkflowStateItem(i, jobout[idk(i["id"])])
+                if i["id"] in jobout:
+                    self.state[i["id"]] = WorkflowStateItem(i, jobout[i["id"]])
                 else:
-                    raise WorkflowException("Output is missing expected field %s" % idk(i["id"]))
+                    raise WorkflowException("Output is missing expected field %s" % d)
         step.completed = True
 
     def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
+        _logger.debug("Try to make job %s", step.id)
+
         (scatterSpec, _) = get_feature("Scatter", requirements=step.tool.get("requirements"), hints=step.tool.get("hints"))
         if scatterSpec:
             inputparms = copy.deepcopy(step.tool["inputs"])
@@ -84,13 +80,13 @@ def try_make_job(self, step, basedir, **kwargs):
             outputparms = step.tool["outputs"]
 
         for inp in inputparms:
-            _logger.debug(inp)
-            iid = idk(inp["id"])
+            _logger.debug("Trying input %s", inp)
+            iid = inp["id"]
             if "connect" in inp:
                 connections = inp["connect"]
                 is_array = isinstance(inp["type"], dict) and inp["type"]["type"] == "array"
                 for connection in aslist(connections):
-                    src = idk(connection["source"])
+                    src = connection["source"]
                     if src in self.state and self.state[src] is not None:
                         if self.state[src].parameter["type"] == inp["type"]:
                             # source and input types are the same
@@ -108,7 +104,7 @@ def try_make_job(self, step, basedir, **kwargs):
                             else:
                                 inputobj[iid] = [self.state[src].value]
                         else:
-                            raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], idk(inp["id"]), inp["type"]))
+                            raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"]), inp["type"])
                     elif src not in self.state:
                         raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
                     else:
@@ -151,17 +147,17 @@ def job(self, joborder, basedir, output_callback, **kwargs):
 
         self.state = {}
         for i in self.tool["inputs"]:
-            iid = idk(i["id"])
+            (_, iid) = urlparse.urldefrag(i["id"])
             if iid in joborder:
-                self.state[iid] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
+                self.state[i["id"]] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
             elif "default" in i:
-                self.state[iid] = WorkflowStateItem(i, copy.deepcopy(i["default"]))
+                self.state[i["id"]] = WorkflowStateItem(i, copy.deepcopy(i["default"]))
             else:
                 raise WorkflowException("Input '%s' not in input object and does not have a default value." % (i["id"]))
 
         for s in steps:
             for out in s.tool["outputs"]:
-                self.state[idk(out["id"])] = None
+                self.state[out["id"]] = None
             s.completed = False
 
         completed = 0
@@ -182,18 +178,17 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         wo = {}
         for i in self.tool["outputs"]:
             if "connect" in i:
-                src = idk(i["connect"]["source"])
-                wo[idk(i["id"])] = self.state[src].value
+                (_, src) = urlparse.urldefrag(i['id'])
+                wo[src] = self.state[i["connect"]["source"]].value
 
         output_callback(wo)
 
 class External(Process):
     def __init__(self, toolpath_object, docpath):
-        self.impl = toolpath_object["impl"]
         try:
-            self.embedded_tool = makeTool(from_url(self.impl), docpath)
+            self.embedded_tool = makeTool(toolpath_object["run"], docpath)
         except validate.ValidationException as v:
-            raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, self.impl), validate.indent(str(v))))
+            raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, toolpath_object["run"]["id"]), validate.indent(str(v))))
 
         if "id" in toolpath_object:
             self.id = toolpath_object["id"]
@@ -201,46 +196,45 @@ def __init__(self, toolpath_object, docpath):
             self.id = "#step_" + str(random.randint(1, 1000000000))
 
         for i in toolpath_object["inputs"]:
-            d = i["def"][len(self.impl):]
-            toolid = i.get("id", self.id + "." + idk(d))
+            (_, d) = urlparse.urldefrag(i["param"])
+            toolid = i.get("id", self.id + "." + d)
             found = False
             for a in self.embedded_tool.tool["inputs"]:
-                if a["id"] == d:
+                if a["id"] == i["param"]:
                     i.update(a)
                     found = True
             if not found:
-                raise WorkflowException("Did not find input '%s' in external process" % (i["def"]))
+                raise WorkflowException("Did not find input '%s' in external process" % (i["param"]))
 
             i["id"] = toolid
 
         for i in toolpath_object["outputs"]:
-            d = i["def"][len(self.impl):]
-            toolid = i["id"]
+            (_, d) = urlparse.urldefrag(i["param"])
+            toolid = i["id"] if 'id' in i else i['param']
             found = False
             for a in self.embedded_tool.tool["outputs"]:
-                if a["id"] == d:
+                if a["id"] == i["param"]:
                     i.update(a)
                     found = True
             if not found:
-                raise WorkflowException("Did not find output '%s' in external process" % (i["def"]))
+                raise WorkflowException("Did not find output '%s' in external process" % (i["param"]))
 
             i["id"] = toolid
 
-        super(External, self).__init__(toolpath_object, "External", docpath)
+        super(External, self).__init__(toolpath_object, "WorkflowStep", docpath)
 
     def receive_output(self, jobout):
         self.output  = {}
+        _logger.debug("WorkflowStep output from run is %s", jobout)
         for i in self.tool["outputs"]:
-            if i["def"][:len(self.impl)] != self.impl:
-                raise WorkflowException("'def' is '%s' but must refer to fragment of resource '%s' listed in 'impl'" % (i["def"], self.impl))
-            d = idk(i["def"][len(self.impl):])
-            self.output[idk(i["id"])] = jobout[d]
+            (_, d) = urlparse.urldefrag(i["param"] if "param" in i else i["id"])
+            self.output[i["id"]] = jobout[d]
 
     def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["inputs"]:
-            d = i["def"][len(self.impl)+1:]
-            joborder[d] = joborder[idk(i["id"])]
-            del joborder[idk(i["id"])]
+            (_, d) = urlparse.urldefrag(i["param"])
+            joborder[d] = joborder[i["id"]]
+            del joborder[i["id"]]
 
         kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
@@ -269,20 +263,20 @@ def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback
     l = None
     for s in scatter_keys:
         if l is None:
-            l = len(joborder[idk(s)])
-        elif l != len(joborder[idk(s)]):
+            l = len(joborder[s])
+        elif l != len(joborder[s]):
             raise WorkflowException("Length of input arrays must be equal when performing dotproduct scatter.")
 
     output = {}
     for i in process.tool["outputs"]:
-        output[idk(i["id"])] = [None] * l
+        output[i["id"]] = [None] * l
 
     rc = ReceiveScatterOutput(output)
 
     for n in range(0, l):
         jo = copy.copy(joborder)
         for s in scatter_keys:
-            jo[idk(s)] = joborder[idk(s)][n]
+            jo[s] = joborder[s][n]
 
         for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, n), **kwargs):
             yield j
@@ -294,11 +288,11 @@ def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback
 
 
 def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
-    scatter_key = idk(scatter_keys[0])
+    scatter_key = scatter_keys[0]
     l = len(joborder[scatter_key])
     output = {}
     for i in process.tool["outputs"]:
-        output[idk(i["id"])] = [None] * l
+        output[i["id"]] = [None] * l
 
     rc = ReceiveScatterOutput(output)
 
@@ -319,7 +313,7 @@ def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output
     output_callback(output)
 
 def crossproduct_size(joborder, scatter_keys):
-    scatter_key = idk(scatter_keys[0])
+    scatter_key = scatter_keys[0]
     if len(scatter_keys) == 1:
         sum = len(joborder[scatter_key])
     else:
@@ -331,13 +325,13 @@ def crossproduct_size(joborder, scatter_keys):
     return sum
 
 def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, startindex, **kwargs):
-    scatter_key = idk(scatter_keys[0])
+    scatter_key = scatter_keys[0]
     l = len(joborder[scatter_key])
 
     if startindex == 0 and not isinstance(output_callback, ReceiveScatterOutput):
         output = {}
         for i in process.tool["outputs"]:
-            output[idk(i["id"])] = [None] * crossproduct_size(joborder, scatter_keys)
+            output[i["id"]] = [None] * crossproduct_size(joborder, scatter_keys)
         rc = ReceiveScatterOutput(output)
     else:
         rc = output_callback

From 57ada1467bda00512f1bdbdbed35d89b4966b44f Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 29 May 2015 13:38:04 -0400
Subject: [PATCH 097/221] Improve command line binding algorithm.

---
 cwltool/draft2tool.py   | 96 +++++++++++++++++++----------------------
 cwltool/ref_resolver.py | 17 +++++---
 cwltool/workflow.py     |  2 +
 3 files changed, 58 insertions(+), 57 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index fc1689402..324f4955d 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -43,8 +43,23 @@ def substitute(value, replace):
 
 class Builder(object):
 
-    def bind_input(self, schema, datum):
+    def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
         bindings = []
+        binding = None
+        if "inputBinding" in schema and isinstance(schema["inputBinding"], dict):
+            binding = copy.copy(schema["inputBinding"])
+
+            if "position" in binding:
+                binding["position"] = aslist(lead_pos) + aslist(binding["position"]) + aslist(tail_pos)
+            else:
+                binding["position"] = aslist(lead_pos) + [0] + aslist(tail_pos)
+
+            if "valueFrom" in binding:
+                binding["do_eval"] = binding["valueFrom"]
+            binding["valueFrom"] = datum
+
+            if schema["type"] == "File":
+                binding["is_file"] = True
 
         # Handle union types
         if isinstance(schema["type"], list):
@@ -56,13 +71,16 @@ def bind_input(self, schema, datum):
                 if validate.validate(avsc, datum):
                     if isinstance(t, basestring):
                         t = {"type": t}
-                    bindings.extend(self.bind_input(t, datum))
+                    bindings.extend(self.bind_input(t, datum, lead_pos=lead_pos, tail_pos=tail_pos))
                     success = True
                     break
             if not success:
                 raise ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
         elif isinstance(schema["type"], dict):
-            bindings.extend(self.bind_input(schema["type"], datum))
+            st = copy.deepcopy(schema["type"])
+            if binding and "inputBinding" not in st and "itemSeparator" not in binding and st["type"] in ("array", "map"):
+                st["inputBinding"] = {}
+            bindings.extend(self.bind_input(st, datum, lead_pos=lead_pos, tail_pos=tail_pos))
         else:
             if schema["type"] in self.schemaDefs:
                 schema = self.schemaDefs[schema["type"]]
@@ -70,27 +88,29 @@ def bind_input(self, schema, datum):
             if schema["type"] == "record":
                 for f in schema["fields"]:
                     if f["name"] in datum:
-                        b = self.bind_input(f, datum[f["name"]])
-                        for bi in b:
-                            bi["position"].append(f["name"])
-                        bindings.extend(b)
+                        bindings.extend(self.bind_input(f, datum[f["name"]], lead_pos=lead_pos, tail_pos=f["name"]))
 
             if schema["type"] == "map":
-                for v in datum:
-                    b = self.bind_input(schema["values"], datum[v])
-                    for bi in b:
-                        bi["position"].insert(0, v)
-                    bindings.extend(b)
+                for n, item in datum.items():
+                    b2 = None
+                    if binding:
+                        b2 = copy.deepcopy(binding)
+                        b2["valueFrom"] = [n, item]
+                    bindings.extend(self.bind_input({"type": schema["values"], "inputBinding": b2},
+                                                    item, lead_pos=n, tail_pos=tail_pos))
+                binding = None
 
             if schema["type"] == "array":
                 for n, item in enumerate(datum):
-                    b = self.bind_input({"type": schema["items"], "inputBinding": schema.get("inputBinding")}, item)
-                    for bi in b:
-                        bi["position"].insert(0, n)
-                    bindings.extend(b)
-
-            if schema["type"] == "File" and "inputBinding" in schema:
-                binding = schema["inputBinding"]
+                    b2 = None
+                    if binding:
+                        b2 = copy.deepcopy(binding)
+                        b2["valueFrom"] = item
+                    bindings.extend(self.bind_input({"type": schema["items"], "inputBinding": b2},
+                                                    item, lead_pos=n, tail_pos=tail_pos))
+                binding = None
+
+            if schema["type"] == "File" and binding:
                 if binding.get("loadContents"):
                     with open(os.path.join(self.basedir, datum["path"]), "rb") as f:
                         datum["contents"] = f.read(CONTENT_LIMIT)
@@ -109,26 +129,11 @@ def bind_input(self, schema, datum):
                             datum["secondaryFiles"].append(sfpath)
                         self.files.append(sfpath)
 
-        b = None
-        if "inputBinding" in schema and isinstance(schema["inputBinding"], dict):
-            b = copy.copy(schema["inputBinding"])
-
-            if b.get("position"):
-                b["position"] = [b["position"]]
-            else:
-                b["position"] = [0]
-
-            # Position to front of the sort key
+        # Position to front of the sort key
+        if binding:
             for bi in bindings:
-                bi["position"] = b["position"] + bi["position"]
-
-            if "valueFrom" in b:
-                b["do_eval"] = b["valueFrom"]
-            b["valueFrom"] = datum
-
-            if schema["type"] == "File":
-                b["is_file"] = True
-            bindings.append(b)
+                bi["position"] = binding["position"] + bi["position"]
+            bindings.append(binding)
 
         return bindings
 
@@ -166,7 +171,7 @@ def generate_arg(self, binding):
             if sep:
                 args.extend([prefix, str(j)])
             else:
-                args.extend([prefix + str(j)])
+                args.append(prefix + str(j))
 
         return [a for a in args if a is not None]
 
@@ -271,18 +276,7 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
             reffiles.append(j.stdin)
 
         if self.tool.get("stdout"):
-            if isinstance(self.tool["stdout"], dict) and "ref" in self.tool["stdout"]:
-                pass
-                # for out in self.tool.get("outputs", []):
-                #     if out["id"] == self.tool["stdout"]["ref"]:
-                #         filename = self.tool["stdout"]["ref"][1:]
-                #         j.stdout = filename
-                #         out["outputBinding"] = out.get("outputBinding", {})
-                #         out["outputBinding"]["glob"] = filename
-                # if not j.stdout:
-                #     raise validate.ValidationException("stdout refers to invalid output")
-            else:
-                j.stdout = self.tool["stdout"]
+            j.stdout = self.tool["stdout"]
             if os.path.isabs(j.stdout):
                 raise validate.ValidationException("stdout must be a relative path")
 
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index ba716cb78..76e34c6af 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -24,6 +24,12 @@ def __setitem__(self, key, value):
     def __delitem__(self, key):
         return super(NormDict, self).__delitem__(self.normalize(key))
 
+def expand_url(url, base_url):
+    split = urlparse.urlparse(url)
+    if not split.scheme:
+        return urlparse.urljoin(base_url, url)
+    else:
+        return url
 
 class Loader(object):
     def __init__(self):
@@ -69,12 +75,11 @@ def resolve_all(self, document, base_url, url_fields):
             if 'id' in document:
                 document = self.resolve_ref(document, base_url, url_fields)
             for d in url_fields:
-                if d in document and isinstance(document[d], basestring):
-                    url = document[d]
-                    split = urlparse.urlparse(url)
-                    if not split.scheme:
-                        url = urlparse.urljoin(base_url, url)
-                    document[d] = url
+                if d in document:
+                    if isinstance(document[d], basestring):
+                        document[d] = expand_url(document[d], base_url)
+                    elif isinstance(document[d], list):
+                        document[d] = [expand_url(url, base_url) if isinstance(document[d], basestring) else url for url in document[d] ]
             iterator = document.iteritems()
         else:
             return document
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index a406c68b3..006a00562 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -179,6 +179,8 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["outputs"]:
             if "connect" in i:
                 (_, src) = urlparse.urldefrag(i['id'])
+                if i["connect"]["source"] not in self.state:
+                    raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (i["connect"]["source"], inp["id"]))
                 wo[src] = self.state[i["connect"]["source"]].value
 
         output_callback(wo)

From fc1cdd0a8533e7557a7ca3402f0c68cfcdbeb5b6 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 29 May 2015 22:33:57 -0400
Subject: [PATCH 098/221] Introduce "import" and "include".  Validate document
 cross references.

---
 cwltool/main.py         | 10 ++++-
 cwltool/ref_resolver.py | 92 +++++++++++++++++++++++++++++++++--------
 cwltool/workflow.py     | 17 ++++----
 3 files changed, 91 insertions(+), 28 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index fbf69982d..af1d5663f 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -3,7 +3,7 @@
 import draft1tool
 import draft2tool
 import argparse
-from ref_resolver import from_url
+from ref_resolver import from_url, validate_links
 import jsonschema
 import json
 import os
@@ -95,12 +95,18 @@ def main():
         parser.print_help()
         return 1
 
-    processobj = from_url(args.workflow, url_fields=url_fields)
+    idx = {}
+    processobj = from_url(args.workflow, url_fields=url_fields, idx=idx)
+
+    _logger.warn(url_fields)
+    #_logger.warn(json.dumps(idx, indent=4))
 
     if args.print_pre:
         print json.dumps(processobj, indent=4)
         return 0
 
+    validate_links(processobj, url_fields, idx)
+
     if args.job_order:
         basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
     else:
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
index 76e34c6af..f8c2911db 100644
--- a/cwltool/ref_resolver.py
+++ b/cwltool/ref_resolver.py
@@ -7,6 +7,7 @@
 import requests
 import urlparse
 import yaml
+import avro_ld.validate
 
 log = logging.getLogger("cwltool")
 
@@ -38,20 +39,40 @@ def __init__(self):
         self.resolved = NormDict(normalize)
         self.resolving = NormDict(normalize)
 
-    def load(self, url, base_url=None, url_fields=[]):
+    def load(self, url, base_url=None, url_fields=[], idx={}):
         base_url = base_url or 'file://%s/' % os.path.abspath('.')
-        return self.resolve_ref({'id': url}, base_url, url_fields=url_fields)
+        return self.resolve_ref({'import': url}, base_url, url_fields=url_fields, idx=idx)
 
-    def resolve_ref(self, obj, base_url, url_fields=[]):
-        ref = obj['id']
+    def resolve_ref(self, obj, base_url, url_fields=[], idx={}):
+        if "import" in obj:
+            if len(obj) == 1:
+                ref = obj["import"]
+            else:
+                raise ValueError("'import' must be the only field in %s" % (str(obj)))
+        elif "include" in obj:
+            if len(obj) == 1:
+                ref = obj["include"]
+            else:
+                raise ValueError("'include' must be the only field in %s" % (str(obj)))
+        else:
+            ref = obj['id']
         split = urlparse.urlparse(ref)
         if split.scheme:
             url = ref
         else:
             url = urlparse.urljoin(base_url, ref)
+
+        if "include" in obj:
+            return self.fetch_text(url)
+
         obj = copy.deepcopy(obj)
         obj['id'] = url
-        if ref[0] == "#" or len(obj) != 1:
+
+        if url in idx:
+            raise ValueError("Object `%s` defined more than once" % (url))
+        idx[url] = obj
+
+        if ref[0] == "#" or "import" not in obj:
             return obj
         if url in self.resolved:
             return self.resolved[url]
@@ -62,34 +83,36 @@ def resolve_ref(self, obj, base_url, url_fields=[]):
         document = self.fetch(doc_url)
         fragment = copy.deepcopy(resolve_fragment(document, fragment))
         try:
-            result = self.resolve_all(fragment, doc_url, url_fields)
+            result = self.resolve_all(fragment, doc_url, url_fields, idx=idx)
         finally:
             del self.resolving[url]
         result["id"] = url
         return result
 
-    def resolve_all(self, document, base_url, url_fields):
+    def resolve_all(self, document, base_url, url_fields, idx={}):
         if isinstance(document, list):
             iterator = enumerate(document)
         elif isinstance(document, dict):
-            if 'id' in document:
-                document = self.resolve_ref(document, base_url, url_fields)
+            inc = 'include' in document
+            if 'id' in document or 'import' in document or 'include' in document:
+                document = self.resolve_ref(document, base_url, url_fields, idx=idx)
+            if inc:
+                return document
             for d in url_fields:
                 if d in document:
                     if isinstance(document[d], basestring):
                         document[d] = expand_url(document[d], base_url)
                     elif isinstance(document[d], list):
-                        document[d] = [expand_url(url, base_url) if isinstance(document[d], basestring) else url for url in document[d] ]
+                        document[d] = [expand_url(url, base_url) if isinstance(url, basestring) else url for url in document[d] ]
             iterator = document.iteritems()
         else:
             return document
         for key, val in iterator:
-            document[key] = self.resolve_all(val, base_url, url_fields)
+            document[key] = self.resolve_all(val, base_url, url_fields, idx=idx)
         return document
 
-    def fetch(self, url):
-        if url in self.fetched:
-            return self.fetched[url]
+    def fetch_text(self, url):
+        pass
         split = urlparse.urlsplit(url)
         scheme, path = split.scheme, split.path
 
@@ -99,15 +122,20 @@ def fetch(self, url):
                 resp.raise_for_status()
             except Exception as e:
                 raise RuntimeError(url, e)
-            result = yaml.load(resp.text)
+            return resp.text
         elif scheme == 'file':
             try:
                 with open(path) as fp:
-                    result = yaml.load(fp)
+                    return fp.read()
             except (OSError, IOError) as e:
                 raise RuntimeError('Failed for %s: %s' % (url, e))
         else:
             raise ValueError('Unsupported scheme: %s' % scheme)
+
+    def fetch(self, url):
+        if url in self.fetched:
+            return self.fetched[url]
+        result = yaml.load(self.fetch_text(url))
         self.fetched[url] = result
         return result
 
@@ -150,5 +178,33 @@ def resolve_json_pointer(document, pointer, default=POINTER_DEFAULT):
 
 loader = Loader()
 
-def from_url(url, base_url=None, url_fields=[]):
-    return loader.load(url, base_url, url_fields=url_fields)
+def from_url(url, base_url=None, url_fields=[], idx={}):
+    return loader.load(url, base_url, url_fields=url_fields, idx=idx)
+
+def validate_links(document, url_fields, idx):
+    if isinstance(document, list):
+        iterator = enumerate(document)
+    elif isinstance(document, dict):
+        for d in url_fields:
+            if d in document:
+                if isinstance(document[d], basestring):
+                    if document[d] not in idx:
+                        raise ValueError("Invalid link `%s` in field `%s`", document[d], d)
+                elif isinstance(document[d], list):
+                    for i in document[d]:
+                        if i not in idx:
+                            raise ValueError("Invalid link `%s` in field `%s`" % (i, d))
+        iterator = document.iteritems()
+    else:
+        return idx
+
+    try:
+        for key, val in iterator:
+            validate_links(val, idx, url_fields)
+    except ValueError as v:
+        if isinstance(key, basestring):
+            raise ValueError("At field %s\n%s" % (key, avro_ld.validate.indent(str(v))))
+        else:
+            raise ValueError("At position %s\n%s" % (key, avro_ld.validate.indent(str(v))))
+
+    return idx
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 006a00562..c32e336e1 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -104,7 +104,7 @@ def try_make_job(self, step, basedir, **kwargs):
                             else:
                                 inputobj[iid] = [self.state[src].value]
                         else:
-                            raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"]), inp["type"])
+                            raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"], inp["type"]))
                     elif src not in self.state:
                         raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
                     else:
@@ -198,28 +198,29 @@ def __init__(self, toolpath_object, docpath):
             self.id = "#step_" + str(random.randint(1, 1000000000))
 
         for i in toolpath_object["inputs"]:
-            (_, d) = urlparse.urldefrag(i["param"])
+            p = i["param"] if 'param' in i else self.id
+            (_, d) = urlparse.urldefrag(p)
             toolid = i.get("id", self.id + "." + d)
             found = False
             for a in self.embedded_tool.tool["inputs"]:
-                if a["id"] == i["param"]:
+                if a["id"] == p:
                     i.update(a)
                     found = True
             if not found:
-                raise WorkflowException("Did not find input '%s' in external process" % (i["param"]))
+                raise WorkflowException("Did not find input parameter '%s' in workflow step" % (p))
 
             i["id"] = toolid
 
         for i in toolpath_object["outputs"]:
-            (_, d) = urlparse.urldefrag(i["param"])
-            toolid = i["id"] if 'id' in i else i['param']
+            p = i["param"] if 'param' in i else i['id']
+            toolid = i["id"]
             found = False
             for a in self.embedded_tool.tool["outputs"]:
-                if a["id"] == i["param"]:
+                if a["id"] == p:
                     i.update(a)
                     found = True
             if not found:
-                raise WorkflowException("Did not find output '%s' in external process" % (i["param"]))
+                raise WorkflowException("Did not find output parameter '%s' in workflow step" % (p))
 
             i["id"] = toolid
 

From 781f404575895d9bc025bc25bb7e4f68435ec082 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 31 May 2015 21:27:43 -0400
Subject: [PATCH 099/221] Rewrite ref_resolver, supports link checking, update
 tests

---
 cwltool/avro_ld/ref_resolver.py | 204 ++++++++++++++++++
 cwltool/draft1tool.py           | 369 --------------------------------
 cwltool/expression.py           |   4 +-
 cwltool/main.py                 |  20 +-
 cwltool/ref_resolver.py         | 210 ------------------
 cwltool/workflow.py             |   6 +-
 6 files changed, 220 insertions(+), 593 deletions(-)
 create mode 100644 cwltool/avro_ld/ref_resolver.py
 delete mode 100644 cwltool/draft1tool.py
 delete mode 100644 cwltool/ref_resolver.py

diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
new file mode 100644
index 000000000..25f1e104d
--- /dev/null
+++ b/cwltool/avro_ld/ref_resolver.py
@@ -0,0 +1,204 @@
+import os
+import json
+import hashlib
+import logging
+import collections
+import requests
+import urlparse
+import yaml
+import avro_ld.validate
+
+log = logging.getLogger("cwltool")
+
+class NormDict(dict):
+    def __init__(self, normalize=unicode):
+        super(NormDict, self).__init__()
+        self.normalize = normalize
+
+    def __getitem__(self, key):
+        return super(NormDict, self).__getitem__(self.normalize(key))
+
+    def __setitem__(self, key, value):
+        return super(NormDict, self).__setitem__(self.normalize(key), value)
+
+    def __delitem__(self, key):
+        return super(NormDict, self).__delitem__(self.normalize(key))
+
+    def __contains__(self, key):
+        return super(NormDict, self).__contains__(self.normalize(key))
+
+def expand_url(url, base_url):
+    split = urlparse.urlparse(url)
+    if split.scheme:
+        return url
+    else:
+        return urlparse.urljoin(base_url, url)
+
+class Loader(object):
+    def __init__(self):
+        normalize = lambda url: urlparse.urlsplit(url).geturl()
+        self.idx = NormDict(normalize)
+        self.url_fields = []
+
+    def resolve_ref(self, ref, base_url=None):
+        base_url = base_url or 'file://%s/' % os.path.abspath('.')
+
+        obj = None
+
+        # If `ref` is a dict, look for special directives.
+        if isinstance(ref, dict):
+            obj = ref
+            if "import" in ref:
+                if len(obj) == 1:
+                    ref = obj["import"]
+                    obj = None
+                else:
+                    raise ValueError("'import' must be the only field in %s" % (str(obj)))
+            elif "include" in obj:
+                if len(obj) == 1:
+                    ref = obj["include"]
+                else:
+                    raise ValueError("'include' must be the only field in %s" % (str(obj)))
+            else:
+                if "id" in obj:
+                    ref = obj["id"]
+                else:
+                    raise ValueError("Object `%s` does not have `id` field" % obj)
+
+        if not isinstance(ref, basestring):
+            raise ValueError("Must be string: `%s`" % str(ref))
+
+        url = expand_url(ref, base_url)
+
+        # Has this reference been loaded already?
+        if url in self.idx:
+            return self.idx[url]
+
+        # "include" directive means load raw text
+        if obj and "include" in obj:
+            return self.fetch_text(url)
+
+        if obj:
+            obj["id"] = url
+            self.idx[url] = obj
+        else:
+            # Load structured document
+            doc_url, _ = urlparse.urldefrag(url)
+            obj = self.fetch(doc_url)
+
+        # Recursively expand urls and resolve directives
+        self.resolve_all(obj, url)
+
+        # Requested reference should be in the index now, otherwise it's a bad reference
+        if url in self.idx:
+            return self.idx[url]
+        else:
+            raise RuntimeError("Reference `%s` is not valid" % url)
+
+    def resolve_all(self, document, base_url):
+        if isinstance(document, list):
+            iterator = enumerate(document)
+        elif isinstance(document, dict):
+            inc = 'include' in document
+            if 'id' in document or 'import' in document or 'include' in document:
+                document = self.resolve_ref(document, base_url)
+            if inc:
+                return document
+
+            for d in self.url_fields:
+                if d in document:
+                    if isinstance(document[d], basestring):
+                        document[d] = expand_url(document[d], base_url)
+                    elif isinstance(document[d], list):
+                        document[d] = [expand_url(url, base_url) if isinstance(url, basestring) else url for url in document[d] ]
+            iterator = document.iteritems()
+        else:
+            return document
+
+        for key, val in iterator:
+            document[key] = self.resolve_all(val, base_url)
+
+        return document
+
+    def fetch_text(self, url):
+        split = urlparse.urlsplit(url)
+        scheme, path = split.scheme, split.path
+
+        if scheme in ['http', 'https'] and requests:
+            resp = requests.get(url)
+            try:
+                resp.raise_for_status()
+            except Exception as e:
+                raise RuntimeError(url, e)
+            return resp.text
+        elif scheme == 'file':
+            try:
+                with open(path) as fp:
+                    return fp.read()
+            except (OSError, IOError) as e:
+                raise RuntimeError('Failed for %s: %s' % (url, e))
+        else:
+            raise ValueError('Unsupported scheme in url: %s' % url)
+
+    def fetch(self, url):
+        if url in self.idx:
+            return self.idx[url]
+        result = yaml.load(self.fetch_text(url))
+        if isinstance(result, dict):
+            if "id" not in result:
+                result["id"] = url
+            self.idx[result["id"]] = result
+        else:
+            self.idx[url] = result
+        return result
+
+    def validate_links(self, document):
+        if isinstance(document, list):
+            iterator = enumerate(document)
+        elif isinstance(document, dict):
+            for d in self.url_fields:
+                if d in document:
+                    if isinstance(document[d], basestring):
+                        if document[d] not in self.idx:
+                            raise ValueError("Invalid link `%s` in field `%s`" % (document[d], d))
+                    elif isinstance(document[d], list):
+                        for i in document[d]:
+                            if isinstance(i, basestring) and i not in self.idx:
+                                raise ValueError("Invalid link `%s` in field `%s`" % (i, d))
+            iterator = document.iteritems()
+        else:
+            return
+
+        try:
+            for key, val in iterator:
+                self.validate_links(val)
+        except ValueError as v:
+            if isinstance(key, basestring):
+                raise ValueError("At field `%s`\n%s" % (key, avro_ld.validate.indent(str(v))))
+            else:
+                raise ValueError("At position %s\n%s" % (key, avro_ld.validate.indent(str(v))))
+
+        return
+
+
+POINTER_DEFAULT = object()
+
+def resolve_json_pointer(document, pointer, default=POINTER_DEFAULT):
+    parts = urlparse.unquote(pointer.lstrip('/#')).split('/') \
+        if pointer else []
+    for part in parts:
+        if isinstance(document, collections.Sequence):
+            try:
+                part = int(part)
+            except ValueError:
+                pass
+        try:
+            document = document[part]
+        except:
+            if default != POINTER_DEFAULT:
+                return default
+            else:
+                raise ValueError('Unresolvable JSON pointer: %r' % pointer)
+    return document
+
+loader = Loader()
diff --git a/cwltool/draft1tool.py b/cwltool/draft1tool.py
deleted file mode 100644
index b77519d72..000000000
--- a/cwltool/draft1tool.py
+++ /dev/null
@@ -1,369 +0,0 @@
-import os
-import pprint
-import json
-import copy
-import sys
-import jsonschema.exceptions
-import random
-import requests
-import urlparse
-import functools
-from pathmapper import PathMapper, DockerPathMapper
-from job import CommandLineJob
-from flatten import flatten
-
-from jsonschema.validators import Draft4Validator
-import ref_resolver
-from ref_resolver import from_url, resolve_json_pointer
-
-module_dir = os.path.dirname(os.path.abspath(__file__))
-
-jsonschemapath = os.path.join(module_dir, 'schemas/draft-1/json-schema-draft-04.json')
-with open(jsonschemapath) as f:
-    jsonschemapath_doc = json.load(f)
-
-ref_resolver.loader.fetched["http://json-schema.org/draft-04/schema"] = jsonschemapath_doc
-
-toolpath = os.path.join(module_dir, 'schemas/draft-1/tool.json')
-with open(toolpath) as f:
-    tool_schema_doc = json.load(f)
-with open(os.path.join(module_dir, 'schemas/draft-1/metaschema.json')) as f:
-    metaschema = json.load(f)
-
-SCHEMA_URL_PREFIX = "https://raw.githubusercontent.com/common-workflow-language/common-workflow-language/draft-1/schemas/"
-TOOL_SCHEMA_URL = SCHEMA_URL_PREFIX + "tool.json"
-METASCHEMA_SCHEMA_URL = SCHEMA_URL_PREFIX + "metaschema.json"
-
-ref_resolver.loader.fetched[TOOL_SCHEMA_URL] = tool_schema_doc
-ref_resolver.loader.fetched[METASCHEMA_SCHEMA_URL] = metaschema
-
-tool_schema = Draft4Validator(tool_schema_doc)
-
-def each(l):
-    if l is None:
-        return []
-    if isinstance(l, (list, tuple)):
-        return l
-    else:
-        return [l]
-
-def fix_file_type(t):
-    if 'type' in t and t['type'] == "file":
-        for a in metaschema["definitions"]["file"]:
-            t[a] = metaschema["definitions"]["file"][a]
-        t["_type"] = "file"
-    for k in t:
-        if isinstance(t[k], dict):
-            fix_file_type(t[k])
-
-class Builder(object):
-
-    def jseval(self, job=None, expression=None):
-        if expression.startswith('{'):
-            exp_tpl = '''{
-            return function()%s();}
-            '''
-        else:
-            exp_tpl = '''{
-            return %s;}
-            '''
-        exp = exp_tpl % (expression)
-        return sandboxjs.execjs(exp, "var $job = %s;%s" % (json.dumps(job), self.jslib))
-
-    def resolve_eval(self, job, v):
-        if isinstance(v, dict):
-            if "$expr" in v:
-                # Support $import of the $expr
-                return self.jseval(job, self.resolve_eval(job, v["$expr"]))
-            if "$apply" in v:
-                # Support $import of the $expr
-                ex = ""
-                for i, p in enumerate(v["$apply"]):
-                    if i == 0:
-                        ex += p + "("
-                    else:
-                        ex += json.dumps(self.resolve_eval(job, p))
-                        if i < len(v["$apply"])-1:
-                            ex += ","
-                ex += ")"
-                return self.jseval(job, ex)
-            elif "$job" in v:
-                return resolve_json_pointer(job, v["$job"])
-            elif "$import" in v:
-                # TODO: check checksum
-                url = urlparse.urljoin(self.base_url, v["$import"])
-                split = urlparse.urlsplit(url)
-                scheme, path = split.scheme, split.path
-                if scheme in ['http', 'https']:
-                    resp = requests.get(url)
-                    try:
-                        resp.raise_for_status()
-                    except Exception as e:
-                        raise RuntimeError(url, e)
-                    return resp.text
-                elif scheme == 'file':
-                    try:
-                        with open(path) as fp:
-                            return fp.read()
-                    except (OSError, IOError) as e:
-                        raise RuntimeError('Failed for %s: %s' % (url, e))
-                else:
-                    raise ValueError('Unsupported scheme: %s' % scheme)
-        return v
-
-    def adapt_inputs(self, schema, job, inp, key):
-        adapters = []
-
-        if 'oneOf' in schema:
-            for one in schema["oneOf"]:
-                try:
-                    Draft4Validator(one).validate(inp)
-                    schema = one
-                    break
-                except jsonschema.exceptions.ValidationError:
-                    pass
-
-        if isinstance(inp, dict):
-            if "properties" in schema:
-                for i in inp:
-                    a = self.adapt_inputs(schema["properties"][i], job, inp[i], i)
-                    adapters.extend(a)
-        elif isinstance(inp, list):
-            for n, i in enumerate(inp):
-                a = self.adapt_inputs(schema["items"], job, i, format(n, '06'))
-                for x in a:
-                    x["order"].insert(0, n)
-                adapters.extend(a)
-
-        if 'adapter' in schema:
-            a = copy.copy(schema['adapter'])
-
-            if "order" in a:
-                a["order"] = [a["order"], key]
-            else:
-                a["order"] = [1000000, key]
-
-            a["schema"] = schema
-
-            for x in adapters:
-                x["order"] = a["order"] + x["order"]
-
-            if not 'value' in a and len(adapters) == 0:
-                a['value'] = inp
-
-            if len(adapters) == 0 or "value" in a:
-                adapters.insert(0, a)
-
-        return adapters
-
-    def to_str(self, schema, value, path_mapper):
-        if "$ref" in schema:
-            schema = from_url(schema["$ref"], self.ref_base_url)
-
-        if 'oneOf' in schema:
-            for a in schema['oneOf']:
-                v = self.to_str(a, value, path_mapper)
-                if v is not None:
-                    return v
-            return None
-        elif 'type' in schema:
-            if schema["type"] == "array" and isinstance(value, list):
-                return [self.to_str(schema["items"], v, path_mapper) for v in value]
-            elif schema["type"] == "object" and isinstance(value, dict):
-                if "path" in value:
-                    return path_mapper(value["path"])
-                else:
-                    raise Exception("Not expecting a dict %s" % (value))
-            elif schema["type"] in ("string", "number", "integer"):
-                return str(value)
-            elif schema["type"] == "boolean":
-                # handled specially by adapt()
-                return value
-
-        return None
-
-    def find_files(self, adapter, job):
-        if "value" in adapter:
-            value = self.resolve_eval(job, adapter["value"])
-        else:
-            return None
-
-        schema = adapter["schema"]
-
-        if "$ref" in schema:
-            schema = from_url(schema["$ref"], self.ref_base_url)
-
-        if 'oneOf' in schema:
-            for a in schema['oneOf']:
-                v = self.find_files(a, value)
-                if v is not None:
-                    return v
-            return None
-        elif 'type' in schema:
-            if schema["type"] == "array" and isinstance(value, list):
-                return [self.find_files({"value": v,
-                                    "schema": schema["items"]}, job) for v in value]
-            elif schema["type"] == "object" and isinstance(value, dict):
-                if "path" in value:
-                    return value["path"]
-                else:
-                    raise Exception("Not expecting a dict %s" % (value))
-
-        return None
-
-
-    def adapt(self, adapter, job, path_mapper):
-        if "value" in adapter:
-            value = self.resolve_eval(job, adapter["value"])
-        else:
-            raise Exception("No value in adapter")
-
-        value = self.to_str(adapter["schema"], value, path_mapper)
-
-        sep = adapter["separator"] if "separator" in adapter else " "
-
-        if 'itemSeparator' in adapter:
-            if adapter["prefix"]:
-                l = [adapter["prefix"] + adapter['itemSeparator'].join(value)]
-            else:
-                l = [adapter['itemSeparator'].join(value)]
-        elif 'prefix' in adapter:
-            l = []
-            if value is True:
-                l.append(adapter["prefix"])
-            elif value is False:
-                pass
-            else:
-                for v in each(value):
-                    if sep == " ":
-                        l.append(adapter["prefix"])
-                        l.append(v)
-                    else:
-                        l.append(adapter["prefix"] + sep + v)
-        else:
-            l = [value]
-
-        return l
-
-class Tool(object):
-    def __init__(self, toolpath_object):
-        self.tool = toolpath_object
-        fix_file_type(self.tool)
-        if "schema" not in self.tool or self.tool["schema"] != TOOL_SCHEMA_URL:
-            raise Exception("Missing or invalid 'schema' field in tool description document, must be %s" % TOOL_SCHEMA_URL)
-        tool_schema.validate(self.tool)
-
-    def job(self, joborder, basedir, output_callback, use_container=True):
-        inputs = joborder['inputs']
-        Draft4Validator(self.tool['inputs']).validate(inputs)
-
-        adapter = self.tool["adapter"]
-        adapters = [{"order": [-1000000],
-                     "schema": tool_schema_doc["properties"]["adapter"]["properties"]["baseCmd"],
-                     "value": adapter['baseCmd']
-                 }]
-
-        builder = Builder()
-        builder.base_url = "file:"+os.path.abspath(basedir)+"/"
-        builder.ref_base_url = "file:"+toolpath
-
-        requirements = self.tool.get("requirements")
-        builder.jslib = ''
-        if requirements and 'expressionlib' in requirements:
-            for ex in requirements['expressionlib']:
-                builder.jslib += builder.resolve_eval(joborder, ex) + "\n"
-
-        if "args" in adapter:
-            for i, a in enumerate(adapter["args"]):
-                a = copy.copy(a)
-                if "order" in a:
-                    a["order"] = [a["order"]]
-                else:
-                    a["order"] = [0]
-                a["schema"] = tool_schema_doc["definitions"]["strOrExpr"]
-                adapters.append(a)
-
-        adapters.extend(builder.adapt_inputs(self.tool['inputs'], inputs, inputs, ""))
-
-        adapters.sort(key=lambda a: a["order"])
-
-        referenced_files = filter(lambda a: a is not None, flatten(map(lambda a: builder.find_files(a, joborder), adapters)))
-
-        j = CommandLineProcess()
-        j.joborder = joborder
-        j.container = None
-
-        if 'stdin' in adapter:
-            j.stdin = flatten(builder.adapt({"value": adapter['stdin'],
-                                              "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdin"]
-                                          }, joborder, None))[0]
-            referenced_files.append(j.stdin)
-        else:
-            j.stdin = None
-
-        if 'stdout' in adapter:
-            j.stdout = flatten(builder.adapt({"value": adapter['stdout'],
-                                               "schema": tool_schema_doc["properties"]["adapter"]["properties"]["stdout"]
-                                           }, joborder, None))[0]
-
-            if os.path.isabs(j.stdout):
-                raise Exception("stdout must be a relative path")
-        else:
-            j.stdout = None
-
-        j.generatefiles = {}
-        for t in adapter.get("generatefiles", []):
-            j.generatefiles[builder.resolve_eval(inputs, t["name"])] = builder.resolve_eval(inputs, t["value"])
-
-        d = None
-        if requirements:
-            b = requirements.get("environment")
-            if b:
-                c = b.get("container")
-                if use_container and c:
-                    if c.get("type") == "docker":
-                        d = DockerPathMapper(referenced_files, basedir)
-                        j.container = c
-
-        if d is None:
-            d = PathMapper(referenced_files, basedir)
-
-        if j.stdin:
-            j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
-
-        j.command_line = flatten(map(lambda a: builder.adapt(a, joborder, d.mapper), adapters))
-
-        j.pathmapper = d
-        j.collect_outputs = functools.partial(self.collect_outputs, self.tool.get("outputs", {}), joborder)
-        j.output_callback = output_callback
-
-        yield j
-
-    def collect_outputs(self, schema, joborder, outdir):
-        result_path = os.path.join(outdir, "result.cwl.json")
-        if os.path.isfile(result_path):
-            print "Result file found."
-            with open(result_path) as fp:
-                return yaml.load(fp)
-
-        r = None
-        if isinstance(schema, dict):
-            if "adapter" in schema:
-                adapter = schema["adapter"]
-                if "glob" in adapter:
-                    r = [{"path": g} for g in glob.glob(os.path.join(outdir, adapter["glob"]))]
-                    if not ("type" in schema and schema["type"] == "array"):
-                        if r:
-                            r = r[0]
-                        else:
-                            r = None
-                if "value" in adapter:
-                    r = draft1tool.resolve_eval(joborder, adapter["value"])
-            if not r and "properties" in schema:
-                r = {}
-                for k, v in schema["properties"].items():
-                    out = self.collect_outputs(v, joborder, outdir)
-                    if out:
-                        r[k] = out
-
-        return r
diff --git a/cwltool/expression.py b/cwltool/expression.py
index fbc59d992..6ac2abeae 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -8,13 +8,13 @@
 import process
 import yaml
 import avro_ld.validate as validate
-import ref_resolver
+import avro_ld.ref_resolver
 
 _logger = logging.getLogger("cwltool")
 
 def exeval(ex, jobinput, requirements, docpath, context, pull_image):
     if ex["engine"] == "cwl:JsonPointer":
-        return ref_resolver.resolve_json_pointer({"job": jobinput, "context": context}, ex["script"])
+        return avro_ld.ref_resolver.resolve_json_pointer({"job": jobinput, "context": context}, ex["script"])
 
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
diff --git a/cwltool/main.py b/cwltool/main.py
index af1d5663f..d97e62262 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -1,9 +1,8 @@
 #!/usr/bin/env python
 
-import draft1tool
 import draft2tool
 import argparse
-from ref_resolver import from_url, validate_links
+from avro_ld.ref_resolver import loader
 import jsonschema
 import json
 import os
@@ -15,6 +14,7 @@
 import avro_ld.jsonld_context
 import avro_ld.makedoc
 import yaml
+import urlparse
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
@@ -71,6 +71,9 @@ def main():
         if c != "id" and (ctx[c] == "@id") or (isinstance(ctx[c], dict) and ctx[c].get("@type") == "@id"):
             url_fields.append(c)
 
+    loader.url_fields = url_fields
+    loader.idx["cwl:JsonPointer"] = {}
+
     if args.print_jsonld_context:
         print json.dumps(ctx, indent=4, sort_keys=True)
         return 0
@@ -96,22 +99,25 @@ def main():
         return 1
 
     idx = {}
-    processobj = from_url(args.workflow, url_fields=url_fields, idx=idx)
+    processobj = loader.resolve_ref(args.workflow)
 
-    _logger.warn(url_fields)
-    #_logger.warn(json.dumps(idx, indent=4))
+    #_logger.warn(url_fields)
+    #_logger.warn(json.dumps(loader.idx, indent=4))
 
     if args.print_pre:
         print json.dumps(processobj, indent=4)
         return 0
 
-    validate_links(processobj, url_fields, idx)
+    loader.validate_links(processobj)
 
     if args.job_order:
         basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
     else:
         basedir = args.basedir
 
+    if isinstance(processobj, list):
+        processobj = loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
+
     try:
         t = workflow.makeTool(processobj, basedir, strict=args.strict)
     except (jsonschema.exceptions.ValidationError, avro_ld.validate.ValidationException) as e:
@@ -139,7 +145,7 @@ def main():
         def output_callback(out):
             final_output.append(out)
 
-        jobiter = t.job(from_url(args.job_order), basedir, output_callback, use_container=(not args.no_container))
+        jobiter = t.job(loader.resolve_ref(args.job_order), basedir, output_callback, use_container=(not args.no_container))
         if args.conformance_test:
             job = jobiter.next()
             a = {"args": job.command_line}
diff --git a/cwltool/ref_resolver.py b/cwltool/ref_resolver.py
deleted file mode 100644
index f8c2911db..000000000
--- a/cwltool/ref_resolver.py
+++ /dev/null
@@ -1,210 +0,0 @@
-import os
-import json
-import copy
-import hashlib
-import logging
-import collections
-import requests
-import urlparse
-import yaml
-import avro_ld.validate
-
-log = logging.getLogger("cwltool")
-
-class NormDict(dict):
-    def __init__(self, normalize=unicode):
-        super(NormDict, self).__init__()
-        self.normalize = normalize
-
-    def __getitem__(self, key):
-        return super(NormDict, self).__getitem__(self.normalize(key))
-
-    def __setitem__(self, key, value):
-        return super(NormDict, self).__setitem__(self.normalize(key), value)
-
-    def __delitem__(self, key):
-        return super(NormDict, self).__delitem__(self.normalize(key))
-
-def expand_url(url, base_url):
-    split = urlparse.urlparse(url)
-    if not split.scheme:
-        return urlparse.urljoin(base_url, url)
-    else:
-        return url
-
-class Loader(object):
-    def __init__(self):
-        normalize = lambda url: urlparse.urlsplit(url).geturl()
-        self.fetched = NormDict(normalize)
-        self.resolved = NormDict(normalize)
-        self.resolving = NormDict(normalize)
-
-    def load(self, url, base_url=None, url_fields=[], idx={}):
-        base_url = base_url or 'file://%s/' % os.path.abspath('.')
-        return self.resolve_ref({'import': url}, base_url, url_fields=url_fields, idx=idx)
-
-    def resolve_ref(self, obj, base_url, url_fields=[], idx={}):
-        if "import" in obj:
-            if len(obj) == 1:
-                ref = obj["import"]
-            else:
-                raise ValueError("'import' must be the only field in %s" % (str(obj)))
-        elif "include" in obj:
-            if len(obj) == 1:
-                ref = obj["include"]
-            else:
-                raise ValueError("'include' must be the only field in %s" % (str(obj)))
-        else:
-            ref = obj['id']
-        split = urlparse.urlparse(ref)
-        if split.scheme:
-            url = ref
-        else:
-            url = urlparse.urljoin(base_url, ref)
-
-        if "include" in obj:
-            return self.fetch_text(url)
-
-        obj = copy.deepcopy(obj)
-        obj['id'] = url
-
-        if url in idx:
-            raise ValueError("Object `%s` defined more than once" % (url))
-        idx[url] = obj
-
-        if ref[0] == "#" or "import" not in obj:
-            return obj
-        if url in self.resolved:
-            return self.resolved[url]
-        if url in self.resolving:
-            raise RuntimeError('Circular reference for url %s' % url)
-        self.resolving[url] = True
-        doc_url, fragment = urlparse.urldefrag(url)
-        document = self.fetch(doc_url)
-        fragment = copy.deepcopy(resolve_fragment(document, fragment))
-        try:
-            result = self.resolve_all(fragment, doc_url, url_fields, idx=idx)
-        finally:
-            del self.resolving[url]
-        result["id"] = url
-        return result
-
-    def resolve_all(self, document, base_url, url_fields, idx={}):
-        if isinstance(document, list):
-            iterator = enumerate(document)
-        elif isinstance(document, dict):
-            inc = 'include' in document
-            if 'id' in document or 'import' in document or 'include' in document:
-                document = self.resolve_ref(document, base_url, url_fields, idx=idx)
-            if inc:
-                return document
-            for d in url_fields:
-                if d in document:
-                    if isinstance(document[d], basestring):
-                        document[d] = expand_url(document[d], base_url)
-                    elif isinstance(document[d], list):
-                        document[d] = [expand_url(url, base_url) if isinstance(url, basestring) else url for url in document[d] ]
-            iterator = document.iteritems()
-        else:
-            return document
-        for key, val in iterator:
-            document[key] = self.resolve_all(val, base_url, url_fields, idx=idx)
-        return document
-
-    def fetch_text(self, url):
-        pass
-        split = urlparse.urlsplit(url)
-        scheme, path = split.scheme, split.path
-
-        if scheme in ['http', 'https'] and requests:
-            resp = requests.get(url)
-            try:
-                resp.raise_for_status()
-            except Exception as e:
-                raise RuntimeError(url, e)
-            return resp.text
-        elif scheme == 'file':
-            try:
-                with open(path) as fp:
-                    return fp.read()
-            except (OSError, IOError) as e:
-                raise RuntimeError('Failed for %s: %s' % (url, e))
-        else:
-            raise ValueError('Unsupported scheme: %s' % scheme)
-
-    def fetch(self, url):
-        if url in self.fetched:
-            return self.fetched[url]
-        result = yaml.load(self.fetch_text(url))
-        self.fetched[url] = result
-        return result
-
-POINTER_DEFAULT = object()
-
-def resolve_fragment(document, frag):
-    if not frag:
-        return document
-    if isinstance(document, dict):
-        if document.get("id") == frag:
-            return document
-        for d in document:
-            r = resolve_fragment(document[d], frag)
-            if r:
-                return r
-    elif isinstance(document, list):
-        for d in document:
-            r = resolve_fragment(d, frag)
-            if r:
-                return r
-    return None
-
-def resolve_json_pointer(document, pointer, default=POINTER_DEFAULT):
-    parts = urlparse.unquote(pointer.lstrip('/#')).split('/') \
-        if pointer else []
-    for part in parts:
-        if isinstance(document, collections.Sequence):
-            try:
-                part = int(part)
-            except ValueError:
-                pass
-        try:
-            document = document[part]
-        except:
-            if default != POINTER_DEFAULT:
-                return default
-            else:
-                raise ValueError('Unresolvable JSON pointer: %r' % pointer)
-    return document
-
-loader = Loader()
-
-def from_url(url, base_url=None, url_fields=[], idx={}):
-    return loader.load(url, base_url, url_fields=url_fields, idx=idx)
-
-def validate_links(document, url_fields, idx):
-    if isinstance(document, list):
-        iterator = enumerate(document)
-    elif isinstance(document, dict):
-        for d in url_fields:
-            if d in document:
-                if isinstance(document[d], basestring):
-                    if document[d] not in idx:
-                        raise ValueError("Invalid link `%s` in field `%s`", document[d], d)
-                elif isinstance(document[d], list):
-                    for i in document[d]:
-                        if i not in idx:
-                            raise ValueError("Invalid link `%s` in field `%s`" % (i, d))
-        iterator = document.iteritems()
-    else:
-        return idx
-
-    try:
-        for key, val in iterator:
-            validate_links(val, idx, url_fields)
-    except ValueError as v:
-        if isinstance(key, basestring):
-            raise ValueError("At field %s\n%s" % (key, avro_ld.validate.indent(str(v))))
-        else:
-            raise ValueError("At position %s\n%s" % (key, avro_ld.validate.indent(str(v))))
-
-    return idx
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index c32e336e1..9b1934c52 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -1,12 +1,10 @@
 import job
-import draft1tool
 import draft2tool
 from aslist import aslist
 from process import Process, WorkflowException, get_feature
 import copy
 import logging
 import random
-from ref_resolver import from_url
 import os
 from collections import namedtuple
 import pprint
@@ -20,9 +18,7 @@
 
 def makeTool(toolpath_object, docpath, **kwargs):
     """docpath is the directory the tool file is located."""
-    if "schema" in toolpath_object:
-        return draft1tool.Tool(toolpath_object)
-    elif "run" in toolpath_object and toolpath_object.get("class", "External") == "External":
+    if "run" in toolpath_object: # and toolpath_object.get("class", "External") == "External":
         return External(toolpath_object, docpath)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":

From 52040932278ee38685519ce553d0378c41423508 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 31 May 2015 21:37:09 -0400
Subject: [PATCH 100/221] Fix path mapping.

---
 cwltool/draft2tool.py | 54 ++++++++++++++++++++++---------------------
 cwltool/main.py       |  8 +++----
 2 files changed, 32 insertions(+), 30 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 324f4955d..f9451c557 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -110,24 +110,26 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                                                     item, lead_pos=n, tail_pos=tail_pos))
                 binding = None
 
-            if schema["type"] == "File" and binding:
-                if binding.get("loadContents"):
-                    with open(os.path.join(self.basedir, datum["path"]), "rb") as f:
-                        datum["contents"] = f.read(CONTENT_LIMIT)
+            if schema["type"] == "File":
                 self.files.append(datum)
-                if "secondaryFiles" in binding:
-                    if "secondaryFiles" not in datum:
-                        datum["secondaryFiles"] = []
-                    for sf in aslist(schema["secondaryFiles"]):
-                        if isinstance(sf, dict):
-                            sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, datum["path"])
-                        else:
-                            sfpath = {"path": substitute(datum["path"], sf)}
-                        if isinstance(sfpath, list):
-                            datum["secondaryFiles"].extend(sfpath)
-                        else:
-                            datum["secondaryFiles"].append(sfpath)
-                        self.files.append(sfpath)
+                if binding:
+                    if binding.get("loadContents"):
+                        with open(os.path.join(self.input_basedir, datum["path"]), "rb") as f:
+                            datum["contents"] = f.read(CONTENT_LIMIT)
+
+                    if "secondaryFiles" in binding:
+                        if "secondaryFiles" not in datum:
+                            datum["secondaryFiles"] = []
+                        for sf in aslist(schema["secondaryFiles"]):
+                            if isinstance(sf, dict):
+                                sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, datum["path"])
+                            else:
+                                sfpath = {"path": substitute(datum["path"], sf)}
+                            if isinstance(sfpath, list):
+                                datum["secondaryFiles"].extend(sfpath)
+                            else:
+                                datum["secondaryFiles"].append(sfpath)
+                            self.files.append(sfpath)
 
         # Position to front of the sort key
         if binding:
@@ -177,7 +179,7 @@ def generate_arg(self, binding):
 
 
 class Tool(Process):
-    def _init_job(self, joborder, basedir, **kwargs):
+    def _init_job(self, joborder, input_basedir, **kwargs):
         # Validate job order
         try:
             validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
@@ -194,7 +196,7 @@ def _init_job(self, joborder, basedir, **kwargs):
         builder = Builder()
         builder.job = copy.deepcopy(joborder)
         builder.jslib = ''
-        builder.basedir = basedir
+        builder.input_basedir = input_basedir
         builder.files = []
         builder.bindings = []
         builder.schemaDefs = self.schemaDefs
@@ -213,8 +215,8 @@ class ExpressionJob(object):
         def run(self, outdir=None, **kwargs):
             self.output_callback(expression.do_eval(self.script, self.builder.job, self.requirements, self.builder.docpath))
 
-    def job(self, joborder, basedir, output_callback, **kwargs):
-        builder = self._init_job(joborder, basedir, **kwargs)
+    def job(self, joborder, input_basedir, output_callback, **kwargs):
+        builder = self._init_job(joborder, input_basedir, **kwargs)
 
         j = ExpressionTool.ExpressionJob()
         j.builder = builder
@@ -229,8 +231,8 @@ class CommandLineTool(Tool):
     def __init__(self, toolpath_object, docpath, **kwargs):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", docpath, **kwargs)
 
-    def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
-        builder = self._init_job(joborder, basedir, **kwargs)
+    def job(self, joborder, input_basedir, output_callback, use_container=True, **kwargs):
+        builder = self._init_job(joborder, input_basedir, **kwargs)
 
         if self.tool["baseCommand"]:
             for n, b in enumerate(aslist(self.tool["baseCommand"])):
@@ -285,10 +287,10 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
 
         dockerReq, _ = get_feature("DockerRequirement", requirements=self.requirements, hints=self.hints)
         if dockerReq and use_container:
-                builder.pathmapper = DockerPathMapper(reffiles, basedir)
+                builder.pathmapper = DockerPathMapper(reffiles, input_basedir)
 
         if builder.pathmapper is None:
-            builder.pathmapper = PathMapper(reffiles, basedir)
+            builder.pathmapper = PathMapper(reffiles, input_basedir)
 
         for f in builder.files:
             f["path"] = builder.pathmapper.mapper(f["path"])[1]
@@ -310,7 +312,7 @@ def job(self, joborder, basedir, output_callback, use_container=True, **kwargs):
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
         if j.stdin:
-            j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(basedir, j.stdin)
+            j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(input_basedir, j.stdin)
 
         j.pathmapper = builder.pathmapper
         j.collect_outputs = functools.partial(self.collect_output_ports, self.tool["outputs"], builder)
diff --git a/cwltool/main.py b/cwltool/main.py
index d97e62262..9ffe28fc8 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -111,15 +111,15 @@ def main():
     loader.validate_links(processobj)
 
     if args.job_order:
-        basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
+        input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
     else:
-        basedir = args.basedir
+        input_basedir = args.basedir
 
     if isinstance(processobj, list):
         processobj = loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
 
     try:
-        t = workflow.makeTool(processobj, basedir, strict=args.strict)
+        t = workflow.makeTool(processobj, input_basedir, strict=args.strict)
     except (jsonschema.exceptions.ValidationError, avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
@@ -145,7 +145,7 @@ def main():
         def output_callback(out):
             final_output.append(out)
 
-        jobiter = t.job(loader.resolve_ref(args.job_order), basedir, output_callback, use_container=(not args.no_container))
+        jobiter = t.job(loader.resolve_ref(args.job_order), input_basedir, output_callback, use_container=(not args.no_container))
         if args.conformance_test:
             job = jobiter.next()
             a = {"args": job.command_line}

From c001654b09f40bff77c5a09da5a3bc796967f1e2 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 31 May 2015 21:44:41 -0400
Subject: [PATCH 101/221] Delete obsolete files.

---
 cwltool/sandboxjs.py | 32 --------------------------------
 1 file changed, 32 deletions(-)
 delete mode 100644 cwltool/sandboxjs.py

diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
deleted file mode 100644
index 752ff02db..000000000
--- a/cwltool/sandboxjs.py
+++ /dev/null
@@ -1,32 +0,0 @@
-import subprocess
-import json
-import threading
-
-class JavascriptException(Exception):
-    pass
-
-def execjs(js, jslib):
-    nodejs = subprocess.Popen(["nodejs"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
-
-    fn = "\"use strict\";%s\n(function()%s)()" % (jslib, js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
-    script = "console.log(JSON.stringify(require(\"vm\").runInNewContext(%s, {})))" % json.dumps(fn)
-
-    #print script
-
-    def term():
-        try:
-            nodejs.terminate()
-        except OSError:
-            pass
-
-    # Time out after 5 seconds
-    tm = threading.Timer(5, term)
-    tm.start()
-
-    stdoutdata, stderrdata = nodejs.communicate(script)
-    tm.cancel()
-
-    if stderrdata.strip() or nodejs.returncode != 0:
-        raise JavascriptException(script + "\n" + stderrdata)
-    else:
-        return json.loads(stdoutdata)

From 7f92b18fcf26bf46ad7f3d9ac4c6bfac1a62bde7 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 31 May 2015 21:50:14 -0400
Subject: [PATCH 102/221] Restore symlink

---
 cwltool/schemas | 1 +
 1 file changed, 1 insertion(+)
 create mode 120000 cwltool/schemas

diff --git a/cwltool/schemas b/cwltool/schemas
new file mode 120000
index 000000000..30aed58dd
--- /dev/null
+++ b/cwltool/schemas
@@ -0,0 +1 @@
+../../schemas
\ No newline at end of file

From cbbaa2e672e841411eaa95eab75e1e1cf1737b55 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 1 Jun 2015 10:05:04 -0400
Subject: [PATCH 103/221] Add successCodes, temporaryFailCodes,
 permanentFailCodes.  Return processStatus as part of receive_output
 callbacks.  Also fix docker image finding.

---
 cwltool/docker.py     | 11 +++++++++--
 cwltool/draft2tool.py |  8 +++++++-
 cwltool/job.py        | 31 ++++++++++++++++++++++---------
 cwltool/main.py       |  3 ++-
 cwltool/workflow.py   | 29 ++++++++++++++++++++---------
 setup.py              |  1 -
 6 files changed, 60 insertions(+), 23 deletions(-)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index a2690dcff..f52fbe9ef 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -4,6 +4,7 @@
 import requests
 import os
 import process
+import re
 
 _logger = logging.getLogger("cwltool")
 
@@ -15,8 +16,14 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
 
     for ln in subprocess.check_output(["docker", "images", "--no-trunc", "--all"]).splitlines():
         try:
-            ln.index(dockerRequirement["dockerImageId"])
-            found = True
+            m = re.match(r"^([^ ]+)\s+([^ ]+)\s+([^ ]+)", ln)
+            sp = dockerRequirement["dockerImageId"].split(":")
+            if len(sp) == 1:
+                sp.append("latest")
+            # check for repository:tag match or image id match
+            if ((sp[0] == m.group(1) and sp[1] == m.group(2)) or dockerRequirement["dockerImageId"] == m.group(3)):
+                found = True
+                break
         except ValueError:
             pass
 
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index f9451c557..d7fcb0ae8 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -213,7 +213,10 @@ def __init__(self, toolpath_object, docpath, **kwargs):
 
     class ExpressionJob(object):
         def run(self, outdir=None, **kwargs):
-            self.output_callback(expression.do_eval(self.script, self.builder.job, self.requirements, self.builder.docpath))
+            try:
+                self.output_callback(expression.do_eval(self.script, self.builder.job, self.requirements, self.builder.docpath), "success")
+            except Exception:
+                self.output_callback({}, "permanentFail")
 
     def job(self, joborder, input_basedir, output_callback, **kwargs):
         builder = self._init_job(joborder, input_basedir, **kwargs)
@@ -269,6 +272,9 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
         j.joborder = builder.job
         j.stdin = None
         j.stdout = None
+        j.successCodes = self.tool.get("successCodes")
+        j.temporaryFailCodes = self.tool.get("temporaryFailCodes")
+        j.permanentFailCodes = self.tool.get("permanentFailCodes")
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
diff --git a/cwltool/job.py b/cwltool/job.py
index 2c2e8b90d..c97a60c7a 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -53,22 +53,22 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         if dry_run:
             return (outdir, {})
 
+        os.chdir(outdir)
+
+        for t in self.generatefiles:
+            with open(os.path.join(outdir, t), "w") as f:
+                f.write(self.generatefiles[t])
+
         if self.stdin:
             stdin = open(self.stdin, "rb")
         else:
             stdin = subprocess.PIPE
 
-        os.chdir(outdir)
-
         if self.stdout:
             stdout = open(self.stdout, "wb")
         else:
             stdout = sys.stderr
 
-        for t in self.generatefiles:
-            with open(os.path.join(outdir, t), "w") as f:
-                f.write(self.generatefiles[t])
-
         sp = subprocess.Popen(runtime + self.command_line,
                               shell=False,
                               close_fds=True,
@@ -80,12 +80,25 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         if stdin == subprocess.PIPE:
             sp.stdin.close()
 
-        sp.wait()
+        rcode = sp.wait()
 
         if stdin != subprocess.PIPE:
             stdin.close()
 
-        if stdout != sys.stderr:
+        if stdout is not sys.stderr:
             stdout.close()
 
-        self.output_callback(self.collect_outputs(outdir))
+        outputs = self.collect_outputs(outdir)
+
+        if self.successCodes and rcode in self.successCodes:
+            processStatus = "success"
+        elif self.temporaryFailCodes and rcode in self.temporaryFailCodes:
+            processStatus = "temporaryFail"
+        elif self.permanentFailCodes and rcode in self.permanentFailCodes:
+            processStatus = "permanentFail"
+        elif rcode == 0:
+            processStatus = "success"
+        else:
+            processStatus = "permanentFail"
+
+        self.output_callback(outputs, processStatus)
diff --git a/cwltool/main.py b/cwltool/main.py
index 9ffe28fc8..4f793faed 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -142,7 +142,8 @@ def main():
 
     try:
         final_output = []
-        def output_callback(out):
+        def output_callback(out, processStatus):
+            _logger.info("Process completion status is %s", processStatus)
             final_output.append(out)
 
         jobiter = t.job(loader.resolve_ref(args.job_order), input_basedir, output_callback, use_container=(not args.no_container))
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 9b1934c52..3d759cde5 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -35,7 +35,7 @@ class Workflow(Process):
     def __init__(self, toolpath_object, docpath, **kwargs):
         super(Workflow, self).__init__(toolpath_object, "Workflow", docpath, **kwargs)
 
-    def receive_output(self, step, outputparms, jobout):
+    def receive_output(self, step, outputparms, jobout, processStatus):
         _logger.debug("WorkflowStep completed with %s", jobout)
         for i in outputparms:
             if "id" in i:
@@ -43,6 +43,9 @@ def receive_output(self, step, outputparms, jobout):
                     self.state[i["id"]] = WorkflowStateItem(i, jobout[i["id"]])
                 else:
                     raise WorkflowException("Output is missing expected field %s" % d)
+        if processStatus != "success":
+            if self.processStatus != "permanentFail":
+                self.processStatus = processStatus
         step.completed = True
 
     def try_make_job(self, step, basedir, **kwargs):
@@ -142,6 +145,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         random.shuffle(steps)
 
         self.state = {}
+        self.processStatus = "success"
         for i in self.tool["inputs"]:
             (_, iid) = urlparse.urldefrag(i["id"])
             if iid in joborder:
@@ -179,7 +183,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                     raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (i["connect"]["source"], inp["id"]))
                 wo[src] = self.state[i["connect"]["source"]].value
 
-        output_callback(wo)
+        output_callback(wo, self.processStatus)
 
 class External(Process):
     def __init__(self, toolpath_object, docpath):
@@ -222,12 +226,13 @@ def __init__(self, toolpath_object, docpath):
 
         super(External, self).__init__(toolpath_object, "WorkflowStep", docpath)
 
-    def receive_output(self, jobout):
-        self.output  = {}
+    def receive_output(self, jobout, processStatus):
         _logger.debug("WorkflowStep output from run is %s", jobout)
+        self.output = {}
         for i in self.tool["outputs"]:
             (_, d) = urlparse.urldefrag(i["param"] if "param" in i else i["id"])
             self.output[i["id"]] = jobout[d]
+        self.processStatus = processStatus
 
     def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["inputs"]:
@@ -245,17 +250,23 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         while self.output is None:
             yield None
 
-        output_callback(self.output)
+        output_callback(self.output, self.processStatus)
 
 
 class ReceiveScatterOutput(object):
     def __init__(self, dest):
         self.dest = dest
         self.completed = 0
+        self.processStatus = "success"
 
-    def receive_scatter_output(self, index, jobout):
+    def receive_scatter_output(self, index, jobout, processStatus):
         for k,v in jobout.items():
             self.dest[k][index] = v
+
+        if processStatus != "success":
+            if self.processStatus != "permanentFail":
+                self.processStatus = jobout["processStatus"]
+
         self.completed += 1
 
 def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
@@ -283,7 +294,7 @@ def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback
     while rc.completed < l:
         yield None
 
-    output_callback(output)
+    output_callback(output, rc.processStatus)
 
 
 def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
@@ -309,7 +320,7 @@ def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output
     while rc.completed < l:
         yield None
 
-    output_callback(output)
+    output_callback(output, rc.processStatus)
 
 def crossproduct_size(joborder, scatter_keys):
     scatter_key = scatter_keys[0]
@@ -353,4 +364,4 @@ def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_c
         while rc.completed < put:
             yield None
 
-        output_callback(output)
+        output_callback(output, rc.processStatus)
diff --git a/setup.py b/setup.py
index dd3313b92..c2d34e6dd 100644
--- a/setup.py
+++ b/setup.py
@@ -38,7 +38,6 @@
       packages=["cwltool", "cwltool.avro_ld"],
       package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
       install_requires=[
-          'jsonschema >= 2.4.0',
           'requests',
           'PyYAML',
           'avro',

From 0590ccd2adcfb77e27e4222fc4a1bb922870c858 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 1 Jun 2015 13:27:39 -0400
Subject: [PATCH 104/221] Fix unit test

---
 cwltool/avro_ld/ref_resolver.py | 2 +-
 tests/test_examples.py          | 8 ++------
 2 files changed, 3 insertions(+), 7 deletions(-)

diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
index 25f1e104d..9302d70a3 100644
--- a/cwltool/avro_ld/ref_resolver.py
+++ b/cwltool/avro_ld/ref_resolver.py
@@ -6,7 +6,7 @@
 import requests
 import urlparse
 import yaml
-import avro_ld.validate
+import validate
 
 log = logging.getLogger("cwltool")
 
diff --git a/tests/test_examples.py b/tests/test_examples.py
index cde4228f9..16f5d5f11 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -1,15 +1,11 @@
 import unittest
 import cwltool.draft2tool as tool
-from cwltool.ref_resolver import from_url
+
+# Right now, everything in cwltool is tested through conformance tests.
 
 class TestExamples(unittest.TestCase):
     def test_cat1(self):
         pass
-        #t = tool.Tool(from_url("../examples/draft-2/cat4-tool.json"))
-        #job = t.job(from_url("../examples/draft-2/cat-job.json"), basedir="../examples/draft-2")
-        #result = job.run()
-        #print result
-
 
 if __name__ == '__main__':
     unittest.main()

From fe41643fc6d312af3d0c4fd7e4d99810ad7c7e86 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 1 Jun 2015 13:29:15 -0400
Subject: [PATCH 105/221] Remove references to jsonschema

---
 cwltool/main.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 4f793faed..a85cbc88e 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -3,7 +3,6 @@
 import draft2tool
 import argparse
 from avro_ld.ref_resolver import loader
-import jsonschema
 import json
 import os
 import sys
@@ -120,7 +119,7 @@ def main():
 
     try:
         t = workflow.makeTool(processobj, input_basedir, strict=args.strict)
-    except (jsonschema.exceptions.ValidationError, avro_ld.validate.ValidationException) as e:
+    except (avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
             _logger.exception()
@@ -175,7 +174,7 @@ def output_callback(out, processStatus):
 
             _logger.info("Output directory is %s", outdir)
             print json.dumps(final_output[0])
-    except (jsonschema.exceptions.ValidationError, validate.ValidationException) as e:
+    except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s" % e)
         if args.debug:
             _logger.exception()

From 5be2b4a04886c7b0e25cf11178a9e36ddf80e2eb Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 1 Jun 2015 16:01:03 -0400
Subject: [PATCH 106/221] Fix makedoc bug and reorganize spec using docParent
 and docAfter.

---
 cwltool/avro_ld/makedoc.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 9de72d048..81fb0abcf 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -126,7 +126,7 @@ def __init__(self, toc, j):
         for t in j:
             if "extends" in t:
                 add_dictlist(self.subs, t["extends"], t["name"])
-                if "docParent" not in t:
+                if "docParent" not in t and "docAfter" not in t:
                     add_dictlist(self.docParent, t["extends"], t["name"])
 
             if t.get("docParent"):
@@ -276,6 +276,10 @@ def avrold_doc(j, outdoc):
       overflow-y: auto;
     }
 
+    #toc {
+      margin-bottom: 2em;
+    }
+
     @media (min-width: 992px) {
       .full-height {
         height: 100%;

From 6a8065312c4d4153d275ec9db8ceb9cf5f7d44b0 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 2 Jun 2015 13:09:34 -0400
Subject: [PATCH 107/221] Support "Any" datatype (validates any non-null
 value).

---
 cwltool/avro_ld/ref_resolver.py | 14 +++++++-------
 cwltool/avro_ld/validate.py     |  6 ++++++
 cwltool/draft2tool.py           |  5 +++--
 cwltool/expression.py           |  6 +++++-
 cwltool/main.py                 | 18 +++++++++++++++---
 cwltool/process.py              | 22 +++++++---------------
 6 files changed, 43 insertions(+), 28 deletions(-)

diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
index 9302d70a3..31400b586 100644
--- a/cwltool/avro_ld/ref_resolver.py
+++ b/cwltool/avro_ld/ref_resolver.py
@@ -93,7 +93,7 @@ def resolve_ref(self, ref, base_url=None):
         if url in self.idx:
             return self.idx[url]
         else:
-            raise RuntimeError("Reference `%s` is not valid" % url)
+            raise RuntimeError("Reference `%s` is not in the index.  Index contains:\n  %s" % (url, "\n  ".join(self.idx)))
 
     def resolve_all(self, document, base_url):
         if isinstance(document, list):
@@ -147,7 +147,7 @@ def fetch(self, url):
         if isinstance(result, dict):
             if "id" not in result:
                 result["id"] = url
-            self.idx[result["id"]] = result
+            self.idx[expand_url(result["id"], url)] = result
         else:
             self.idx[url] = result
         return result
@@ -160,11 +160,11 @@ def validate_links(self, document):
                 if d in document:
                     if isinstance(document[d], basestring):
                         if document[d] not in self.idx:
-                            raise ValueError("Invalid link `%s` in field `%s`" % (document[d], d))
+                            raise validate.ValidationException("Invalid link `%s` in field `%s`" % (document[d], d))
                     elif isinstance(document[d], list):
                         for i in document[d]:
                             if isinstance(i, basestring) and i not in self.idx:
-                                raise ValueError("Invalid link `%s` in field `%s`" % (i, d))
+                                raise validate.ValidationException("Invalid link `%s` in field `%s`" % (i, d))
             iterator = document.iteritems()
         else:
             return
@@ -172,11 +172,11 @@ def validate_links(self, document):
         try:
             for key, val in iterator:
                 self.validate_links(val)
-        except ValueError as v:
+        except validate.ValidationException as v:
             if isinstance(key, basestring):
-                raise ValueError("At field `%s`\n%s" % (key, avro_ld.validate.indent(str(v))))
+                raise validate.ValidationException("At field `%s`\n%s" % (key, validate.indent(str(v))))
             else:
-                raise ValueError("At position %s\n%s" % (key, avro_ld.validate.indent(str(v))))
+                raise validate.ValidationException("At position %s\n%s" % (key, validate.indent(str(v))))
 
         return
 
diff --git a/cwltool/avro_ld/validate.py b/cwltool/avro_ld/validate.py
index 54a1c7180..17cb15cbe 100644
--- a/cwltool/avro_ld/validate.py
+++ b/cwltool/avro_ld/validate.py
@@ -41,6 +41,7 @@ def multi(v, q=""):
 
 def validate_ex(expected_schema, datum, strict=False):
     """Determine if a python datum is an instance of a schema."""
+
     schema_type = expected_schema.type
 
     if schema_type == 'null':
@@ -87,6 +88,11 @@ def validate_ex(expected_schema, datum, strict=False):
         else:
             raise ValidationException("the value `%s` is not fixed" % pprint.pformat(datum))
     elif schema_type == 'enum':
+        if expected_schema.name == "Any":
+            if datum is not None:
+                return True
+            else:
+                raise ValidationException("Any type must be non-null")
         if datum in expected_schema.symbols:
             return True
         else:
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index d7fcb0ae8..ed552a590 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -65,9 +65,9 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
         if isinstance(schema["type"], list):
             success = False
             for t in schema["type"]:
-                if t in self.schemaDefs:
+                if isinstance(t, basestring) and t in self.schemaDefs:
                     t = self.schemaDefs[t]
-                avsc = avro.schema.make_avsc_object(t, None)
+                avsc = avro.schema.make_avsc_object(t, self.names)
                 if validate.validate(avsc, datum):
                     if isinstance(t, basestring):
                         t = {"type": t}
@@ -201,6 +201,7 @@ def _init_job(self, joborder, input_basedir, **kwargs):
         builder.bindings = []
         builder.schemaDefs = self.schemaDefs
         builder.docpath = self.docpath
+        builder.names = self.names
 
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
 
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 6ac2abeae..75d7d8fc3 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -14,7 +14,11 @@
 
 def exeval(ex, jobinput, requirements, docpath, context, pull_image):
     if ex["engine"] == "cwl:JsonPointer":
-        return avro_ld.ref_resolver.resolve_json_pointer({"job": jobinput, "context": context}, ex["script"])
+        try:
+            obj = {"job": jobinput, "context": context}
+            return avro_ld.ref_resolver.resolve_json_pointer(obj, ex["script"])
+        except ValueError as v:
+            raise WorkflowException("%s in %s" % (v,  obj))
 
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
diff --git a/cwltool/main.py b/cwltool/main.py
index a85cbc88e..3b9d53b34 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -98,7 +98,13 @@ def main():
         return 1
 
     idx = {}
-    processobj = loader.resolve_ref(args.workflow)
+    try:
+        processobj = loader.resolve_ref(args.workflow)
+    except (avro_ld.validate.ValidationException) as e:
+        _logger.error("Tool definition failed validation:\n%s" % e)
+        if args.debug:
+            _logger.exception()
+        return 1
 
     #_logger.warn(url_fields)
     #_logger.warn(json.dumps(loader.idx, indent=4))
@@ -107,7 +113,13 @@ def main():
         print json.dumps(processobj, indent=4)
         return 0
 
-    loader.validate_links(processobj)
+    try:
+        loader.validate_links(processobj)
+    except (avro_ld.validate.ValidationException) as e:
+        _logger.error("Tool definition failed validation:\n%s" % e)
+        if args.debug:
+            _logger.exception()
+        return 1
 
     if args.job_order:
         input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
@@ -136,7 +148,7 @@ def main():
 
     if not args.job_order:
         _logger.error("Input object required")
-        parser.print_help()
+        _logger.error("Use --help for command line options")
         return 1
 
     try:
diff --git a/cwltool/process.py b/cwltool/process.py
index fe1136b9c..e019d3328 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -57,21 +57,13 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
         for t in self.tool.get("hints", []):
             t["_docpath"] = docpath
 
-        # Import schema defs
-        self.schemaDefs = {
-            "Any": [
-                "null",
-                "boolean",
-                "int",
-                "long",
-                "float",
-                "double",
-                "bytes",
-                "string",
-                "File",
-                {"type": "array", "items": "Any"},
-                {"type": "map", "values": "Any"}
-            ]}
+        avro.schema.make_avsc_object({
+            "name": "Any",
+            "type": "enum",
+            "symbols": ["Any"]
+        }, self.names)
+
+        self.schemaDefs = {}
 
         sd, _ = get_feature("SchemaDefRequirement", requirements=self.tool.get("requirements"), hints=self.tool.get("hints"))
         if sd:

From ab31445cb910468880bf016e13a30080d26fb445 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 2 Jun 2015 17:21:40 -0400
Subject: [PATCH 108/221] Fix interaction of union types with schemaDefs.

---
 cwltool/draft2tool.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index ed552a590..539702db1 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -65,9 +65,10 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
         if isinstance(schema["type"], list):
             success = False
             for t in schema["type"]:
-                if isinstance(t, basestring) and t in self.schemaDefs:
-                    t = self.schemaDefs[t]
-                avsc = avro.schema.make_avsc_object(t, self.names)
+                if isinstance(t, basestring) and self.names.has_name(t, ""):
+                    avsc = self.names.get_name(t, "")
+                else:
+                    avsc = avro.schema.make_avsc_object(t, self.names)
                 if validate.validate(avsc, datum):
                     if isinstance(t, basestring):
                         t = {"type": t}

From 5d137975641bc92bb1cd13ba6badade596308c71 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 4 Jun 2015 13:57:10 -0400
Subject: [PATCH 109/221] Add workflow to generate web site.  Fix pathmapper
 bug.

---
 cwltool/docker.py     |  5 ++---
 cwltool/draft2tool.py | 31 ++++++++++++++++---------------
 cwltool/job.py        | 10 +++++++---
 cwltool/main.py       | 16 +++++++---------
 cwltool/pathmapper.py |  9 ++++++---
 cwltool/process.py    |  4 ++--
 cwltool/workflow.py   |  6 ++++++
 7 files changed, 46 insertions(+), 35 deletions(-)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index f52fbe9ef..e39dc7ab2 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -5,6 +5,7 @@
 import os
 import process
 import re
+import tempfile
 
 _logger = logging.getLogger("cwltool")
 
@@ -69,9 +70,7 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
     return found
 
 
-def get_from_requirements(requirements, hints, pull_image, dry_run=False):
-    (r, req) = process.get_feature("DockerRequirement", requirements=requirements, hints=hints)
-
+def get_from_requirements(r, req, pull_image, dry_run=False):
     if r:
         if get_image(r, pull_image, dry_run):
             return r["dockerImageId"]
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 539702db1..102cf4273 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -63,20 +63,16 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
 
         # Handle union types
         if isinstance(schema["type"], list):
-            success = False
             for t in schema["type"]:
                 if isinstance(t, basestring) and self.names.has_name(t, ""):
                     avsc = self.names.get_name(t, "")
                 else:
                     avsc = avro.schema.make_avsc_object(t, self.names)
                 if validate.validate(avsc, datum):
-                    if isinstance(t, basestring):
-                        t = {"type": t}
-                    bindings.extend(self.bind_input(t, datum, lead_pos=lead_pos, tail_pos=tail_pos))
-                    success = True
-                    break
-            if not success:
-                raise ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
+                    schema = copy.deepcopy(schema)
+                    schema["type"] = t
+                    return self.bind_input(schema, datum, lead_pos=lead_pos, tail_pos=tail_pos)
+            raise ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
         elif isinstance(schema["type"], dict):
             st = copy.deepcopy(schema["type"])
             if binding and "inputBinding" not in st and "itemSeparator" not in binding and st["type"] in ("array", "map"):
@@ -181,9 +177,17 @@ def generate_arg(self, binding):
 
 class Tool(Process):
     def _init_job(self, joborder, input_basedir, **kwargs):
+        builder = Builder()
+        builder.job = copy.deepcopy(joborder)
+
+        for i in self.tool["inputs"]:
+            (_, d) = urlparse.urldefrag(i["id"])
+            if d not in builder.job and "default" in i:
+                builder.job[d] = i["default"]
+
         # Validate job order
         try:
-            validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+            validate.validate_ex(self.names.get_name("input_record_schema", ""), builder.job)
         except validate.ValidationException as e:
             raise WorkflowException("Error validating input record, " + str(e))
 
@@ -194,9 +198,6 @@ def _init_job(self, joborder, input_basedir, **kwargs):
         self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
 
-        builder = Builder()
-        builder.job = copy.deepcopy(joborder)
-        builder.jslib = ''
         builder.input_basedir = input_basedir
         builder.files = []
         builder.bindings = []
@@ -265,9 +266,6 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
 
         builder.bindings.sort(key=lambda a: a["position"])
 
-        _logger.debug(pprint.pformat(builder.bindings))
-        _logger.debug(pprint.pformat(builder.files))
-
         reffiles = [f["path"] for f in builder.files]
 
         j = CommandLineJob()
@@ -303,6 +301,9 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
         for f in builder.files:
             f["path"] = builder.pathmapper.mapper(f["path"])[1]
 
+        _logger.debug("Bindings is %s", pprint.pformat(builder.bindings))
+        _logger.debug("Files is %s", pprint.pformat({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}))
+
         builder.requirements = j.requirements
 
         j.generatefiles = {}
diff --git a/cwltool/job.py b/cwltool/job.py
index c97a60c7a..2ef5958c0 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -8,7 +8,7 @@
 import sys
 import requests
 import docker
-from process import WorkflowException
+from process import WorkflowException, get_feature
 
 _logger = logging.getLogger("cwltool")
 
@@ -21,13 +21,14 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         runtime = []
         env = {}
 
-        img_id = docker.get_from_requirements(self.requirements, self.hints, pull_image)
+        (docker_req, docker_is_req) = get_feature("DockerRequirement", requirements=self.requirements, hints=self.hints)
 
         for f in self.pathmapper.files():
             if not os.path.exists(self.pathmapper.mapper(f)[0]):
                 raise WorkflowException("Required input file %s not found" % self.pathmapper.mapper(f)[0])
 
-        if img_id:
+        if docker_req:
+            img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
@@ -65,6 +66,9 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
             stdin = subprocess.PIPE
 
         if self.stdout:
+            dn = os.path.dirname(self.stdout)
+            if dn and not os.path.exists(dn):
+                os.makedirs(dn)
             stdout = open(self.stdout, "wb")
         else:
             stdout = sys.stderr
diff --git a/cwltool/main.py b/cwltool/main.py
index 3b9d53b34..713315ad5 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -14,12 +14,11 @@
 import avro_ld.makedoc
 import yaml
 import urlparse
+import process
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
 
-module_dir = os.path.dirname(os.path.abspath(__file__))
-
 def printrdf(workflow, wf, ctx, sr):
     from rdflib import Graph, plugin
     from rdflib.serializer import Serializer
@@ -59,10 +58,7 @@ def main():
     if args.debug:
         logging.getLogger("cwltool").setLevel(logging.DEBUG)
 
-    cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
-
-    with open(cwl_avsc) as f:
-        j = yaml.load(f)
+    (j, names) = process.get_schema()
     (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
 
     url_fields = []
@@ -86,7 +82,6 @@ def main():
         return 0
 
     if args.print_avro:
-        names = avro_ld.schema.schema(j)
         print "["
         print ", ".join([json.dumps(names.names[n].to_json(), indent=4, sort_keys=True) for n in names.names])
         print "]"
@@ -154,7 +149,10 @@ def main():
     try:
         final_output = []
         def output_callback(out, processStatus):
-            _logger.info("Process completion status is %s", processStatus)
+            if processStatus == "success":
+                _logger.info("Overall job status is %s", processStatus)
+            else:
+                _logger.warn("Overall job status is %s", processStatus)
             final_output.append(out)
 
         jobiter = t.job(loader.resolve_ref(args.job_order), input_basedir, output_callback, use_container=(not args.no_container))
@@ -185,7 +183,7 @@ def output_callback(out, processStatus):
                 last = r
 
             _logger.info("Output directory is %s", outdir)
-            print json.dumps(final_output[0])
+            print json.dumps(final_output[0], indent=4)
     except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s" % e)
         if args.debug:
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index be338515b..918ae3304 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -1,5 +1,8 @@
 import os
 import random
+import logging
+
+_logger = logging.getLogger("cwltool")
 
 class PathMapper(object):
     """Mapping of files from relative path provided in the file to a tuple of
@@ -22,8 +25,8 @@ def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         self.dirs = {}
         for src in referenced_files:
-            abs = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
-            dir, fn = os.path.split(abs)
+            ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
+            dir, fn = os.path.split(ab)
 
             subdir = False
             for d in self.dirs:
@@ -54,4 +57,4 @@ def __init__(self, referenced_files, basedir):
             ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
             for d in self.dirs:
                 if ab.startswith(d):
-                    self._pathmap[src] = (ab, os.path.join(self.dirs[d], abs[len(d)+1:]))
+                    self._pathmap[src] = (ab, os.path.join(self.dirs[d], ab[len(d)+1:]))
diff --git a/cwltool/process.py b/cwltool/process.py
index e019d3328..894255bfe 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -22,7 +22,7 @@ def get_schema():
     cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
     with open(cwl_avsc) as f:
         j = yaml.load(f)
-        return avro_ld.schema.schema(j)
+        return (j, avro_ld.schema.schema(j))
 
 def get_feature(feature, **kwargs):
     if kwargs.get("requirements"):
@@ -37,7 +37,7 @@ def get_feature(feature, **kwargs):
 
 class Process(object):
     def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
-        self.names = get_schema()
+        (_, self.names) = get_schema()
         self.docpath = docpath
 
         self.tool = toolpath_object
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 3d759cde5..e6c90d46d 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -46,6 +46,12 @@ def receive_output(self, step, outputparms, jobout, processStatus):
         if processStatus != "success":
             if self.processStatus != "permanentFail":
                 self.processStatus = processStatus
+
+            if processStatus == "success":
+                _logger.info("Workflow step %s completion status is %s", step.id, processStatus)
+            else:
+                _logger.warn("Workflow step %s completion status is %s", step.id, processStatus)
+
         step.completed = True
 
     def try_make_job(self, step, basedir, **kwargs):

From 4f0b451d7792e51582d8e6c24a659215feaa2ae1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 5 Jun 2015 09:42:12 -0400
Subject: [PATCH 110/221] Web site generation works using
 specification/cwlsite.cwl Fixed reference resolving bug in import. Fixed bugs
 with union types.

---
 build-cwl-docker.sh                           |  3 +-
 build-node-docker.sh                          |  3 ++
 cwl-docker.sh                                 |  2 +-
 cwltool.Dockerfile                            |  5 ++
 cwltool/avro_ld/makedoc.py                    | 10 +++-
 cwltool/avro_ld/ref_resolver.py               | 14 ++++--
 cwltool/draft2tool.py                         |  8 ++--
 cwltool/expression.py                         |  7 ++-
 cwltool/main.py                               |  2 +-
 cwltool/workflow.py                           | 48 ++++++++++++-------
 Dockerfile => cwltool_module.Dockerfile       |  9 +---
 docker-node-engine.sh                         |  4 --
 .../Dockerfile => node-expr-engine.Dockerfile |  2 +-
 .../cwlNodeEngine.js                          |  0
 14 files changed, 73 insertions(+), 44 deletions(-)
 create mode 100755 build-node-docker.sh
 create mode 100644 cwltool.Dockerfile
 rename Dockerfile => cwltool_module.Dockerfile (81%)
 delete mode 100755 docker-node-engine.sh
 rename docker-node-engine/Dockerfile => node-expr-engine.Dockerfile (53%)
 rename {docker-node-engine => node-expr-engine}/cwlNodeEngine.js (100%)

diff --git a/build-cwl-docker.sh b/build-cwl-docker.sh
index 40a0e0315..162a87567 100755
--- a/build-cwl-docker.sh
+++ b/build-cwl-docker.sh
@@ -6,7 +6,8 @@ if test -L cwltool/schemas ; then
   cp -r ../schemas cwltool/schemas
   restore=1
 fi
-docker build --tag=commonworkflowlanguage/cwltool .
+docker build --file=cwltool_module.Dockerfile --tag=commonworkflowlanguage/cwltool_module .
+docker build --file=cwltool.Dockerfile --tag=commonworkflowlanguage/cwltool .
 if test $restore = 1 ; then
   rm -r cwltool/schemas
   ln -s ../../schemas cwltool/schemas
diff --git a/build-node-docker.sh b/build-node-docker.sh
new file mode 100755
index 000000000..4e83d1591
--- /dev/null
+++ b/build-node-docker.sh
@@ -0,0 +1,3 @@
+#!/bin/sh
+
+docker build --file=node-expr-engine.Dockerfile --tag=commonworkflowlanguage/nodejs-engine .
diff --git a/cwl-docker.sh b/cwl-docker.sh
index 190d1db8b..bf588e315 100755
--- a/cwl-docker.sh
+++ b/cwl-docker.sh
@@ -1,2 +1,2 @@
 #!/bin/sh
-docker run --privileged -ti --volume=$PWD:/tmp/workdir -w=/tmp/workdir cwltool $*
+docker run --privileged -ti --volume=$PWD:/tmp/workdir -w=/tmp/workdir commonworkflowlanguage/cwltool $*
diff --git a/cwltool.Dockerfile b/cwltool.Dockerfile
new file mode 100644
index 000000000..3c0f29683
--- /dev/null
+++ b/cwltool.Dockerfile
@@ -0,0 +1,5 @@
+FROM commonworkflowlanguage/cwltool_module
+MAINTAINER peter.amstutz@curoverse.com
+
+VOLUME /var/lib/docker
+ENTRYPOINT ["wrapdocker", "cwltool"]
diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 81fb0abcf..b5d5d5c9b 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -277,6 +277,7 @@ def avrold_doc(j, outdoc):
     }
 
     #toc {
+      margin-top: 1em;
       margin-bottom: 2em;
     }
 
@@ -319,6 +320,11 @@ def avrold_doc(j, outdoc):
 
 if __name__ == "__main__":
     with open(sys.argv[1]) as f:
-        with open("index.html", "w") as i:
+        if sys.argv[1].endswith("yml") or sys.argv[1].endswith("yaml"):
             j = yaml.load(f)
-            avrold_doc(j, i)
+        else:
+            j = [{"name": sys.argv[2],
+                  "type": "doc",
+                  "doc": f.read().decode("utf-8")
+              }]
+        avrold_doc(j, sys.stdout)
diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
index 31400b586..195826710 100644
--- a/cwltool/avro_ld/ref_resolver.py
+++ b/cwltool/avro_ld/ref_resolver.py
@@ -83,14 +83,16 @@ def resolve_ref(self, ref, base_url=None):
             self.idx[url] = obj
         else:
             # Load structured document
-            doc_url, _ = urlparse.urldefrag(url)
+            doc_url, frg = urlparse.urldefrag(url)
+            if doc_url in self.idx:
+                raise validate.ValidationException("Reference `#%s` not found in file `%s`." % (frg, doc_url))
             obj = self.fetch(doc_url)
 
         # Recursively expand urls and resolve directives
         self.resolve_all(obj, url)
 
         # Requested reference should be in the index now, otherwise it's a bad reference
-        if url in self.idx:
+        if self.idx.get(url) is not None:
             return self.idx[url]
         else:
             raise RuntimeError("Reference `%s` is not in the index.  Index contains:\n  %s" % (url, "\n  ".join(self.idx)))
@@ -116,7 +118,13 @@ def resolve_all(self, document, base_url):
             return document
 
         for key, val in iterator:
-            document[key] = self.resolve_all(val, base_url)
+            try:
+                document[key] = self.resolve_all(val, base_url)
+            except validate.ValidationException as v:
+                if isinstance(key, basestring):
+                    raise validate.ValidationException("Validation error in field %s:\n%s" % (key, validate.indent(str(v))))
+                else:
+                    raise validate.ValidationException("Validation error in position %i:\n%s" % (key, validate.indent(str(v))))
 
         return document
 
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 102cf4273..dc2f8d903 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -275,6 +275,9 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
         j.successCodes = self.tool.get("successCodes")
         j.temporaryFailCodes = self.tool.get("temporaryFailCodes")
         j.permanentFailCodes = self.tool.get("permanentFailCodes")
+        j.requirements = self.requirements
+        j.hints = self.hints
+
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
@@ -284,13 +287,10 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
             reffiles.append(j.stdin)
 
         if self.tool.get("stdout"):
-            j.stdout = self.tool["stdout"]
+            j.stdout = expression.do_eval(self.tool["stdout"], builder.job, j.requirements, self.docpath)
             if os.path.isabs(j.stdout):
                 raise validate.ValidationException("stdout must be a relative path")
 
-        j.requirements = self.requirements
-        j.hints = self.hints
-
         dockerReq, _ = get_feature("DockerRequirement", requirements=self.requirements, hints=self.hints)
         if dockerReq and use_container:
                 builder.pathmapper = DockerPathMapper(reffiles, input_basedir)
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 75d7d8fc3..39ca4faf3 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -4,7 +4,7 @@
 from aslist import aslist
 import logging
 import os
-from process import WorkflowException
+from process import WorkflowException, get_feature
 import process
 import yaml
 import avro_ld.validate as validate
@@ -23,7 +23,10 @@ def exeval(ex, jobinput, requirements, docpath, context, pull_image):
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
             runtime = []
-            img_id = docker.get_from_requirements(r.get("requirements"), r.get("hints"), pull_image)
+
+            (docker_req, docker_is_req) = process.get_feature("DockerRequirement", requirements=r.get("requirements"), hints=r.get("hints"))
+            if docker_req:
+                img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             if img_id:
                 runtime = ["docker", "run", "-i", "--rm", img_id]
 
diff --git a/cwltool/main.py b/cwltool/main.py
index 713315ad5..e15a4dbc9 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -98,7 +98,7 @@ def main():
     except (avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
-            _logger.exception()
+            _logger.exception("")
         return 1
 
     #_logger.warn(url_fields)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index e6c90d46d..b130bd77b 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -11,6 +11,7 @@
 import functools
 import avro_ld.validate as validate
 import urlparse
+import pprint
 
 _logger = logging.getLogger("cwltool")
 
@@ -54,6 +55,33 @@ def receive_output(self, step, outputparms, jobout, processStatus):
 
         step.completed = True
 
+    def match_types(self, sinktype, src, iid, inputobj):
+        if isinstance(sinktype, list):
+            # Union type
+            for st in sinktype:
+                if self.match_types(st, src, iid, inputobj):
+                    return True
+        else:
+            is_array = isinstance(sinktype, dict) and sinktype["type"] == "array"
+            if src.parameter["type"] == sinktype:
+                # source and input types are the same
+                if is_array and iid in inputobj:
+                    # there's already a value in the input object, so extend the existing array
+                    inputobj[iid].extend(src.value)
+                else:
+                    # simply assign the value from state to input
+                    inputobj[iid] = copy.deepcopy(src.value)
+                return True
+            elif is_array and src.parameter["type"] == sinktype["items"]:
+                # source type is the item type on the input array
+                # promote single item to array entry
+                if iid in inputobj:
+                    inputobj[iid].append(src.value)
+                else:
+                    inputobj[iid] = [src.value]
+                return True
+        return False
+
     def try_make_job(self, step, basedir, **kwargs):
         inputobj = {}
 
@@ -89,26 +117,10 @@ def try_make_job(self, step, basedir, **kwargs):
             iid = inp["id"]
             if "connect" in inp:
                 connections = inp["connect"]
-                is_array = isinstance(inp["type"], dict) and inp["type"]["type"] == "array"
                 for connection in aslist(connections):
                     src = connection["source"]
                     if src in self.state and self.state[src] is not None:
-                        if self.state[src].parameter["type"] == inp["type"]:
-                            # source and input types are the same
-                            if is_array and iid in inputobj:
-                                # there's already a value in the input object, so extend the existing array
-                                inputobj[iid].extend(self.state[src].value)
-                            else:
-                                # simply assign the value from state to input
-                                inputobj[iid] = copy.deepcopy(self.state[src].value)
-                        elif is_array and self.state[src].parameter["type"] == inp["type"]["items"]:
-                            # source type is the item type on the input array
-                            # promote single item to array entry
-                            if iid in inputobj:
-                                inputobj[iid].append(self.state[src].value)
-                            else:
-                                inputobj[iid] = [self.state[src].value]
-                        else:
+                        if not self.match_types(inp["type"], self.state[src], inp["id"], inputobj):
                             raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"], inp["type"]))
                     elif src not in self.state:
                         raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
@@ -119,7 +131,7 @@ def try_make_job(self, step, basedir, **kwargs):
             else:
                 raise WorkflowException("Value for %s not specified" % (inp["id"]))
 
-        _logger.info("Creating job with input: %s", inputobj)
+        _logger.info("Creating job with input: %s", pprint.pformat(inputobj))
 
         callback = functools.partial(self.receive_output, step, outputparms)
 
diff --git a/Dockerfile b/cwltool_module.Dockerfile
similarity index 81%
rename from Dockerfile
rename to cwltool_module.Dockerfile
index 4b524c57b..046e5b7db 100644
--- a/Dockerfile
+++ b/cwltool_module.Dockerfile
@@ -1,5 +1,5 @@
 FROM ubuntu:14.04
-MAINTAINER jerome.petazzoni@docker.com
+MAINTAINER peter.amstutz@curoverse.com
 
 # Based on https://github.com/jpetazzo/dind
 
@@ -11,7 +11,7 @@ RUN apt-get update -qq && apt-get install -qqy \
     lxc \
     iptables \
     python-setuptools
-    
+
 # Install Docker from Docker Inc. repositories.
 RUN curl -sSL https://get.docker.com/ubuntu/ | sh
 
@@ -24,8 +24,3 @@ ADD setup.py README.rst cwltool/ /root/cwltool/
 ADD cwltool/ /root/cwltool/cwltool
 ADD cwltool/schemas/ /root/cwltool/cwltool/schemas
 RUN cd /root/cwltool && easy_install .
-
-# Define additional metadata for our image.
-VOLUME /var/lib/docker
-ENTRYPOINT ["wrapdocker", "cwltool"]
-
diff --git a/docker-node-engine.sh b/docker-node-engine.sh
deleted file mode 100755
index f0080fa27..000000000
--- a/docker-node-engine.sh
+++ /dev/null
@@ -1,4 +0,0 @@
-#!/bin/sh
-
-cd docker-node-engine
-docker build --tag=commonworkflowlanguage/nodejs-engine .
diff --git a/docker-node-engine/Dockerfile b/node-expr-engine.Dockerfile
similarity index 53%
rename from docker-node-engine/Dockerfile
rename to node-expr-engine.Dockerfile
index 41d162897..3c754bd42 100644
--- a/docker-node-engine/Dockerfile
+++ b/node-expr-engine.Dockerfile
@@ -1,3 +1,3 @@
 FROM debian:8
 RUN apt-get update && apt-get install -qq nodejs
-ADD cwlNodeEngine.js /usr/local/bin/
+ADD node-expr-engine/cwlNodeEngine.js /usr/local/bin/
diff --git a/docker-node-engine/cwlNodeEngine.js b/node-expr-engine/cwlNodeEngine.js
similarity index 100%
rename from docker-node-engine/cwlNodeEngine.js
rename to node-expr-engine/cwlNodeEngine.js

From bbb8b9b20264525024d754caf7a10cfd0a242517 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 5 Jun 2015 15:02:17 -0400
Subject: [PATCH 111/221] Updating specification work in progress.  Adding
 examples.

---
 cwltool/avro_ld/schema.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/cwltool/avro_ld/schema.py b/cwltool/avro_ld/schema.py
index 2ce52a319..62ec2cb66 100644
--- a/cwltool/avro_ld/schema.py
+++ b/cwltool/avro_ld/schema.py
@@ -35,6 +35,11 @@ def extend_avro(items):
             r["name"] = t["name"]
             if "specialize" in t:
                 r["fields"] = specialize(r["fields"], t["specialize"], {})
+
+            for f in r["fields"]:
+                if "inherited_from" not in f:
+                    f["inherited_from"] = t["extends"]
+
             r["fields"].extend(t.get("fields", []))
 
             for y in [x for x in r["fields"] if x["name"] == "class"]:

From 81c0317f67816a7e73af6a32d99a2a6048949ff7 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sat, 6 Jun 2015 17:01:00 -0400
Subject: [PATCH 112/221] Continuing to update spec.  Reorganized reference
 section to top-down organization.

---
 cwltool/avro_ld/makedoc.py | 24 +++++++++++++++---------
 cwltool/avro_ld/schema.py  |  8 ++++++--
 2 files changed, 21 insertions(+), 11 deletions(-)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index b5d5d5c9b..05707298a 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -86,6 +86,8 @@ def typefmt(tp, nbsp=False):
     if isinstance(tp, dict):
         if tp["type"] == "array":
             return "array&lt;%s&gt;" % (typefmt(tp["items"], True))
+        if tp["type"] == "enum":
+            return tp["name"]
     else:
         if str(tp) in ("null", "boolean", "int", "long", "float", "double", "bytes", "string", "record", "enum", "array", "map"):
             return """<a href="#datatype">%s</a>""" % str(tp)
@@ -99,18 +101,21 @@ def add_dictlist(di, key, val):
 
 def number_headings(toc, maindoc):
     mdlines = []
+    skip = False
     for line in maindoc.splitlines():
         if line.strip() == "# Introduction":
             toc.start_numbering = True
             toc.numbering = [0]
 
-        m = re.match(r'^(#+) (.*)', line)
-        if m:
-            num = toc.add_entry(len(m.group(1)), m.group(2))
-            line = "%s %s %s" % (m.group(1), num, m.group(2))
-        #elif len(line) > 0 and line[0] == "#":
-        #    toc += """<li><a href="#%s">%s</a></li>\n""" % (to_id(line[2:]), line[2:])
-        line = re.sub(r'^(https?://\S+)', r'[\1](\1)', line)
+        if line == "```":
+            skip = not skip
+
+        if not skip:
+            m = re.match(r'^(#+) (.*)', line)
+            if m:
+                num = toc.add_entry(len(m.group(1)), m.group(2))
+                line = "%s %s %s" % (m.group(1), num, m.group(2))
+            line = re.sub(r'^(https?://\S+)', r'[\1](\1)', line)
         mdlines.append(line)
 
     maindoc = '\n'.join(mdlines)
@@ -151,7 +156,7 @@ def __init__(self, toc, j):
                             self.uses[tp].append((t["name"], f["name"]))
 
         for f in alltypes:
-            if "extends" not in f and "docParent" not in f and "docAfter" not in f:
+            if ("extends" not in f) and ("docParent" not in f) and ("docAfter" not in f):
                 self.render_type(f, 1)
 
 
@@ -189,6 +194,7 @@ def render_type(self, f, depth):
         if f["name"] in self.subs:
             doc += "\n\nExtended by"
             doc += ", ".join([" [%s](#%s)" % (s, to_id(s)) for s in self.subs[f["name"]]])
+
         if f["name"] in self.uses:
             doc += "\n\nReferenced by"
             doc += ", ".join([" [%s.%s](#%s)" % (s[0], s[1], to_id(s[0])) for s in self.uses[f["name"]]])
@@ -196,7 +202,7 @@ def render_type(self, f, depth):
 
         doc = mistune.markdown(doc, renderer=MyRenderer())
 
-        if f["type"] == "record": # and not f.get("abstract"):
+        if f["type"] == "record":
             doc += "<h3>Fields</h3>"
             doc += """<table class="table table-striped">"""
             doc += "<tr><th>field</th><th>type</th><th>required</th><th>description</th></tr>"
diff --git a/cwltool/avro_ld/schema.py b/cwltool/avro_ld/schema.py
index 62ec2cb66..e97d36907 100644
--- a/cwltool/avro_ld/schema.py
+++ b/cwltool/avro_ld/schema.py
@@ -43,7 +43,11 @@ def extend_avro(items):
             r["fields"].extend(t.get("fields", []))
 
             for y in [x for x in r["fields"] if x["name"] == "class"]:
-                y["type"] = {"type": "enum", "symbols": [r["name"]], "name": r["name"]+"_class"}
+                y["type"] = {"type": "enum",
+                             "symbols": [r["name"]],
+                             "name": r["name"]+"_class",
+                }
+                y["doc"] = "Must be `%s` to indicate this is a %s object." % (r["name"], r["name"])
 
             r["extends"] = t["extends"]
             r["abstract"] = t.get("abstract", False)
@@ -62,7 +66,7 @@ def schema(j):
     names = avro.schema.Names()
     j = extend_avro(j)
     for t in j:
-        if not t.get("abstract"):
+        if not t.get("abstract") and t.get("type") != "doc":
             avro.schema.make_avsc_object(t, names)
 
     return names

From f42ce0331aacb26d6295365889dddae8fd312d6e Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 8 Jun 2015 16:01:57 -0400
Subject: [PATCH 113/221] Cranking through spec updates.

---
 cwltool/avro_ld/makedoc.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 05707298a..2c5510dd3 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -242,6 +242,11 @@ def avrold_doc(j, outdoc):
     <script src="http://code.jquery.com/jquery-migrate-1.2.1.min.js"></script>
     <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.4/css/bootstrap.min.css">
     <script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.4/js/bootstrap.min.js"></script>
+    """)
+
+    outdoc.write("<title>%s</title>" % (j[0]["name"]))
+
+    outdoc.write("""
     <style>
     html {
       height:100%;

From a096673026014c03df44a9d441379223a0421953 Mon Sep 17 00:00:00 2001
From: James Porter <porterjamesj@gmail.com>
Date: Fri, 12 Jun 2015 16:48:05 -0500
Subject: [PATCH 114/221] fix binding / schema typo

---
 cwltool/draft2tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index dc2f8d903..1b31e6d53 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -117,7 +117,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                     if "secondaryFiles" in binding:
                         if "secondaryFiles" not in datum:
                             datum["secondaryFiles"] = []
-                        for sf in aslist(schema["secondaryFiles"]):
+                        for sf in aslist(binding["secondaryFiles"]):
                             if isinstance(sf, dict):
                                 sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, datum["path"])
                             else:

From e3fd14cdd4824a550677f5da93bfd0ecd771dc3a Mon Sep 17 00:00:00 2001
From: James Porter <porterjamesj@gmail.com>
Date: Fri, 12 Jun 2015 16:48:16 -0500
Subject: [PATCH 115/221] fix unqualified name

---
 cwltool/draft2tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 1b31e6d53..3957fda5c 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -72,7 +72,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                     schema = copy.deepcopy(schema)
                     schema["type"] = t
                     return self.bind_input(schema, datum, lead_pos=lead_pos, tail_pos=tail_pos)
-            raise ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
+            raise validate.ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
         elif isinstance(schema["type"], dict):
             st = copy.deepcopy(schema["type"])
             if binding and "inputBinding" not in st and "itemSeparator" not in binding and st["type"] in ("array", "map"):

From ff7250f5d007e42373d667e6401d672fa9f56246 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 21 Jun 2015 17:20:03 -0400
Subject: [PATCH 116/221] Add explicit merge methods for multiple inbound links
 (issue #52). Add comments on conformance tests explaining what each test is
 for. Add new tests for merge methods and missing scatter join method.

---
 cwl-docker.sh       |  3 ++-
 cwltool/job.py      |  7 +++++--
 cwltool/main.py     |  2 +-
 cwltool/workflow.py | 35 ++++++++++++++++++-----------------
 4 files changed, 26 insertions(+), 21 deletions(-)

diff --git a/cwl-docker.sh b/cwl-docker.sh
index bf588e315..773d59d40 100755
--- a/cwl-docker.sh
+++ b/cwl-docker.sh
@@ -1,2 +1,3 @@
 #!/bin/sh
-docker run --privileged -ti --volume=$PWD:/tmp/workdir -w=/tmp/workdir commonworkflowlanguage/cwltool $*
+docker run --name=cwl-docker -v /var/lib/docker -i -t fedora-data true
+docker run --privileged -ti --volume=$PWD:$PWD -w=$PWD commonworkflowlanguage/cwltool $*
diff --git a/cwltool/job.py b/cwltool/job.py
index 2ef5958c0..c3c0aa92b 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -15,8 +15,11 @@
 class CommandLineJob(object):
     def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
 
-        with open(os.path.join(outdir, "cwl.input.json"), "w") as fp:
-            json.dump(self.joborder, fp)
+        if not os.path.exists(outdir):
+            os.makedirs(outdir)
+
+        #with open(os.path.join(outdir, "cwl.input.json"), "w") as fp:
+        #    json.dump(self.joborder, fp)
 
         runtime = []
         env = {}
diff --git a/cwltool/main.py b/cwltool/main.py
index e15a4dbc9..361fbcacf 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -164,7 +164,7 @@ def output_callback(out, processStatus):
             if job.stdout:
                 a["stdout"] = job.stdout
             if job.generatefiles:
-                a["generatefiles"] = job.generatefiles
+                a["createfiles"] = job.generatefiles
             print json.dumps(a)
         else:
             last = None
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index b130bd77b..680a610c6 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -55,30 +55,30 @@ def receive_output(self, step, outputparms, jobout, processStatus):
 
         step.completed = True
 
-    def match_types(self, sinktype, src, iid, inputobj):
+    def match_types(self, sinktype, src, iid, inputobj, linkMerge):
         if isinstance(sinktype, list):
             # Union type
             for st in sinktype:
-                if self.match_types(st, src, iid, inputobj):
+                if self.match_types(st, src, iid, inputobj, linkMerge):
                     return True
         else:
             is_array = isinstance(sinktype, dict) and sinktype["type"] == "array"
-            if src.parameter["type"] == sinktype:
-                # source and input types are the same
-                if is_array and iid in inputobj:
-                    # there's already a value in the input object, so extend the existing array
-                    inputobj[iid].extend(src.value)
-                else:
-                    # simply assign the value from state to input
-                    inputobj[iid] = copy.deepcopy(src.value)
-                return True
-            elif is_array and src.parameter["type"] == sinktype["items"]:
-                # source type is the item type on the input array
-                # promote single item to array entry
-                if iid in inputobj:
+            if is_array and linkMerge:
+                if iid not in inputobj:
+                    inputobj[iid] = []
+                if linkMerge == "merge_nested":
                     inputobj[iid].append(src.value)
+                elif linkMerge == "merge_flattened":
+                    if isinstance(src.value, list):
+                        inputobj[iid].extend(src.value)
+                    else:
+                        inputobj[iid].append(src.value)
                 else:
-                    inputobj[iid] = [src.value]
+                    raise WorkflowException("Unrecognized linkMerge enum '%s'" % linkMerge)
+                return True
+            elif src.parameter["type"] == sinktype:
+                # simply assign the value from state to input
+                inputobj[iid] = copy.deepcopy(src.value)
                 return True
         return False
 
@@ -120,7 +120,8 @@ def try_make_job(self, step, basedir, **kwargs):
                 for connection in aslist(connections):
                     src = connection["source"]
                     if src in self.state and self.state[src] is not None:
-                        if not self.match_types(inp["type"], self.state[src], inp["id"], inputobj):
+                        if not self.match_types(inp["type"], self.state[src], inp["id"], inputobj,
+                                                inp.get("linkMerge", ("merge_nested" if len(connections) > 1 else None))):
                             raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"], inp["type"]))
                     elif src not in self.state:
                         raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))

From 954380d190ef5efe854d8a9495f5ec78eb661465 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 21 Jun 2015 17:37:23 -0400
Subject: [PATCH 117/221] Change ExpressionEngineRequirements "expressionDefs"
 to "engineConfig" issue #51

---
 cwltool/expression.py             | 4 ++--
 node-expr-engine/cwlNodeEngine.js | 6 +++---
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index 39ca4faf3..140f3f68f 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -31,7 +31,7 @@ def exeval(ex, jobinput, requirements, docpath, context, pull_image):
                 runtime = ["docker", "run", "-i", "--rm", img_id]
 
             exdefs = []
-            for exdef in r.get("expressionDefs", []):
+            for exdef in r.get("engineConfig", []):
                 if isinstance(exdef, dict) and "ref" in exdef:
                     with open(exdef["ref"][7:]) as f:
                         exdefs.append(f.read())
@@ -40,7 +40,7 @@ def exeval(ex, jobinput, requirements, docpath, context, pull_image):
 
             inp = {
                 "script": ex["script"],
-                "expressionDefs": exdefs,
+                "engineConfig": exdefs,
                 "job": jobinput,
                 "context": context
             }
diff --git a/node-expr-engine/cwlNodeEngine.js b/node-expr-engine/cwlNodeEngine.js
index a98503f1a..739960a47 100755
--- a/node-expr-engine/cwlNodeEngine.js
+++ b/node-expr-engine/cwlNodeEngine.js
@@ -26,9 +26,9 @@ process.stdin.on('end', function() {
 
     var fn = '"use strict";\n';
 
-    if (j.expressionDefs) {
-        for (var index = 0; index < j.expressionDefs.length; ++index) {
-            fn += j.expressionDefs[index] + "\n";
+    if (j.engineConfig) {
+        for (var index = 0; index < j.engineConfig.length; ++index) {
+            fn += j.engineConfig[index] + "\n";
         }
     }
 

From 32b03ae19a2c6d3e85bcd9dcb0e066db90897894 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 22 Jun 2015 09:42:07 -0400
Subject: [PATCH 118/221] Fix schema support for "Any" type.

---
 cwltool/avro_ld/ref_resolver.py | 2 +-
 cwltool/expression.py           | 2 +-
 cwltool/process.py              | 6 ------
 3 files changed, 2 insertions(+), 8 deletions(-)

diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
index 195826710..b7dc98c18 100644
--- a/cwltool/avro_ld/ref_resolver.py
+++ b/cwltool/avro_ld/ref_resolver.py
@@ -142,7 +142,7 @@ def fetch_text(self, url):
         elif scheme == 'file':
             try:
                 with open(path) as fp:
-                    return fp.read()
+                    return fp.read().decode("utf-8")
             except (OSError, IOError) as e:
                 raise RuntimeError('Failed for %s: %s' % (url, e))
         else:
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 140f3f68f..875e5fb92 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -45,7 +45,7 @@ def exeval(ex, jobinput, requirements, docpath, context, pull_image):
                 "context": context
             }
 
-            _logger.debug(json.dumps(inp))
+            _logger.debug(json.dumps(inp, indent=4))
 
             sp = subprocess.Popen(runtime + aslist(r["engineCommand"]),
                              shell=False,
diff --git a/cwltool/process.py b/cwltool/process.py
index 894255bfe..595f0a86d 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -57,12 +57,6 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
         for t in self.tool.get("hints", []):
             t["_docpath"] = docpath
 
-        avro.schema.make_avsc_object({
-            "name": "Any",
-            "type": "enum",
-            "symbols": ["Any"]
-        }, self.names)
-
         self.schemaDefs = {}
 
         sd, _ = get_feature("SchemaDefRequirement", requirements=self.tool.get("requirements"), hints=self.tool.get("hints"))

From d74bfdd675febbd3ba5a8e9aadacdf84607ee4bc Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 22 Jun 2015 10:44:06 -0400
Subject: [PATCH 119/221] Move scatter and scatterMethod to WorkflowStep and
 rename Scatter requirement to ScatterFeatureRequirement.  issue #59

---
 cwltool/workflow.py | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 680a610c6..3b5391389 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -87,11 +87,14 @@ def try_make_job(self, step, basedir, **kwargs):
 
         _logger.debug("Try to make job %s", step.id)
 
-        (scatterSpec, _) = get_feature("Scatter", requirements=step.tool.get("requirements"), hints=step.tool.get("hints"))
-        if scatterSpec:
+        requirements = kwargs.get("requirements", []) + step.tool.get("requirements", [])
+        hints = kwargs.get("hints", []) + step.tool.get("hints", [])
+
+        (scatterSpec, _) = get_feature("ScatterFeatureRequirement", requirements=requirements, hints=hints)
+        if scatterSpec and "scatter" in step.tool:
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])
-            scatter = aslist(scatterSpec["scatter"])
+            scatter = aslist(step.tool["scatter"])
 
             inp_map = {i["id"]: i for i in inputparms}
             for s in scatter:
@@ -100,7 +103,7 @@ def try_make_job(self, step, basedir, **kwargs):
 
                 inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
 
-            if scatterSpec.get("scatterMethod") == "nested_crossproduct":
+            if step.tool.get("scatterMethod") == "nested_crossproduct":
                 nesting = len(scatter)
             else:
                 nesting = 1
@@ -136,8 +139,8 @@ def try_make_job(self, step, basedir, **kwargs):
 
         callback = functools.partial(self.receive_output, step, outputparms)
 
-        if scatterSpec:
-            method = scatterSpec.get("scatterMethod")
+        if scatterSpec and "scatter" in step.tool:
+            method = step.tool.get("scatterMethod")
             if method is None and len(scatter) != 1:
                 raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
 

From 6499096cf9b13d89e3f082395323a488dda46899 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 22 Jun 2015 14:39:05 -0400
Subject: [PATCH 120/221] Support subworkflows directly in workflow steps,
 enabled with SubworkflowFeatureRequirement.  WorkflowStep is no longer itself
 a process. Validation now handles base classes through schema rewriting into
 a union set of concrete subclasses.  It is now possible to validate
 requirements with strict validation (error on unrecognized fields).  Fixed
 requirements inheritance through workflow steps.  issue #58 and issue #54

---
 cwltool/avro_ld/schema.py | 55 ++++++++++++++++++++++++----------
 cwltool/draft2tool.py     | 12 ++------
 cwltool/expression.py     | 10 +++++--
 cwltool/job.py            |  2 +-
 cwltool/process.py        | 63 +++++++++++++++++++++------------------
 cwltool/workflow.py       | 35 +++++++++++++++-------
 6 files changed, 110 insertions(+), 67 deletions(-)

diff --git a/cwltool/avro_ld/schema.py b/cwltool/avro_ld/schema.py
index e97d36907..9853f8390 100644
--- a/cwltool/avro_ld/schema.py
+++ b/cwltool/avro_ld/schema.py
@@ -1,40 +1,55 @@
 import avro
 import copy
 from  makedoc import add_dictlist
+import sys
+import pprint
 
-def specialize(items, spec, extended_by):
+def replace_type(items, spec):
     if isinstance(items, dict):
         for n in ("type", "items", "values"):
             if n in items:
-                items[n] = specialize(items[n], spec, extended_by)
+                items[n] = replace_type(items[n], spec)
         return items
     if isinstance(items, list):
         n = []
         for i in items:
-            n.append(specialize(i, spec, extended_by))
+            n.append(replace_type(i, spec))
         return n
     if isinstance(items, basestring):
         if items in spec:
             return spec[items]
-        if items in extended_by:
-            return extended_by[items]
+    return items
+
+def first_def(items, found):
+    if isinstance(items, dict):
+        if "type" in items and items["type"] in ("record", "enum"):
+            if items.get("abstract"):
+                return items
+            if items["name"] in found:
+                return items["name"]
+            else:
+                found.add(items["name"])
+        for n in ("type", "items", "values", "fields"):
+            if n in items:
+                items[n] = first_def(items[n], found)
+        return items
+    if isinstance(items, list):
+        n = []
+        for i in items:
+            n.append(first_def(i, found))
+        return n
     return items
 
 def extend_avro(items):
     types = {t["name"]: t for t in items}
     n = []
 
-    extended_by = {}
-    for t in items:
-        if "extends" in t and types[t["extends"]].get("abstract"):
-            add_dictlist(extended_by, t["extends"], t["name"])
-
     for t in items:
         if "extends" in t:
             r = copy.deepcopy(types[t["extends"]])
             r["name"] = t["name"]
             if "specialize" in t:
-                r["fields"] = specialize(r["fields"], t["specialize"], {})
+                r["fields"] = replace_type(r["fields"], t["specialize"])
 
             for f in r["fields"]:
                 if "inherited_from" not in f:
@@ -56,17 +71,27 @@ def extend_avro(items):
             t = r
         n.append(t)
 
-    # for t in n:
-    #     if "fields" in t:
-    #         t["fields"] = specialize(t["fields"], "", extended_by)
+    ex_types = {t["name"]: t for t in n}
+
+    extended_by = {}
+    for t in n:
+        if "extends" in t and ex_types[t["extends"]].get("abstract"):
+            add_dictlist(extended_by, t["extends"], ex_types[t["name"]])
+
+    for t in n:
+        if "fields" in t:
+            t["fields"] = replace_type(t["fields"], extended_by)
+
+    n = replace_type(n, ex_types)
 
     return n
 
 def schema(j):
     names = avro.schema.Names()
     j = extend_avro(j)
+    j = first_def(j, set())
     for t in j:
-        if not t.get("abstract") and t.get("type") != "doc":
+        if isinstance(t, dict) and not t.get("abstract") and t.get("type") != "doc":
             avro.schema.make_avsc_object(t, names)
 
     return names
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index dc2f8d903..4fd13d57e 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -14,7 +14,6 @@
 import random
 from process import Process
 from process import WorkflowException
-from process import get_feature
 import avro_ld.validate as validate
 from aslist import aslist
 import expression
@@ -28,9 +27,7 @@
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
 supportedProcessRequirements = ("DockerRequirement",
-                                "MemoryRequirement",
                                 "ExpressionEngineRequirement",
-                                "Scatter",
                                 "SchemaDefRequirement",
                                 "EnvVarRequirement",
                                 "CreateFileRequirement")
@@ -195,9 +192,6 @@ def _init_job(self, joborder, input_basedir, **kwargs):
             if r["class"] not in supportedProcessRequirements:
                 raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
 
-        self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
-        self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
-
         builder.input_basedir = input_basedir
         builder.files = []
         builder.bindings = []
@@ -291,7 +285,7 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
             if os.path.isabs(j.stdout):
                 raise validate.ValidationException("stdout must be a relative path")
 
-        dockerReq, _ = get_feature("DockerRequirement", requirements=self.requirements, hints=self.hints)
+        dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and use_container:
                 builder.pathmapper = DockerPathMapper(reffiles, input_basedir)
 
@@ -307,13 +301,13 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
         builder.requirements = j.requirements
 
         j.generatefiles = {}
-        createFiles, _ = get_feature("CreateFileRequirement", requirements=self.requirements, hints=self.hints)
+        createFiles, _ = self.get_requirement("CreateFileRequirement")
         if createFiles:
             for t in createFiles["fileDef"]:
                 j.generatefiles[t["filename"]] = expression.do_eval(t["fileContent"], builder.job, j.requirements, self.docpath)
 
         j.environment = {}
-        evr, _ = get_feature("EnvVarRequirement", requirements=self.requirements, hints=self.hints)
+        evr, _ = self.get_requirement("EnvVarRequirement")
         if evr:
             for t in evr["envDef"]:
                 j.environment[t["envName"]] = expression.do_eval(t["envValue"], builder.job, j.requirements, self.docpath)
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 875e5fb92..df0206971 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -4,7 +4,7 @@
 from aslist import aslist
 import logging
 import os
-from process import WorkflowException, get_feature
+from process import WorkflowException
 import process
 import yaml
 import avro_ld.validate as validate
@@ -24,7 +24,13 @@ def exeval(ex, jobinput, requirements, docpath, context, pull_image):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
             runtime = []
 
-            (docker_req, docker_is_req) = process.get_feature("DockerRequirement", requirements=r.get("requirements"), hints=r.get("hints"))
+            class DR(object):
+                pass
+            dr = DR()
+            dr.requirements = r.get("requirements", [])
+            dr.hints = r.get("hints", [])
+
+            (docker_req, docker_is_req) = process.get_feature(dr, "DockerRequirement")
             if docker_req:
                 img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             if img_id:
diff --git a/cwltool/job.py b/cwltool/job.py
index c3c0aa92b..006603785 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -24,7 +24,7 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         runtime = []
         env = {}
 
-        (docker_req, docker_is_req) = get_feature("DockerRequirement", requirements=self.requirements, hints=self.hints)
+        (docker_req, docker_is_req) = get_feature(self, "DockerRequirement")
 
         for f in self.pathmapper.files():
             if not os.path.exists(self.pathmapper.mapper(f)[0]):
diff --git a/cwltool/process.py b/cwltool/process.py
index 595f0a86d..bc9f7771e 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -24,15 +24,13 @@ def get_schema():
         j = yaml.load(f)
         return (j, avro_ld.schema.schema(j))
 
-def get_feature(feature, **kwargs):
-    if kwargs.get("requirements"):
-        for t in reversed(kwargs["requirements"]):
-            if t["class"] == feature:
-                return (t, True)
-    if kwargs.get("hints"):
-        for t in reversed(kwargs.get("hints", [])):
-            if t["class"] == feature:
-                return (t, False)
+def get_feature(self, feature):
+    for t in reversed(self.requirements):
+        if t["class"] == feature:
+            return (t, True)
+    for t in reversed(self.hints):
+        if t["class"] == feature:
+            return (t, False)
     return (None, None)
 
 class Process(object):
@@ -44,12 +42,15 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
 
         try:
             # Validate tool documument
-            validate.validate_ex(self.names.get_name(validateAs, ""), self.tool, **kwargs)
+            validate.validate_ex(self.names.get_name(validateAs, ""), self.tool, strict=kwargs.get("strict"))
         except validate.ValidationException as v:
             raise validate.ValidationException("Could not validate %s:\n%s" % (self.tool.get("id"), validate.indent(str(v))))
 
-        self.validate_requirements(self.tool, "requirements")
-        self.validate_requirements(self.tool, "hints")
+        self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+
+        #self.validate_requirements(self.tool, "requirements")
+        #self.validate_requirements(self.tool, "hints")
 
         for t in self.tool.get("requirements", []):
             t["_docpath"] = docpath
@@ -59,7 +60,8 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
 
         self.schemaDefs = {}
 
-        sd, _ = get_feature("SchemaDefRequirement", requirements=self.tool.get("requirements"), hints=self.tool.get("hints"))
+        sd, _ = self.get_requirement("SchemaDefRequirement")
+
         if sd:
             for i in sd["types"]:
                 avro.schema.make_avsc_object(i, self.names)
@@ -102,19 +104,22 @@ def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
 
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
-    def validate_requirements(self, tool, field):
-        for r in tool.get(field, []):
-            try:
-                if self.names.get_name(r["class"], "") is None:
-                    raise validate.ValidationException("Unknown requirement %s" % (r["class"]))
-                validate.validate_ex(self.names.get_name(r["class"], ""), r)
-                if "requirements" in r:
-                    self.validate_requirements(r, "requirements")
-                if "hints" in r:
-                    self.validate_requirements(r, "hints")
-            except validate.ValidationException as v:
-                err = "While validating %s %s\n%s" % (field, r["class"], validate.indent(str(v)))
-                if field == "hints":
-                    _logger.warn(err)
-                else:
-                    raise validate.ValidationException(err)
+    # def validate_requirements(self, tool, field):
+    #     for r in tool.get(field, []):
+    #         try:
+    #             if self.names.get_name(r["class"], "") is None:
+    #                 raise validate.ValidationException("Unknown requirement %s" % (r["class"]))
+    #             validate.validate_ex(self.names.get_name(r["class"], ""), r)
+    #             if "requirements" in r:
+    #                 self.validate_requirements(r, "requirements")
+    #             if "hints" in r:
+    #                 self.validate_requirements(r, "hints")
+    #         except validate.ValidationException as v:
+    #             err = "While validating %s %s\n%s" % (field, r["class"], validate.indent(str(v)))
+    #             if field == "hints":
+    #                 _logger.warn(err)
+    #             else:
+    #                 raise validate.ValidationException(err)
+
+    def get_requirement(self, feature):
+        return get_feature(self, feature)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 3b5391389..b779e0f25 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -19,8 +19,15 @@
 
 def makeTool(toolpath_object, docpath, **kwargs):
     """docpath is the directory the tool file is located."""
-    if "run" in toolpath_object: # and toolpath_object.get("class", "External") == "External":
-        return External(toolpath_object, docpath)
+
+    class DR(object):
+        pass
+    dr = DR()
+    dr.requirements = kwargs.get("requirements", [])
+    dr.hints = kwargs.get("hints", [])
+
+    if "run" in toolpath_object:
+        return WorkflowStep(toolpath_object, docpath, **kwargs)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
             return draft2tool.CommandLineTool(toolpath_object, docpath, **kwargs)
@@ -90,7 +97,7 @@ def try_make_job(self, step, basedir, **kwargs):
         requirements = kwargs.get("requirements", []) + step.tool.get("requirements", [])
         hints = kwargs.get("hints", []) + step.tool.get("hints", [])
 
-        (scatterSpec, _) = get_feature("ScatterFeatureRequirement", requirements=requirements, hints=hints)
+        (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
         if scatterSpec and "scatter" in step.tool:
             inputparms = copy.deepcopy(step.tool["inputs"])
             outputparms = copy.deepcopy(step.tool["outputs"])
@@ -160,10 +167,10 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         # Validate job order
         validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
 
-        requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
-        hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+        kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
+        kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
-        steps = [makeTool(step, basedir) for step in self.tool.get("steps", [])]
+        steps = [makeTool(step, basedir, requirements=self.requirements, hints=self.hints) for step in self.tool.get("steps", [])]
         random.shuffle(steps)
 
         self.state = {}
@@ -190,7 +197,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                 if step.completed:
                     completed += 1
                 else:
-                    for newjob in self.try_make_job(step, basedir, requirements=requirements, hints=hints, **kwargs):
+                    for newjob in self.try_make_job(step, basedir, **kwargs):
                         if newjob:
                             made_progress = True
                             yield newjob
@@ -207,10 +214,10 @@ def job(self, joborder, basedir, output_callback, **kwargs):
 
         output_callback(wo, self.processStatus)
 
-class External(Process):
-    def __init__(self, toolpath_object, docpath):
+class WorkflowStep(Process):
+    def __init__(self, toolpath_object, docpath, **kwargs):
         try:
-            self.embedded_tool = makeTool(toolpath_object["run"], docpath)
+            self.embedded_tool = makeTool(toolpath_object["run"], docpath, **kwargs)
         except validate.ValidationException as v:
             raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, toolpath_object["run"]["id"]), validate.indent(str(v))))
 
@@ -246,7 +253,13 @@ def __init__(self, toolpath_object, docpath):
 
             i["id"] = toolid
 
-        super(External, self).__init__(toolpath_object, "WorkflowStep", docpath)
+        super(WorkflowStep, self).__init__(toolpath_object, "WorkflowStep", docpath, **kwargs)
+
+        if self.embedded_tool.tool["class"] == "Workflow":
+            _logger.warn("WorkflowStep %s %s", self.requirements, self.hints)
+            (feature, _) = self.get_requirement("SubworkflowFeatureRequirement")
+            if not feature:
+                raise WorkflowException("Workflow contains embedded workflow but SubworkflowFeatureRequirement not declared")
 
     def receive_output(self, jobout, processStatus):
         _logger.debug("WorkflowStep output from run is %s", jobout)

From bc4e42c92a77b6977497372f7a6af181efa8b09a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 22 Jun 2015 17:55:13 -0400
Subject: [PATCH 121/221] Use id fragment naming convention to map input and
 output parameters for WorkflowStep. issue #60

---
 cwltool/main.py     |   2 +-
 cwltool/workflow.py | 162 +++++++++++++++++++++-----------------------
 2 files changed, 78 insertions(+), 86 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 361fbcacf..500a05a26 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -192,7 +192,7 @@ def output_callback(out, processStatus):
     except workflow.WorkflowException as e:
         _logger.error("Workflow error:\n%s" % e)
         if args.debug:
-            _logger.exception()
+            _logger.exception("")
         return 1
 
     return 0
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index b779e0f25..7c88848da 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -50,7 +50,7 @@ def receive_output(self, step, outputparms, jobout, processStatus):
                 if i["id"] in jobout:
                     self.state[i["id"]] = WorkflowStateItem(i, jobout[i["id"]])
                 else:
-                    raise WorkflowException("Output is missing expected field %s" % d)
+                    raise WorkflowException("Output is missing expected field %s" % i["id"])
         if processStatus != "success":
             if self.processStatus != "permanentFail":
                 self.processStatus = processStatus
@@ -89,64 +89,73 @@ def match_types(self, sinktype, src, iid, inputobj, linkMerge):
                 return True
         return False
 
-    def try_make_job(self, step, basedir, **kwargs):
+    def object_from_state(self, parms, frag_only):
         inputobj = {}
-
-        _logger.debug("Try to make job %s", step.id)
-
-        requirements = kwargs.get("requirements", []) + step.tool.get("requirements", [])
-        hints = kwargs.get("hints", []) + step.tool.get("hints", [])
-
-        (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
-        if scatterSpec and "scatter" in step.tool:
-            inputparms = copy.deepcopy(step.tool["inputs"])
-            outputparms = copy.deepcopy(step.tool["outputs"])
-            scatter = aslist(step.tool["scatter"])
-
-            inp_map = {i["id"]: i for i in inputparms}
-            for s in scatter:
-                if s not in inp_map:
-                    raise WorkflowException("Invalid Scatter parameter '%s'" % s)
-
-                inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
-
-            if step.tool.get("scatterMethod") == "nested_crossproduct":
-                nesting = len(scatter)
-            else:
-                nesting = 1
-
-            for r in xrange(0, nesting):
-                for i in outputparms:
-                    i["type"] = {"type": "array", "items": i["type"]}
-        else:
-            inputparms = step.tool["inputs"]
-            outputparms = step.tool["outputs"]
-
-        for inp in inputparms:
-            _logger.debug("Trying input %s", inp)
+        for inp in parms:
             iid = inp["id"]
-            if "connect" in inp:
-                connections = inp["connect"]
-                for connection in aslist(connections):
-                    src = connection["source"]
+            if frag_only:
+                (_, iid) = urlparse.urldefrag(iid)
+                iid = iid.split(".")[-1]
+            if "source" in inp:
+                connections = aslist(inp["source"])
+                for src in connections:
                     if src in self.state and self.state[src] is not None:
-                        if not self.match_types(inp["type"], self.state[src], inp["id"], inputobj,
+                        if not self.match_types(inp["type"], self.state[src], iid, inputobj,
                                                 inp.get("linkMerge", ("merge_nested" if len(connections) > 1 else None))):
                             raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"], inp["type"]))
                     elif src not in self.state:
                         raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
                     else:
-                        return
+                        return None
             elif "default" in inp:
                 inputobj[iid] = inp["default"]
             else:
                 raise WorkflowException("Value for %s not specified" % (inp["id"]))
+        return inputobj
+
+    def adjust_for_scatter(self, steps):
+        (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
+        for step in steps:
+            if scatterSpec and "scatter" in step.tool:
+                inputparms = copy.deepcopy(step.tool["inputs"])
+                outputparms = copy.deepcopy(step.tool["outputs"])
+                scatter = aslist(step.tool["scatter"])
+
+                inp_map = {i["id"]: i for i in inputparms}
+                for s in scatter:
+                    if s not in inp_map:
+                        raise WorkflowException("Invalid Scatter parameter '%s'" % s)
+
+                    inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
+
+                if step.tool.get("scatterMethod") == "nested_crossproduct":
+                    nesting = len(scatter)
+                else:
+                    nesting = 1
+
+                for r in xrange(0, nesting):
+                    for i in outputparms:
+                        i["type"] = {"type": "array", "items": i["type"]}
+                step.tool["inputs"] = inputparms
+                step.tool["outputs"] = outputparms
+
+    def try_make_job(self, step, basedir, **kwargs):
+        _logger.debug("Try to make job %s", step.id)
+
+        inputparms = step.tool["inputs"]
+        outputparms = step.tool["outputs"]
+
+        inputobj = self.object_from_state(inputparms, False)
+        if inputobj is None:
+            return
 
         _logger.info("Creating job with input: %s", pprint.pformat(inputobj))
 
         callback = functools.partial(self.receive_output, step, outputparms)
 
+        (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
         if scatterSpec and "scatter" in step.tool:
+            scatter = aslist(step.tool["scatter"])
             method = step.tool.get("scatterMethod")
             if method is None and len(scatter) != 1:
                 raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
@@ -171,6 +180,9 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
         steps = [makeTool(step, basedir, requirements=self.requirements, hints=self.hints) for step in self.tool.get("steps", [])]
+
+        self.adjust_for_scatter(steps)
+
         random.shuffle(steps)
 
         self.state = {}
@@ -204,14 +216,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
             if not made_progress and completed < len(steps):
                 yield None
 
-        wo = {}
-        for i in self.tool["outputs"]:
-            if "connect" in i:
-                (_, src) = urlparse.urldefrag(i['id'])
-                if i["connect"]["source"] not in self.state:
-                    raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (i["connect"]["source"], inp["id"]))
-                wo[src] = self.state[i["connect"]["source"]].value
-
+        wo = self.object_from_state(self.tool["outputs"], True)
         output_callback(wo, self.processStatus)
 
 class WorkflowStep(Process):
@@ -221,42 +226,26 @@ def __init__(self, toolpath_object, docpath, **kwargs):
         except validate.ValidationException as v:
             raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, toolpath_object["run"]["id"]), validate.indent(str(v))))
 
-        if "id" in toolpath_object:
-            self.id = toolpath_object["id"]
-        else:
-            self.id = "#step_" + str(random.randint(1, 1000000000))
-
-        for i in toolpath_object["inputs"]:
-            p = i["param"] if 'param' in i else self.id
-            (_, d) = urlparse.urldefrag(p)
-            toolid = i.get("id", self.id + "." + d)
-            found = False
-            for a in self.embedded_tool.tool["inputs"]:
-                if a["id"] == p:
-                    i.update(a)
-                    found = True
-            if not found:
-                raise WorkflowException("Did not find input parameter '%s' in workflow step" % (p))
-
-            i["id"] = toolid
-
-        for i in toolpath_object["outputs"]:
-            p = i["param"] if 'param' in i else i['id']
-            toolid = i["id"]
-            found = False
-            for a in self.embedded_tool.tool["outputs"]:
-                if a["id"] == p:
-                    i.update(a)
-                    found = True
-            if not found:
-                raise WorkflowException("Did not find output parameter '%s' in workflow step" % (p))
-
-            i["id"] = toolid
+        self.id = toolpath_object["id"]
+
+        for field in ("inputs", "outputs"):
+            for i in toolpath_object[field]:
+                inputid = i["id"]
+                (_, d) = urlparse.urldefrag(inputid)
+                frag = d.split(".")[-1]
+                p = urlparse.urljoin(toolpath_object["run"].get("id", self.id), "#" + frag)
+                found = False
+                for a in self.embedded_tool.tool[field]:
+                    if a["id"] == p:
+                        i.update(a)
+                        found = True
+                if not found:
+                    raise WorkflowException("Did not find %s parameter '%s' in workflow step" % (field, p))
+                i["id"] = inputid
 
         super(WorkflowStep, self).__init__(toolpath_object, "WorkflowStep", docpath, **kwargs)
 
         if self.embedded_tool.tool["class"] == "Workflow":
-            _logger.warn("WorkflowStep %s %s", self.requirements, self.hints)
             (feature, _) = self.get_requirement("SubworkflowFeatureRequirement")
             if not feature:
                 raise WorkflowException("Workflow contains embedded workflow but SubworkflowFeatureRequirement not declared")
@@ -265,14 +254,17 @@ def receive_output(self, jobout, processStatus):
         _logger.debug("WorkflowStep output from run is %s", jobout)
         self.output = {}
         for i in self.tool["outputs"]:
-            (_, d) = urlparse.urldefrag(i["param"] if "param" in i else i["id"])
-            self.output[i["id"]] = jobout[d]
+            (_, d) = urlparse.urldefrag(i["id"])
+            field = d.split(".")[-1]
+            self.output[i["id"]] = jobout[field]
         self.processStatus = processStatus
 
     def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["inputs"]:
-            (_, d) = urlparse.urldefrag(i["param"])
-            joborder[d] = joborder[i["id"]]
+            p = i["id"]
+            (_, d) = urlparse.urldefrag(p)
+            field = d.split(".")[-1]
+            joborder[field] = joborder[i["id"]]
             del joborder[i["id"]]
 
         kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])

From fa5a65d1b4afea4147c213bfb5fdbf01cb77f4ab Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 22 Jun 2015 23:14:42 -0400
Subject: [PATCH 122/221] Mark inherited fields of objects in specification. 
 issue #44

---
 cwltool/avro_ld/makedoc.py | 14 ++++++++++----
 1 file changed, 10 insertions(+), 4 deletions(-)

diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
index 2c5510dd3..a59eabe9b 100644
--- a/cwltool/avro_ld/makedoc.py
+++ b/cwltool/avro_ld/makedoc.py
@@ -79,15 +79,17 @@ def contents(self, id):
 
 def typefmt(tp, nbsp=False):
     if isinstance(tp, list):
-        if nbsp:
+        if nbsp and len(tp) <= 3:
             return "&nbsp;|&nbsp;".join([typefmt(n) for n in tp])
         else:
             return " | ".join([typefmt(n) for n in tp])
     if isinstance(tp, dict):
         if tp["type"] == "array":
             return "array&lt;%s&gt;" % (typefmt(tp["items"], True))
-        if tp["type"] == "enum":
-            return tp["name"]
+        if tp["type"] in ("record", "enum"):
+            return """<a href="#%s">%s</a>""" % (to_id(str(tp["name"])), str(tp["name"]))
+        if isinstance(tp["type"], dict):
+            return typefmt(tp["type"])
     else:
         if str(tp) in ("null", "boolean", "int", "long", "float", "double", "bytes", "string", "record", "enum", "array", "map"):
             return """<a href="#datatype">%s</a>""" % str(tp)
@@ -214,7 +216,11 @@ def render_type(self, f, depth):
                     tp = tp[1:]
                 else:
                     opt = True
-                doc += "<td><code>%s</code></td><td>%s</td><td>%s</td><td>%s</td>" % (i["name"], typefmt(tp), opt, mistune.markdown(i["doc"]))
+
+                desc = i["doc"]
+                if "inherited_from" in i:
+                    desc = "%s _Inherited from [%s](#%s)_" % (desc, i["inherited_from"], to_id(i["inherited_from"]))
+                doc += "<td><code>%s</code></td><td>%s</td><td>%s</td><td>%s</td>" % (i["name"], typefmt(tp), opt, mistune.markdown(desc))
                 doc += "</tr>"
             doc += """</table>"""
         f["doc"] = doc

From 757d6642a5cd76e37a18d15d8ea83b49a4a3b153 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 24 Jun 2015 14:18:07 -0400
Subject: [PATCH 123/221] Fix revsort example for specification updates. 
 Improve output directory handling in reference implementation.  Add outdir
 and tmpdir to fields available for use by expressions.  issue #62

---
 cwltool/draft2tool.py | 58 +++++++++++++++++---------
 cwltool/expression.py | 16 +++++---
 cwltool/job.py        | 34 +++++++++++-----
 cwltool/main.py       | 82 +++++++++++++++++++++++++++----------
 cwltool/process.py    | 14 ++++---
 cwltool/workflow.py   | 94 ++++++++++++++++++++++++++++++++++++-------
 6 files changed, 222 insertions(+), 76 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 4fd13d57e..24e4edc2e 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -19,6 +19,7 @@
 import expression
 import re
 import urlparse
+import tempfile
 
 _logger = logging.getLogger("cwltool")
 
@@ -30,7 +31,9 @@
                                 "ExpressionEngineRequirement",
                                 "SchemaDefRequirement",
                                 "EnvVarRequirement",
-                                "CreateFileRequirement")
+                                "CreateFileRequirement",
+                                "ScatterFeatureRequirement",
+                                "SubworkflowFeatureRequirement")
 
 def substitute(value, replace):
     if replace[0] == "^":
@@ -116,7 +119,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                             datum["secondaryFiles"] = []
                         for sf in aslist(schema["secondaryFiles"]):
                             if isinstance(sf, dict):
-                                sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, datum["path"])
+                                sfpath = self.do_eval(sf, context=datum["path"])
                             else:
                                 sfpath = {"path": substitute(datum["path"], sf)}
                             if isinstance(sfpath, list):
@@ -136,7 +139,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
     def generate_arg(self, binding):
         value = binding["valueFrom"]
         if "do_eval" in binding:
-            value = expression.do_eval(binding["do_eval"], self.job, self.requirements, self.docpath, value)
+            value = self.do_eval(binding["do_eval"], context=value)
 
         prefix = binding.get("prefix")
         sep = binding.get("separate", True)
@@ -171,6 +174,9 @@ def generate_arg(self, binding):
 
         return [a for a in args if a is not None]
 
+    def do_eval(self, ex, context=None, pull_image=True):
+        return expression.do_eval(ex, self.job, self.requirements, self.outdir, self.tmpdir, context=context, pull_image=pull_image)
+
 
 class Tool(Process):
     def _init_job(self, joborder, input_basedir, **kwargs):
@@ -188,7 +194,7 @@ def _init_job(self, joborder, input_basedir, **kwargs):
         except validate.ValidationException as e:
             raise WorkflowException("Error validating input record, " + str(e))
 
-        for r in self.tool.get("requirements", []):
+        for r in self.requirements:
             if r["class"] not in supportedProcessRequirements:
                 raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
 
@@ -198,6 +204,15 @@ def _init_job(self, joborder, input_basedir, **kwargs):
         builder.schemaDefs = self.schemaDefs
         builder.docpath = self.docpath
         builder.names = self.names
+        builder.requirements = self.requirements
+
+        dockerReq, _ = self.get_requirement("DockerRequirement")
+        if dockerReq and kwargs.get("use_container"):
+            builder.outdir = "/tmp/job_output"
+            builder.tmpdir = "/tmp/job_tmp"
+        else:
+            builder.outdir = kwargs.get("outdir", tempfile.mkdtemp())
+            builder.tmpdir = tempfile.mkdtemp()
 
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
 
@@ -209,9 +224,9 @@ def __init__(self, toolpath_object, docpath, **kwargs):
         super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", docpath, **kwargs)
 
     class ExpressionJob(object):
-        def run(self, outdir=None, **kwargs):
+        def run(self, **kwargs):
             try:
-                self.output_callback(expression.do_eval(self.script, self.builder.job, self.requirements, self.builder.docpath), "success")
+                self.output_callback(self.builder.do_eval(self.script), "success")
             except Exception:
                 self.output_callback({}, "permanentFail")
 
@@ -222,8 +237,10 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         j.builder = builder
         j.script = self.tool["expression"]
         j.output_callback = output_callback
-        j.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
-        j.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
+        j.requirements = self.requirements
+        j.hints = self.hints
+        j.outdir = None
+        j.tmpdir = None
 
         yield j
 
@@ -231,7 +248,7 @@ class CommandLineTool(Tool):
     def __init__(self, toolpath_object, docpath, **kwargs):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", docpath, **kwargs)
 
-    def job(self, joborder, input_basedir, output_callback, use_container=True, **kwargs):
+    def job(self, joborder, input_basedir, output_callback, **kwargs):
         builder = self._init_job(joborder, input_basedir, **kwargs)
 
         if self.tool["baseCommand"]:
@@ -275,19 +292,24 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
-            j.stdin = expression.do_eval(self.tool["stdin"], builder.job, self.requirements, self.docpath, j.stdin)
+            j.stdin = builder.do_eval(self.tool["stdin"])
             if isinstance(j.stdin, dict) and "ref" in j.stdin:
                 j.stdin = builder.job[j.stdin["ref"][1:]]["path"]
             reffiles.append(j.stdin)
 
         if self.tool.get("stdout"):
-            j.stdout = expression.do_eval(self.tool["stdout"], builder.job, j.requirements, self.docpath)
+            j.stdout = builder.do_eval(self.tool["stdout"])
             if os.path.isabs(j.stdout):
                 raise validate.ValidationException("stdout must be a relative path")
 
         dockerReq, _ = self.get_requirement("DockerRequirement")
-        if dockerReq and use_container:
-                builder.pathmapper = DockerPathMapper(reffiles, input_basedir)
+        if dockerReq and kwargs.get("use_container"):
+            builder.pathmapper = DockerPathMapper(reffiles, input_basedir)
+            j.outdir = kwargs.get("outdir", tempfile.mkdtemp())
+            j.tmpdir = tempfile.mkdtemp()
+        else:
+            j.outdir = builder.outdir
+            j.tmpdir = builder.tmpdir
 
         if builder.pathmapper is None:
             builder.pathmapper = PathMapper(reffiles, input_basedir)
@@ -304,13 +326,13 @@ def job(self, joborder, input_basedir, output_callback, use_container=True, **kw
         createFiles, _ = self.get_requirement("CreateFileRequirement")
         if createFiles:
             for t in createFiles["fileDef"]:
-                j.generatefiles[t["filename"]] = expression.do_eval(t["fileContent"], builder.job, j.requirements, self.docpath)
+                j.generatefiles[t["filename"]] = builder.do_eval(t["fileContent"])
 
         j.environment = {}
         evr, _ = self.get_requirement("EnvVarRequirement")
         if evr:
             for t in evr["envDef"]:
-                j.environment[t["envName"]] = expression.do_eval(t["envValue"], builder.job, j.requirements, self.docpath)
+                j.environment[t["envName"]] = builder.do_eval(t["envValue"])
 
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
@@ -346,7 +368,7 @@ def collect_output(self, schema, builder, outdir):
             binding = schema["outputBinding"]
             if "glob" in binding:
                 r = []
-                bg = expression.do_eval(binding["glob"], builder.job, self.requirements, self.docpath)
+                bg = builder.do_eval(binding["glob"])
                 for gb in aslist(bg):
                     r.extend([{"path": g, "class": "File"} for g in glob.glob(os.path.join(outdir, gb))])
                 for files in r:
@@ -364,7 +386,7 @@ def collect_output(self, schema, builder, outdir):
                     files["size"] = filesize
 
             if "outputEval" in binding:
-                r = expression.do_eval(binding["outputEval"], builder.job, self.requirements, self.docpath, r)
+                r = builder.do_eval(binding["outputEval"], context=r)
                 if schema["type"] == "File" and (not isinstance(r, dict) or "path" not in r):
                     raise WorkflowException("Expression must return a file object.")
 
@@ -377,7 +399,7 @@ def collect_output(self, schema, builder, outdir):
                 r["secondaryFiles"] = []
                 for sf in aslist(binding["secondaryFiles"]):
                     if isinstance(sf, dict):
-                        sfpath = expression.do_eval(sf, self.job, self.requirements, self.docpath, r["path"])
+                        sfpath = builder.do_eval(sf, context=r["path"])
                     else:
                         sfpath = {"path": substitute(r["path"], sf)}
                     if isinstance(sfpath, list):
diff --git a/cwltool/expression.py b/cwltool/expression.py
index df0206971..49e167357 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -12,10 +12,10 @@
 
 _logger = logging.getLogger("cwltool")
 
-def exeval(ex, jobinput, requirements, docpath, context, pull_image):
+def exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image):
     if ex["engine"] == "cwl:JsonPointer":
         try:
-            obj = {"job": jobinput, "context": context}
+            obj = {"job": jobinput, "context": context, "outdir": outdir, "tmpdir": tmpdir}
             return avro_ld.ref_resolver.resolve_json_pointer(obj, ex["script"])
         except ValueError as v:
             raise WorkflowException("%s in %s" % (v,  obj))
@@ -48,10 +48,14 @@ class DR(object):
                 "script": ex["script"],
                 "engineConfig": exdefs,
                 "job": jobinput,
-                "context": context
+                "context": context,
+                "outdir": outdir,
+                "tmpdir": tmpdir,
             }
 
-            _logger.debug(json.dumps(inp, indent=4))
+            _logger.debug("Invoking expression engine %s with %s",
+                          runtime + aslist(r["engineCommand"]),
+                                           json.dumps(inp, indent=4))
 
             sp = subprocess.Popen(runtime + aslist(r["engineCommand"]),
                              shell=False,
@@ -67,8 +71,8 @@ class DR(object):
 
     raise WorkflowException("Unknown expression engine '%s'" % ex["engine"])
 
-def do_eval(ex, jobinput, requirements, docpath, context=None, pull_image=True):
+def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image=True):
     if isinstance(ex, dict) and "engine" in ex and "script" in ex:
-        return exeval(ex, jobinput, requirements, docpath, context, pull_image)
+        return exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image)
     else:
         return ex
diff --git a/cwltool/job.py b/cwltool/job.py
index 006603785..00d58e8b2 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -9,20 +9,21 @@
 import requests
 import docker
 from process import WorkflowException, get_feature
+import shutil
 
 _logger = logging.getLogger("cwltool")
 
 class CommandLineJob(object):
-    def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
+    def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True):
 
-        if not os.path.exists(outdir):
-            os.makedirs(outdir)
+        if not os.path.exists(self.outdir):
+            os.makedirs(self.outdir)
 
         #with open(os.path.join(outdir, "cwl.input.json"), "w") as fp:
         #    json.dump(self.joborder, fp)
 
         runtime = []
-        env = {}
+        env = {"TMPDIR": self.tmpdir}
 
         (docker_req, docker_is_req) = get_feature(self, "DockerRequirement")
 
@@ -35,16 +36,25 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
                 runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
-            runtime.append("--volume=%s:%s:rw" % (os.path.abspath(outdir), "/tmp/job_output"))
+            runtime.append("--volume=%s:%s:rw" % (os.path.abspath(self.outdir), "/tmp/job_output"))
+            runtime.append("--volume=%s:%s:rw" % (os.path.abspath(self.tmpdir), "/tmp/job_tmp"))
             runtime.append("--workdir=%s" % ("/tmp/job_output"))
             runtime.append("--user=%s" % (os.geteuid()))
+
             if rm_container:
                 runtime.append("--rm")
+
+            runtime.append("--env=TMPDIR=/tmp/job_tmp")
+
             for t,v in self.environment.items():
                 runtime.append("--env=%s=%s" % (t, v))
+
             runtime.append(img_id)
         else:
             env = self.environment
+            if not os.path.exists(self.tmpdir):
+                os.makedirs(self.tmpdir)
+            env["TMPDIR"] = self.tmpdir
 
         stdin = None
         stdout = None
@@ -55,12 +65,12 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
                      ' > %s' % (self.stdout) if self.stdout else '')
 
         if dry_run:
-            return (outdir, {})
+            return (self.outdir, {})
 
-        os.chdir(outdir)
+        os.chdir(self.outdir)
 
         for t in self.generatefiles:
-            with open(os.path.join(outdir, t), "w") as f:
+            with open(os.path.join(self.outdir, t), "w") as f:
                 f.write(self.generatefiles[t])
 
         if self.stdin:
@@ -82,7 +92,7 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
                               stdin=stdin,
                               stdout=stdout,
                               env=env,
-                              cwd=outdir)
+                              cwd=self.outdir)
 
         if stdin == subprocess.PIPE:
             sp.stdin.close()
@@ -95,7 +105,7 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
         if stdout is not sys.stderr:
             stdout.close()
 
-        outputs = self.collect_outputs(outdir)
+        outputs = self.collect_outputs(self.outdir)
 
         if self.successCodes and rcode in self.successCodes:
             processStatus = "success"
@@ -109,3 +119,7 @@ def run(self, outdir, dry_run=False, pull_image=True, rm_container=True):
             processStatus = "permanentFail"
 
         self.output_callback(outputs, processStatus)
+
+        if rm_tmpdir:
+            _logger.info("Removing temporary directory %s", self.tmpdir)
+            shutil.rmtree(self.tmpdir, True)
diff --git a/cwltool/main.py b/cwltool/main.py
index 500a05a26..e5044e1da 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -33,20 +33,54 @@ def main():
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
     parser.add_argument("--outdir", type=str)
-    parser.add_argument("--no-container", action="store_true", help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool")
-    parser.add_argument("--leave-container", action="store_true", help="Do not delete Docker container used by jobs after they exit")
-    parser.add_argument("--no-pull", default=False, action="store_true", help="Do not try to pull Docker images")
-    parser.add_argument("--dry-run", action="store_true", help="Load and validate but do not execute")
 
-    parser.add_argument("--print-rdf", action="store_true", help="Print corresponding RDF graph for workflow")
-    parser.add_argument("--rdf-serializer", help="Output RDF serialization format (one of turtle (default), n3, nt, xml)", default="turtle")
+    parser.add_argument("--no-container", action="store_false", default=True,
+                        help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool",
+                        dest="use_container")
 
-    parser.add_argument("--print-spec", action="store_true", help="Print HTML specification document")
-    parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file")
-    parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file")
-    parser.add_argument("--print-avro", action="store_true", help="Print Avro schema")
-    parser.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing")
-    parser.add_argument("--strict", action="store_true", help="Strict validation (unrecognized fields are an error) (default false)")
+    parser.add_argument("--rm-container", action="store_true", default=True,
+                        help="Delete Docker container used by jobs after they exit (default)",
+                        dest="rm_container")
+
+    parser.add_argument("--leave-container", action="store_false",
+                        default=True, help="Do not delete Docker container used by jobs after they exit",
+                        dest="rm_container")
+
+    parser.add_argument("--rm-tmpdir", action="store_true", default=True,
+                        help="Delete intermediate temporary directories (default)",
+                        dest="rm_tmpdir")
+
+    parser.add_argument("--leave-tmpdir", action="store_false",
+                        default=True, help="Do not elete intermediate temporary directories",
+                        dest="rm_tmpdir")
+
+    parser.add_argument("--move-outputs", action="store_true", default=True,
+                        help="Move output files to the workflow output directory and delete intermediate output directories (default).",
+                        dest="move_outputs")
+
+    parser.add_argument("--leave-outputs", action="store_false", default=True,
+                        help="Leave output files in intermediate output directories.",
+                        dest="move_outputs")
+
+    parser.add_argument("--no-pull", default=False, action="store_true",
+                        help="Do not try to pull Docker images")
+
+    parser.add_argument("--dry-run", action="store_true",
+                        help="Load and validate but do not execute")
+
+    parser.add_argument("--print-rdf", action="store_true",
+                        help="Print corresponding RDF graph for workflow and exit")
+
+    parser.add_argument("--rdf-serializer",
+                        help="Output RDF serialization format used by --print-rdf (one of turtle (default), n3, nt, xml)",
+                        default="turtle")
+
+    parser.add_argument("--print-spec", action="store_true", help="Print HTML specification document and exit")
+    parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file and exit")
+    parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file and exit")
+    parser.add_argument("--print-avro", action="store_true", help="Print Avro schema and exit")
+    parser.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing and exit")
+    parser.add_argument("--strict", action="store_true", help="Strict validation (error on unrecognized fields)")
 
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
@@ -129,7 +163,7 @@ def main():
     except (avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
-            _logger.exception()
+            _logger.exception("")
         return 1
     except RuntimeError as e:
         _logger.error(e)
@@ -155,7 +189,17 @@ def output_callback(out, processStatus):
                 _logger.warn("Overall job status is %s", processStatus)
             final_output.append(out)
 
-        jobiter = t.job(loader.resolve_ref(args.job_order), input_basedir, output_callback, use_container=(not args.no_container))
+        if args.dry_run:
+            outdir = "/tmp"
+        elif args.outdir:
+            outdir = args.outdir
+        else:
+            outdir = tempfile.mkdtemp()
+        jobiter = t.job(loader.resolve_ref(args.job_order),
+                        input_basedir,
+                        output_callback,
+                        use_container=args.use_container,
+                        outdir=outdir)
         if args.conformance_test:
             job = jobiter.next()
             a = {"args": job.command_line}
@@ -170,13 +214,7 @@ def output_callback(out, processStatus):
             last = None
             for r in jobiter:
                 if r:
-                    if args.dry_run:
-                        outdir = "/tmp"
-                    elif args.outdir:
-                        outdir = args.outdir
-                    else:
-                        outdir = tempfile.mkdtemp()
-                    r.run(outdir, dry_run=args.dry_run, pull_image=(not args.no_pull), rm_container=(not args.leave_container))
+                    r.run(dry_run=args.dry_run, pull_image=(not args.no_pull), rm_container=args.rm_container, rm_tmpdir=args.rm_tmpdir)
                 else:
                     print "Workflow deadlocked."
                     return 1
@@ -187,7 +225,7 @@ def output_callback(out, processStatus):
     except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s" % e)
         if args.debug:
-            _logger.exception()
+            _logger.exception("")
         return 1
     except workflow.WorkflowException as e:
         _logger.error("Workflow error:\n%s" % e)
diff --git a/cwltool/process.py b/cwltool/process.py
index bc9f7771e..a537ec38f 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -10,6 +10,7 @@
 from aslist import aslist
 import avro_ld.schema
 import urlparse
+import pprint
 
 module_dir = os.path.dirname(os.path.abspath(__file__))
 
@@ -34,17 +35,18 @@ def get_feature(self, feature):
     return (None, None)
 
 class Process(object):
-    def __init__(self, toolpath_object, validateAs, docpath, **kwargs):
+    def __init__(self, toolpath_object, validateAs, docpath, do_validate=True, **kwargs):
         (_, self.names) = get_schema()
         self.docpath = docpath
 
         self.tool = toolpath_object
 
-        try:
-            # Validate tool documument
-            validate.validate_ex(self.names.get_name(validateAs, ""), self.tool, strict=kwargs.get("strict"))
-        except validate.ValidationException as v:
-            raise validate.ValidationException("Could not validate %s:\n%s" % (self.tool.get("id"), validate.indent(str(v))))
+        if do_validate:
+            try:
+                # Validate tool documument
+                validate.validate_ex(self.names.get_name(validateAs, ""), self.tool, strict=kwargs.get("strict"))
+            except validate.ValidationException as v:
+                raise validate.ValidationException("Could not validate %s as %s:\n%s" % (self.tool.get("id"), validateAs, validate.indent(str(v))))
 
         self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 7c88848da..b945a99ff 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -12,6 +12,8 @@
 import avro_ld.validate as validate
 import urlparse
 import pprint
+import tempfile
+import shutil
 
 _logger = logging.getLogger("cwltool")
 
@@ -38,11 +40,28 @@ class DR(object):
     else:
         raise WorkflowException("Missing 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
 
+def findfiles(wo, fn=[]):
+    if isinstance(wo, dict):
+        if wo.get("class") == "File":
+            fn.append(wo)
+            return findfiles(wo.get("secondaryFiles", None), fn)
+        else:
+            for w in wo.values():
+                findfiles(w, fn)
+    elif isinstance(wo, list):
+        for w in wo:
+            findfiles(w, fn)
+    return fn
 
 class Workflow(Process):
     def __init__(self, toolpath_object, docpath, **kwargs):
         super(Workflow, self).__init__(toolpath_object, "Workflow", docpath, **kwargs)
 
+        kwargs["requirements"] = self.requirements
+        kwargs["hints"] = self.hints
+
+        self.steps = [makeTool(step, docpath, **kwargs) for step in self.tool.get("steps", [])]
+
     def receive_output(self, step, outputparms, jobout, processStatus):
         _logger.debug("WorkflowStep completed with %s", jobout)
         for i in outputparms:
@@ -172,18 +191,14 @@ def try_make_job(self, step, basedir, **kwargs):
         for j in jobs:
             yield j
 
+
     def job(self, joborder, basedir, output_callback, **kwargs):
         # Validate job order
         validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
 
-        kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
-        kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
-
-        steps = [makeTool(step, basedir, requirements=self.requirements, hints=self.hints) for step in self.tool.get("steps", [])]
-
-        self.adjust_for_scatter(steps)
+        self.adjust_for_scatter(self.steps)
 
-        random.shuffle(steps)
+        random.shuffle(self.steps)
 
         self.state = {}
         self.processStatus = "success"
@@ -196,27 +211,71 @@ def job(self, joborder, basedir, output_callback, **kwargs):
             else:
                 raise WorkflowException("Input '%s' not in input object and does not have a default value." % (i["id"]))
 
-        for s in steps:
+        for s in self.steps:
             for out in s.tool["outputs"]:
                 self.state[out["id"]] = None
             s.completed = False
 
+        if "outdir" in kwargs:
+            outdir = kwargs["outdir"]
+            del kwargs["outdir"]
+        else:
+            outdir = tempfile.mkdtemp()
+
+        actual_jobs = []
+
         completed = 0
-        while completed < len(steps):
+        while completed < len(self.steps):
             made_progress = False
             completed = 0
-            for step in steps:
+            for step in self.steps:
                 if step.completed:
                     completed += 1
                 else:
                     for newjob in self.try_make_job(step, basedir, **kwargs):
                         if newjob:
                             made_progress = True
+                            actual_jobs.append(newjob)
                             yield newjob
-            if not made_progress and completed < len(steps):
+            if not made_progress and completed < len(self.steps):
                 yield None
 
         wo = self.object_from_state(self.tool["outputs"], True)
+
+        if kwargs.get("move_outputs", True):
+            targets = set()
+            conflicts = set()
+
+            for f in findfiles(wo):
+                for a in actual_jobs:
+                    if a.outdir and f["path"].startswith(a.outdir):
+                        src = f["path"]
+                        dst = os.path.join(outdir, src[len(a.outdir)+1:])
+                        if dst in targets:
+                            conflicts.add(dst)
+                        else:
+                            targets.add(dst)
+
+            for f in findfiles(wo):
+                for a in actual_jobs:
+                    if a.outdir and f["path"].startswith(a.outdir):
+                        src = f["path"]
+                        dst = os.path.join(outdir, src[len(a.outdir)+1:])
+                        if dst in conflicts:
+                            sp = os.path.splitext(dst)
+                            dst = "%s-%s%s" % (sp[0], str(random.randint(1, 1000000000)), sp[1])
+                        dirname = os.path.dirname(dst)
+                        if not os.path.exists(dirname):
+                            os.makedirs(dirname)
+                        _logger.info("Moving '%s' to '%s'", src, dst)
+                        shutil.move(src, dst)
+                        f["path"] = dst
+
+            for a in actual_jobs:
+                if a.outdir:
+                    _logger.info("Removing intermediate output directory %s", a.outdir)
+                    shutil.rmtree(a.outdir, True)
+
         output_callback(wo, self.processStatus)
 
 class WorkflowStep(Process):
@@ -226,7 +285,11 @@ def __init__(self, toolpath_object, docpath, **kwargs):
         except validate.ValidationException as v:
             raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, toolpath_object["run"]["id"]), validate.indent(str(v))))
 
-        self.id = toolpath_object["id"]
+
+        if "id" in toolpath_object:
+            self.id = toolpath_object["id"]
+        else:
+            self.id = "#step_" + str(random.randint(1, 1000000000))
 
         for field in ("inputs", "outputs"):
             for i in toolpath_object[field]:
@@ -243,7 +306,7 @@ def __init__(self, toolpath_object, docpath, **kwargs):
                     raise WorkflowException("Did not find %s parameter '%s' in workflow step" % (field, p))
                 i["id"] = inputid
 
-        super(WorkflowStep, self).__init__(toolpath_object, "WorkflowStep", docpath, **kwargs)
+        super(WorkflowStep, self).__init__(toolpath_object, "Process", docpath, do_validate=False, **kwargs)
 
         if self.embedded_tool.tool["class"] == "Workflow":
             (feature, _) = self.get_requirement("SubworkflowFeatureRequirement")
@@ -256,7 +319,10 @@ def receive_output(self, jobout, processStatus):
         for i in self.tool["outputs"]:
             (_, d) = urlparse.urldefrag(i["id"])
             field = d.split(".")[-1]
-            self.output[i["id"]] = jobout[field]
+            if field in jobout:
+                self.output[i["id"]] = jobout[field]
+            else:
+                processStatus = "permanentFail"
         self.processStatus = processStatus
 
     def job(self, joborder, basedir, output_callback, **kwargs):

From fa2d914ead9c2f4882ac9aff05d4161cb28c5780 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 24 Jun 2015 14:59:16 -0400
Subject: [PATCH 124/221] Special validation handling for hints.

---
 cwltool/main.py     |  2 +-
 cwltool/process.py  | 28 ++++++++++------------------
 cwltool/workflow.py |  4 ++--
 3 files changed, 13 insertions(+), 21 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index e5044e1da..55aa5a16c 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -165,7 +165,7 @@ def main():
         if args.debug:
             _logger.exception("")
         return 1
-    except RuntimeError as e:
+    except (RuntimeError, workflow.WorkflowException) as e:
         _logger.error(e)
         if args.debug:
             _logger.exception()
diff --git a/cwltool/process.py b/cwltool/process.py
index a537ec38f..ddc92a880 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -51,8 +51,7 @@ def __init__(self, toolpath_object, validateAs, docpath, do_validate=True, **kwa
         self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
 
-        #self.validate_requirements(self.tool, "requirements")
-        #self.validate_requirements(self.tool, "hints")
+        self.validate_hints(self.tool.get("hints", []), strict=kwargs.get("strict"))
 
         for t in self.tool.get("requirements", []):
             t["_docpath"] = docpath
@@ -106,22 +105,15 @@ def __init__(self, toolpath_object, validateAs, docpath, do_validate=True, **kwa
 
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
-    # def validate_requirements(self, tool, field):
-    #     for r in tool.get(field, []):
-    #         try:
-    #             if self.names.get_name(r["class"], "") is None:
-    #                 raise validate.ValidationException("Unknown requirement %s" % (r["class"]))
-    #             validate.validate_ex(self.names.get_name(r["class"], ""), r)
-    #             if "requirements" in r:
-    #                 self.validate_requirements(r, "requirements")
-    #             if "hints" in r:
-    #                 self.validate_requirements(r, "hints")
-    #         except validate.ValidationException as v:
-    #             err = "While validating %s %s\n%s" % (field, r["class"], validate.indent(str(v)))
-    #             if field == "hints":
-    #                 _logger.warn(err)
-    #             else:
-    #                 raise validate.ValidationException(err)
+    def validate_hints(self, hints, strict):
+        for r in hints:
+            try:
+                if self.names.get_name(r["class"], "") is not None:
+                    validate.validate_ex(self.names.get_name(r["class"], ""), r, strict=strict)
+                else:
+                    _logger.info(validate.ValidationException("Unknown hint %s" % (r["class"])))
+            except validate.ValidationException as v:
+                raise validate.ValidationException("Validating hint `%s`: %s" % (r["class"], str(v)))
 
     def get_requirement(self, feature):
         return get_feature(self, feature)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index b945a99ff..ccc4ec580 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -37,8 +37,8 @@ class DR(object):
             return draft2tool.ExpressionTool(toolpath_object, docpath, **kwargs)
         elif toolpath_object["class"] == "Workflow":
             return Workflow(toolpath_object, docpath, **kwargs)
-    else:
-        raise WorkflowException("Missing 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
+
+    raise WorkflowException("Missing or invalid 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
 
 def findfiles(wo, fn=[]):
     if isinstance(wo, dict):

From d7222fdc4db211d95d98eeacb76f91a05a2c4abd Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 24 Jun 2015 16:16:42 -0400
Subject: [PATCH 125/221] Support CreateFileRequirements linking input files
 into output directory.  Add test for CreateFileRequirements and
 secondaryFiles.

---
 cwltool/draft2tool.py | 4 ++--
 cwltool/job.py        | 7 +++++--
 2 files changed, 7 insertions(+), 4 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 24e4edc2e..8b818a570 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -117,7 +117,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                     if "secondaryFiles" in binding:
                         if "secondaryFiles" not in datum:
                             datum["secondaryFiles"] = []
-                        for sf in aslist(schema["secondaryFiles"]):
+                        for sf in aslist(binding["secondaryFiles"]):
                             if isinstance(sf, dict):
                                 sfpath = self.do_eval(sf, context=datum["path"])
                             else:
@@ -401,7 +401,7 @@ def collect_output(self, schema, builder, outdir):
                     if isinstance(sf, dict):
                         sfpath = builder.do_eval(sf, context=r["path"])
                     else:
-                        sfpath = {"path": substitute(r["path"], sf)}
+                        sfpath = {"path": substitute(r["path"], sf), "class": "File"}
                     if isinstance(sfpath, list):
                         r["secondaryFiles"].extend(sfpath)
                     else:
diff --git a/cwltool/job.py b/cwltool/job.py
index 00d58e8b2..a50b01d91 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -70,8 +70,11 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True)
         os.chdir(self.outdir)
 
         for t in self.generatefiles:
-            with open(os.path.join(self.outdir, t), "w") as f:
-                f.write(self.generatefiles[t])
+            if isinstance(self.generatefiles[t], dict):
+                os.symlink(self.generatefiles[t]["path"], os.path.join(self.outdir, t))
+            else:
+                with open(os.path.join(self.outdir, t), "w") as f:
+                    f.write(self.generatefiles[t])
 
         if self.stdin:
             stdin = open(self.stdin, "rb")

From ca37900ecb5e7f169e87b806885ac26a6b78995f Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 25 Jun 2015 23:28:45 -0400
Subject: [PATCH 126/221] Hopefully fixed setup.py to do the right thing to
 include schemas in the distribution.  Added separate cwl-runner package which
 installs cwltool entry point under "cwl-runner".

---
 README.rst            | 26 +++++++++++++++++---------
 cwl-runner/setup.py   | 30 ++++++++++++++++++++++++++++++
 cwltool/cwl-runner    |  1 -
 cwltool/draft2tool.py |  2 --
 cwltool/process.py    | 10 ++++------
 gittaggers.py         |  7 +++++--
 setup.py              | 17 +----------------
 7 files changed, 57 insertions(+), 36 deletions(-)
 create mode 100644 cwl-runner/setup.py
 delete mode 120000 cwltool/cwl-runner

diff --git a/README.rst b/README.rst
index 6a60be272..e0d3a588f 100644
--- a/README.rst
+++ b/README.rst
@@ -2,8 +2,17 @@
 Common workflow language tool description reference implementation
 ==================================================================
 
-This is intended to be a lightweight reference implementation of the common
-workflow language tool description.
+This is the reference implementation of the Common Workflow Language.  It is
+intended to be feature complete and provide comprehensive validation of CWL
+files as well as provide other tools related to working with CWL.
+
+This is written and tested for Python 2.7.
+
+There are two packages.  The "cwltool" package is the primary Python module
+containing the reference implementation.  The "cwl-runner" package is optional
+and provides an additional entry point under the alias "cwl-runner", which is
+the implementation-agnostic name for the default CWL interpreter installed on a
+host.
 
 Install
 -------
@@ -11,20 +20,19 @@ Install
 From source::
 
   git clone https://github.com/common-workflow-language/common-workflow-language.git
-  cd common-workflow-language/reference
-  easy_install .
-
-With pip::
+  cd common-workflow-language/reference && easy_install .
+  cd cwl-runner && easy_install .
 
-  pip install cwltool
+With pip (will install "cwltool" package as well)::
 
+  pip install cwl-runner
 
 Run on the command line
 -----------------------
 
-  ``cwltool [tool] [job]``
+  ``cwl-runner [tool] [job]``
 
-Use as a library
+Import as a module
 ----------------
 
 Add::
diff --git a/cwl-runner/setup.py b/cwl-runner/setup.py
new file mode 100644
index 000000000..6ae5af204
--- /dev/null
+++ b/cwl-runner/setup.py
@@ -0,0 +1,30 @@
+#!/usr/bin/env python
+
+import os
+import sys
+import setuptools.command.egg_info as egg_info_cmd
+import shutil
+
+from setuptools import setup, find_packages
+
+SETUP_DIR = os.path.dirname(__file__)
+
+
+
+setup(name='cwl_runner',
+      version='1.0',
+      description='Common workflow language reference implementation',
+      long_description="""This provides an alternate entry point to 'cwltool' allowing 'cwl-runner' to be used as an implementation-agnostic script interpreter via #!/usr/bin/env cwl-runner.""",
+      author='Common workflow language working group',
+      author_email='common-workflow-language@googlegroups.com',
+      url="https://github.com/common-workflow-language/common-workflow-language",
+      download_url="https://github.com/common-workflow-language/common-workflow-language",
+      license='Apache 2.0',
+      install_requires=[
+          'cwltool'
+        ],
+      entry_points={
+          'console_scripts': [ "cwl-runner=cwltool.main:main" ]
+      },
+      zip_safe=True
+)
diff --git a/cwltool/cwl-runner b/cwltool/cwl-runner
deleted file mode 120000
index 11a5d8e18..000000000
--- a/cwltool/cwl-runner
+++ /dev/null
@@ -1 +0,0 @@
-main.py
\ No newline at end of file
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 85969654d..b63666d63 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -25,8 +25,6 @@
 
 CONTENT_LIMIT = 64 * 1024
 
-module_dir = os.path.dirname(os.path.abspath(__file__))
-
 supportedProcessRequirements = ("DockerRequirement",
                                 "ExpressionEngineRequirement",
                                 "SchemaDefRequirement",
diff --git a/cwltool/process.py b/cwltool/process.py
index ddc92a880..e27ff2093 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -11,8 +11,7 @@
 import avro_ld.schema
 import urlparse
 import pprint
-
-module_dir = os.path.dirname(os.path.abspath(__file__))
+from pkg_resources import resource_stream
 
 _logger = logging.getLogger("cwltool")
 
@@ -20,10 +19,9 @@ class WorkflowException(Exception):
     pass
 
 def get_schema():
-    cwl_avsc = os.path.join(module_dir, 'schemas/draft-2/cwl-avro.yml')
-    with open(cwl_avsc) as f:
-        j = yaml.load(f)
-        return (j, avro_ld.schema.schema(j))
+    f = resource_stream(__name__, 'schemas/draft-2/cwl-avro.yml')
+    j = yaml.load(f)
+    return (j, avro_ld.schema.schema(j))
 
 def get_feature(self, feature):
     for t in reversed(self.requirements):
diff --git a/gittaggers.py b/gittaggers.py
index 55c3c2af3..05ce12308 100644
--- a/gittaggers.py
+++ b/gittaggers.py
@@ -11,10 +11,13 @@ class EggInfoFromGit(egg_info):
     def git_timestamp_tag(self):
         gitinfo = subprocess.check_output(
             ['git', 'log', '--first-parent', '--max-count=1',
-             '--format=format:%ct']).strip()
+             '--format=format:%ct', '.']).strip()
         return time.strftime('.%Y%m%d%H%M%S', time.gmtime(int(gitinfo)))
 
     def tags(self):
         if self.tag_build is None:
-            self.tag_build = self.git_timestamp_tag()
+            try:
+                self.tag_build = self.git_timestamp_tag()
+            except subprocess.CalledProcessError:
+                pass
         return egg_info.tags(self)
diff --git a/setup.py b/setup.py
index c2d34e6dd..cc128dd2f 100644
--- a/setup.py
+++ b/setup.py
@@ -16,16 +16,6 @@
 except ImportError:
     tagger = egg_info_cmd.egg_info
 
-# Remove the symlink and copy the schemas directory.
-# This is a total hack, but older versions of setuptools
-# won't follow symlinks or follow relative paths outside the
-# source directory (ugh!)
-restore = False
-if os.path.islink("cwltool/schemas") and os.path.exists("../schemas"):
-    os.unlink("cwltool/schemas")
-    shutil.copytree("../schemas", "cwltool/schemas")
-    restore = True
-
 setup(name='cwltool',
       version='1.0',
       description='Common workflow language reference implementation',
@@ -50,11 +40,6 @@
       entry_points={
           'console_scripts': [ "cwltool=cwltool.main:main" ]
       },
-      zip_safe=False,
+      zip_safe=True,
       cmdclass={'egg_info': tagger},
 )
-
-if restore:
-    # Restore the symlink
-    shutil.rmtree("cwltool/schemas")
-    os.symlink("../../schemas", "cwltool/schemas")

From 40207ddcf532f0578d1c07c99b648d74c89dba68 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 25 Jun 2015 23:50:15 -0400
Subject: [PATCH 127/221] Add a README for cwl-runner package.

---
 README.rst          | 12 +++++++-----
 cwl-runner/README   |  4 ++++
 cwl-runner/setup.py |  5 ++---
 3 files changed, 13 insertions(+), 8 deletions(-)
 create mode 100644 cwl-runner/README

diff --git a/README.rst b/README.rst
index e0d3a588f..b122a2612 100644
--- a/README.rst
+++ b/README.rst
@@ -8,11 +8,13 @@ files as well as provide other tools related to working with CWL.
 
 This is written and tested for Python 2.7.
 
-There are two packages.  The "cwltool" package is the primary Python module
-containing the reference implementation.  The "cwl-runner" package is optional
-and provides an additional entry point under the alias "cwl-runner", which is
-the implementation-agnostic name for the default CWL interpreter installed on a
-host.
+The reference implementation consists of two packages.  The "cwltool" package
+is the primary Python module containing the reference implementation in the
+"cwltool" module and console executable by the same name.
+
+The "cwl-runner" package is optional and provides an additional entry point
+under the alias "cwl-runner", which is the implementation-agnostic name for the
+default CWL interpreter installed on a host.
 
 Install
 -------
diff --git a/cwl-runner/README b/cwl-runner/README
new file mode 100644
index 000000000..324751be2
--- /dev/null
+++ b/cwl-runner/README
@@ -0,0 +1,4 @@
+This an optional companion package to "cwltool" which provides provides an
+additional entry point under the alias "cwl-runner", which is the
+implementation-agnostic name for the default CWL interpreter installed on a
+host.
diff --git a/cwl-runner/setup.py b/cwl-runner/setup.py
index 6ae5af204..8196600dd 100644
--- a/cwl-runner/setup.py
+++ b/cwl-runner/setup.py
@@ -8,13 +8,12 @@
 from setuptools import setup, find_packages
 
 SETUP_DIR = os.path.dirname(__file__)
-
-
+README = os.path.join(SETUP_DIR, 'README.rst')
 
 setup(name='cwl_runner',
       version='1.0',
       description='Common workflow language reference implementation',
-      long_description="""This provides an alternate entry point to 'cwltool' allowing 'cwl-runner' to be used as an implementation-agnostic script interpreter via #!/usr/bin/env cwl-runner.""",
+      long_description=open(README).read(),
       author='Common workflow language working group',
       author_email='common-workflow-language@googlegroups.com',
       url="https://github.com/common-workflow-language/common-workflow-language",

From 4cb42da2da90b9ea7e27dda99c7e4ccb3b85909e Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 25 Jun 2015 23:54:17 -0400
Subject: [PATCH 128/221] Fix README

---
 cwl-runner/setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwl-runner/setup.py b/cwl-runner/setup.py
index 8196600dd..d2bcd0b7c 100644
--- a/cwl-runner/setup.py
+++ b/cwl-runner/setup.py
@@ -8,7 +8,7 @@
 from setuptools import setup, find_packages
 
 SETUP_DIR = os.path.dirname(__file__)
-README = os.path.join(SETUP_DIR, 'README.rst')
+README = os.path.join(SETUP_DIR, 'README')
 
 setup(name='cwl_runner',
       version='1.0',

From b3ff4ed354f0e53a593de0d90c8374042ef3a4ca Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 26 Jun 2015 21:56:36 -0400
Subject: [PATCH 129/221] Remove wfdesc predicates and use only cwl predicates
 because CWL is no longer quite a perfect fit with the wfdesc ontology.  Add
 --print-dot to print a graphviz file renderable by "dot".  Remove "docpath"
 that was passed around to Process and its subclasses but never used
 (obsoleted by preprocessing step that adjusts all URIs to be absolute).

---
 cwltool/cwlrdf.py     | 80 +++++++++++++++++++++++++++++++++++++++++++
 cwltool/draft2tool.py |  9 +++--
 cwltool/main.py       | 21 ++++++------
 cwltool/process.py    | 10 +-----
 cwltool/workflow.py   | 27 +++++++--------
 5 files changed, 108 insertions(+), 39 deletions(-)
 create mode 100644 cwltool/cwlrdf.py

diff --git a/cwltool/cwlrdf.py b/cwltool/cwlrdf.py
new file mode 100644
index 000000000..02b42bf91
--- /dev/null
+++ b/cwltool/cwlrdf.py
@@ -0,0 +1,80 @@
+import json
+from rdflib import Graph, plugin
+from rdflib.serializer import Serializer
+
+def printrdf(workflow, wf, ctx, sr):
+    wf["@context"] = ctx
+    g = Graph().parse(data=json.dumps(wf), format='json-ld', location=workflow)
+    print(g.serialize(format=sr))
+
+def printdot(workflow, wf, ctx, sr):
+    wf["@context"] = ctx
+    g = Graph().parse(data=json.dumps(wf), format='json-ld', location=workflow)
+
+    print "digraph {"
+
+    #g.namespace_manager.qname(predicate)
+
+    def lastpart(uri):
+        uri = str(uri)
+        if "/" in uri:
+            return uri[uri.rindex("/")+1:]
+        else:
+            return uri
+
+    qres = g.query(
+        """SELECT ?step ?run
+           WHERE {
+              ?step cwl:run ?run .
+           }""")
+
+    for step, run in qres:
+        print '"%s" [label="%s"]' % (lastpart(step), "%s (%s)" % (lastpart(step), lastpart(run)))
+
+    qres = g.query(
+        """SELECT ?step ?inp ?source
+           WHERE {
+              ?wf cwl:steps ?step .
+              ?step cwl:inputs ?inp .
+              ?inp cwl:source ?source .
+           }""")
+
+    for step, inp, source in qres:
+        print '"%s" [shape=box]' % (lastpart(inp))
+        print '"%s" -> "%s" [label="%s"]' % (lastpart(source), lastpart(inp), "")
+        print '"%s" -> "%s" [label="%s"]' % (lastpart(inp), lastpart(step), "")
+
+    qres = g.query(
+        """SELECT ?step ?out
+           WHERE {
+              ?wf cwl:steps ?step .
+              ?step cwl:outputs ?out .
+           }""")
+
+    for step, out in qres:
+        print '"%s" [shape=box]' % (lastpart(out))
+        print '"%s" -> "%s" [label="%s"]' % (lastpart(step), lastpart(out), "")
+
+    qres = g.query(
+        """SELECT ?out ?source
+           WHERE {
+              ?wf cwl:outputs ?out .
+              ?out cwl:source ?source .
+           }""")
+
+    for out, source in qres:
+        print '"%s" [shape=octagon]' % (lastpart(out))
+        print '"%s" -> "%s" [label="%s"]' % (lastpart(source), lastpart(out), "")
+
+    qres = g.query(
+        """SELECT ?inp
+           WHERE {
+              ?wf rdf:type cwl:Workflow .
+              ?wf cwl:inputs ?inp .
+           }""")
+
+    for (inp,) in qres:
+        print '"%s" [shape=octagon]' % (lastpart(inp))
+
+
+    print "}"
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index b63666d63..53dd66954 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -200,7 +200,6 @@ def _init_job(self, joborder, input_basedir, **kwargs):
         builder.files = []
         builder.bindings = []
         builder.schemaDefs = self.schemaDefs
-        builder.docpath = self.docpath
         builder.names = self.names
         builder.requirements = self.requirements
 
@@ -218,8 +217,8 @@ def _init_job(self, joborder, input_basedir, **kwargs):
 
 
 class ExpressionTool(Tool):
-    def __init__(self, toolpath_object, docpath, **kwargs):
-        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", docpath, **kwargs)
+    def __init__(self, toolpath_object, **kwargs):
+        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", **kwargs)
 
     class ExpressionJob(object):
         def run(self, **kwargs):
@@ -243,8 +242,8 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         yield j
 
 class CommandLineTool(Tool):
-    def __init__(self, toolpath_object, docpath, **kwargs):
-        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", docpath, **kwargs)
+    def __init__(self, toolpath_object, **kwargs):
+        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", **kwargs)
 
     def job(self, joborder, input_basedir, output_callback, **kwargs):
         builder = self._init_job(joborder, input_basedir, **kwargs)
diff --git a/cwltool/main.py b/cwltool/main.py
index 55aa5a16c..ced484804 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -15,17 +15,11 @@
 import yaml
 import urlparse
 import process
+from cwlrdf import printrdf, printdot
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
 
-def printrdf(workflow, wf, ctx, sr):
-    from rdflib import Graph, plugin
-    from rdflib.serializer import Serializer
-    wf["@context"] = ctx
-    g = Graph().parse(data=json.dumps(wf), format='json-ld', location=workflow)
-    print(g.serialize(format=sr))
-
 def main():
     parser = argparse.ArgumentParser()
     parser.add_argument("workflow", type=str, nargs="?", default=None)
@@ -80,6 +74,7 @@ def main():
     parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file and exit")
     parser.add_argument("--print-avro", action="store_true", help="Print Avro schema and exit")
     parser.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing and exit")
+    parser.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
     parser.add_argument("--strict", action="store_true", help="Strict validation (error on unrecognized fields)")
 
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
@@ -122,8 +117,9 @@ def main():
         return 0
 
     if not args.workflow:
-        _logger.error("CWL document required")
         parser.print_help()
+        _logger.error("")
+        _logger.error("CWL document required")
         return 1
 
     idx = {}
@@ -159,7 +155,7 @@ def main():
         processobj = loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
 
     try:
-        t = workflow.makeTool(processobj, input_basedir, strict=args.strict)
+        t = workflow.makeTool(processobj, strict=args.strict)
     except (avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
@@ -175,9 +171,14 @@ def main():
         printrdf(args.workflow, processobj, ctx, args.rdf_serializer)
         return 0
 
+    if args.print_dot:
+        printdot(args.workflow, processobj, ctx, args.rdf_serializer)
+        return 0
+
     if not args.job_order:
+        parser.print_help()
+        _logger.error("")
         _logger.error("Input object required")
-        _logger.error("Use --help for command line options")
         return 1
 
     try:
diff --git a/cwltool/process.py b/cwltool/process.py
index e27ff2093..4ef8474fe 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -33,10 +33,8 @@ def get_feature(self, feature):
     return (None, None)
 
 class Process(object):
-    def __init__(self, toolpath_object, validateAs, docpath, do_validate=True, **kwargs):
+    def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         (_, self.names) = get_schema()
-        self.docpath = docpath
-
         self.tool = toolpath_object
 
         if do_validate:
@@ -51,12 +49,6 @@ def __init__(self, toolpath_object, validateAs, docpath, do_validate=True, **kwa
 
         self.validate_hints(self.tool.get("hints", []), strict=kwargs.get("strict"))
 
-        for t in self.tool.get("requirements", []):
-            t["_docpath"] = docpath
-
-        for t in self.tool.get("hints", []):
-            t["_docpath"] = docpath
-
         self.schemaDefs = {}
 
         sd, _ = self.get_requirement("SchemaDefRequirement")
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index ccc4ec580..a0362069d 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -19,9 +19,7 @@
 
 WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
 
-def makeTool(toolpath_object, docpath, **kwargs):
-    """docpath is the directory the tool file is located."""
-
+def makeTool(toolpath_object, **kwargs):
     class DR(object):
         pass
     dr = DR()
@@ -29,14 +27,14 @@ class DR(object):
     dr.hints = kwargs.get("hints", [])
 
     if "run" in toolpath_object:
-        return WorkflowStep(toolpath_object, docpath, **kwargs)
+        return WorkflowStep(toolpath_object, **kwargs)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
-            return draft2tool.CommandLineTool(toolpath_object, docpath, **kwargs)
+            return draft2tool.CommandLineTool(toolpath_object, **kwargs)
         elif toolpath_object["class"] == "ExpressionTool":
-            return draft2tool.ExpressionTool(toolpath_object, docpath, **kwargs)
+            return draft2tool.ExpressionTool(toolpath_object, **kwargs)
         elif toolpath_object["class"] == "Workflow":
-            return Workflow(toolpath_object, docpath, **kwargs)
+            return Workflow(toolpath_object, **kwargs)
 
     raise WorkflowException("Missing or invalid 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
 
@@ -54,13 +52,13 @@ def findfiles(wo, fn=[]):
     return fn
 
 class Workflow(Process):
-    def __init__(self, toolpath_object, docpath, **kwargs):
-        super(Workflow, self).__init__(toolpath_object, "Workflow", docpath, **kwargs)
+    def __init__(self, toolpath_object, **kwargs):
+        super(Workflow, self).__init__(toolpath_object, "Workflow", **kwargs)
 
         kwargs["requirements"] = self.requirements
         kwargs["hints"] = self.hints
 
-        self.steps = [makeTool(step, docpath, **kwargs) for step in self.tool.get("steps", [])]
+        self.steps = [makeTool(step, **kwargs) for step in self.tool.get("steps", [])]
 
     def receive_output(self, step, outputparms, jobout, processStatus):
         _logger.debug("WorkflowStep completed with %s", jobout)
@@ -279,12 +277,11 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         output_callback(wo, self.processStatus)
 
 class WorkflowStep(Process):
-    def __init__(self, toolpath_object, docpath, **kwargs):
+    def __init__(self, toolpath_object, **kwargs):
         try:
-            self.embedded_tool = makeTool(toolpath_object["run"], docpath, **kwargs)
+            self.embedded_tool = makeTool(toolpath_object["run"], **kwargs)
         except validate.ValidationException as v:
-            raise WorkflowException("Tool definition %s failed validation:\n%s" % (os.path.join(docpath, toolpath_object["run"]["id"]), validate.indent(str(v))))
-
+            raise WorkflowException("Tool definition %s failed validation:\n%s" % (toolpath_object["run"]["id"], validate.indent(str(v))))
 
         if "id" in toolpath_object:
             self.id = toolpath_object["id"]
@@ -306,7 +303,7 @@ def __init__(self, toolpath_object, docpath, **kwargs):
                     raise WorkflowException("Did not find %s parameter '%s' in workflow step" % (field, p))
                 i["id"] = inputid
 
-        super(WorkflowStep, self).__init__(toolpath_object, "Process", docpath, do_validate=False, **kwargs)
+        super(WorkflowStep, self).__init__(toolpath_object, "Process", do_validate=False, **kwargs)
 
         if self.embedded_tool.tool["class"] == "Workflow":
             (feature, _) = self.get_requirement("SubworkflowFeatureRequirement")

From 825b038fce0444a15a953404d8c65d329fa538c3 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 29 Jun 2015 17:13:16 -0400
Subject: [PATCH 130/221] Refactoring for Arvados support

---
 cwltool/draft2tool.py |  56 +++++++++++++------
 cwltool/job.py        |   4 +-
 cwltool/main.py       | 126 +++++++++++++++++++++++++-----------------
 cwltool/workflow.py   |  14 ++---
 4 files changed, 120 insertions(+), 80 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 53dd66954..5d165844c 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -205,11 +205,11 @@ def _init_job(self, joborder, input_basedir, **kwargs):
 
         dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and kwargs.get("use_container"):
-            builder.outdir = "/tmp/job_output"
-            builder.tmpdir = "/tmp/job_tmp"
+            builder.outdir = kwargs.get("docker_outdir") or "/tmp/job_output"
+            builder.tmpdir = kwargs.get("docker_tmpdir") or "/tmp/job_tmp"
         else:
-            builder.outdir = kwargs.get("outdir", tempfile.mkdtemp())
-            builder.tmpdir = tempfile.mkdtemp()
+            builder.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
+            builder.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
 
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
 
@@ -245,6 +245,17 @@ class CommandLineTool(Tool):
     def __init__(self, toolpath_object, **kwargs):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", **kwargs)
 
+    def makeJobRunner(self):
+        return CommandLineJob()
+
+    def makePathMapper(self, reffiles, input_basedir, **kwargs):
+        dockerReq, _ = self.get_requirement("DockerRequirement")
+        if dockerReq and kwargs.get("use_container"):
+            return DockerPathMapper(reffiles, input_basedir)
+        else:
+            return PathMapper(reffiles, input_basedir)
+
+
     def job(self, joborder, input_basedir, output_callback, **kwargs):
         builder = self._init_job(joborder, input_basedir, **kwargs)
 
@@ -276,7 +287,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         reffiles = [f["path"] for f in builder.files]
 
-        j = CommandLineJob()
+        j = self.makeJobRunner()
         j.joborder = builder.job
         j.stdin = None
         j.stdout = None
@@ -299,18 +310,16 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             if os.path.isabs(j.stdout):
                 raise validate.ValidationException("stdout must be a relative path")
 
+        builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
+
         dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and kwargs.get("use_container"):
-            builder.pathmapper = DockerPathMapper(reffiles, input_basedir)
-            j.outdir = kwargs.get("outdir", tempfile.mkdtemp())
-            j.tmpdir = tempfile.mkdtemp()
+            j.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
+            j.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
         else:
             j.outdir = builder.outdir
             j.tmpdir = builder.tmpdir
 
-        if builder.pathmapper is None:
-            builder.pathmapper = PathMapper(reffiles, input_basedir)
-
         for f in builder.files:
             f["path"] = builder.pathmapper.mapper(f["path"])[1]
 
@@ -342,10 +351,23 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         yield j
 
-    def collect_output_ports(self, ports, builder, outdir):
+    class DefaultFsAccess(object):
+        def glob(self, pattern):
+            return glob.glob(pattern)
+
+        def open(self, fn, mode):
+            return open(fn, mode)
+
+        def exists(self, fn):
+            return os.path.exists(fn)
+
+    def collect_output_ports(self, ports, builder, outdir, fs_access=None):
         try:
+            if fs_access is None:
+                fs_access = CommandLineTool.DefaultFsAccess()
+
             custom_output = os.path.join(outdir, "cwl.output.json")
-            if os.path.exists(custom_output):
+            if fs_access.exists(custom_output):
                 outputdoc = yaml.load(custom_output)
                 validate.validate_ex(self.names.get_name("outputs_record_schema", ""), outputdoc)
                 return outputdoc
@@ -353,13 +375,13 @@ def collect_output_ports(self, ports, builder, outdir):
             ret = {}
             for port in ports:
                 doc_url, fragment = urlparse.urldefrag(port['id'])
-                ret[fragment] = self.collect_output(port, builder, outdir)
+                ret[fragment] = self.collect_output(port, builder, outdir, fs_access=fs_access)
             validate.validate_ex(self.names.get_name("outputs_record_schema", ""), ret)
             return ret if ret is not None else {}
         except validate.ValidationException as e:
             raise WorkflowException("Error validating output record, " + str(e) + "\n in " + json.dumps(ret, indent=4))
 
-    def collect_output(self, schema, builder, outdir):
+    def collect_output(self, schema, builder, outdir, fs_access=None):
         r = None
         if "outputBinding" in schema:
             binding = schema["outputBinding"]
@@ -367,10 +389,10 @@ def collect_output(self, schema, builder, outdir):
                 r = []
                 bg = builder.do_eval(binding["glob"])
                 for gb in aslist(bg):
-                    r.extend([{"path": g, "class": "File"} for g in glob.glob(os.path.join(outdir, gb))])
+                    r.extend([{"path": g, "class": "File"} for g in fs_access.glob(os.path.join(outdir, gb))])
                 for files in r:
                     checksum = hashlib.sha1()
-                    with open(files["path"], "rb") as f:
+                    with fs_access.open(files["path"], "rb") as f:
                         contents = f.read(CONTENT_LIMIT)
                         if binding.get("loadContents"):
                             files["contents"] = contents
diff --git a/cwltool/job.py b/cwltool/job.py
index a50b01d91..98ee2c946 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -14,7 +14,7 @@
 _logger = logging.getLogger("cwltool")
 
 class CommandLineJob(object):
-    def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True):
+    def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True, **kwargs):
 
         if not os.path.exists(self.outdir):
             os.makedirs(self.outdir)
@@ -31,7 +31,7 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True)
             if not os.path.exists(self.pathmapper.mapper(f)[0]):
                 raise WorkflowException("Required input file %s not found" % self.pathmapper.mapper(f)[0])
 
-        if docker_req:
+        if docker_req and kwargs.get("use_container") is not False:
             img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             runtime = ["docker", "run", "-i"]
             for d in self.pathmapper.dirs:
diff --git a/cwltool/main.py b/cwltool/main.py
index ced484804..7387278c8 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -15,12 +15,13 @@
 import yaml
 import urlparse
 import process
+import job
 from cwlrdf import printrdf, printdot
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
 
-def main():
+def arg_parser():
     parser = argparse.ArgumentParser()
     parser.add_argument("workflow", type=str, nargs="?", default=None)
     parser.add_argument("job_order", type=str, nargs="?", default=None)
@@ -45,7 +46,7 @@ def main():
                         dest="rm_tmpdir")
 
     parser.add_argument("--leave-tmpdir", action="store_false",
-                        default=True, help="Do not elete intermediate temporary directories",
+                        default=True, help="Do not delete intermediate temporary directories",
                         dest="rm_tmpdir")
 
     parser.add_argument("--move-outputs", action="store_true", default=True,
@@ -56,8 +57,11 @@ def main():
                         help="Leave output files in intermediate output directories.",
                         dest="move_outputs")
 
-    parser.add_argument("--no-pull", default=False, action="store_true",
-                        help="Do not try to pull Docker images")
+    parser.add_argument("--enable-pull", default=True, action="store_true",
+                        help="Try to pull Docker images", dest="enable_pull")
+
+    parser.add_argument("--disable-pull", default=True, action="store_false",
+                        help="Do not try to pull Docker images", dest="enable_pull")
 
     parser.add_argument("--dry-run", action="store_true",
                         help="Load and validate but do not execute")
@@ -80,7 +84,60 @@ def main():
     parser.add_argument("--verbose", action="store_true", help="Print more logging")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
 
-    args = parser.parse_args()
+    return parser
+
+def single_job_executor(t, job_order, input_basedir, **kwargs):
+    final_output = []
+
+    def output_callback(out, processStatus):
+        if processStatus == "success":
+            _logger.info("Overall job status is %s", processStatus)
+        else:
+            _logger.warn("Overall job status is %s", processStatus)
+        final_output.append(out)
+
+    if kwargs.get("outdir"):
+        pass
+    elif kwargs.get("dry_run"):
+        kwargs["outdir"] = "/tmp"
+    else:
+        kwargs["outdir"] = tempfile.mkdtemp()
+
+    _logger.info("Output directory is %s", kwargs["outdir"])
+
+    jobiter = t.job(job_order,
+                    input_basedir,
+                    output_callback,
+                    **kwargs)
+
+    if kwargs.get("conformance_test"):
+        job = jobiter.next()
+        a = {"args": job.command_line}
+        if job.stdin:
+            a["stdin"] = job.stdin
+        if job.stdout:
+            a["stdout"] = job.stdout
+        if job.generatefiles:
+            a["createfiles"] = job.generatefiles
+        return a
+    else:
+        for r in jobiter:
+            if r:
+                r.run(**kwargs)
+            else:
+                raise workflow.WorkflowException("Workflow deadlocked.")
+
+        return final_output[0]
+
+
+def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
+    if args is None:
+        args = sys.argv[1:]
+
+    if parser is None:
+        parser = arg_parser()
+
+    args = parser.parse_args(args)
 
     if args.verbose:
         logging.getLogger("cwltool").setLevel(logging.INFO)
@@ -131,9 +188,6 @@ def main():
             _logger.exception("")
         return 1
 
-    #_logger.warn(url_fields)
-    #_logger.warn(json.dumps(loader.idx, indent=4))
-
     if args.print_pre:
         print json.dumps(processobj, indent=4)
         return 0
@@ -155,7 +209,7 @@ def main():
         processobj = loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
 
     try:
-        t = workflow.makeTool(processobj, strict=args.strict)
+        t = makeTool(processobj, strict=args.strict, makeTool=makeTool)
     except (avro_ld.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
@@ -182,47 +236,17 @@ def main():
         return 1
 
     try:
-        final_output = []
-        def output_callback(out, processStatus):
-            if processStatus == "success":
-                _logger.info("Overall job status is %s", processStatus)
-            else:
-                _logger.warn("Overall job status is %s", processStatus)
-            final_output.append(out)
-
-        if args.dry_run:
-            outdir = "/tmp"
-        elif args.outdir:
-            outdir = args.outdir
-        else:
-            outdir = tempfile.mkdtemp()
-        jobiter = t.job(loader.resolve_ref(args.job_order),
-                        input_basedir,
-                        output_callback,
-                        use_container=args.use_container,
-                        outdir=outdir)
-        if args.conformance_test:
-            job = jobiter.next()
-            a = {"args": job.command_line}
-            if job.stdin:
-                a["stdin"] = job.stdin
-            if job.stdout:
-                a["stdout"] = job.stdout
-            if job.generatefiles:
-                a["createfiles"] = job.generatefiles
-            print json.dumps(a)
-        else:
-            last = None
-            for r in jobiter:
-                if r:
-                    r.run(dry_run=args.dry_run, pull_image=(not args.no_pull), rm_container=args.rm_container, rm_tmpdir=args.rm_tmpdir)
-                else:
-                    print "Workflow deadlocked."
-                    return 1
-                last = r
-
-            _logger.info("Output directory is %s", outdir)
-            print json.dumps(final_output[0], indent=4)
+        out = executor(t, loader.resolve_ref(args.job_order),
+                       input_basedir,
+                       conformance_test=args.conformance_test,
+                       dry_run=args.dry_run,
+                       outdir=args.outdir,
+                       use_container=args.use_container,
+                       pull_image=args.enable_pull,
+                       rm_container=args.rm_container,
+                       rm_tmpdir=args.rm_tmpdir,
+                       makeTool=makeTool)
+        print json.dumps(out, indent=4)
     except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s" % e)
         if args.debug:
@@ -237,4 +261,4 @@ def output_callback(out, processStatus):
     return 0
 
 if __name__ == "__main__":
-    sys.exit(main())
+    sys.exit(main(sys.argv[1:]))
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index a0362069d..c86527ec6 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -19,15 +19,7 @@
 
 WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
 
-def makeTool(toolpath_object, **kwargs):
-    class DR(object):
-        pass
-    dr = DR()
-    dr.requirements = kwargs.get("requirements", [])
-    dr.hints = kwargs.get("hints", [])
-
-    if "run" in toolpath_object:
-        return WorkflowStep(toolpath_object, **kwargs)
+def defaultMakeTool(toolpath_object, **kwargs):
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
             return draft2tool.CommandLineTool(toolpath_object, **kwargs)
@@ -58,7 +50,8 @@ def __init__(self, toolpath_object, **kwargs):
         kwargs["requirements"] = self.requirements
         kwargs["hints"] = self.hints
 
-        self.steps = [makeTool(step, **kwargs) for step in self.tool.get("steps", [])]
+        makeTool = kwargs.get("makeTool")
+        self.steps = [WorkflowStep(step, **kwargs) for step in self.tool.get("steps", [])]
 
     def receive_output(self, step, outputparms, jobout, processStatus):
         _logger.debug("WorkflowStep completed with %s", jobout)
@@ -279,6 +272,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
 class WorkflowStep(Process):
     def __init__(self, toolpath_object, **kwargs):
         try:
+            makeTool = kwargs.get("makeTool")
             self.embedded_tool = makeTool(toolpath_object["run"], **kwargs)
         except validate.ValidationException as v:
             raise WorkflowException("Tool definition %s failed validation:\n%s" % (toolpath_object["run"]["id"], validate.indent(str(v))))

From 048f76455e8ff560c256431696bb147ecc8e752a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 30 Jun 2015 13:50:33 -0400
Subject: [PATCH 131/221] Conformance test add compare function with special
 handling for files.  Use fs_access for loadContents of input files. 
 job.stdin needs pathmapper.

---
 cwltool/draft2tool.py | 48 +++++++++++++++++++++++--------------------
 cwltool/job.py        | 11 +++++++---
 cwltool/main.py       |  2 +-
 3 files changed, 35 insertions(+), 26 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 5d165844c..61ba1de2d 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -25,13 +25,13 @@
 
 CONTENT_LIMIT = 64 * 1024
 
-supportedProcessRequirements = ("DockerRequirement",
+supportedProcessRequirements = ["DockerRequirement",
                                 "ExpressionEngineRequirement",
                                 "SchemaDefRequirement",
                                 "EnvVarRequirement",
                                 "CreateFileRequirement",
                                 "ScatterFeatureRequirement",
-                                "SubworkflowFeatureRequirement")
+                                "SubworkflowFeatureRequirement"]
 
 def substitute(value, replace):
     if replace[0] == "^":
@@ -109,7 +109,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                 self.files.append(datum)
                 if binding:
                     if binding.get("loadContents"):
-                        with open(os.path.join(self.input_basedir, datum["path"]), "rb") as f:
+                        with self.fs_access.open(datum["path"], "rb") as f:
                             datum["contents"] = f.read(CONTENT_LIMIT)
 
                     if "secondaryFiles" in binding:
@@ -196,7 +196,6 @@ def _init_job(self, joborder, input_basedir, **kwargs):
             if r["class"] not in supportedProcessRequirements:
                 raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
 
-        builder.input_basedir = input_basedir
         builder.files = []
         builder.bindings = []
         builder.schemaDefs = self.schemaDefs
@@ -211,6 +210,8 @@ def _init_job(self, joborder, input_basedir, **kwargs):
             builder.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
             builder.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
 
+        builder.fs_access = kwargs.get("fs_access") or CommandLineTool.DefaultFsAccess(input_basedir)
+
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
 
         return builder
@@ -285,7 +286,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         builder.bindings.sort(key=lambda a: a["position"])
 
-        reffiles = [f["path"] for f in builder.files]
+        reffiles = set((f["path"] for f in builder.files))
 
         j = self.makeJobRunner()
         j.joborder = builder.job
@@ -303,11 +304,11 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             j.stdin = builder.do_eval(self.tool["stdin"])
             if isinstance(j.stdin, dict) and "ref" in j.stdin:
                 j.stdin = builder.job[j.stdin["ref"][1:]]["path"]
-            reffiles.append(j.stdin)
+            reffiles.add(j.stdin)
 
         if self.tool.get("stdout"):
             j.stdout = builder.do_eval(self.tool["stdout"])
-            if os.path.isabs(j.stdout):
+            if os.path.isabs(j.stdout) or ".." in j.stdout:
                 raise validate.ValidationException("stdout must be a relative path")
 
         builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
@@ -342,9 +343,6 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
-        if j.stdin:
-            j.stdin = j.stdin if os.path.isabs(j.stdin) else os.path.join(input_basedir, j.stdin)
-
         j.pathmapper = builder.pathmapper
         j.collect_outputs = functools.partial(self.collect_output_ports, self.tool["outputs"], builder)
         j.output_callback = output_callback
@@ -352,22 +350,28 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         yield j
 
     class DefaultFsAccess(object):
+        def __init__(self, basedir):
+            self.basedir = basedir
+
+        def _abs(self, p):
+            if os.path.isabs(p):
+                return p
+            else:
+                return os.path.join(self.basedir, p)
+
         def glob(self, pattern):
-            return glob.glob(pattern)
+            return glob.glob(self._abs(pattern))
 
         def open(self, fn, mode):
-            return open(fn, mode)
+            return open(self._abs(fn), mode)
 
         def exists(self, fn):
-            return os.path.exists(fn)
+            return os.path.exists(self._abs(fn))
 
-    def collect_output_ports(self, ports, builder, outdir, fs_access=None):
+    def collect_output_ports(self, ports, builder, outdir):
         try:
-            if fs_access is None:
-                fs_access = CommandLineTool.DefaultFsAccess()
-
             custom_output = os.path.join(outdir, "cwl.output.json")
-            if fs_access.exists(custom_output):
+            if builder.fs_access.exists(custom_output):
                 outputdoc = yaml.load(custom_output)
                 validate.validate_ex(self.names.get_name("outputs_record_schema", ""), outputdoc)
                 return outputdoc
@@ -375,13 +379,13 @@ def collect_output_ports(self, ports, builder, outdir, fs_access=None):
             ret = {}
             for port in ports:
                 doc_url, fragment = urlparse.urldefrag(port['id'])
-                ret[fragment] = self.collect_output(port, builder, outdir, fs_access=fs_access)
+                ret[fragment] = self.collect_output(port, builder, outdir)
             validate.validate_ex(self.names.get_name("outputs_record_schema", ""), ret)
             return ret if ret is not None else {}
         except validate.ValidationException as e:
             raise WorkflowException("Error validating output record, " + str(e) + "\n in " + json.dumps(ret, indent=4))
 
-    def collect_output(self, schema, builder, outdir, fs_access=None):
+    def collect_output(self, schema, builder, outdir):
         r = None
         if "outputBinding" in schema:
             binding = schema["outputBinding"]
@@ -389,10 +393,10 @@ def collect_output(self, schema, builder, outdir, fs_access=None):
                 r = []
                 bg = builder.do_eval(binding["glob"])
                 for gb in aslist(bg):
-                    r.extend([{"path": g, "class": "File"} for g in fs_access.glob(os.path.join(outdir, gb))])
+                    r.extend([{"path": g, "class": "File"} for g in builder.fs_access.glob(os.path.join(outdir, gb))])
                 for files in r:
                     checksum = hashlib.sha1()
-                    with fs_access.open(files["path"], "rb") as f:
+                    with builder.fs_access.open(files["path"], "rb") as f:
                         contents = f.read(CONTENT_LIMIT)
                         if binding.get("loadContents"):
                             files["contents"] = contents
diff --git a/cwltool/job.py b/cwltool/job.py
index 98ee2c946..561087bab 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -77,7 +77,7 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
                     f.write(self.generatefiles[t])
 
         if self.stdin:
-            stdin = open(self.stdin, "rb")
+            stdin = open(self.pathmapper.mapper(self.stdin)[0], "rb")
         else:
             stdin = subprocess.PIPE
 
@@ -108,8 +108,6 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         if stdout is not sys.stderr:
             stdout.close()
 
-        outputs = self.collect_outputs(self.outdir)
-
         if self.successCodes and rcode in self.successCodes:
             processStatus = "success"
         elif self.temporaryFailCodes and rcode in self.temporaryFailCodes:
@@ -121,6 +119,13 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         else:
             processStatus = "permanentFail"
 
+        try:
+            outputs = {}
+            outputs = self.collect_outputs(self.outdir)
+        except Exception as e:
+            logger.warn(str(e))
+            processStatus = "permanentFail"
+
         self.output_callback(outputs, processStatus)
 
         if rm_tmpdir:
diff --git a/cwltool/main.py b/cwltool/main.py
index 7387278c8..fdf4cb8ec 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -114,7 +114,7 @@ def output_callback(out, processStatus):
         job = jobiter.next()
         a = {"args": job.command_line}
         if job.stdin:
-            a["stdin"] = job.stdin
+            a["stdin"] = job.pathmapper.mapper(job.stdin)[1]
         if job.stdout:
             a["stdout"] = job.stdout
         if job.generatefiles:

From 2b1b5d1ce6ad98ea7624a9c3c7e3e403b3fc4b36 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 30 Jun 2015 22:24:45 -0400
Subject: [PATCH 132/221] DefaultFsAccess renamed to StdFsAccess

---
 cwltool/draft2tool.py | 42 ++++++++++++++++++++++--------------------
 1 file changed, 22 insertions(+), 20 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 61ba1de2d..bef3edc14 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -210,7 +210,7 @@ def _init_job(self, joborder, input_basedir, **kwargs):
             builder.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
             builder.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
 
-        builder.fs_access = kwargs.get("fs_access") or CommandLineTool.DefaultFsAccess(input_basedir)
+        builder.fs_access = kwargs.get("fs_access") or StdFsAccess(input_basedir)
 
         builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
 
@@ -242,6 +242,27 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         yield j
 
+
+class StdFsAccess(object):
+    def __init__(self, basedir):
+        self.basedir = basedir
+
+    def _abs(self, p):
+        if os.path.isabs(p):
+            return p
+        else:
+            return os.path.join(self.basedir, p)
+
+    def glob(self, pattern):
+        return glob.glob(self._abs(pattern))
+
+    def open(self, fn, mode):
+        return open(self._abs(fn), mode)
+
+    def exists(self, fn):
+        return os.path.exists(self._abs(fn))
+
+
 class CommandLineTool(Tool):
     def __init__(self, toolpath_object, **kwargs):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", **kwargs)
@@ -349,25 +370,6 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         yield j
 
-    class DefaultFsAccess(object):
-        def __init__(self, basedir):
-            self.basedir = basedir
-
-        def _abs(self, p):
-            if os.path.isabs(p):
-                return p
-            else:
-                return os.path.join(self.basedir, p)
-
-        def glob(self, pattern):
-            return glob.glob(self._abs(pattern))
-
-        def open(self, fn, mode):
-            return open(self._abs(fn), mode)
-
-        def exists(self, fn):
-            return os.path.exists(self._abs(fn))
-
     def collect_output_ports(self, ports, builder, outdir):
         try:
             custom_output = os.path.join(outdir, "cwl.output.json")

From 428a4baba5f03cba35961728a5df6b4aa265ae5b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 30 Jun 2015 22:51:24 -0400
Subject: [PATCH 133/221] Correctly yield 'None' from Workflow when there's
 nothing ready to run.

---
 cwltool/workflow.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index c86527ec6..5f9631040 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -227,7 +227,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                         if newjob:
                             made_progress = True
                             actual_jobs.append(newjob)
-                            yield newjob
+                        yield newjob
             if not made_progress and completed < len(self.steps):
                 yield None
 
@@ -441,7 +441,8 @@ def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_c
             put += 1
         else:
             for j in flat_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], rc, put, **kwargs):
-                put += 1
+                if j:
+                    put += 1
                 yield j
 
     if startindex == 0 and not isinstance(output_callback, ReceiveScatterOutput):

From f8c81042395598f330e59ae12a9cee21b0ca03a0 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 1 Jul 2015 15:07:27 -0400
Subject: [PATCH 134/221] Fix chained callbacks so that yielding multiple
 runnable jobs works as intended.

---
 cwltool/main.py     |  4 ++--
 cwltool/workflow.py | 54 +++++++++++++++++++++------------------------
 2 files changed, 27 insertions(+), 31 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index fdf4cb8ec..6bbb0342d 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -86,7 +86,7 @@ def arg_parser():
 
     return parser
 
-def single_job_executor(t, job_order, input_basedir, **kwargs):
+def single_job_executor(t, job_order, input_basedir, args, **kwargs):
     final_output = []
 
     def output_callback(out, processStatus):
@@ -237,7 +237,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     try:
         out = executor(t, loader.resolve_ref(args.job_order),
-                       input_basedir,
+                       input_basedir, args,
                        conformance_test=args.conformance_test,
                        dry_run=args.dry_run,
                        outdir=args.outdir,
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 5f9631040..82750b67f 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -304,17 +304,17 @@ def __init__(self, toolpath_object, **kwargs):
             if not feature:
                 raise WorkflowException("Workflow contains embedded workflow but SubworkflowFeatureRequirement not declared")
 
-    def receive_output(self, jobout, processStatus):
+    def receive_output(self, output_callback, jobout, processStatus):
         _logger.debug("WorkflowStep output from run is %s", jobout)
-        self.output = {}
+        output = {}
         for i in self.tool["outputs"]:
             (_, d) = urlparse.urldefrag(i["id"])
             field = d.split(".")[-1]
             if field in jobout:
-                self.output[i["id"]] = jobout[field]
+                output[i["id"]] = jobout[field]
             else:
                 processStatus = "permanentFail"
-        self.processStatus = processStatus
+        output_callback(output, processStatus)
 
     def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["inputs"]:
@@ -327,21 +327,17 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
-        self.output = None
-        for t in self.embedded_tool.job(joborder, basedir, self.receive_output, **kwargs):
+        for t in self.embedded_tool.job(joborder, basedir, functools.partial(self.receive_output, output_callback), **kwargs):
             yield t
 
-        while self.output is None:
-            yield None
-
-        output_callback(self.output, self.processStatus)
-
 
 class ReceiveScatterOutput(object):
-    def __init__(self, dest):
+    def __init__(self, output_callback, dest):
         self.dest = dest
         self.completed = 0
         self.processStatus = "success"
+        self.total = None
+        self.output_callback = output_callback
 
     def receive_scatter_output(self, index, jobout, processStatus):
         for k,v in jobout.items():
@@ -353,6 +349,15 @@ def receive_scatter_output(self, index, jobout, processStatus):
 
         self.completed += 1
 
+        if self.completed == self.total:
+            self.output_callback(self.dest, self.processStatus)
+
+    def setTotal(self, total):
+        self.total = total
+        if self.completed == self.total:
+            self.output_callback(self.dest, self.processStatus)
+
+
 def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
     l = None
     for s in scatter_keys:
@@ -365,7 +370,7 @@ def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback
     for i in process.tool["outputs"]:
         output[i["id"]] = [None] * l
 
-    rc = ReceiveScatterOutput(output)
+    rc = ReceiveScatterOutput(output_callback, output)
 
     for n in range(0, l):
         jo = copy.copy(joborder)
@@ -375,10 +380,7 @@ def dotproduct_scatter(process, joborder, basedir, scatter_keys, output_callback
         for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, n), **kwargs):
             yield j
 
-    while rc.completed < l:
-        yield None
-
-    output_callback(output, rc.processStatus)
+    rc.setTotal(l)
 
 
 def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_callback, **kwargs):
@@ -388,7 +390,7 @@ def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output
     for i in process.tool["outputs"]:
         output[i["id"]] = [None] * l
 
-    rc = ReceiveScatterOutput(output)
+    rc = ReceiveScatterOutput(output_callback, output)
 
     for n in range(0, l):
         jo = copy.copy(joborder)
@@ -396,15 +398,13 @@ def nested_crossproduct_scatter(process, joborder, basedir, scatter_keys, output
 
         if len(scatter_keys) == 1:
             for j in process.job(jo, basedir, functools.partial(rc.receive_scatter_output, n), **kwargs):
-               yield j
+                yield j
         else:
             for j in nested_crossproduct_scatter(process, jo, basedir, scatter_keys[1:], functools.partial(rc.receive_scatter_output, n), **kwargs):
-               yield j
+                yield j
 
-    while rc.completed < l:
-        yield None
+    rc.setTotal(l)
 
-    output_callback(output, rc.processStatus)
 
 def crossproduct_size(joborder, scatter_keys):
     scatter_key = scatter_keys[0]
@@ -426,7 +426,7 @@ def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_c
         output = {}
         for i in process.tool["outputs"]:
             output[i["id"]] = [None] * crossproduct_size(joborder, scatter_keys)
-        rc = ReceiveScatterOutput(output)
+        rc = ReceiveScatterOutput(output_callback, output)
     else:
         rc = output_callback
 
@@ -445,8 +445,4 @@ def flat_crossproduct_scatter(process, joborder, basedir, scatter_keys, output_c
                     put += 1
                 yield j
 
-    if startindex == 0 and not isinstance(output_callback, ReceiveScatterOutput):
-        while rc.completed < put:
-            yield None
-
-        output_callback(output, rc.processStatus)
+    rc.setTotal(put)

From 8b2e8137216c2f805dedfc52e05e0b8fccbb1b85 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 1 Jul 2015 15:15:50 -0400
Subject: [PATCH 135/221] Fix workflows not to submit the same step over and
 over.

---
 cwltool/workflow.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 82750b67f..a61247385 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -159,6 +159,9 @@ def try_make_job(self, step, basedir, **kwargs):
         if inputobj is None:
             return
 
+        if step.submitted:
+            return
+
         _logger.info("Creating job with input: %s", pprint.pformat(inputobj))
 
         callback = functools.partial(self.receive_output, step, outputparms)
@@ -179,6 +182,8 @@ def try_make_job(self, step, basedir, **kwargs):
         else:
             jobs = step.job(inputobj, basedir, callback, **kwargs)
 
+        step.submitted = True
+
         for j in jobs:
             yield j
 
@@ -205,6 +210,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         for s in self.steps:
             for out in s.tool["outputs"]:
                 self.state[out["id"]] = None
+            s.submitted = False
             s.completed = False
 
         if "outdir" in kwargs:

From 27e62b4e0983b315d2eec46288cd69fcde82f509 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 1 Jul 2015 23:22:08 -0400
Subject: [PATCH 136/221] Don't raise exception when workflow step result is
 missing, just fail.

---
 cwltool/main.py     | 2 +-
 cwltool/workflow.py | 6 ++++--
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 6bbb0342d..b22614017 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -125,7 +125,7 @@ def output_callback(out, processStatus):
             if r:
                 r.run(**kwargs)
             else:
-                raise workflow.WorkflowException("Workflow deadlocked.")
+                raise workflow.WorkflowException("Workflow cannot make any more progress.")
 
         return final_output[0]
 
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index a61247385..d44da99ca 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -60,7 +60,9 @@ def receive_output(self, step, outputparms, jobout, processStatus):
                 if i["id"] in jobout:
                     self.state[i["id"]] = WorkflowStateItem(i, jobout[i["id"]])
                 else:
-                    raise WorkflowException("Output is missing expected field %s" % i["id"])
+                    _logger.error("Output is missing expected field %s" % i["id"])
+                    processStatus = "permanentFail"
+
         if processStatus != "success":
             if self.processStatus != "permanentFail":
                 self.processStatus = processStatus
@@ -222,7 +224,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         actual_jobs = []
 
         completed = 0
-        while completed < len(self.steps):
+        while completed < len(self.steps) and self.processStatus == "success":
             made_progress = False
             completed = 0
             for step in self.steps:

From e04bd943f7d5d063110673ca937fa71796f08637 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 2 Jul 2015 21:07:12 -0400
Subject: [PATCH 137/221] Improve error handling and reporting.  Fix schema to
 validate use of SchemaDefs in Parameter type.  Dereference symlinks in volume
 mounts.  Bind mount each file individually instead of directories.

---
 cwltool/avro_ld/validate.py |  32 ++++++----
 cwltool/draft2tool.py       |  46 ++++++++-----
 cwltool/expression.py       |   2 +-
 cwltool/job.py              | 124 +++++++++++++++++++++---------------
 cwltool/main.py             |  10 +--
 cwltool/pathmapper.py       |  12 +++-
 cwltool/workflow.py         |  68 ++++++++++++--------
 7 files changed, 179 insertions(+), 115 deletions(-)

diff --git a/cwltool/avro_ld/validate.py b/cwltool/avro_ld/validate.py
index 17cb15cbe..962cd1fc7 100644
--- a/cwltool/avro_ld/validate.py
+++ b/cwltool/avro_ld/validate.py
@@ -39,6 +39,12 @@ def multi(v, q=""):
     else:
         return "%s%s%s" % (q, v, q)
 
+def vpformat(datum):
+    a = pprint.pformat(datum)
+    if len(a) > 80:
+        a = a[0:80] + "[...]"
+    return a
+
 def validate_ex(expected_schema, datum, strict=False):
     """Determine if a python datum is an instance of a schema."""
 
@@ -48,45 +54,45 @@ def validate_ex(expected_schema, datum, strict=False):
         if datum is None:
             return True
         else:
-            raise ValidationException("the value `%s` is not null" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not null" % vpformat(datum))
     elif schema_type == 'boolean':
         if isinstance(datum, bool):
             return True
         else:
-            raise ValidationException("the value `%s` is not boolean" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not boolean" % vpformat(datum))
     elif schema_type == 'string':
         if isinstance(datum, basestring):
             return True
         else:
-            raise ValidationException("the value `%s` is not string" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not string" % vpformat(datum))
     elif schema_type == 'bytes':
         if isinstance(datum, str):
             return True
         else:
-            raise ValidationException("the value `%s` is not bytes" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not bytes" % vpformat(datum))
     elif schema_type == 'int':
         if ((isinstance(datum, int) or isinstance(datum, long))
             and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
             return True
         else:
-            raise ValidationException("`%s` is not int" % pprint.pformat(datum))
+            raise ValidationException("`%s` is not int" % vpformat(datum))
     elif schema_type == 'long':
         if ((isinstance(datum, int) or isinstance(datum, long))
             and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
             return True
         else:
-            raise ValidationException("the value `%s` is not long" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not long" % vpformat(datum))
     elif schema_type in ['float', 'double']:
         if (isinstance(datum, int) or isinstance(datum, long)
             or isinstance(datum, float)):
             return True
         else:
-            raise ValidationException("the value `%s` is not float or double" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not float or double" % vpformat(datum))
     elif schema_type == 'fixed':
         if isinstance(datum, str) and len(datum) == expected_schema.size:
             return True
         else:
-            raise ValidationException("the value `%s` is not fixed" % pprint.pformat(datum))
+            raise ValidationException("the value `%s` is not fixed" % vpformat(datum))
     elif schema_type == 'enum':
         if expected_schema.name == "Any":
             if datum is not None:
@@ -96,7 +102,7 @@ def validate_ex(expected_schema, datum, strict=False):
         if datum in expected_schema.symbols:
             return True
         else:
-            raise ValidationException("the value `%s`\n is not a valid enum symbol, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.symbols)))
+            raise ValidationException("the value `%s`\n is not a valid enum symbol, expected one of %s" % (vpformat(datum), ", ".join(expected_schema.symbols)))
     elif schema_type == 'array':
         if isinstance(datum, list):
             for i, d in enumerate(datum):
@@ -106,14 +112,14 @@ def validate_ex(expected_schema, datum, strict=False):
                     raise ValidationException("At position %i\n%s" % (i, indent(str(v))))
             return True
         else:
-            raise ValidationException("the value `%s` is not a list, expected list of %s" % (pprint.pformat(datum), friendly(expected_schema.items)))
+            raise ValidationException("the value `%s` is not a list, expected list of %s" % (vpformat(datum), friendly(expected_schema.items)))
     elif schema_type == 'map':
         if (isinstance(datum, dict) and
             False not in [isinstance(k, basestring) for k in datum.keys()] and
             False not in [validate(expected_schema.values, v, strict=strict) for v in datum.values()]):
             return True
         else:
-            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (pprint.pformat(datum), pprint.pformat(expected_schema.values)))
+            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (vpformat(datum), vpformat(expected_schema.values)))
     elif schema_type in ['union', 'error_union']:
         if True in [validate(s, datum, strict=strict) for s in expected_schema.schemas]:
             return True
@@ -124,12 +130,12 @@ def validate_ex(expected_schema, datum, strict=False):
                     validate_ex(s, datum, strict=strict)
                 except ValidationException as e:
                     errors.append(str(e))
-            raise ValidationException("the value %s is not a valid type in the union, expected one of:\n%s" % (multi(pprint.pformat(datum), '`'),
+            raise ValidationException("the value %s is not a valid type in the union, expected one of:\n%s" % (multi(vpformat(datum), '`'),
                                                                                      "\n".join(["- %s, but\n %s" % (friendly(expected_schema.schemas[i]), indent(multi(errors[i]))) for i in range(0, len(expected_schema.schemas))])))
 
     elif schema_type in ['record', 'error', 'request']:
         if not isinstance(datum, dict):
-            raise ValidationException("`%s`\n is not a dict" % pprint.pformat(datum))
+            raise ValidationException("`%s`\n is not a dict" % vpformat(datum))
 
         errors = []
         for f in expected_schema.fields:
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index bef3edc14..571824d52 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -56,9 +56,6 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                 binding["do_eval"] = binding["valueFrom"]
             binding["valueFrom"] = datum
 
-            if schema["type"] == "File":
-                binding["is_file"] = True
-
         # Handle union types
         if isinstance(schema["type"], list):
             for t in schema["type"]:
@@ -119,12 +116,13 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                             if isinstance(sf, dict):
                                 sfpath = self.do_eval(sf, context=datum["path"])
                             else:
-                                sfpath = {"path": substitute(datum["path"], sf)}
+                                sfpath = {"path": substitute(datum["path"], sf), "class": "File"}
                             if isinstance(sfpath, list):
                                 datum["secondaryFiles"].extend(sfpath)
+                                self.files.extend(sfpath)
                             else:
                                 datum["secondaryFiles"].append(sfpath)
-                            self.files.append(sfpath)
+                                self.files.append(sfpath)
 
         # Position to front of the sort key
         if binding:
@@ -134,6 +132,14 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
 
         return bindings
 
+    def tostr(self, value):
+        if isinstance(value, dict) and value.get("class") == "File":
+            if "path" not in value:
+                raise WorkflowException("File object must have \"path\": %s" % (value))
+            return value["path"]
+        else:
+            return str(value)
+
     def generate_arg(self, binding):
         value = binding["valueFrom"]
         if "do_eval" in binding:
@@ -145,15 +151,15 @@ def generate_arg(self, binding):
         l = []
         if isinstance(value, list):
             if binding.get("itemSeparator"):
-                l = [binding["itemSeparator"].join([str(v) for v in value])]
+                l = [binding["itemSeparator"].join([self.tostr(v) for v in value])]
             elif binding.get("do_eval"):
                 return ([prefix] if prefix else []) + value
             elif prefix:
                 return [prefix]
             else:
                 return []
-        elif binding.get("is_file"):
-            l = [value["path"]]
+        elif isinstance(value, dict) and value.get("class") == "File":
+            l = [value]
         elif isinstance(value, dict):
             return [prefix] if prefix else []
         elif value is True and prefix:
@@ -166,9 +172,9 @@ def generate_arg(self, binding):
         args = []
         for j in l:
             if sep:
-                args.extend([prefix, str(j)])
+                args.extend([prefix, self.tostr(j)])
             else:
-                args.append(prefix + str(j))
+                args.append(prefix + self.tostr(j))
 
         return [a for a in args if a is not None]
 
@@ -307,6 +313,8 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         builder.bindings.sort(key=lambda a: a["position"])
 
+        _logger.debug("Files is %s", builder.files)
+
         reffiles = set((f["path"] for f in builder.files))
 
         j = self.makeJobRunner()
@@ -342,19 +350,19 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             j.outdir = builder.outdir
             j.tmpdir = builder.tmpdir
 
-        for f in builder.files:
-            f["path"] = builder.pathmapper.mapper(f["path"])[1]
-
-        _logger.debug("Bindings is %s", pprint.pformat(builder.bindings))
-        _logger.debug("Files is %s", pprint.pformat({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}))
-
         builder.requirements = j.requirements
 
         j.generatefiles = {}
         createFiles, _ = self.get_requirement("CreateFileRequirement")
         if createFiles:
             for t in createFiles["fileDef"]:
-                j.generatefiles[t["filename"]] = builder.do_eval(t["fileContent"])
+                j.generatefiles[t["filename"]] = copy.deepcopy(builder.do_eval(t["fileContent"]))
+
+        for f in builder.files:
+            f["path"] = builder.pathmapper.mapper(f["path"])[1]
+
+        _logger.debug("Bindings is %s", pprint.pformat(builder.bindings))
+        _logger.debug("Files is %s", pprint.pformat({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}))
 
         j.environment = {}
         evr, _ = self.get_requirement("EnvVarRequirement")
@@ -434,6 +442,10 @@ def collect_output(self, schema, builder, outdir):
                     else:
                         r["secondaryFiles"].append(sfpath)
 
+                for sf in r["secondaryFiles"]:
+                    if not os.path.exists(sf["path"]):
+                        raise WorkflowException("Missing secondary file of '%s' of primary file '%s'" % (sf["path"], r["path"]))
+
 
         if not r and schema["type"] == "record":
             r = {}
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 49e167357..11a980c06 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -65,7 +65,7 @@ class DR(object):
 
             (stdoutdata, stderrdata) = sp.communicate(json.dumps(inp) + "\n\n")
             if sp.returncode != 0:
-                raise WorkflowException("Expression engine returned non-zero exit code.")
+                raise WorkflowException("Expression engine returned non-zero exit code on evaluation of\n%s" % json.dumps(inp, indent=4))
 
             return json.loads(stdoutdata)
 
diff --git a/cwltool/job.py b/cwltool/job.py
index 561087bab..23833aa64 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -10,9 +10,23 @@
 import docker
 from process import WorkflowException, get_feature
 import shutil
+import stat
 
 _logger = logging.getLogger("cwltool")
 
+def deref_links(outputs):
+    if isinstance(outputs, dict):
+        if outputs.get("class") == "File":
+            st = os.lstat(outputs["path"])
+            if stat.S_ISLNK(st.st_mode):
+                outputs["path"] = os.readlink(outputs["path"])
+        else:
+            for v in outputs.values():
+                deref_links(v)
+    if isinstance(outputs, list):
+        for v in outputs:
+            deref_links(v)
+
 class CommandLineJob(object):
     def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True, **kwargs):
 
@@ -34,8 +48,9 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         if docker_req and kwargs.get("use_container") is not False:
             img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             runtime = ["docker", "run", "-i"]
-            for d in self.pathmapper.dirs:
-                runtime.append("--volume=%s:%s:ro" % (os.path.abspath(d), self.pathmapper.dirs[d]))
+            for src in self.pathmapper.files():
+                vol = self.pathmapper.mapper(src)
+                runtime.append("--volume=%s:%s:ro" % vol)
             runtime.append("--volume=%s:%s:rw" % (os.path.abspath(self.outdir), "/tmp/job_output"))
             runtime.append("--volume=%s:%s:rw" % (os.path.abspath(self.tmpdir), "/tmp/job_tmp"))
             runtime.append("--workdir=%s" % ("/tmp/job_output"))
@@ -67,63 +82,68 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         if dry_run:
             return (self.outdir, {})
 
-        os.chdir(self.outdir)
+        outputs = {}
 
-        for t in self.generatefiles:
-            if isinstance(self.generatefiles[t], dict):
-                os.symlink(self.generatefiles[t]["path"], os.path.join(self.outdir, t))
+        try:
+            for t in self.generatefiles:
+                if isinstance(self.generatefiles[t], dict):
+                    os.symlink(self.pathmapper.mapper(self.generatefiles[t]["path"])[1], os.path.join(self.outdir, t))
+                else:
+                    with open(os.path.join(self.outdir, t), "w") as f:
+                        f.write(self.generatefiles[t])
+
+            if self.stdin:
+                stdin = open(self.pathmapper.mapper(self.stdin)[0], "rb")
             else:
-                with open(os.path.join(self.outdir, t), "w") as f:
-                    f.write(self.generatefiles[t])
-
-        if self.stdin:
-            stdin = open(self.pathmapper.mapper(self.stdin)[0], "rb")
-        else:
-            stdin = subprocess.PIPE
-
-        if self.stdout:
-            dn = os.path.dirname(self.stdout)
-            if dn and not os.path.exists(dn):
-                os.makedirs(dn)
-            stdout = open(self.stdout, "wb")
-        else:
-            stdout = sys.stderr
-
-        sp = subprocess.Popen(runtime + self.command_line,
-                              shell=False,
-                              close_fds=True,
-                              stdin=stdin,
-                              stdout=stdout,
-                              env=env,
-                              cwd=self.outdir)
-
-        if stdin == subprocess.PIPE:
-            sp.stdin.close()
+                stdin = subprocess.PIPE
 
-        rcode = sp.wait()
-
-        if stdin != subprocess.PIPE:
-            stdin.close()
+            if self.stdout:
+                dn = os.path.dirname(self.stdout)
+                if dn and not os.path.exists(dn):
+                    os.makedirs(dn)
+                stdout = open(self.stdout, "wb")
+            else:
+                stdout = sys.stderr
+
+            sp = subprocess.Popen(runtime + self.command_line,
+                                  shell=False,
+                                  close_fds=True,
+                                  stdin=stdin,
+                                  stdout=stdout,
+                                  env=env,
+                                  cwd=self.outdir)
+
+            if stdin == subprocess.PIPE:
+                sp.stdin.close()
+
+            rcode = sp.wait()
+
+            if stdin != subprocess.PIPE:
+                stdin.close()
+
+            if stdout is not sys.stderr:
+                stdout.close()
+
+            if self.successCodes and rcode in self.successCodes:
+                processStatus = "success"
+            elif self.temporaryFailCodes and rcode in self.temporaryFailCodes:
+                processStatus = "temporaryFail"
+            elif self.permanentFailCodes and rcode in self.permanentFailCodes:
+                processStatus = "permanentFail"
+            elif rcode == 0:
+                processStatus = "success"
+            else:
+                processStatus = "permanentFail"
 
-        if stdout is not sys.stderr:
-            stdout.close()
+            for t in self.generatefiles:
+                if isinstance(self.generatefiles[t], dict):
+                    os.remove(os.path.join(self.outdir, t))
+                    os.symlink(self.pathmapper.mapper(self.generatefiles[t]["path"])[0], os.path.join(self.outdir, t))
 
-        if self.successCodes and rcode in self.successCodes:
-            processStatus = "success"
-        elif self.temporaryFailCodes and rcode in self.temporaryFailCodes:
-            processStatus = "temporaryFail"
-        elif self.permanentFailCodes and rcode in self.permanentFailCodes:
-            processStatus = "permanentFail"
-        elif rcode == 0:
-            processStatus = "success"
-        else:
-            processStatus = "permanentFail"
-
-        try:
-            outputs = {}
             outputs = self.collect_outputs(self.outdir)
+
         except Exception as e:
-            logger.warn(str(e))
+            _logger.warn(str(e))
             processStatus = "permanentFail"
 
         self.output_callback(outputs, processStatus)
diff --git a/cwltool/main.py b/cwltool/main.py
index b22614017..4d5432f7a 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -27,7 +27,8 @@ def arg_parser():
     parser.add_argument("job_order", type=str, nargs="?", default=None)
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
-    parser.add_argument("--outdir", type=str)
+    parser.add_argument("--outdir", type=str, default=os.path.abspath('.'),
+                        help="Output directory, default current directory")
 
     parser.add_argument("--no-container", action="store_false", default=True,
                         help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool",
@@ -182,7 +183,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     idx = {}
     try:
         processobj = loader.resolve_ref(args.workflow)
-    except (avro_ld.validate.ValidationException) as e:
+    except (avro_ld.validate.ValidationException, RuntimeError) as e:
         _logger.error("Tool definition failed validation:\n%s" % e)
         if args.debug:
             _logger.exception("")
@@ -245,7 +246,8 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
                        pull_image=args.enable_pull,
                        rm_container=args.rm_container,
                        rm_tmpdir=args.rm_tmpdir,
-                       makeTool=makeTool)
+                       makeTool=makeTool,
+                       move_outputs=args.move_outputs)
         print json.dumps(out, indent=4)
     except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s" % e)
@@ -253,7 +255,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             _logger.exception("")
         return 1
     except workflow.WorkflowException as e:
-        _logger.error("Workflow error:\n%s" % e)
+        _logger.error("Workflow error:\n  %s" % e)
         if args.debug:
             _logger.exception("")
         return 1
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index 918ae3304..a0ef53d85 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -1,6 +1,7 @@
 import os
 import random
 import logging
+import stat
 
 _logger = logging.getLogger("cwltool")
 
@@ -26,6 +27,7 @@ def __init__(self, referenced_files, basedir):
         self.dirs = {}
         for src in referenced_files:
             ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
+
             dir, fn = os.path.split(ab)
 
             subdir = False
@@ -55,6 +57,14 @@ def __init__(self, referenced_files, basedir):
 
         for src in referenced_files:
             ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
+
+            deref = ab
+            st = os.lstat(deref)
+            while stat.S_ISLNK(st.st_mode):
+                rl = os.readlink(deref)
+                deref = rl if os.path.isabs(rl) else os.path.join(os.path.dirname(deref), rl)
+                st = os.lstat(deref)
+
             for d in self.dirs:
                 if ab.startswith(d):
-                    self._pathmap[src] = (ab, os.path.join(self.dirs[d], ab[len(d)+1:]))
+                    self._pathmap[src] = (deref, os.path.join(self.dirs[d], ab[len(d)+1:]))
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index d44da99ca..a72a1689d 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -76,10 +76,19 @@ def receive_output(self, step, outputparms, jobout, processStatus):
 
     def match_types(self, sinktype, src, iid, inputobj, linkMerge):
         if isinstance(sinktype, list):
-            # Union type
+            # Sink is union type
             for st in sinktype:
                 if self.match_types(st, src, iid, inputobj, linkMerge):
                     return True
+        elif isinstance(src.parameter["type"], list):
+            # Source is union type
+            # Check that every source type is compatible with the sink.
+            for st in src.parameter["type"]:
+                srccopy = copy.deepcopy(src)
+                srccopy.parameter["type"] = st
+                if not self.match_types(st, srccopy, iid, inputobj, linkMerge):
+                    return False
+            return True
         else:
             is_array = isinstance(sinktype, dict) and sinktype["type"] == "array"
             if is_array and linkMerge:
@@ -157,37 +166,40 @@ def try_make_job(self, step, basedir, **kwargs):
         inputparms = step.tool["inputs"]
         outputparms = step.tool["outputs"]
 
-        inputobj = self.object_from_state(inputparms, False)
-        if inputobj is None:
-            return
-
-        if step.submitted:
-            return
+        try:
+            inputobj = self.object_from_state(inputparms, False)
+            if inputobj is None:
+                return
 
-        _logger.info("Creating job with input: %s", pprint.pformat(inputobj))
+            if step.submitted:
+                return
 
-        callback = functools.partial(self.receive_output, step, outputparms)
+            callback = functools.partial(self.receive_output, step, outputparms)
 
-        (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
-        if scatterSpec and "scatter" in step.tool:
-            scatter = aslist(step.tool["scatter"])
-            method = step.tool.get("scatterMethod")
-            if method is None and len(scatter) != 1:
-                raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
-
-            if method == "dotproduct" or method is None:
-                jobs = dotproduct_scatter(step, inputobj, basedir, scatter, callback, **kwargs)
-            elif method == "nested_crossproduct":
-                jobs = nested_crossproduct_scatter(step, inputobj, basedir, scatter, callback, **kwargs)
-            elif method == "flat_crossproduct":
-                jobs = flat_crossproduct_scatter(step, inputobj, basedir, scatter, callback, 0, **kwargs)
-        else:
-            jobs = step.job(inputobj, basedir, callback, **kwargs)
+            (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
+            if scatterSpec and "scatter" in step.tool:
+                scatter = aslist(step.tool["scatter"])
+                method = step.tool.get("scatterMethod")
+                if method is None and len(scatter) != 1:
+                    raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
+
+                if method == "dotproduct" or method is None:
+                    jobs = dotproduct_scatter(step, inputobj, basedir, scatter, callback, **kwargs)
+                elif method == "nested_crossproduct":
+                    jobs = nested_crossproduct_scatter(step, inputobj, basedir, scatter, callback, **kwargs)
+                elif method == "flat_crossproduct":
+                    jobs = flat_crossproduct_scatter(step, inputobj, basedir, scatter, callback, 0, **kwargs)
+            else:
+                jobs = step.job(inputobj, basedir, callback, **kwargs)
 
-        step.submitted = True
+            step.submitted = True
 
-        for j in jobs:
-            yield j
+            for j in jobs:
+                yield j
+        except Exception as e:
+            _logger.error(e)
+            self.processStatus = "permanentFail"
+            step.completed = True
 
 
     def job(self, joborder, basedir, output_callback, **kwargs):
@@ -335,6 +347,8 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
+        _logger.info("Creating workflow step %s with input\n%s", self.id, pprint.pformat(joborder))
+
         for t in self.embedded_tool.job(joborder, basedir, functools.partial(self.receive_output, output_callback), **kwargs):
             yield t
 

From 1ebe6f2c238f206c72044e7c8c10fe8fbef318c7 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 6 Jul 2015 13:41:16 -0400
Subject: [PATCH 138/221] Fix tests broken by removal of chdir from jobs.py.

---
 cwltool/draft2tool.py | 17 ++++++++---------
 cwltool/job.py        | 14 ++++++++------
 cwltool/pathmapper.py |  5 +++++
 3 files changed, 21 insertions(+), 15 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 571824d52..08a5efaff 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -341,6 +341,13 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
                 raise validate.ValidationException("stdout must be a relative path")
 
         builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
+        builder.requirements = j.requirements
+
+        for f in builder.files:
+            f["path"] = builder.pathmapper.mapper(f["path"])[1]
+
+        _logger.debug("Bindings is %s", pprint.pformat(builder.bindings))
+        _logger.debug("Files is %s", pprint.pformat({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}))
 
         dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and kwargs.get("use_container"):
@@ -350,20 +357,12 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             j.outdir = builder.outdir
             j.tmpdir = builder.tmpdir
 
-        builder.requirements = j.requirements
-
-        j.generatefiles = {}
         createFiles, _ = self.get_requirement("CreateFileRequirement")
+        j.generatefiles = {}
         if createFiles:
             for t in createFiles["fileDef"]:
                 j.generatefiles[t["filename"]] = copy.deepcopy(builder.do_eval(t["fileContent"]))
 
-        for f in builder.files:
-            f["path"] = builder.pathmapper.mapper(f["path"])[1]
-
-        _logger.debug("Bindings is %s", pprint.pformat(builder.bindings))
-        _logger.debug("Files is %s", pprint.pformat({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}))
-
         j.environment = {}
         evr, _ = self.get_requirement("EnvVarRequirement")
         if evr:
diff --git a/cwltool/job.py b/cwltool/job.py
index 23833aa64..f7621ee58 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -74,10 +74,11 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         stdin = None
         stdout = None
 
+        _logger.info("outdir is %s", self.outdir)
         _logger.info("%s%s%s",
                      " ".join(runtime + self.command_line),
                      ' < %s' % (self.stdin) if self.stdin else '',
-                     ' > %s' % (self.stdout) if self.stdout else '')
+                     ' > %s' % os.path.join(self.outdir, self.stdout) if self.stdout else '')
 
         if dry_run:
             return (self.outdir, {})
@@ -87,7 +88,7 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         try:
             for t in self.generatefiles:
                 if isinstance(self.generatefiles[t], dict):
-                    os.symlink(self.pathmapper.mapper(self.generatefiles[t]["path"])[1], os.path.join(self.outdir, t))
+                    os.symlink(self.generatefiles[t]["path"], os.path.join(self.outdir, t))
                 else:
                     with open(os.path.join(self.outdir, t), "w") as f:
                         f.write(self.generatefiles[t])
@@ -98,10 +99,11 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
                 stdin = subprocess.PIPE
 
             if self.stdout:
-                dn = os.path.dirname(self.stdout)
+                absout = os.path.join(self.outdir, self.stdout)
+                dn = os.path.dirname(absout)
                 if dn and not os.path.exists(dn):
                     os.makedirs(dn)
-                stdout = open(self.stdout, "wb")
+                stdout = open(absout, "wb")
             else:
                 stdout = sys.stderr
 
@@ -138,12 +140,12 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             for t in self.generatefiles:
                 if isinstance(self.generatefiles[t], dict):
                     os.remove(os.path.join(self.outdir, t))
-                    os.symlink(self.pathmapper.mapper(self.generatefiles[t]["path"])[0], os.path.join(self.outdir, t))
+                    os.symlink(self.pathmapper.reversemap(self.generatefiles[t]["path"])[1], os.path.join(self.outdir, t))
 
             outputs = self.collect_outputs(self.outdir)
 
         except Exception as e:
-            _logger.warn(str(e))
+            _logger.exception("Exception while running job")
             processStatus = "permanentFail"
 
         self.output_callback(outputs, processStatus)
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index a0ef53d85..a939cfe0e 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -21,6 +21,11 @@ def mapper(self, src):
     def files(self):
         return self._pathmap.keys()
 
+    def reversemap(self, target):
+        for k,v in self._pathmap.items():
+            if v[1] == target:
+                return (k, v[0])
+
 class DockerPathMapper(PathMapper):
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}

From d9fbce6c0c6f9c56435ce2d5ac849f77c2693229 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 6 Jul 2015 14:01:50 -0400
Subject: [PATCH 139/221] Documentation fixes from @brainstorm recommending use
 of plain "python setup.py install" instead of easy_install.

---
 README.rst | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/README.rst b/README.rst
index b122a2612..a25d93c6d 100644
--- a/README.rst
+++ b/README.rst
@@ -22,10 +22,10 @@ Install
 From source::
 
   git clone https://github.com/common-workflow-language/common-workflow-language.git
-  cd common-workflow-language/reference && easy_install .
-  cd cwl-runner && easy_install .
+  cd common-workflow-language/reference && python setup.py install
+  cd cwl-runner && python setup.py install
 
-With pip (will install "cwltool" package as well)::
+Or installing the official package from PyPi (will install "cwltool" package as well)::
 
   pip install cwl-runner
 

From bc2b2243bd5028005980840597016e724bac798b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 7 Jul 2015 00:39:55 -0400
Subject: [PATCH 140/221] Bugfix: use fs_access to check for existence of
 secondary files.

---
 cwltool/draft2tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 08a5efaff..9f18f8129 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -442,7 +442,7 @@ def collect_output(self, schema, builder, outdir):
                         r["secondaryFiles"].append(sfpath)
 
                 for sf in r["secondaryFiles"]:
-                    if not os.path.exists(sf["path"]):
+                    if not builder.fs_access.exists(sf["path"]):
                         raise WorkflowException("Missing secondary file of '%s' of primary file '%s'" % (sf["path"], r["path"]))
 
 

From 72812f3f593683988dbe73437f95348131b0e66a Mon Sep 17 00:00:00 2001
From: Stian Soiland-Reyes <soiland-reyes@cs.manchester.ac.uk>
Date: Wed, 8 Jul 2015 12:54:52 +0100
Subject: [PATCH 141/221] wrap --print-jsonld-context within @context

---
 cwltool/main.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 4d5432f7a..72509d35d 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -157,7 +157,8 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     loader.idx["cwl:JsonPointer"] = {}
 
     if args.print_jsonld_context:
-        print json.dumps(ctx, indent=4, sort_keys=True)
+        j = {"@context": ctx}
+        print json.dumps(j, indent=4, sort_keys=True)
         return 0
 
     if args.print_rdfs:

From f24c133a75895e7d08c1a000c81c8f3248eefe38 Mon Sep 17 00:00:00 2001
From: Sinisa Ivkovic <sinisa.ivkovic@sbgenomics.com>
Date: Wed, 8 Jul 2015 15:36:40 +0100
Subject: [PATCH 142/221] boot2docker compatibility

---
 cwltool/draft2tool.py |  3 ++-
 cwltool/job.py        |  2 +-
 cwltool/main.py       | 30 ++++++++++++++++++------------
 3 files changed, 21 insertions(+), 14 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 9f18f8129..416d99afe 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -352,7 +352,8 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and kwargs.get("use_container"):
             j.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
-            j.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
+            prefix = kwargs.get('tmpdir_prefix')
+            j.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp(prefix=prefix)
         else:
             j.outdir = builder.outdir
             j.tmpdir = builder.tmpdir
diff --git a/cwltool/job.py b/cwltool/job.py
index f7621ee58..c5f59d885 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -46,6 +46,7 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
                 raise WorkflowException("Required input file %s not found" % self.pathmapper.mapper(f)[0])
 
         if docker_req and kwargs.get("use_container") is not False:
+            env = os.environ
             img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             runtime = ["docker", "run", "-i"]
             for src in self.pathmapper.files():
@@ -106,7 +107,6 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
                 stdout = open(absout, "wb")
             else:
                 stdout = sys.stderr
-
             sp = subprocess.Popen(runtime + self.command_line,
                                   shell=False,
                                   close_fds=True,
diff --git a/cwltool/main.py b/cwltool/main.py
index 4d5432f7a..87c46480c 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -42,6 +42,9 @@ def arg_parser():
                         default=True, help="Do not delete Docker container used by jobs after they exit",
                         dest="rm_container")
 
+    parser.add_argument("--tmpdir-prefix", type=str, default='tmp',
+                        help="Temp directory prefix for each task or job being executed")
+
     parser.add_argument("--rm-tmpdir", action="store_true", default=True,
                         help="Delete intermediate temporary directories (default)",
                         dest="rm_tmpdir")
@@ -236,20 +239,23 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Input object required")
         return 1
 
+    out = executor(t, loader.resolve_ref(args.job_order),
+                   input_basedir, args,
+                   conformance_test=args.conformance_test,
+                   dry_run=args.dry_run,
+                   outdir=args.outdir,
+                   use_container=args.use_container,
+                   pull_image=args.enable_pull,
+                   rm_container=args.rm_container,
+                   tmpdir_prefix=args.tmpdir_prefix,
+                   rm_tmpdir=args.rm_tmpdir,
+                   makeTool=makeTool,
+                   move_outputs=args.move_outputs
+                   )
     try:
-        out = executor(t, loader.resolve_ref(args.job_order),
-                       input_basedir, args,
-                       conformance_test=args.conformance_test,
-                       dry_run=args.dry_run,
-                       outdir=args.outdir,
-                       use_container=args.use_container,
-                       pull_image=args.enable_pull,
-                       rm_container=args.rm_container,
-                       rm_tmpdir=args.rm_tmpdir,
-                       makeTool=makeTool,
-                       move_outputs=args.move_outputs)
-        print json.dumps(out, indent=4)
+        pass
     except (validate.ValidationException) as e:
+        print json.dumps(out, indent=4)
         _logger.error("Input object failed validation:\n%s" % e)
         if args.debug:
             _logger.exception("")

From 441bde8dd7c30efae6de40f0aead8a6f31727fae Mon Sep 17 00:00:00 2001
From: Guillermo Carrasco <guille.ch.88@gmail.com>
Date: Wed, 8 Jul 2015 16:23:24 +0100
Subject: [PATCH 143/221] Capture possible exceptions on the executor function.
 Print workflow result

---
 cwltool/main.py | 30 +++++++++++++++---------------
 1 file changed, 15 insertions(+), 15 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index b5678d6df..8f10b4ccc 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -240,23 +240,23 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Input object required")
         return 1
 
-    out = executor(t, loader.resolve_ref(args.job_order),
-                   input_basedir, args,
-                   conformance_test=args.conformance_test,
-                   dry_run=args.dry_run,
-                   outdir=args.outdir,
-                   use_container=args.use_container,
-                   pull_image=args.enable_pull,
-                   rm_container=args.rm_container,
-                   tmpdir_prefix=args.tmpdir_prefix,
-                   rm_tmpdir=args.rm_tmpdir,
-                   makeTool=makeTool,
-                   move_outputs=args.move_outputs
-                   )
     try:
-        pass
+        out = executor(t, loader.resolve_ref(args.job_order),
+                       input_basedir, args,
+                       conformance_test=args.conformance_test,
+                       dry_run=args.dry_run,
+                       outdir=args.outdir,
+                       use_container=args.use_container,
+                       pull_image=args.enable_pull,
+                       rm_container=args.rm_container,
+                       tmpdir_prefix=args.tmpdir_prefix,
+                       rm_tmpdir=args.rm_tmpdir,
+                       makeTool=makeTool,
+                       move_outputs=args.move_outputs
+                       )
+        # This is the wrokflow output, it needs to be written
+        sys.stdout.write(json.dumps(out, indent=4))
     except (validate.ValidationException) as e:
-        print json.dumps(out, indent=4)
         _logger.error("Input object failed validation:\n%s" % e)
         if args.debug:
             _logger.exception("")

From 33426375474d2c825a06d2a2cc4d6fb9af1e1fef Mon Sep 17 00:00:00 2001
From: Guillermo Carrasco <guille.ch.88@gmail.com>
Date: Thu, 9 Jul 2015 10:51:05 +0100
Subject: [PATCH 144/221] Add temporary output prefix. Fix workflow in
 boot2docker

---
 cwltool/draft2tool.py |  3 ++-
 cwltool/main.py       | 15 +++++++++++++++
 2 files changed, 17 insertions(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 416d99afe..d497540da 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -351,7 +351,8 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and kwargs.get("use_container"):
-            j.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
+            out_prefix = kwargs.get("tmp_outdir_prefix")
+            j.outdir = kwargs.get("outdir") or tempfile.mkdtemp(prefix=out_prefix)
             prefix = kwargs.get('tmpdir_prefix')
             j.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp(prefix=prefix)
         else:
diff --git a/cwltool/main.py b/cwltool/main.py
index 8f10b4ccc..c684d30f6 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -45,6 +45,10 @@ def arg_parser():
     parser.add_argument("--tmpdir-prefix", type=str, default='tmp',
                         help="Temp directory prefix for each task or job being executed")
 
+    parser.add_argument("--tmp-outdir-prefix", type=str, default='tmp',
+                        help="Temp directory prefix for each task or job output being executed",
+                        dest="tmp_outdir_prefix")
+
     parser.add_argument("--rm-tmpdir", action="store_true", default=True,
                         help="Delete intermediate temporary directories (default)",
                         dest="rm_tmpdir")
@@ -240,12 +244,23 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Input object required")
         return 1
 
+    args.tmp_outdir_prefix = os.path.abspath(args.tmp_outdir_prefix)
+    if not os.path.exists(args.tmp_outdir_prefix):
+        args.tmp_outdir_prefix = 'tmp'
+        _logger.warn("Temporary output prefix doesn't exist, reverting to default")
+
+    args.tmpdir_prefix = os.path.abspath(args.tmpdir_prefix)
+    if not os.path.exists(args.tmpdir_prefix):
+        args.tmpdir_prefix = 'tmp'
+        _logger.warn("Temporary prefix doesn't exist, reverting to default")
+        
     try:
         out = executor(t, loader.resolve_ref(args.job_order),
                        input_basedir, args,
                        conformance_test=args.conformance_test,
                        dry_run=args.dry_run,
                        outdir=args.outdir,
+                       tmp_outdir_prefix=args.tmp_outdir_prefix,
                        use_container=args.use_container,
                        pull_image=args.enable_pull,
                        rm_container=args.rm_container,

From 83c440a5643f0444740f102920ad7b4ff72073f3 Mon Sep 17 00:00:00 2001
From: Guillermo Carrasco <guille.ch.88@gmail.com>
Date: Thu, 9 Jul 2015 11:56:33 +0100
Subject: [PATCH 145/221] Check if prefixes exist. Fix tests to work on MacOSX

---
 cwltool/main.py | 30 ++++++++++++++++++++----------
 1 file changed, 20 insertions(+), 10 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index c684d30f6..0b94df1e2 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -42,10 +42,10 @@ def arg_parser():
                         default=True, help="Do not delete Docker container used by jobs after they exit",
                         dest="rm_container")
 
-    parser.add_argument("--tmpdir-prefix", type=str, default='tmp',
+    parser.add_argument("--tmpdir-prefix", type=str,
                         help="Temp directory prefix for each task or job being executed")
 
-    parser.add_argument("--tmp-outdir-prefix", type=str, default='tmp',
+    parser.add_argument("--tmp-outdir-prefix", type=str,
                         help="Temp directory prefix for each task or job output being executed",
                         dest="tmp_outdir_prefix")
 
@@ -244,16 +244,26 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Input object required")
         return 1
 
-    args.tmp_outdir_prefix = os.path.abspath(args.tmp_outdir_prefix)
-    if not os.path.exists(args.tmp_outdir_prefix):
+    if args.tmp_outdir_prefix is None:
+        # Set up unique temp directory for individual job outputs
         args.tmp_outdir_prefix = 'tmp'
-        _logger.warn("Temporary output prefix doesn't exist, reverting to default")
-
-    args.tmpdir_prefix = os.path.abspath(args.tmpdir_prefix)
-    if not os.path.exists(args.tmpdir_prefix):
+    else:
+        # Use user defined temp directory (if it exists)
+        args.tmp_outdir_prefix = os.path.abspath(args.tmp_outdir_prefix)
+        if not os.path.exists(args.tmp_outdir_prefix):
+            _logger.warn("Temporary output prefix doesn't exist, reverting to default")
+            args.tmp_outdir_prefix = 'tmp'
+
+    if args.tmpdir_prefix is None:
+        # Set up unique prefix for temp directories for individual jobs
         args.tmpdir_prefix = 'tmp'
-        _logger.warn("Temporary prefix doesn't exist, reverting to default")
-        
+    else:
+        # Use user defined prefix (if the folder exists)
+        args.tmpdir_prefix = os.path.abspath(args.tmpdir_prefix)
+        if not os.path.exists(args.tmpdir_prefix):
+            _logger.warn("Temporary prefix doesn't exist, reverting to default")
+            args.tmpdir_prefix = 'tmp'
+
     try:
         out = executor(t, loader.resolve_ref(args.job_order),
                        input_basedir, args,

From 9009bd1b5f67061fdb899f32426d94a2a12564dd Mon Sep 17 00:00:00 2001
From: Guillermo Carrasco <guille.ch.88@gmail.com>
Date: Thu, 9 Jul 2015 12:06:55 +0100
Subject: [PATCH 146/221] Add some documentation about use with boot2docker

---
 README.rst | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/README.rst b/README.rst
index a25d93c6d..007c9f88f 100644
--- a/README.rst
+++ b/README.rst
@@ -42,3 +42,14 @@ Add::
   import cwltool
 
 to your script.
+
+Use with boot2docker
+--------------------
+boot2docker is running docker inside a virtual machine and it only mounts /Users
+on it. The default behavoir of CWL is to create temporary directories under e.g.
+```/Var``` which is not accessible to Docker containers.
+
+To run CWL successfully with boot2docker you need to set the ```--tmpdir-prefix```
+and ```--tmp-outdir-prefix``` to somewhere under ```/Users```.
+
+    $ cwl-runner --tmp-outdir-prefix=/Users/username/project --tmpdir-prefix=/Users/username/project wc-tool.cwl wc-job.json

From dda566e1ad5999042e5a1a9843e32aca182574d7 Mon Sep 17 00:00:00 2001
From: Guillermo Carrasco <guille.ch.88@gmail.com>
Date: Thu, 9 Jul 2015 12:13:40 +0100
Subject: [PATCH 147/221] Fix some rst syntax

---
 README.rst | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/README.rst b/README.rst
index 007c9f88f..ebcea8fc3 100644
--- a/README.rst
+++ b/README.rst
@@ -45,11 +45,11 @@ to your script.
 
 Use with boot2docker
 --------------------
-boot2docker is running docker inside a virtual machine and it only mounts /Users
+boot2docker is running docker inside a virtual machine and it only mounts ``Users``
 on it. The default behavoir of CWL is to create temporary directories under e.g.
-```/Var``` which is not accessible to Docker containers.
+``/Var`` which is not accessible to Docker containers.
 
-To run CWL successfully with boot2docker you need to set the ```--tmpdir-prefix```
-and ```--tmp-outdir-prefix``` to somewhere under ```/Users```.
+To run CWL successfully with boot2docker you need to set the ``--tmpdir-prefix``
+and ``--tmp-outdir-prefix`` to somewhere under ``/Users``::
 
     $ cwl-runner --tmp-outdir-prefix=/Users/username/project --tmpdir-prefix=/Users/username/project wc-tool.cwl wc-job.json

From c593eb2254c88a73f141e1fdbc6951d68512a44d Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 9 Jul 2015 14:43:29 +0100
Subject: [PATCH 148/221] Fixups

---
 cwltool/draft2tool.py |  4 ++--
 cwltool/job.py        |  1 +
 cwltool/main.py       | 27 +++++++++++----------------
 3 files changed, 14 insertions(+), 18 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index d497540da..bfbc944bb 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -353,8 +353,8 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         if dockerReq and kwargs.get("use_container"):
             out_prefix = kwargs.get("tmp_outdir_prefix")
             j.outdir = kwargs.get("outdir") or tempfile.mkdtemp(prefix=out_prefix)
-            prefix = kwargs.get('tmpdir_prefix')
-            j.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp(prefix=prefix)
+            tmpdir_prefix = kwargs.get('tmpdir_prefix')
+            j.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp(prefix=tmpdir_prefix)
         else:
             j.outdir = builder.outdir
             j.tmpdir = builder.tmpdir
diff --git a/cwltool/job.py b/cwltool/job.py
index c5f59d885..0df5fce4d 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -107,6 +107,7 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
                 stdout = open(absout, "wb")
             else:
                 stdout = sys.stderr
+
             sp = subprocess.Popen(runtime + self.command_line,
                                   shell=False,
                                   close_fds=True,
diff --git a/cwltool/main.py b/cwltool/main.py
index 0b94df1e2..075534424 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -43,11 +43,12 @@ def arg_parser():
                         dest="rm_container")
 
     parser.add_argument("--tmpdir-prefix", type=str,
-                        help="Temp directory prefix for each task or job being executed")
+                        help="Path prefix for temporary directories",
+                        default="tmp")
 
     parser.add_argument("--tmp-outdir-prefix", type=str,
-                        help="Temp directory prefix for each task or job output being executed",
-                        dest="tmp_outdir_prefix")
+                        help="Path prefix for intermediate output directories",
+                        default="tmp")
 
     parser.add_argument("--rm-tmpdir", action="store_true", default=True,
                         help="Delete intermediate temporary directories (default)",
@@ -244,25 +245,19 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Input object required")
         return 1
 
-    if args.tmp_outdir_prefix is None:
-        # Set up unique temp directory for individual job outputs
-        args.tmp_outdir_prefix = 'tmp'
-    else:
+    if args.tmp_outdir_prefix != 'tmp':
         # Use user defined temp directory (if it exists)
         args.tmp_outdir_prefix = os.path.abspath(args.tmp_outdir_prefix)
         if not os.path.exists(args.tmp_outdir_prefix):
-            _logger.warn("Temporary output prefix doesn't exist, reverting to default")
-            args.tmp_outdir_prefix = 'tmp'
+            _logger.error("Intermediate output directory prefix doesn't exist, reverting to default")
+            return 1
 
-    if args.tmpdir_prefix is None:
-        # Set up unique prefix for temp directories for individual jobs
-        args.tmpdir_prefix = 'tmp'
-    else:
+    if args.tmpdir_prefix != 'tmp':
         # Use user defined prefix (if the folder exists)
         args.tmpdir_prefix = os.path.abspath(args.tmpdir_prefix)
         if not os.path.exists(args.tmpdir_prefix):
-            _logger.warn("Temporary prefix doesn't exist, reverting to default")
-            args.tmpdir_prefix = 'tmp'
+            _logger.error("Temporary directory prefix doesn't exist.")
+            return 1
 
     try:
         out = executor(t, loader.resolve_ref(args.job_order),
@@ -279,7 +274,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
                        makeTool=makeTool,
                        move_outputs=args.move_outputs
                        )
-        # This is the wrokflow output, it needs to be written
+        # This is the workflow output, it needs to be written
         sys.stdout.write(json.dumps(out, indent=4))
     except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s" % e)

From c248d75bf8fc15e587f0e8da1a4052f7672a9760 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 9 Jul 2015 14:56:52 +0100
Subject: [PATCH 149/221] Better error handling around checking if docker is
 available and accessible.

---
 cwltool/docker.py | 18 ++++++++++++++++--
 1 file changed, 16 insertions(+), 2 deletions(-)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index e39dc7ab2..7da25f3aa 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -64,7 +64,7 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
                     loadproc.stdin.close()
                 rcode = loadproc.wait()
                 if rcode != 0:
-                    raise Exception("Docker load returned non-zero exit status %i" % (rcode))
+                    raise process.WorkflowException("Docker load returned non-zero exit status %i" % (rcode))
                 found = True
 
     return found
@@ -72,10 +72,24 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
 
 def get_from_requirements(r, req, pull_image, dry_run=False):
     if r:
+        errmsg = None
+        try:
+            subprocess.check_output(["docker", "version"])
+        except subprocess.CalledProcessError as e:
+            errmsg = "Cannot communicate with docker daemon: " + str(e)
+        except OSError as e:
+            errmsg = "'docker' executable not found: " + str(e)
+
+        if errmsg:
+            if req:
+                raise process.WorkflowException(errmsg)
+            else:
+                return None
+
         if get_image(r, pull_image, dry_run):
             return r["dockerImageId"]
         else:
             if req:
-                raise Exception("Docker image %s not found" % r["dockerImageId"])
+                raise process.WorkflowException("Docker image %s not found" % r["dockerImageId"])
 
     return None

From 45f671731c0c6118799f9962d1f8ceff0867bc7a Mon Sep 17 00:00:00 2001
From: chapmanb <chapmanb@50mail.com>
Date: Thu, 9 Jul 2015 09:58:24 -0400
Subject: [PATCH 150/221] Support retrieving docker instances via 'docker
 import'

bcbio stores its container as a gzipped download via S3 because it's too big for the docker index. This PR allows pulling in instances similar to docker pull, but via docker import.
---
 cwltool/docker.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index e39dc7ab2..2a043761a 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -66,6 +66,11 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
                 if rcode != 0:
                     raise Exception("Docker load returned non-zero exit status %i" % (rcode))
                 found = True
+        elif "dockerImport" in dockerRequirement:
+            cmd = ["docker", "import", dockerRequirement["dockerImport"], dockerRequirement["dockerImageId"]]
+            _logger.info(str(cmd))
+            if not dry_run:
+                subprocess.check_call(cmd, stdout=sys.stderr)
 
     return found
 

From 92c0f2e79d0f821eac89987237481a4a00ec2df1 Mon Sep 17 00:00:00 2001
From: Stian Soiland-Reyes <soiland-reyes@cs.manchester.ac.uk>
Date: Thu, 9 Jul 2015 16:48:41 +0100
Subject: [PATCH 151/221] use fresh loader from create_loader()

---
 cwltool/main.py | 20 +++++++++++---------
 1 file changed, 11 insertions(+), 9 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 075534424..39e620152 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -2,7 +2,7 @@
 
 import draft2tool
 import argparse
-from avro_ld.ref_resolver import loader
+from avro_ld.ref_resolver import Loader
 import json
 import os
 import sys
@@ -138,6 +138,15 @@ def output_callback(out, processStatus):
 
         return final_output[0]
 
+def create_loader(ctx):
+    loader = Loader()
+    url_fields = []
+    for c in ctx:
+        if c != "id" and (ctx[c] == "@id") or (isinstance(ctx[c], dict) and ctx[c].get("@type") == "@id"):
+            url_fields.append(c)
+    loader.url_fields = url_fields
+    loader.idx["cwl:JsonPointer"] = {}
+    return loader
 
 def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
     if args is None:
@@ -155,14 +164,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     (j, names) = process.get_schema()
     (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
-
-    url_fields = []
-    for c in ctx:
-        if c != "id" and (ctx[c] == "@id") or (isinstance(ctx[c], dict) and ctx[c].get("@type") == "@id"):
-            url_fields.append(c)
-
-    loader.url_fields = url_fields
-    loader.idx["cwl:JsonPointer"] = {}
+    loader = create_loader(ctx)
 
     if args.print_jsonld_context:
         j = {"@context": ctx}

From 1f106d0144c69a5d5e3ecc4cd3dd09735120c8be Mon Sep 17 00:00:00 2001
From: Joshua Randall <joshua.randall@sanger.ac.uk>
Date: Fri, 10 Jul 2015 14:36:29 +0100
Subject: [PATCH 152/221] Fixes the printing of command_line arguments

Changes the printing of command_line arguments
with --verbose / log.INFO such that when arguments
need shell quoting, they are printed using quoting
such that they should be able to be copy-and-pasted
into a shell for testing.

Fixes #92
---
 cwltool/job.py | 6 +++++-
 setup.py       | 3 ++-
 2 files changed, 7 insertions(+), 2 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index f7621ee58..eafe4edb5 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -11,9 +11,13 @@
 from process import WorkflowException, get_feature
 import shutil
 import stat
+import re
+import shellescape
 
 _logger = logging.getLogger("cwltool")
 
+needs_shell_quoting = re.compile(r"""(^$|[\s|&;()<>\'"$@])""").search
+
 def deref_links(outputs):
     if isinstance(outputs, dict):
         if outputs.get("class") == "File":
@@ -76,7 +80,7 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
 
         _logger.info("outdir is %s", self.outdir)
         _logger.info("%s%s%s",
-                     " ".join(runtime + self.command_line),
+                     " ".join(runtime + [shellescape.quote(arg) if needs_shell_quoting(arg) else arg for arg in self.command_line]),
                      ' < %s' % (self.stdin) if self.stdin else '',
                      ' > %s' % os.path.join(self.outdir, self.stdout) if self.stdout else '')
 
diff --git a/setup.py b/setup.py
index cc128dd2f..8eefc48bb 100644
--- a/setup.py
+++ b/setup.py
@@ -33,7 +33,8 @@
           'avro',
           'rdflib >= 4.2.0',
           'rdflib-jsonld >= 0.3.0',
-          'mistune'
+          'mistune',
+          'shellescape'
         ],
       test_suite='tests',
       tests_require=[],

From b9d8d1e7e6a0c36ea6cf8ca180d4d7acd87974b2 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 12 Jul 2015 13:19:21 +0100
Subject: [PATCH 153/221] Support defaults in nested records.  Improve handling
 of named types.

---
 cwltool/draft2tool.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index bfbc944bb..ab9cf1932 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -61,6 +61,8 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
             for t in schema["type"]:
                 if isinstance(t, basestring) and self.names.has_name(t, ""):
                     avsc = self.names.get_name(t, "")
+                elif isinstance(t, dict) and self.names.has_name(t["name"], ""):
+                    avsc = self.names.get_name(t["name"], "")
                 else:
                     avsc = avro.schema.make_avsc_object(t, self.names)
                 if validate.validate(avsc, datum):
@@ -81,6 +83,8 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
                 for f in schema["fields"]:
                     if f["name"] in datum:
                         bindings.extend(self.bind_input(f, datum[f["name"]], lead_pos=lead_pos, tail_pos=f["name"]))
+                    else:
+                        datum[f["name"]] = f.get("default")
 
             if schema["type"] == "map":
                 for n, item in datum.items():

From b27f8aaae9b7cdee0107b82363c340aa7c17a556 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 12 Jul 2015 13:21:09 +0100
Subject: [PATCH 154/221] Fix for non-Docker expression engine.

---
 cwltool/expression.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index 11a980c06..04f2071ef 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -31,6 +31,7 @@ class DR(object):
             dr.hints = r.get("hints", [])
 
             (docker_req, docker_is_req) = process.get_feature(dr, "DockerRequirement")
+            img_id = None
             if docker_req:
                 img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
             if img_id:

From 62947fc6046c66e56911bd6156769a0757773931 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 13 Jul 2015 13:42:34 +0100
Subject: [PATCH 155/221] Copy spec over to draft 3. Refactor cwlsite generator
 to generate both spec versions. Refactor cwltool code to fix bug in moving
 files when using subworkflows. Improve cwltool logging.

---
 cwltool/avro_ld/ref_resolver.py |   7 +-
 cwltool/draft2tool.py           |  14 +-
 cwltool/job.py                  |  24 ++-
 cwltool/main.py                 |  26 +--
 cwltool/process.py              |  13 ++
 cwltool/workflow.py             | 333 ++++++++++++++++++--------------
 6 files changed, 246 insertions(+), 171 deletions(-)

diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
index b7dc98c18..a776f3ce4 100644
--- a/cwltool/avro_ld/ref_resolver.py
+++ b/cwltool/avro_ld/ref_resolver.py
@@ -144,14 +144,17 @@ def fetch_text(self, url):
                 with open(path) as fp:
                     return fp.read().decode("utf-8")
             except (OSError, IOError) as e:
-                raise RuntimeError('Failed for %s: %s' % (url, e))
+                raise RuntimeError('Error reading %s %s' % (url, e))
         else:
             raise ValueError('Unsupported scheme in url: %s' % url)
 
     def fetch(self, url):
         if url in self.idx:
             return self.idx[url]
-        result = yaml.load(self.fetch_text(url))
+        try:
+            result = yaml.load(self.fetch_text(url))
+        except yaml.parser.ParserError as e:
+            raise validate.ValidationException("Error loading '%s' %s" % (url, str(e)))
         if isinstance(result, dict):
             if "id" not in result:
                 result["id"] = url
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index ab9cf1932..e0c972283 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -1,6 +1,5 @@
 import avro.schema
 import json
-import pprint
 import copy
 from flatten import flatten
 import functools
@@ -317,8 +316,6 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         builder.bindings.sort(key=lambda a: a["position"])
 
-        _logger.debug("Files is %s", builder.files)
-
         reffiles = set((f["path"] for f in builder.files))
 
         j = self.makeJobRunner()
@@ -331,6 +328,13 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         j.requirements = self.requirements
         j.hints = self.hints
 
+        _logger.debug("[job %s] initializing from %s%s",
+                     id(j),
+                     self.tool["id"],
+                     " as part of %s" % kwargs["part_of"] if "part_of" in kwargs else "")
+        _logger.debug("[job %s] %s", id(j), json.dumps(joborder, indent=4))
+
+
         builder.pathmapper = None
 
         if self.tool.get("stdin"):
@@ -350,8 +354,8 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         for f in builder.files:
             f["path"] = builder.pathmapper.mapper(f["path"])[1]
 
-        _logger.debug("Bindings is %s", pprint.pformat(builder.bindings))
-        _logger.debug("Files is %s", pprint.pformat({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}))
+        _logger.debug("[job %s] command line bindings is %s", id(j), json.dumps(builder.bindings, indent=4))
+        _logger.debug("[job %s] path mappings is %s", id(j), json.dumps({p: builder.pathmapper.mapper(p) for p in builder.pathmapper.files()}, indent=4))
 
         dockerReq, _ = self.get_requirement("DockerRequirement")
         if dockerReq and kwargs.get("use_container"):
diff --git a/cwltool/job.py b/cwltool/job.py
index 0df5fce4d..03322ad44 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -8,7 +8,7 @@
 import sys
 import requests
 import docker
-from process import WorkflowException, get_feature
+from process import WorkflowException, get_feature, empty_subtree
 import shutil
 import stat
 
@@ -28,7 +28,8 @@ def deref_links(outputs):
             deref_links(v)
 
 class CommandLineJob(object):
-    def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True, **kwargs):
+    def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True, move_outputs=True, **kwargs):
+        #_logger.info("[job %s] starting with outdir %s", id(self), self.outdir)
 
         if not os.path.exists(self.outdir):
             os.makedirs(self.outdir)
@@ -45,9 +46,15 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             if not os.path.exists(self.pathmapper.mapper(f)[0]):
                 raise WorkflowException("Required input file %s not found" % self.pathmapper.mapper(f)[0])
 
+        img_id = None
         if docker_req and kwargs.get("use_container") is not False:
             env = os.environ
             img_id = docker.get_from_requirements(docker_req, docker_is_req, pull_image)
+
+        if docker_is_req and img_id is None:
+            raise WorkflowException("Docker is required for running this tool.")
+
+        if img_id:
             runtime = ["docker", "run", "-i"]
             for src in self.pathmapper.files():
                 vol = self.pathmapper.mapper(src)
@@ -75,8 +82,8 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         stdin = None
         stdout = None
 
-        _logger.info("outdir is %s", self.outdir)
-        _logger.info("%s%s%s",
+        _logger.info("[job %s] exec %s%s%s",
+                     id(self),
                      " ".join(runtime + self.command_line),
                      ' < %s' % (self.stdin) if self.stdin else '',
                      ' > %s' % os.path.join(self.outdir, self.stdout) if self.stdout else '')
@@ -149,8 +156,15 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             _logger.exception("Exception while running job")
             processStatus = "permanentFail"
 
+        _logger.info("[job %s] completed %s", id(self), processStatus)
+        _logger.debug("[job %s] %s", id(self), json.dumps(outputs, indent=4))
+
         self.output_callback(outputs, processStatus)
 
         if rm_tmpdir:
-            _logger.info("Removing temporary directory %s", self.tmpdir)
+            _logger.debug("[job %s] Removing temporary directory %s", id(self), self.tmpdir)
             shutil.rmtree(self.tmpdir, True)
+
+        if move_outputs and empty_subtree(self.outdir):
+            _logger.debug("[job %s] Removing empty output directory %s", id(self), self.tmpdir)
+            shutil.rmtree(self.outdir, True)
diff --git a/cwltool/main.py b/cwltool/main.py
index 075534424..e85ed2821 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -100,9 +100,9 @@ def single_job_executor(t, job_order, input_basedir, args, **kwargs):
 
     def output_callback(out, processStatus):
         if processStatus == "success":
-            _logger.info("Overall job status is %s", processStatus)
+            _logger.info("Final job status is %s", processStatus)
         else:
-            _logger.warn("Overall job status is %s", processStatus)
+            _logger.warn("Final job status is %s", processStatus)
         final_output.append(out)
 
     if kwargs.get("outdir"):
@@ -112,8 +112,6 @@ def output_callback(out, processStatus):
     else:
         kwargs["outdir"] = tempfile.mkdtemp()
 
-    _logger.info("Output directory is %s", kwargs["outdir"])
-
     jobiter = t.job(job_order,
                     input_basedir,
                     output_callback,
@@ -193,9 +191,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     try:
         processobj = loader.resolve_ref(args.workflow)
     except (avro_ld.validate.ValidationException, RuntimeError) as e:
-        _logger.error("Tool definition failed validation:\n%s" % e)
-        if args.debug:
-            _logger.exception("")
+        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
 
     if args.print_pre:
@@ -205,9 +201,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     try:
         loader.validate_links(processobj)
     except (avro_ld.validate.ValidationException) as e:
-        _logger.error("Tool definition failed validation:\n%s" % e)
-        if args.debug:
-            _logger.exception()
+        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
 
     if args.job_order:
@@ -221,12 +215,12 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     try:
         t = makeTool(processobj, strict=args.strict, makeTool=makeTool)
     except (avro_ld.validate.ValidationException) as e:
-        _logger.error("Tool definition failed validation:\n%s" % e)
+        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         if args.debug:
             _logger.exception("")
         return 1
     except (RuntimeError, workflow.WorkflowException) as e:
-        _logger.error(e)
+        _logger.error("Tool definition failed initialization:\n%s", e, exc_info=(e if args.debug else False))
         if args.debug:
             _logger.exception()
         return 1
@@ -277,14 +271,10 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         # This is the workflow output, it needs to be written
         sys.stdout.write(json.dumps(out, indent=4))
     except (validate.ValidationException) as e:
-        _logger.error("Input object failed validation:\n%s" % e)
-        if args.debug:
-            _logger.exception("")
+        _logger.error("Input object failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
     except workflow.WorkflowException as e:
-        _logger.error("Workflow error:\n  %s" % e)
-        if args.debug:
-            _logger.exception("")
+        _logger.error("Workflow error:\n  %s", e, exc_info=(e if args.debug else False))
         return 1
 
     return 0
diff --git a/cwltool/process.py b/cwltool/process.py
index 4ef8474fe..d9556a4de 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -12,6 +12,7 @@
 import urlparse
 import pprint
 from pkg_resources import resource_stream
+import stat
 
 _logger = logging.getLogger("cwltool")
 
@@ -107,3 +108,15 @@ def validate_hints(self, hints, strict):
 
     def get_requirement(self, feature):
         return get_feature(self, feature)
+
+def empty_subtree(dirpath):
+    # Test if a directory tree contains any files (does not count empty
+    # subdirectories)
+    for d in os.listdir(dirpath):
+        d = os.path.join(dirpath, d)
+        if stat.S_ISDIR(os.stat(d).st_mode):
+            if empty_subtree(d) is False:
+                return False
+        else:
+            return False
+    return True
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index a72a1689d..41e0319de 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -1,7 +1,7 @@
 import job
 import draft2tool
 from aslist import aslist
-from process import Process, WorkflowException, get_feature
+from process import Process, WorkflowException, get_feature, empty_subtree
 import copy
 import logging
 import random
@@ -14,6 +14,7 @@
 import pprint
 import tempfile
 import shutil
+import json
 
 _logger = logging.getLogger("cwltool")
 
@@ -30,11 +31,13 @@ def defaultMakeTool(toolpath_object, **kwargs):
 
     raise WorkflowException("Missing or invalid 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
 
-def findfiles(wo, fn=[]):
+def findfiles(wo, fn=None):
+    if fn is None:
+        fn = []
     if isinstance(wo, dict):
         if wo.get("class") == "File":
             fn.append(wo)
-            return findfiles(wo.get("secondaryFiles", None), fn)
+            findfiles(wo.get("secondaryFiles", None), fn)
         else:
             for w in wo.values():
                 findfiles(w, fn)
@@ -43,18 +46,96 @@ def findfiles(wo, fn=[]):
             findfiles(w, fn)
     return fn
 
-class Workflow(Process):
-    def __init__(self, toolpath_object, **kwargs):
-        super(Workflow, self).__init__(toolpath_object, "Workflow", **kwargs)
 
-        kwargs["requirements"] = self.requirements
-        kwargs["hints"] = self.hints
+def match_types(sinktype, src, iid, inputobj, linkMerge):
+    if isinstance(sinktype, list):
+        # Sink is union type
+        for st in sinktype:
+            if match_types(st, src, iid, inputobj, linkMerge):
+                return True
+    elif isinstance(src.parameter["type"], list):
+        # Source is union type
+        # Check that every source type is compatible with the sink.
+        for st in src.parameter["type"]:
+            srccopy = copy.deepcopy(src)
+            srccopy.parameter["type"] = st
+            if not match_types(st, srccopy, iid, inputobj, linkMerge):
+                return False
+        return True
+    else:
+        is_array = isinstance(sinktype, dict) and sinktype["type"] == "array"
+        if is_array and linkMerge:
+            if iid not in inputobj:
+                inputobj[iid] = []
+            if linkMerge == "merge_nested":
+                inputobj[iid].append(src.value)
+            elif linkMerge == "merge_flattened":
+                if isinstance(src.value, list):
+                    inputobj[iid].extend(src.value)
+                else:
+                    inputobj[iid].append(src.value)
+            else:
+                raise WorkflowException("Unrecognized linkMerge enum '%s'" % linkMerge)
+            return True
+        elif src.parameter["type"] == sinktype:
+            # simply assign the value from state to input
+            inputobj[iid] = copy.deepcopy(src.value)
+            return True
+    return False
+
+
+def object_from_state(state, parms, frag_only):
+    inputobj = {}
+    for inp in parms:
+        iid = inp["id"]
+        if frag_only:
+            (_, iid) = urlparse.urldefrag(iid)
+            iid = iid.split(".")[-1]
+        if "source" in inp:
+            connections = aslist(inp["source"])
+            for src in connections:
+                if src in state and state[src] is not None:
+                    if not match_types(inp["type"], state[src], iid, inputobj,
+                                            inp.get("linkMerge", ("merge_nested" if len(connections) > 1 else None))):
+                        raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, state[src].parameter["type"], inp["id"], inp["type"]))
+                elif src not in state:
+                    raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
+                else:
+                    return None
+        elif "default" in inp:
+            inputobj[iid] = inp["default"]
+        else:
+            raise WorkflowException("Value for %s not specified" % (inp["id"]))
+    return inputobj
 
-        makeTool = kwargs.get("makeTool")
-        self.steps = [WorkflowStep(step, **kwargs) for step in self.tool.get("steps", [])]
+
+class WorkflowJobStep(object):
+    def __init__(self, step):
+        self.step = step
+        self.tool = step.tool
+        self.id = step.id
+        self.submitted = False
+        self.completed = False
+
+    def job(self, joborder, basedir, output_callback, **kwargs):
+        kwargs["part_of"] = "step %s" % id(self)
+        for j in self.step.job(joborder, basedir, output_callback, **kwargs):
+            yield j
+
+class WorkflowJob(object):
+    def __init__(self, workflow, **kwargs):
+        self.tool = workflow.tool
+        self.steps = [WorkflowJobStep(s) for s in workflow.steps]
+        self.id = workflow.tool["id"]
+        if "outdir" in kwargs:
+            self.outdir = kwargs["outdir"]
+        else:
+            self.outdir = tempfile.mkdtemp()
+
+        _logger.debug("[workflow %s] initialized from %s", id(self), self.tool["id"])
 
     def receive_output(self, step, outputparms, jobout, processStatus):
-        _logger.debug("WorkflowStep completed with %s", jobout)
+        _logger.debug("[workflow %s] step %s completed", id(self), id(step))
         for i in outputparms:
             if "id" in i:
                 if i["id"] in jobout:
@@ -74,110 +155,24 @@ def receive_output(self, step, outputparms, jobout, processStatus):
 
         step.completed = True
 
-    def match_types(self, sinktype, src, iid, inputobj, linkMerge):
-        if isinstance(sinktype, list):
-            # Sink is union type
-            for st in sinktype:
-                if self.match_types(st, src, iid, inputobj, linkMerge):
-                    return True
-        elif isinstance(src.parameter["type"], list):
-            # Source is union type
-            # Check that every source type is compatible with the sink.
-            for st in src.parameter["type"]:
-                srccopy = copy.deepcopy(src)
-                srccopy.parameter["type"] = st
-                if not self.match_types(st, srccopy, iid, inputobj, linkMerge):
-                    return False
-            return True
-        else:
-            is_array = isinstance(sinktype, dict) and sinktype["type"] == "array"
-            if is_array and linkMerge:
-                if iid not in inputobj:
-                    inputobj[iid] = []
-                if linkMerge == "merge_nested":
-                    inputobj[iid].append(src.value)
-                elif linkMerge == "merge_flattened":
-                    if isinstance(src.value, list):
-                        inputobj[iid].extend(src.value)
-                    else:
-                        inputobj[iid].append(src.value)
-                else:
-                    raise WorkflowException("Unrecognized linkMerge enum '%s'" % linkMerge)
-                return True
-            elif src.parameter["type"] == sinktype:
-                # simply assign the value from state to input
-                inputobj[iid] = copy.deepcopy(src.value)
-                return True
-        return False
-
-    def object_from_state(self, parms, frag_only):
-        inputobj = {}
-        for inp in parms:
-            iid = inp["id"]
-            if frag_only:
-                (_, iid) = urlparse.urldefrag(iid)
-                iid = iid.split(".")[-1]
-            if "source" in inp:
-                connections = aslist(inp["source"])
-                for src in connections:
-                    if src in self.state and self.state[src] is not None:
-                        if not self.match_types(inp["type"], self.state[src], iid, inputobj,
-                                                inp.get("linkMerge", ("merge_nested" if len(connections) > 1 else None))):
-                            raise WorkflowException("Type mismatch between source '%s' (%s) and sink '%s' (%s)" % (src, self.state[src].parameter["type"], inp["id"], inp["type"]))
-                    elif src not in self.state:
-                        raise WorkflowException("Connect source '%s' on parameter '%s' does not exist" % (src, inp["id"]))
-                    else:
-                        return None
-            elif "default" in inp:
-                inputobj[iid] = inp["default"]
-            else:
-                raise WorkflowException("Value for %s not specified" % (inp["id"]))
-        return inputobj
-
-    def adjust_for_scatter(self, steps):
-        (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
-        for step in steps:
-            if scatterSpec and "scatter" in step.tool:
-                inputparms = copy.deepcopy(step.tool["inputs"])
-                outputparms = copy.deepcopy(step.tool["outputs"])
-                scatter = aslist(step.tool["scatter"])
-
-                inp_map = {i["id"]: i for i in inputparms}
-                for s in scatter:
-                    if s not in inp_map:
-                        raise WorkflowException("Invalid Scatter parameter '%s'" % s)
-
-                    inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
-
-                if step.tool.get("scatterMethod") == "nested_crossproduct":
-                    nesting = len(scatter)
-                else:
-                    nesting = 1
-
-                for r in xrange(0, nesting):
-                    for i in outputparms:
-                        i["type"] = {"type": "array", "items": i["type"]}
-                step.tool["inputs"] = inputparms
-                step.tool["outputs"] = outputparms
-
     def try_make_job(self, step, basedir, **kwargs):
-        _logger.debug("Try to make job %s", step.id)
-
         inputparms = step.tool["inputs"]
         outputparms = step.tool["outputs"]
 
         try:
-            inputobj = self.object_from_state(inputparms, False)
+            inputobj = object_from_state(self.state, inputparms, False)
             if inputobj is None:
+                _logger.debug("[workflow %s] job step %s not ready", id(self), step.id)
                 return
 
+            _logger.debug("[step %s] starting job step %s of workflow %s", id(step), step.id, id(self))
+
             if step.submitted:
                 return
 
             callback = functools.partial(self.receive_output, step, outputparms)
 
-            (scatterSpec, _) = self.get_requirement("ScatterFeatureRequirement")
-            if scatterSpec and "scatter" in step.tool:
+            if "scatter" in step.tool:
                 scatter = aslist(step.tool["scatter"])
                 method = step.tool.get("scatterMethod")
                 if method is None and len(scatter) != 1:
@@ -197,21 +192,20 @@ def try_make_job(self, step, basedir, **kwargs):
             for j in jobs:
                 yield j
         except Exception as e:
-            _logger.error(e)
+            _logger.exception("Unhandled exception")
             self.processStatus = "permanentFail"
             step.completed = True
 
+    def run(self, **kwargs):
+        _logger.info("[workflow %s] starting", id(self))
 
-    def job(self, joborder, basedir, output_callback, **kwargs):
-        # Validate job order
-        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
-
-        self.adjust_for_scatter(self.steps)
-
-        random.shuffle(self.steps)
-
+    def job(self, joborder, basedir, output_callback, move_outputs=True, **kwargs):
         self.state = {}
         self.processStatus = "success"
+
+        if "outdir" in kwargs:
+            del kwargs["outdir"]
+
         for i in self.tool["inputs"]:
             (_, iid) = urlparse.urldefrag(i["id"])
             if iid in joborder:
@@ -224,16 +218,8 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         for s in self.steps:
             for out in s.tool["outputs"]:
                 self.state[out["id"]] = None
-            s.submitted = False
-            s.completed = False
 
-        if "outdir" in kwargs:
-            outdir = kwargs["outdir"]
-            del kwargs["outdir"]
-        else:
-            outdir = tempfile.mkdtemp()
-
-        actual_jobs = []
+        output_dirs = set()
 
         completed = 0
         while completed < len(self.steps) and self.processStatus == "success":
@@ -246,51 +232,87 @@ def job(self, joborder, basedir, output_callback, **kwargs):
                     for newjob in self.try_make_job(step, basedir, **kwargs):
                         if newjob:
                             made_progress = True
-                            actual_jobs.append(newjob)
+                            if newjob.outdir:
+                                output_dirs.add(newjob.outdir)
                         yield newjob
             if not made_progress and completed < len(self.steps):
                 yield None
 
-        wo = self.object_from_state(self.tool["outputs"], True)
+        wo = object_from_state(self.state, self.tool["outputs"], True)
 
-        if kwargs.get("move_outputs", True):
+        if move_outputs:
             targets = set()
             conflicts = set()
 
-            for f in findfiles(wo):
-                for a in actual_jobs:
-                    if a.outdir and f["path"].startswith(a.outdir):
+            outfiles = findfiles(wo)
+
+            _logger.info("[workflow %s] staging output is %s", id(self), json.dumps(wo, indent=4))
+            _logger.debug("[workflow %s] outfiles is %s", id(self), json.dumps(outfiles, indent=4))
+            _logger.debug("[workflow %s] output_dirs is %s", id(self), json.dumps(list(output_dirs), indent=4))
+
+            for f in outfiles:
+                for a in output_dirs:
+                    if f["path"].startswith(a):
                         src = f["path"]
-                        dst = os.path.join(outdir, src[len(a.outdir)+1:])
+                        dst = os.path.join(self.outdir, src[len(a)+1:])
                         if dst in targets:
                             conflicts.add(dst)
                         else:
                             targets.add(dst)
 
-            for f in findfiles(wo):
-                for a in actual_jobs:
-                    if a.outdir and f["path"].startswith(a.outdir):
+            for f in outfiles:
+                for a in output_dirs:
+                    if f["path"].startswith(a):
                         src = f["path"]
-                        dst = os.path.join(outdir, src[len(a.outdir)+1:])
+                        dst = os.path.join(self.outdir, src[len(a)+1:])
                         if dst in conflicts:
                             sp = os.path.splitext(dst)
                             dst = "%s-%s%s" % (sp[0], str(random.randint(1, 1000000000)), sp[1])
                         dirname = os.path.dirname(dst)
                         if not os.path.exists(dirname):
                             os.makedirs(dirname)
-                        _logger.info("Moving '%s' to '%s'", src, dst)
+                        _logger.debug("[workflow %s] Moving '%s' to '%s'", id(self), src, dst)
                         shutil.move(src, dst)
                         f["path"] = dst
 
-            for a in actual_jobs:
-                if a.outdir:
-                    _logger.info("Removing intermediate output directory %s", a.outdir)
-                    shutil.rmtree(a.outdir, True)
+            for a in output_dirs:
+                if os.path.exists(a) and empty_subtree(a):
+                    _logger.debug("[workflow %s] Removing intermediate output directory %s", id(self), a)
+                    shutil.rmtree(a, True)
+
+        _logger.info("[workflow %s] outdir is %s", id(self), self.outdir)
 
         output_callback(wo, self.processStatus)
 
-class WorkflowStep(Process):
+
+class Workflow(Process):
     def __init__(self, toolpath_object, **kwargs):
+        super(Workflow, self).__init__(toolpath_object, "Workflow", **kwargs)
+
+        kwargs["requirements"] = self.requirements
+        kwargs["hints"] = self.hints
+
+        makeTool = kwargs.get("makeTool")
+        self.steps = [WorkflowStep(step, n, **kwargs) for n,step in enumerate(self.tool.get("steps", []))]
+        random.shuffle(self.steps)
+
+        # TODO: statically validate data links instead of doing it at runtime.
+
+    def job(self, joborder, basedir, output_callback, **kwargs):
+        # Validate job order
+        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+
+        kwargs["part_of"] = "workflow %s" % (id(self))
+        wj = WorkflowJob(self, **kwargs)
+
+        yield wj
+
+        for w in wj.job(joborder, basedir, output_callback, **kwargs):
+            yield w
+
+
+class WorkflowStep(Process):
+    def __init__(self, toolpath_object, pos, **kwargs):
         try:
             makeTool = kwargs.get("makeTool")
             self.embedded_tool = makeTool(toolpath_object["run"], **kwargs)
@@ -300,7 +322,7 @@ def __init__(self, toolpath_object, **kwargs):
         if "id" in toolpath_object:
             self.id = toolpath_object["id"]
         else:
-            self.id = "#step_" + str(random.randint(1, 1000000000))
+            self.id = "#step" + str(pos)
 
         for field in ("inputs", "outputs"):
             for i in toolpath_object[field]:
@@ -324,8 +346,39 @@ def __init__(self, toolpath_object, **kwargs):
             if not feature:
                 raise WorkflowException("Workflow contains embedded workflow but SubworkflowFeatureRequirement not declared")
 
+        if "scatter" in self.tool:
+            (feature, _) = self.get_requirement("ScatterFeatureRequirement")
+            if not feature:
+                raise WorkflowException("Workflow contains scatter but ScatterFeatureRequirement not declared")
+
+            inputparms = copy.deepcopy(self.tool["inputs"])
+            outputparms = copy.deepcopy(self.tool["outputs"])
+            scatter = aslist(self.tool["scatter"])
+
+            method = self.tool.get("scatterMethod")
+            if method is None and len(scatter) != 1:
+                raise WorkflowException("Must specify scatterMethod when scattering over multiple inputs")
+
+            inp_map = {i["id"]: i for i in inputparms}
+            for s in scatter:
+                if s not in inp_map:
+                    raise WorkflowException("Invalid Scatter parameter '%s'" % s)
+
+                inp_map[s]["type"] = {"type": "array", "items": inp_map[s]["type"]}
+
+            if self.tool.get("scatterMethod") == "nested_crossproduct":
+                nesting = len(scatter)
+            else:
+                nesting = 1
+
+            for r in xrange(0, nesting):
+                for i in outputparms:
+                    i["type"] = {"type": "array", "items": i["type"]}
+            self.tool["inputs"] = inputparms
+            self.tool["outputs"] = outputparms
+
     def receive_output(self, output_callback, jobout, processStatus):
-        _logger.debug("WorkflowStep output from run is %s", jobout)
+        #_logger.debug("WorkflowStep output from run is %s", jobout)
         output = {}
         for i in self.tool["outputs"]:
             (_, d) = urlparse.urldefrag(i["id"])
@@ -347,8 +400,6 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
-        _logger.info("Creating workflow step %s with input\n%s", self.id, pprint.pformat(joborder))
-
         for t in self.embedded_tool.job(joborder, basedir, functools.partial(self.receive_output, output_callback), **kwargs):
             yield t
 

From 01d165d827569d8668377197ce936ba39c4313e1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 13 Jul 2015 09:26:46 -0400
Subject: [PATCH 156/221] Add --version.  Remove spurious logging.

---
 cwltool/job.py      |  5 ++++-
 cwltool/main.py     | 23 ++++++++++++++++++-----
 cwltool/workflow.py |  6 +-----
 3 files changed, 23 insertions(+), 11 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index 03322ad44..7d696bbad 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -156,7 +156,10 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             _logger.exception("Exception while running job")
             processStatus = "permanentFail"
 
-        _logger.info("[job %s] completed %s", id(self), processStatus)
+        if processStatus != "success":
+            _logger.warn("[job %s] completed %s", id(self), processStatus)
+        else:
+            _logger.debug("[job %s] completed %s", id(self), processStatus)
         _logger.debug("[job %s] %s", id(self), json.dumps(outputs, indent=4))
 
         self.output_callback(outputs, processStatus)
diff --git a/cwltool/main.py b/cwltool/main.py
index e85ed2821..b4d8ff63f 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -17,9 +17,11 @@
 import process
 import job
 from cwlrdf import printrdf, printdot
+import pkg_resources  # part of setuptools
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
+_logger.setLevel(logging.INFO)
 
 def arg_parser():
     parser = argparse.ArgumentParser()
@@ -90,8 +92,10 @@ def arg_parser():
     parser.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
     parser.add_argument("--strict", action="store_true", help="Strict validation (error on unrecognized fields)")
 
-    parser.add_argument("--verbose", action="store_true", help="Print more logging")
+    parser.add_argument("--verbose", action="store_true", help="Default logging")
+    parser.add_argument("--quiet", action="store_true", help="Only print warnings and errors.")
     parser.add_argument("--debug", action="store_true", help="Print even more logging")
+    parser.add_argument("--version", action="store_true", help="Print version and exit")
 
     return parser
 
@@ -100,9 +104,9 @@ def single_job_executor(t, job_order, input_basedir, args, **kwargs):
 
     def output_callback(out, processStatus):
         if processStatus == "success":
-            _logger.info("Final job status is %s", processStatus)
+            _logger.info("Final process status is %s", processStatus)
         else:
-            _logger.warn("Final job status is %s", processStatus)
+            _logger.warn("Final process status is %s", processStatus)
         final_output.append(out)
 
     if kwargs.get("outdir"):
@@ -146,8 +150,17 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     args = parser.parse_args(args)
 
-    if args.verbose:
-        logging.getLogger("cwltool").setLevel(logging.INFO)
+
+    pkg = pkg_resources.require("cwltool")
+    if pkg:
+        if args.version:
+            print "%s %s" % (sys.argv[0], pkg[0].version)
+            return 0
+        else:
+            _logger.info("%s %s", sys.argv[0], pkg[0].version)
+
+    if args.quiet:
+        logging.getLogger("cwltool").setLevel(logging.WARN)
     if args.debug:
         logging.getLogger("cwltool").setLevel(logging.DEBUG)
 
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 41e0319de..505aa06d2 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -197,7 +197,7 @@ def try_make_job(self, step, basedir, **kwargs):
             step.completed = True
 
     def run(self, **kwargs):
-        _logger.info("[workflow %s] starting", id(self))
+        _logger.debug("[workflow %s] starting", id(self))
 
     def job(self, joborder, basedir, output_callback, move_outputs=True, **kwargs):
         self.state = {}
@@ -246,10 +246,6 @@ def job(self, joborder, basedir, output_callback, move_outputs=True, **kwargs):
 
             outfiles = findfiles(wo)
 
-            _logger.info("[workflow %s] staging output is %s", id(self), json.dumps(wo, indent=4))
-            _logger.debug("[workflow %s] outfiles is %s", id(self), json.dumps(outfiles, indent=4))
-            _logger.debug("[workflow %s] output_dirs is %s", id(self), json.dumps(list(output_dirs), indent=4))
-
             for f in outfiles:
                 for a in output_dirs:
                     if f["path"].startswith(a):

From c73df1da7c6a0d9485b21ce7dc9242a340ce89ec Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 13 Jul 2015 09:58:10 -0400
Subject: [PATCH 157/221] Add --quiet.

---
 cwltool/draft2tool.py | 2 +-
 cwltool/main.py       | 9 ++++-----
 2 files changed, 5 insertions(+), 6 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index e0c972283..e0bc61853 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -330,7 +330,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
         _logger.debug("[job %s] initializing from %s%s",
                      id(j),
-                     self.tool["id"],
+                     self.tool.get("id", ""),
                      " as part of %s" % kwargs["part_of"] if "part_of" in kwargs else "")
         _logger.debug("[job %s] %s", id(j), json.dumps(joborder, indent=4))
 
diff --git a/cwltool/main.py b/cwltool/main.py
index b4d8ff63f..6174d29b7 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -150,6 +150,10 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     args = parser.parse_args(args)
 
+    if args.quiet:
+        _logger.setLevel(logging.WARN)
+    if args.debug:
+        _logger.setLevel(logging.DEBUG)
 
     pkg = pkg_resources.require("cwltool")
     if pkg:
@@ -159,11 +163,6 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         else:
             _logger.info("%s %s", sys.argv[0], pkg[0].version)
 
-    if args.quiet:
-        logging.getLogger("cwltool").setLevel(logging.WARN)
-    if args.debug:
-        logging.getLogger("cwltool").setLevel(logging.DEBUG)
-
     (j, names) = process.get_schema()
     (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
 

From f4985d6370b02fece9f8cf70bb2b5119fdbce7cd Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 14 Jul 2015 09:26:06 -0400
Subject: [PATCH 158/221] Moved testing framework into cwltool.  Setup.py now
 installs additional tool "cwltest".

---
 cwltool/cwltest.py | 154 +++++++++++++++++++++++++++++++++++++++++++++
 setup.py           |   2 +-
 2 files changed, 155 insertions(+), 1 deletion(-)
 create mode 100755 cwltool/cwltest.py

diff --git a/cwltool/cwltest.py b/cwltool/cwltest.py
new file mode 100755
index 000000000..15b0ccf34
--- /dev/null
+++ b/cwltool/cwltest.py
@@ -0,0 +1,154 @@
+#!/usr/bin/env python
+
+import argparse
+import json
+import os
+import subprocess
+import sys
+import shutil
+import tempfile
+import yaml
+import pipes
+import logging
+
+_logger = logging.getLogger("cwltool")
+_logger.addHandler(logging.StreamHandler())
+_logger.setLevel(logging.INFO)
+
+def compare(a, b):
+    try:
+        if isinstance(a, dict):
+            if a.get("class") == "File":
+                if not b["path"].endswith("/" + a["path"]):
+                    return False
+                # ignore empty collections
+                b = {k: v for k, v in b.iteritems()
+                     if not isinstance(v, (list, dict)) or len(v) > 0}
+            if len(a) != len(b):
+                return False
+            for c in a:
+                if a.get("class") != "File" or c != "path":
+                    if c not in b:
+                        return False
+                    if not compare(a[c], b[c]):
+                        return False
+            return True
+        elif isinstance(a, list):
+            if len(a) != len(b):
+                return False
+            for c in xrange(0, len(a)):
+                if not compare(a[c], b[c]):
+                    return False
+            return True
+        else:
+            return a == b
+    except:
+        return False
+
+def run_test(args, i, t):
+    out = {}
+    outdir = None
+    try:
+        if "output" in t:
+            test_command = [args.tool]
+            # Add prefixes if running on MacOSX so that boot2docker writes to /Users
+            if 'darwin' in sys.platform:
+                outdir = tempfile.mkdtemp(prefix=os.path.abspath(os.path.curdir))
+                test_command.extend(["--tmp-outdir-prefix={}".format(outdir), "--tmpdir-prefix={}".format(outdir)])
+            else:
+                outdir = tempfile.mkdtemp()
+            test_command.extend(["--outdir={}".format(outdir),
+                                 "--quiet",
+                                 t["tool"],
+                                 t["job"]])
+            outstr = subprocess.check_output(test_command)
+            out = {"output": json.loads(outstr)}
+        else:
+            test_command = [args.tool,
+                            "--conformance-test",
+                            "--basedir=" + args.basedir,
+                            "--no-container",
+                            "--quiet",
+                            t["tool"],
+                            t["job"]]
+
+            outstr = subprocess.check_output(test_command)
+            out = yaml.load(outstr)
+    except ValueError as v:
+        _logger.error(v)
+        _logger.error(outstr)
+    except subprocess.CalledProcessError:
+        _logger.error("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
+        _logger.error(t.get("doc"))
+        _logger.error("Returned non-zero")
+        return 1
+    except yaml.scanner.ScannerError as e:
+        _logger.error("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
+        _logger.error(outstr)
+        _logger.error("Parse error %s", str(e))
+
+    pwd = os.path.abspath(os.path.dirname(t["job"]))
+    # t["args"] = map(lambda x: x.replace("$PWD", pwd), t["args"])
+    # if "stdin" in t:
+    #     t["stdin"] = t["stdin"].replace("$PWD", pwd)
+
+    failed = False
+    if "output" in t:
+        checkkeys = ["output"]
+    else:
+        checkkeys = ["args", "stdin", "stdout", "createfiles"]
+
+    for key in checkkeys:
+        if not compare(t.get(key), out.get(key)):
+            if not failed:
+                _logger.warn("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
+                _logger.warn(t.get("doc"))
+                failed = True
+            _logger.warn("%s expected %s\n%s      got %s", (key, t.get(key), " " * len(key), out.get(key)))
+
+    if outdir:
+        shutil.rmtree(outdir)
+
+    if failed:
+        return 1
+    else:
+        return 0
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--test", type=str, help="YAML file describing test cases", required=True)
+    parser.add_argument("--basedir", type=str, help="Basedir to use for tests", default=".")
+    parser.add_argument("-n", type=int, default=None, help="Run a specific test")
+    parser.add_argument("--tool", type=str, default="cwl-runner",
+                        help="CWL runner executable to use (default 'cwl-runner'")
+    args = parser.parse_args()
+
+    if not args.test:
+        parser.print_help()
+        return 1
+
+    with open(args.test) as f:
+        tests = yaml.load(f)
+
+    failures = 0
+
+    if args.n is not None:
+        sys.stderr.write("\rTest [%i/%i] " % (args.n, len(tests)))
+        failures += run_test(args, args.n-1, tests[args.n-1])
+    else:
+        for i, t in enumerate(tests):
+            sys.stderr.write("\rTest [%i/%i] " % (i+1, len(tests)))
+            sys.stderr.flush()
+            failures += run_test(args, i, t)
+
+    if failures == 0:
+         _logger.info("All tests passed")
+         return 0
+    else:
+        _logger.warn("%i failures", failures)
+        return 1
+
+
+if __name__ == "__main__":
+    sys.exit(main())
diff --git a/setup.py b/setup.py
index 8eefc48bb..8045959a3 100644
--- a/setup.py
+++ b/setup.py
@@ -39,7 +39,7 @@
       test_suite='tests',
       tests_require=[],
       entry_points={
-          'console_scripts': [ "cwltool=cwltool.main:main" ]
+          'console_scripts': [ "cwltool=cwltool.main:main", "cwltest=cwltool.cwltest:main" ]
       },
       zip_safe=True,
       cmdclass={'egg_info': tagger},

From 092d4b2752b27e6e610478da5509915b034d7b08 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 15 Jul 2015 13:33:45 -0400
Subject: [PATCH 159/221] Bugfix: don't fail on nested type definitions with no
 `name` field.

---
 cwltool/draft2tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index e0bc61853..a030d730f 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -60,7 +60,7 @@ def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
             for t in schema["type"]:
                 if isinstance(t, basestring) and self.names.has_name(t, ""):
                     avsc = self.names.get_name(t, "")
-                elif isinstance(t, dict) and self.names.has_name(t["name"], ""):
+                elif isinstance(t, dict) and "name" in t and self.names.has_name(t["name"], ""):
                     avsc = self.names.get_name(t["name"], "")
                 else:
                     avsc = avro.schema.make_avsc_object(t, self.names)

From bc0b904c2d5933a6941b78d835cb250f183dd489 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 17 Jul 2015 17:40:00 -0400
Subject: [PATCH 160/221] Bugfix: fix typo in output on test failure

---
 cwltool/cwltest.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/cwltool/cwltest.py b/cwltool/cwltest.py
index 15b0ccf34..b309d88ab 100755
--- a/cwltool/cwltest.py
+++ b/cwltool/cwltest.py
@@ -104,7 +104,10 @@ def run_test(args, i, t):
                 _logger.warn("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
                 _logger.warn(t.get("doc"))
                 failed = True
-            _logger.warn("%s expected %s\n%s      got %s", (key, t.get(key), " " * len(key), out.get(key)))
+            _logger.warn("%s expected %s\n%s      got %s", key,
+                                                            t.get(key),
+                                                            " " * len(key),
+                                                            out.get(key))
 
     if outdir:
         shutil.rmtree(outdir)

From 49e93d11acff8392f99317e9d55241b2293c4df0 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 20 Jul 2015 15:41:16 -0400
Subject: [PATCH 161/221] Make validation aware of defaults, validate default
 (if provided) when is field is missing.

---
 cwltool/avro_ld/validate.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/cwltool/avro_ld/validate.py b/cwltool/avro_ld/validate.py
index 962cd1fc7..3d5d15295 100644
--- a/cwltool/avro_ld/validate.py
+++ b/cwltool/avro_ld/validate.py
@@ -139,8 +139,13 @@ def validate_ex(expected_schema, datum, strict=False):
 
         errors = []
         for f in expected_schema.fields:
+            if f.name in datum:
+                fieldval = datum[f.name]
+            else:
+                fieldval = f.default
+
             try:
-                validate_ex(f.type, datum.get(f.name), strict=strict)
+                validate_ex(f.type, fieldval, strict=strict)
             except ValidationException as v:
                 if f.name not in datum:
                     errors.append("missing required field `%s`" % f.name)

From 0894eec61fe1141c9fc2c126f77b6d251bb0b156 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 22 Jul 2015 10:41:38 -0400
Subject: [PATCH 162/221] Use argparse mutually exclusive groups for either/or
 options.

---
 cwltool/main.py | 48 +++++++++++++++++++++++++++---------------------
 1 file changed, 27 insertions(+), 21 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 2d814037c..5db5f6893 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -36,11 +36,12 @@ def arg_parser():
                         help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool",
                         dest="use_container")
 
-    parser.add_argument("--rm-container", action="store_true", default=True,
+    exgroup = parser.add_mutually_exclusive_group()
+    exgroup.add_argument("--rm-container", action="store_true", default=True,
                         help="Delete Docker container used by jobs after they exit (default)",
                         dest="rm_container")
 
-    parser.add_argument("--leave-container", action="store_false",
+    exgroup.add_argument("--leave-container", action="store_false",
                         default=True, help="Do not delete Docker container used by jobs after they exit",
                         dest="rm_container")
 
@@ -52,50 +53,55 @@ def arg_parser():
                         help="Path prefix for intermediate output directories",
                         default="tmp")
 
-    parser.add_argument("--rm-tmpdir", action="store_true", default=True,
+    exgroup = parser.add_mutually_exclusive_group()
+    exgroup.add_argument("--rm-tmpdir", action="store_true", default=True,
                         help="Delete intermediate temporary directories (default)",
                         dest="rm_tmpdir")
 
-    parser.add_argument("--leave-tmpdir", action="store_false",
+    exgroup.add_argument("--leave-tmpdir", action="store_false",
                         default=True, help="Do not delete intermediate temporary directories",
                         dest="rm_tmpdir")
 
-    parser.add_argument("--move-outputs", action="store_true", default=True,
+    exgroup = parser.add_mutually_exclusive_group()
+    exgroup.add_argument("--move-outputs", action="store_true", default=True,
                         help="Move output files to the workflow output directory and delete intermediate output directories (default).",
                         dest="move_outputs")
 
-    parser.add_argument("--leave-outputs", action="store_false", default=True,
+    exgroup.add_argument("--leave-outputs", action="store_false", default=True,
                         help="Leave output files in intermediate output directories.",
                         dest="move_outputs")
 
-    parser.add_argument("--enable-pull", default=True, action="store_true",
+    exgroup = parser.add_mutually_exclusive_group()
+    exgroup.add_argument("--enable-pull", default=True, action="store_true",
                         help="Try to pull Docker images", dest="enable_pull")
 
-    parser.add_argument("--disable-pull", default=True, action="store_false",
+    exgroup.add_argument("--disable-pull", default=True, action="store_false",
                         help="Do not try to pull Docker images", dest="enable_pull")
 
     parser.add_argument("--dry-run", action="store_true",
                         help="Load and validate but do not execute")
 
-    parser.add_argument("--print-rdf", action="store_true",
-                        help="Print corresponding RDF graph for workflow and exit")
-
     parser.add_argument("--rdf-serializer",
                         help="Output RDF serialization format used by --print-rdf (one of turtle (default), n3, nt, xml)",
                         default="turtle")
 
-    parser.add_argument("--print-spec", action="store_true", help="Print HTML specification document and exit")
-    parser.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file and exit")
-    parser.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file and exit")
-    parser.add_argument("--print-avro", action="store_true", help="Print Avro schema and exit")
-    parser.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing and exit")
-    parser.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
+    exgroup = parser.add_mutually_exclusive_group()
+    parser.add_argument("--print-rdf", action="store_true",
+                        help="Print corresponding RDF graph for workflow and exit")
+    exgroup.add_argument("--print-spec", action="store_true", help="Print HTML specification document and exit")
+    exgroup.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file and exit")
+    exgroup.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file and exit")
+    exgroup.add_argument("--print-avro", action="store_true", help="Print Avro schema and exit")
+    exgroup.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing and exit")
+    exgroup.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
+    exgroup.add_argument("--version", action="store_true", help="Print version and exit")
+
     parser.add_argument("--strict", action="store_true", help="Strict validation (error on unrecognized fields)")
 
-    parser.add_argument("--verbose", action="store_true", help="Default logging")
-    parser.add_argument("--quiet", action="store_true", help="Only print warnings and errors.")
-    parser.add_argument("--debug", action="store_true", help="Print even more logging")
-    parser.add_argument("--version", action="store_true", help="Print version and exit")
+    exgroup = parser.add_mutually_exclusive_group()
+    exgroup.add_argument("--verbose", action="store_true", help="Default logging")
+    exgroup.add_argument("--quiet", action="store_true", help="Only print warnings and errors.")
+    exgroup.add_argument("--debug", action="store_true", help="Print even more logging")
 
     return parser
 

From 2c7c2afb956b71d393fff40effebd014ebd6d38b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 22 Jul 2015 11:25:52 -0400
Subject: [PATCH 163/221] Generate command line parser from input schema.

---
 cwltool/main.py | 75 ++++++++++++++++++++++++++++++++++++-------------
 1 file changed, 56 insertions(+), 19 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 5db5f6893..b07032a65 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -25,8 +25,6 @@
 
 def arg_parser():
     parser = argparse.ArgumentParser()
-    parser.add_argument("workflow", type=str, nargs="?", default=None)
-    parser.add_argument("job_order", type=str, nargs="?", default=None)
     parser.add_argument("--conformance-test", action="store_true")
     parser.add_argument("--basedir", type=str)
     parser.add_argument("--outdir", type=str, default=os.path.abspath('.'),
@@ -103,6 +101,9 @@ def arg_parser():
     exgroup.add_argument("--quiet", action="store_true", help="Only print warnings and errors.")
     exgroup.add_argument("--debug", action="store_true", help="Print even more logging")
 
+    parser.add_argument("workflow", type=str, nargs="?", default=None)
+    parser.add_argument("job_order", nargs=argparse.REMAINDER)
+
     return parser
 
 def single_job_executor(t, job_order, input_basedir, args, **kwargs):
@@ -138,11 +139,14 @@ def output_callback(out, processStatus):
             a["createfiles"] = job.generatefiles
         return a
     else:
-        for r in jobiter:
-            if r:
-                r.run(**kwargs)
-            else:
-                raise workflow.WorkflowException("Workflow cannot make any more progress.")
+        try:
+            for r in jobiter:
+                if r:
+                    r.run(**kwargs)
+                else:
+                    raise workflow.WorkflowException("Workflow cannot make any more progress.")
+        except Exception as e:
+            raise workflow.WorkflowException("%s" % e)
 
         return final_output[0]
 
@@ -156,6 +160,24 @@ def create_loader(ctx):
     loader.idx["cwl:JsonPointer"] = {}
     return loader
 
+class FileAction(argparse.Action):
+    def __init__(self, option_strings, dest, nargs=None, **kwargs):
+        if nargs is not None:
+            raise ValueError("nargs not allowed")
+        super(FileAction, self).__init__(option_strings, dest, **kwargs)
+    def __call__(self, parser, namespace, values, option_string=None):
+        #print '%r %r %r' % (namespace, values, option_string)
+        setattr(namespace, self.dest, {"class": "File", "path": values})
+
+def generate_parser(toolparser, tool):
+    for inp in tool.tool["inputs"]:
+        (_, name) = urlparse.urldefrag(inp["id"])
+        if inp["type"] == "File":
+            toolparser.add_argument("--" + name, action=FileAction)
+        else:
+            toolparser.add_argument("--" + name)
+    return toolparser
+
 def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
     if args is None:
         args = sys.argv[1:]
@@ -224,11 +246,6 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
 
-    if args.job_order:
-        input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(args.job_order))
-    else:
-        input_basedir = args.basedir
-
     if isinstance(processobj, list):
         processobj = loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
 
@@ -253,12 +270,6 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         printdot(args.workflow, processobj, ctx, args.rdf_serializer)
         return 0
 
-    if not args.job_order:
-        parser.print_help()
-        _logger.error("")
-        _logger.error("Input object required")
-        return 1
-
     if args.tmp_outdir_prefix != 'tmp':
         # Use user defined temp directory (if it exists)
         args.tmp_outdir_prefix = os.path.abspath(args.tmp_outdir_prefix)
@@ -273,8 +284,34 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             _logger.error("Temporary directory prefix doesn't exist.")
             return 1
 
+    if len(args.job_order) == 1 and args.job_order[0] != "-":
+        job_order_file = args.job_order[0]
+    else:
+        job_order_file = None
+
+    if job_order_file:
+        input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(job_order_file))
+        job_order_object = loader.resolve_ref(job_order_file)
+        toolparser = None
+    else:
+        input_basedir = args.basedir if args.basedir else "."
+        toolparser = generate_parser(argparse.ArgumentParser(), t)
+        job_order_object = vars(toolparser.parse_args(args.job_order))
+        print job_order_object
+
+
+
+    if not job_order_object:
+        parser.print_help()
+        if toolparser:
+            print "\nOptions for %s " % args.workflow
+            toolparser.print_help()
+        _logger.error("")
+        _logger.error("Input object required")
+        return 1
+
     try:
-        out = executor(t, loader.resolve_ref(args.job_order),
+        out = executor(t, job_order_object,
                        input_basedir, args,
                        conformance_test=args.conformance_test,
                        dry_run=args.dry_run,

From 8344823b22e2fbe120da4735e74fe0762d26ffb3 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 23 Jul 2015 10:10:36 -0400
Subject: [PATCH 164/221] Improved command line handling, support for arrays.

---
 cwltool/job.py  |  9 ++++++
 cwltool/main.py | 86 ++++++++++++++++++++++++++++++++++++++++++-------
 2 files changed, 84 insertions(+), 11 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index dc3b6cc1e..1752a9b02 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -156,6 +156,15 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
 
             outputs = self.collect_outputs(self.outdir)
 
+        except OSError as e:
+            if e.errno == 2:
+                if runtime:
+                    _logger.error("'%s' not found", runtime[0])
+                else:
+                    _logger.error("'%s' not found", self.command_line[0])
+            else:
+                _logger.exception("Exception while running job")
+            processStatus = "permanentFail"
         except Exception as e:
             _logger.exception("Exception while running job")
             processStatus = "permanentFail"
diff --git a/cwltool/main.py b/cwltool/main.py
index b07032a65..f2301696e 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -101,6 +101,8 @@ def arg_parser():
     exgroup.add_argument("--quiet", action="store_true", help="Only print warnings and errors.")
     exgroup.add_argument("--debug", action="store_true", help="Print even more logging")
 
+    parser.add_argument("--tool-help", action="store_true", help="Print command line help for tool")
+
     parser.add_argument("workflow", type=str, nargs="?", default=None)
     parser.add_argument("job_order", nargs=argparse.REMAINDER)
 
@@ -166,16 +168,72 @@ def __init__(self, option_strings, dest, nargs=None, **kwargs):
             raise ValueError("nargs not allowed")
         super(FileAction, self).__init__(option_strings, dest, **kwargs)
     def __call__(self, parser, namespace, values, option_string=None):
-        #print '%r %r %r' % (namespace, values, option_string)
         setattr(namespace, self.dest, {"class": "File", "path": values})
 
-def generate_parser(toolparser, tool):
+class FileAppendAction(argparse.Action):
+    def __init__(self, option_strings, dest, nargs=None, **kwargs):
+        if nargs is not None:
+            raise ValueError("nargs not allowed")
+        super(FileAppendAction, self).__init__(option_strings, dest, **kwargs)
+    def __call__(self, parser, namespace, values, option_string=None):
+        g = getattr(namespace, self.dest)
+        if not g:
+            g = []
+            setattr(namespace, self.dest, g)
+        g.append({"class": "File", "path": values})
+
+def generate_parser(toolparser, tool, namemap):
     for inp in tool.tool["inputs"]:
         (_, name) = urlparse.urldefrag(inp["id"])
-        if inp["type"] == "File":
-            toolparser.add_argument("--" + name, action=FileAction)
+        if len(name) == 1:
+            flag = "-"
         else:
-            toolparser.add_argument("--" + name)
+            flag = "--"
+
+        namemap[name.replace("-", "_")] = name
+
+        inptype = inp["type"]
+
+        required = True
+        if isinstance(inptype, list):
+            if inptype[0] == "null":
+                required = False
+                if len(inptype) == 2:
+                    inptype = inptype[1]
+                else:
+                    _logger.debug("Can't make command line argument from %s", inptype)
+                    return None
+
+        help = inp.get("description", "").replace("%", "%%")
+        kwargs = {}
+
+        if inptype == "File":
+            kwargs["action"] = FileAction
+        elif isinstance(inptype, dict) and inptype["type"] == "array":
+            if inptype["items"] == "File":
+                kwargs["action"] = FileAppendAction
+            else:
+                kwargs["action"] = "append"
+
+        if inptype == "string":
+            kwargs["type"] = str
+        elif inptype == "int":
+            kwargs["type"] = int
+        elif inptype == "float":
+            kwargs["type"] = float
+        elif inptype == "boolean":
+            kwargs["action"] = "store_true"
+
+        if "default" in inp:
+            kwargs["default"] = inp["default"]
+            required = False
+
+        if "type" not in kwargs and "action" not in kwargs:
+            _logger.debug("Can't make command line argument from %s", inptype)
+            return None
+
+        toolparser.add_argument(flag + name, required=required, help=help, **kwargs)
+
     return toolparser
 
 def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
@@ -284,7 +342,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             _logger.error("Temporary directory prefix doesn't exist.")
             return 1
 
-    if len(args.job_order) == 1 and args.job_order[0] != "-":
+    if len(args.job_order) == 1 and args.job_order[0][0] != "-":
         job_order_file = args.job_order[0]
     else:
         job_order_file = None
@@ -295,11 +353,17 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         toolparser = None
     else:
         input_basedir = args.basedir if args.basedir else "."
-        toolparser = generate_parser(argparse.ArgumentParser(), t)
-        job_order_object = vars(toolparser.parse_args(args.job_order))
-        print job_order_object
-
-
+        namemap = {}
+        toolparser = generate_parser(argparse.ArgumentParser(prog=args.workflow), t, namemap)
+        if toolparser:
+            if args.tool_help:
+                toolparser.print_help()
+                return 0
+            job_order_object = vars(toolparser.parse_args(args.job_order))
+            job_order_object = {namemap[k]: v for k,v in job_order_object.items()}
+            _logger.debug("Parsed job order from command line: %s", job_order_object)
+        else:
+            job_order_object = None
 
     if not job_order_object:
         parser.print_help()

From 2f1fd9c6b7ca7bead1f805258ac8b13860b3b7c7 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 28 Jul 2015 12:12:19 -0400
Subject: [PATCH 165/221] Command line handling fixups.  Can now provide a
 input object to job and override with command line parameters.

---
 cwltool/main.py | 32 ++++++++++++++++++++++++++------
 1 file changed, 26 insertions(+), 6 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index f2301696e..40050bf29 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -84,11 +84,11 @@ def arg_parser():
                         default="turtle")
 
     exgroup = parser.add_mutually_exclusive_group()
-    parser.add_argument("--print-rdf", action="store_true",
+    exgroup.add_argument("--print-rdf", action="store_true",
                         help="Print corresponding RDF graph for workflow and exit")
     exgroup.add_argument("--print-spec", action="store_true", help="Print HTML specification document and exit")
-    exgroup.add_argument("--print-jsonld-context", action="store_true", help="Print JSON-LD context for CWL file and exit")
-    exgroup.add_argument("--print-rdfs", action="store_true", help="Print JSON-LD context for CWL file and exit")
+    exgroup.add_argument("--print-jsonld-context", action="store_true", help="Print CWL JSON-LD context and exit")
+    exgroup.add_argument("--print-rdfs", action="store_true", help="Print CWL RDF schema and exit")
     exgroup.add_argument("--print-avro", action="store_true", help="Print Avro schema and exit")
     exgroup.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing and exit")
     exgroup.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
@@ -183,6 +183,9 @@ def __call__(self, parser, namespace, values, option_string=None):
         g.append({"class": "File", "path": values})
 
 def generate_parser(toolparser, tool, namemap):
+    toolparser.add_argument("job_order", nargs="?", help="Job input json file")
+    namemap["job_order"] = "job_order"
+
     for inp in tool.tool["inputs"]:
         (_, name) = urlparse.urldefrag(inp["id"])
         if len(name) == 1:
@@ -349,7 +352,11 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     if job_order_file:
         input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(job_order_file))
-        job_order_object = loader.resolve_ref(job_order_file)
+        try:
+            job_order_object = loader.resolve_ref(job_order_file)
+        except Exception as e:
+            _logger.error(e)
+            return 1
         toolparser = None
     else:
         input_basedir = args.basedir if args.basedir else "."
@@ -359,8 +366,21 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             if args.tool_help:
                 toolparser.print_help()
                 return 0
-            job_order_object = vars(toolparser.parse_args(args.job_order))
-            job_order_object = {namemap[k]: v for k,v in job_order_object.items()}
+            if not args.job_order:
+                print "Must provide input in the form of a json file or command line parameters."
+            cmd_line = vars(toolparser.parse_args(args.job_order))
+
+            if cmd_line["job_order"]:
+                try:
+                    input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(cmd_line["job_order"]))
+                    job_order_object = loader.resolve_ref(cmd_line["job_order"])
+                except Exception as e:
+                    _logger.error(e)
+                    return 1
+            else:
+                job_order_object = {}
+
+            job_order_object.update({namemap[k]: v for k,v in cmd_line.items()})
             _logger.debug("Parsed job order from command line: %s", job_order_object)
         else:
             job_order_object = None

From 02a80cb1d393a56771df3661485688a684714d3c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sat, 8 Aug 2015 15:03:18 -0400
Subject: [PATCH 166/221] Fix issue #95 (expression in CreateFileRequirement
 "filename") and add test.

---
 cwltool/draft2tool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index a030d730f..09dd08c01 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -371,7 +371,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         j.generatefiles = {}
         if createFiles:
             for t in createFiles["fileDef"]:
-                j.generatefiles[t["filename"]] = copy.deepcopy(builder.do_eval(t["fileContent"]))
+                j.generatefiles[builder.do_eval(t["filename"])] = copy.deepcopy(builder.do_eval(t["fileContent"]))
 
         j.environment = {}
         evr, _ = self.get_requirement("EnvVarRequirement")

From 023e35d02dab5a74f459f183fa43e5cb9fee202e Mon Sep 17 00:00:00 2001
From: Dan Leehr <dan.leehr@duke.edu>
Date: Wed, 12 Aug 2015 15:15:22 -0400
Subject: [PATCH 167/221] Use UID of docker user in boot2docker/docker-machine
 if running

On hosts that don't run docker natively, the native user's UID is not optimal to use when running a container. This checks if the host uses boot2docker or docker-machine and uses the UID of the VM's docker user instead

Fixes #96
---
 cwltool/docker_uid.py | 112 ++++++++++++++++++++++++++++++++++++++++++
 cwltool/job.py        |   4 +-
 2 files changed, 115 insertions(+), 1 deletion(-)
 create mode 100644 cwltool/docker_uid.py

diff --git a/cwltool/docker_uid.py b/cwltool/docker_uid.py
new file mode 100644
index 000000000..0318f8456
--- /dev/null
+++ b/cwltool/docker_uid.py
@@ -0,0 +1,112 @@
+import subprocess
+
+
+def docker_vm_uid():
+    """
+    Returns the UID of the default docker user inside the VM
+
+    When a host is using boot2docker or docker-machine to run docker with
+    boot2docker.iso (As on Mac OS X), the UID that mounts the shared filesystem
+    inside the VirtualBox VM is likely different than the user's UID on the host.
+    :return: The numeric UID (as a string) of the docker account inside
+    the boot2docker VM
+    """
+    if boot2docker_running():
+        return boot2docker_uid()
+    elif docker_machine_running():
+        return docker_machine_uid()
+    else:
+        return None
+
+
+def check_output_and_strip(cmd):
+    """
+    Passes a command list to subprocess.check_output, returning None
+    if an expected exception is raised
+    :param cmd: The command to execute
+    :return: Stripped string output of the command, or None if error
+    """
+    try:
+        result = subprocess.check_output(cmd, stderr=subprocess.STDOUT)
+        return result.strip()
+    except (OSError, subprocess.CalledProcessError, TypeError, AttributeError):
+        # OSError is raised if command doesn't exist
+        # CalledProcessError is raised if command returns nonzero
+        # AttributeError is raised if result cannot be strip()ped
+        return None
+
+
+def docker_machine_name():
+    """
+    Get the machine name of the active docker-machine machine
+    :return: Name of the active machine or None if error
+    """
+    return check_output_and_strip(['docker-machine', 'active'])
+
+
+def cmd_output_matches(check_cmd, expected_status):
+    """
+    Runs a command and compares output to expected
+    :param check_cmd: Command list to execute
+    :param expected_status: Expected output, e.g. "Running" or "poweroff"
+    :return: Boolean value, indicating whether or not command result matched
+    """
+    if check_output_and_strip(check_cmd) == expected_status:
+        return True
+    else:
+        return False
+
+
+def boot2docker_running():
+    """
+    Checks if boot2docker CLI reports that boot2docker vm is running
+    :return: True if vm is running, False otherwise
+    """
+    return cmd_output_matches(['boot2docker', 'status'], 'running')
+
+
+def docker_machine_running():
+    """
+    Asks docker-machine for active machine and checks if its VM is running
+    :return: True if vm is running, False otherwise
+    """
+    machine_name = docker_machine_name()
+    return cmd_output_matches(['docker-machine', 'status', machine_name], 'Running')
+
+
+def cmd_output_to_int(cmd):
+    """
+    Runs the provided command and returns the integer value of the result
+    :param cmd: The command to run
+    :return: Integer value of result, or None if an error occurred
+    """
+    result = check_output_and_strip(cmd)  # may return None
+    if result is not None:
+        try:
+            result = int(result)
+        except ValueError:
+            # ValueError is raised if int conversion fails
+            result = None
+    return result
+
+
+def boot2docker_uid():
+    """
+    Gets the UID of the docker user inside a running boot2docker vm
+    :return: the UID, or None if error (e.g. boot2docker not present or stopped)
+    """
+    return cmd_output_to_int(['boot2docker', 'ssh', 'id', '-u'])
+
+
+def docker_machine_uid():
+    """
+    Asks docker-machine for active machine and gets the UID of the docker user
+    inside the vm
+    :return: the UID, or None if error (e.g. docker-machine not present or stopped)
+    """
+    machine_name = docker_machine_name()
+    return cmd_output_to_int(['docker-machine', 'ssh', machine_name, "id -u"])
+
+
+if __name__ == '__main__':
+    print get_docker_vm_uid()
diff --git a/cwltool/job.py b/cwltool/job.py
index 1752a9b02..ef3e2b7b7 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -13,6 +13,7 @@
 import stat
 import re
 import shellescape
+from docker_uid import docker_vm_uid
 
 _logger = logging.getLogger("cwltool")
 
@@ -66,7 +67,8 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             runtime.append("--volume=%s:%s:rw" % (os.path.abspath(self.outdir), "/tmp/job_output"))
             runtime.append("--volume=%s:%s:rw" % (os.path.abspath(self.tmpdir), "/tmp/job_tmp"))
             runtime.append("--workdir=%s" % ("/tmp/job_output"))
-            runtime.append("--user=%s" % (os.geteuid()))
+            euid = docker_vm_uid() or os.geteuid()
+            runtime.append("--user=%s" % (euid))
 
             if rm_container:
                 runtime.append("--rm")

From 2e42a382a21ed9a480acea2c8a8918c63be089bb Mon Sep 17 00:00:00 2001
From: Dan Leehr <dan.leehr@duke.edu>
Date: Thu, 13 Aug 2015 10:00:17 -0400
Subject: [PATCH 168/221] Use tmp_outdir_prefix when setting Workflow outdir

When a WorkflowJob is instantiated, it now uses the tmp_outdir_prefix for the outdir before resorting to tempfile.mkdtemp()

This fixes the issue where subworkflows are unable to access files from other subworkflows when the docker host can only access volumes within user-supplied prefixes.

Fixes #108
---
 cwltool/workflow.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 505aa06d2..58b40a8db 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -129,7 +129,11 @@ def __init__(self, workflow, **kwargs):
         self.id = workflow.tool["id"]
         if "outdir" in kwargs:
             self.outdir = kwargs["outdir"]
+        elif "tmp_outdir_prefix" in kwargs:
+            tmp_outdir_prefix = kwargs.get("tmp_outdir_prefix")
+            self.outdir = tempfile.mkdtemp(prefix=tmp_outdir_prefix)
         else:
+            # tmp_outdir_prefix defaults to tmp, so this is unlikely to be used
             self.outdir = tempfile.mkdtemp()
 
         _logger.debug("[workflow %s] initialized from %s", id(self), self.tool["id"])

From 45a5f4ae3b3d9790386d1fd3641b3d7f71df31a3 Mon Sep 17 00:00:00 2001
From: Dan Leehr <dan.leehr@duke.edu>
Date: Thu, 13 Aug 2015 10:14:58 -0400
Subject: [PATCH 169/221] Minor style change to match preceding code

---
 cwltool/workflow.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 58b40a8db..3d083edd3 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -130,8 +130,7 @@ def __init__(self, workflow, **kwargs):
         if "outdir" in kwargs:
             self.outdir = kwargs["outdir"]
         elif "tmp_outdir_prefix" in kwargs:
-            tmp_outdir_prefix = kwargs.get("tmp_outdir_prefix")
-            self.outdir = tempfile.mkdtemp(prefix=tmp_outdir_prefix)
+            self.outdir = tempfile.mkdtemp(prefix=kwargs["tmp_outdir_prefix"])
         else:
             # tmp_outdir_prefix defaults to tmp, so this is unlikely to be used
             self.outdir = tempfile.mkdtemp()

From 0092516a2f63f066e90ac6377e7be856a6893e56 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 13 Aug 2015 17:39:17 -0400
Subject: [PATCH 170/221] Default basedir is absolute path to CWD instead of
 '.' Improve some logging.

---
 cwltool/draft2tool.py | 2 +-
 cwltool/job.py        | 8 +++++---
 cwltool/main.py       | 4 +---
 3 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 09dd08c01..d0ee42204 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -434,7 +434,7 @@ def collect_output(self, schema, builder, outdir):
 
             if schema["type"] == "File":
                 if not r:
-                    raise WorkflowException("No matches for output file with glob: {}.".format(binding["glob"]))
+                    raise WorkflowException("No matches for output file with glob: '{}'".format(bg))
                 if len(r) > 1:
                     raise WorkflowException("Multiple matches for output item that is a single file.")
                 r = r[0]
diff --git a/cwltool/job.py b/cwltool/job.py
index 1752a9b02..7a2df13d8 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -33,8 +33,6 @@ def deref_links(outputs):
 
 class CommandLineJob(object):
     def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True, move_outputs=True, **kwargs):
-        #_logger.info("[job %s] starting with outdir %s", id(self), self.outdir)
-
         if not os.path.exists(self.outdir):
             os.makedirs(self.outdir)
 
@@ -86,8 +84,9 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
         stdin = None
         stdout = None
 
-        _logger.info("[job %s] exec %s%s%s",
+        _logger.info("[job %s] %s$ %s%s%s",
                      id(self),
+                     self.outdir,
                      " ".join([shellescape.quote(arg) if needs_shell_quoting(arg) else arg for arg in (runtime + self.command_line)]),
                      ' < %s' % (self.stdin) if self.stdin else '',
                      ' > %s' % os.path.join(self.outdir, self.stdout) if self.stdout else '')
@@ -165,6 +164,9 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             else:
                 _logger.exception("Exception while running job")
             processStatus = "permanentFail"
+        except WorkflowException as e:
+            _logger.error("Error while running job: %s" % e)
+            processStatus = "permanentFail"
         except Exception as e:
             _logger.exception("Exception while running job")
             processStatus = "permanentFail"
diff --git a/cwltool/main.py b/cwltool/main.py
index 40050bf29..31c10a6ce 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -359,15 +359,13 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             return 1
         toolparser = None
     else:
-        input_basedir = args.basedir if args.basedir else "."
+        input_basedir = args.basedir if args.basedir else os.getcwd()
         namemap = {}
         toolparser = generate_parser(argparse.ArgumentParser(prog=args.workflow), t, namemap)
         if toolparser:
             if args.tool_help:
                 toolparser.print_help()
                 return 0
-            if not args.job_order:
-                print "Must provide input in the form of a json file or command line parameters."
             cmd_line = vars(toolparser.parse_args(args.job_order))
 
             if cmd_line["job_order"]:

From a0a2796d73bcf59442044ca4787fed6a5ab510f2 Mon Sep 17 00:00:00 2001
From: Dan Leehr <dan.leehr@duke.edu>
Date: Tue, 8 Sep 2015 14:40:02 -0400
Subject: [PATCH 171/221] Fix call to undefined function when running
 docker_uid.py as script

---
 cwltool/docker_uid.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/docker_uid.py b/cwltool/docker_uid.py
index 0318f8456..e8fbbe20f 100644
--- a/cwltool/docker_uid.py
+++ b/cwltool/docker_uid.py
@@ -109,4 +109,4 @@ def docker_machine_uid():
 
 
 if __name__ == '__main__':
-    print get_docker_vm_uid()
+    print docker_vm_uid()

From 300ecbb339935ef9d0ae9b6dd2c791ea40f1dd90 Mon Sep 17 00:00:00 2001
From: Andrey Kartashov <porter@porter.st>
Date: Wed, 9 Sep 2015 13:11:49 -0400
Subject: [PATCH 172/221] null duplication #122

---
 cwltool/process.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index d9556a4de..76ac92ac2 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -70,7 +70,7 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
             if "type" not in c:
                 raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
 
-            if "default" in c:
+            if "default" in c and "null" not in c["type"]:
                 c["type"] = ["null"] + aslist(c["type"])
             else:
                 c["type"] = c["type"]

From 0deb1b90a564d54793f62f8ad616d509518c6d40 Mon Sep 17 00:00:00 2001
From: Andrey Kartashov <porter@porter.st>
Date: Wed, 9 Sep 2015 13:26:43 -0400
Subject: [PATCH 173/221] Checking if c is a list

---
 cwltool/process.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index 76ac92ac2..a7828ecc0 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -70,7 +70,7 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
             if "type" not in c:
                 raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
 
-            if "default" in c and "null" not in c["type"]:
+            if "default" in c and isinstance(c["type"], list) and "null" not in c["type"]:
                 c["type"] = ["null"] + aslist(c["type"])
             else:
                 c["type"] = c["type"]

From da9f361c97c3307afc5835ff299b5622ba365f66 Mon Sep 17 00:00:00 2001
From: Andrey Kartashov <porter@porter.st>
Date: Wed, 9 Sep 2015 14:34:35 -0400
Subject: [PATCH 174/221] better condition definition

---
 cwltool/process.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index a7828ecc0..71131ca7b 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -70,7 +70,7 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
             if "type" not in c:
                 raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
 
-            if "default" in c and isinstance(c["type"], list) and "null" not in c["type"]:
+            if "default" in c and (isinstance(c["type"], basestring) and (isinstance(c["type"], list) and "null" not in c["type"])):
                 c["type"] = ["null"] + aslist(c["type"])
             else:
                 c["type"] = c["type"]

From f3cc3e8b9acd9272966ba6b56f858ab101f021c7 Mon Sep 17 00:00:00 2001
From: Andrey Kartashov <porter@porter.st>
Date: Wed, 9 Sep 2015 16:20:58 -0400
Subject: [PATCH 175/221] the final desicion?

---
 cwltool/process.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index 71131ca7b..f777b7b23 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -70,7 +70,7 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
             if "type" not in c:
                 raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
 
-            if "default" in c and (isinstance(c["type"], basestring) and (isinstance(c["type"], list) and "null" not in c["type"])):
+            if "default" in c and "null" not in aslist(c["type"]):
                 c["type"] = ["null"] + aslist(c["type"])
             else:
                 c["type"] = c["type"]

From fe4721bf24bbbcfd6be1b73f3a7e44b9ead73e54 Mon Sep 17 00:00:00 2001
From: Dan Leehr <dan.leehr@duke.edu>
Date: Thu, 10 Sep 2015 15:53:56 -0400
Subject: [PATCH 176/221] Adds --preserve-environment switch

---
 cwltool/job.py  | 4 ++++
 cwltool/main.py | 5 +++++
 2 files changed, 9 insertions(+)

diff --git a/cwltool/job.py b/cwltool/job.py
index 8da7e6f1c..915a0cde4 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -82,6 +82,10 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             if not os.path.exists(self.tmpdir):
                 os.makedirs(self.tmpdir)
             env["TMPDIR"] = self.tmpdir
+            if kwargs['preserve_environment']:
+                for key, value in os.environ.items():
+                    if key not in env:
+                        env[key] = value
 
         stdin = None
         stdout = None
diff --git a/cwltool/main.py b/cwltool/main.py
index 31c10a6ce..3911d5602 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -34,6 +34,10 @@ def arg_parser():
                         help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool",
                         dest="use_container")
 
+    parser.add_argument("--preserve-environment", action="store_true", default=False,
+                        help="Preserve environment variables when running CommandLineTools",
+                        dest="preserve_environment")
+
     exgroup = parser.add_mutually_exclusive_group()
     exgroup.add_argument("--rm-container", action="store_true", default=True,
                         help="Delete Docker container used by jobs after they exit (default)",
@@ -400,6 +404,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
                        outdir=args.outdir,
                        tmp_outdir_prefix=args.tmp_outdir_prefix,
                        use_container=args.use_container,
+                       preserve_environment=args.preserve_environment,
                        pull_image=args.enable_pull,
                        rm_container=args.rm_container,
                        tmpdir_prefix=args.tmpdir_prefix,

From ac862478ecb3cd0733fbff06823483b1c3b320e6 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 14 Sep 2015 19:01:23 +0900
Subject: [PATCH 177/221] Remove avro_ld, rebase on schema salad!

---
 cwltool/avro_ld/__init__.py       |   0
 cwltool/avro_ld/jsonld_context.py | 100 ---------
 cwltool/avro_ld/makedoc.py        | 347 ------------------------------
 cwltool/avro_ld/ref_resolver.py   | 215 ------------------
 cwltool/avro_ld/schema.py         |  97 ---------
 cwltool/avro_ld/validate.py       | 166 --------------
 cwltool/draft2tool.py             |   2 +-
 cwltool/expression.py             |   8 +-
 cwltool/main.py                   |  62 ++----
 cwltool/process.py                |  19 +-
 cwltool/workflow.py               |   4 +-
 setup.py                          |   7 +-
 12 files changed, 37 insertions(+), 990 deletions(-)
 delete mode 100644 cwltool/avro_ld/__init__.py
 delete mode 100755 cwltool/avro_ld/jsonld_context.py
 delete mode 100644 cwltool/avro_ld/makedoc.py
 delete mode 100644 cwltool/avro_ld/ref_resolver.py
 delete mode 100644 cwltool/avro_ld/schema.py
 delete mode 100644 cwltool/avro_ld/validate.py

diff --git a/cwltool/avro_ld/__init__.py b/cwltool/avro_ld/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/cwltool/avro_ld/jsonld_context.py b/cwltool/avro_ld/jsonld_context.py
deleted file mode 100755
index a625bca1a..000000000
--- a/cwltool/avro_ld/jsonld_context.py
+++ /dev/null
@@ -1,100 +0,0 @@
-import shutil
-import json
-import yaml
-import os
-import subprocess
-import copy
-import pprint
-import re
-import sys
-import rdflib
-from rdflib import Graph
-import rdflib.namespace
-from rdflib.namespace import RDF, RDFS
-
-def pred(datatype, field, name, context, defaultPrefix):
-    v = None
-    if field and "jsonldPredicate" in field:
-        v = field["jsonldPredicate"]
-    elif "jsonldPredicate" in datatype:
-        for d in datatype["jsonldPredicate"]:
-            if d["symbol"] == name:
-                v = d["predicate"]
-    if not v:
-        if field and "jsonldPrefix" in field:
-            defaultPrefix = field["jsonldPrefix"]
-        elif "jsonldPrefix" in datatype:
-            defaultPrefix = datatype["jsonldPrefix"]
-
-    if not v:
-        v = "%s:%s" % (defaultPrefix, name)
-
-    if name in context:
-        if context[name] != v:
-            raise Exception("Predicate collision on %s, %s != %s" % (name, context[name], v))
-    else:
-        context[name] = v
-
-    return v
-
-def avrold_to_jsonld_context(j):
-    context = {}
-    namespaces = {}
-    g = Graph()
-    defaultPrefix = ""
-
-    for t in j:
-        if "jsonldVocab" in t:
-            for prefix in t["jsonldPrefixes"]:
-                context[prefix] = t["jsonldPrefixes"][prefix]
-                namespaces[prefix] = rdflib.namespace.Namespace(t["jsonldPrefixes"][prefix])
-        if "jsonldVocab" in t:
-            defaultPrefix = t["jsonldVocab"]
-
-    for k,v in namespaces.items():
-        g.bind(k, v)
-
-    for t in j:
-        if t["type"] == "record":
-            classnode = namespaces["cwl"][t["name"]]
-            g.add((classnode, RDF.type, RDFS.Class))
-
-            if "jsonldPrefix" in t:
-                predicate = "%s:%s" % (t["jsonldPrefix"], t["name"])
-            else:
-                predicate = "%s:%s" % (defaultPrefix, t["name"])
-
-            if context.get(t["name"], predicate) != predicate:
-                raise Exception("Predicate collision on '%s', '%s' != '%s'" % (t["name"], context[t["name"]], predicate))
-
-            context[t["name"]] = predicate
-
-            for i in t.get("fields", []):
-                v = pred(t, i, i["name"], context, defaultPrefix)
-
-                if isinstance(v, basestring):
-                    v = v if v[0] != "@" else None
-                else:
-                    v = v["@id"] if v.get("@id", "@")[0] != "@" else None
-
-                if v:
-                    (ns, ln) = rdflib.namespace.split_uri(unicode(v))
-                    propnode = namespaces[ns[0:-1]][ln]
-                    g.add((propnode, RDF.type, RDF.Property))
-                    g.add((propnode, RDFS.domain, classnode))
-
-                    # TODO generate range from datatype.
-
-            if "extends" in t:
-                g.add((classnode, RDFS.subClassOf, namespaces["cwl"][t["extends"]]))
-        elif t["type"] == "enum":
-            for i in t["symbols"]:
-                pred(t, None, i, context, defaultPrefix)
-
-    return (context, g)
-
-if __name__ == "__main__":
-    with open(sys.argv[1]) as f:
-        j = yaml.load(f)
-        (ctx, g) = avrold_to_jsonld_context(j)
-        print json.dumps(ctx, indent=4, sort_keys=True)
diff --git a/cwltool/avro_ld/makedoc.py b/cwltool/avro_ld/makedoc.py
deleted file mode 100644
index a59eabe9b..000000000
--- a/cwltool/avro_ld/makedoc.py
+++ /dev/null
@@ -1,347 +0,0 @@
-import mistune
-import schema
-import json
-import yaml
-import os
-import copy
-import re
-import sys
-import StringIO
-
-def has_types(items):
-    r = []
-    if isinstance(items, dict):
-        for n in ("type", "items", "values"):
-            if n in items:
-                r.extend(has_types(items[n]))
-        return r
-    if isinstance(items, list):
-        for i in items:
-            r.extend(has_types(i))
-        return r
-    if isinstance(items, basestring):
-        return [items]
-    return []
-
-class MyRenderer(mistune.Renderer):
-    def header(self, text, level, raw=None):
-        return """<h1 id="%s">%s</h1>""" % (to_id(text), text)
-
-def to_id(text):
-    textid = text
-    if text[0] in ("0", "1", "2", "3", "4", "5", "6", "7", "8", "9"):
-        try:
-            textid = text[text.index(" ")+1:]
-        except ValueError:
-            pass
-    textid = textid.lower().replace(" ", "_")
-    return textid
-
-class ToC(object):
-    def __init__(self):
-        self.first_toc_entry = True
-        self.numbering = [0]
-        self.toc = ""
-        self.start_numbering = True
-
-    def add_entry(self, thisdepth, title):
-        depth = len(self.numbering)
-        if thisdepth < depth:
-            self.toc += "</ol>"
-            for n in range(0, depth-thisdepth):
-                self.numbering.pop()
-                self.toc += "</li></ol>"
-            self.numbering[-1] += 1
-        elif thisdepth == depth:
-            if not self.first_toc_entry:
-                self.toc += "</ol>"
-            else:
-                self.first_toc_entry = False
-            self.numbering[-1] += 1
-        elif thisdepth > depth:
-            self.numbering.append(1)
-
-        if self.start_numbering:
-            num = "%i.%s" % (self.numbering[0], ".".join([str(n) for n in self.numbering[1:]]))
-        else:
-            num = ""
-        self.toc += """<li><a href="#%s">%s %s</a><ol class="nav nav-pills nav-stacked nav-secondary">\n""" %(to_id(title),
-            num, title)
-        return num
-
-    def contents(self, id):
-        c = """<nav id="%s"><ol class="nav nav-pills nav-stacked">%s""" % (id, self.toc)
-        c += "</ol>"
-        for i in range(0, len(self.numbering)):
-            c += "</li></ol>"
-        c += """</nav>"""
-        return c
-
-def typefmt(tp, nbsp=False):
-    if isinstance(tp, list):
-        if nbsp and len(tp) <= 3:
-            return "&nbsp;|&nbsp;".join([typefmt(n) for n in tp])
-        else:
-            return " | ".join([typefmt(n) for n in tp])
-    if isinstance(tp, dict):
-        if tp["type"] == "array":
-            return "array&lt;%s&gt;" % (typefmt(tp["items"], True))
-        if tp["type"] in ("record", "enum"):
-            return """<a href="#%s">%s</a>""" % (to_id(str(tp["name"])), str(tp["name"]))
-        if isinstance(tp["type"], dict):
-            return typefmt(tp["type"])
-    else:
-        if str(tp) in ("null", "boolean", "int", "long", "float", "double", "bytes", "string", "record", "enum", "array", "map"):
-            return """<a href="#datatype">%s</a>""" % str(tp)
-        else:
-            return """<a href="#%s">%s</a>""" % (to_id(str(tp)), str(tp))
-
-def add_dictlist(di, key, val):
-    if key not in di:
-        di[key] = []
-    di[key].append(val)
-
-def number_headings(toc, maindoc):
-    mdlines = []
-    skip = False
-    for line in maindoc.splitlines():
-        if line.strip() == "# Introduction":
-            toc.start_numbering = True
-            toc.numbering = [0]
-
-        if line == "```":
-            skip = not skip
-
-        if not skip:
-            m = re.match(r'^(#+) (.*)', line)
-            if m:
-                num = toc.add_entry(len(m.group(1)), m.group(2))
-                line = "%s %s %s" % (m.group(1), num, m.group(2))
-            line = re.sub(r'^(https?://\S+)', r'[\1](\1)', line)
-        mdlines.append(line)
-
-    maindoc = '\n'.join(mdlines)
-    return maindoc
-
-class RenderType(object):
-    def __init__(self, toc, j):
-        self.typedoc = StringIO.StringIO()
-        self.toc = toc
-        self.subs = {}
-        self.docParent = {}
-        self.docAfter = {}
-        for t in j:
-            if "extends" in t:
-                add_dictlist(self.subs, t["extends"], t["name"])
-                if "docParent" not in t and "docAfter" not in t:
-                    add_dictlist(self.docParent, t["extends"], t["name"])
-
-            if t.get("docParent"):
-                add_dictlist(self.docParent, t["docParent"], t["name"])
-
-            if t.get("docAfter"):
-                add_dictlist(self.docAfter, t["docAfter"], t["name"])
-
-        alltypes = schema.extend_avro(j)
-
-        self.typemap = {}
-        self.uses = {}
-        for t in alltypes:
-            self.typemap[t["name"]] = t
-            if t["type"] == "record":
-                for f in t["fields"]:
-                    p = has_types(f)
-                    for tp in p:
-                        if tp not in self.uses:
-                            self.uses[tp] = []
-                        if (t["name"], f["name"]) not in self.uses[tp]:
-                            self.uses[tp].append((t["name"], f["name"]))
-
-        for f in alltypes:
-            if ("extends" not in f) and ("docParent" not in f) and ("docAfter" not in f):
-                self.render_type(f, 1)
-
-
-    def render_type(self, f, depth):
-        if "doc" not in f:
-            f["doc"] = ""
-
-        f["type"] = copy.deepcopy(f)
-        f["doc"] = ""
-        f = f["type"]
-
-        if "doc" not in f:
-            f["doc"] = ""
-        if f["type"] == "record":
-            for field in f["fields"]:
-                if "doc" not in field:
-                    field["doc"] = ""
-
-        if f["type"] != "doc":
-            lines = []
-            for l in f["doc"].splitlines():
-                if len(l) > 0 and l[0] == "#":
-                    l = "#" + l
-                lines.append(l)
-            f["doc"] = "\n".join(lines)
-
-        num = self.toc.add_entry(depth, f["name"])
-        doc = "## %s %s\n" % (num, f["name"])
-
-        if f["type"] == "doc":
-            f["doc"] = number_headings(self.toc, f["doc"])
-
-        if "extends" in f:
-            doc += "\n\nExtends [%s](#%s)" % (f["extends"], to_id(f["extends"]))
-        if f["name"] in self.subs:
-            doc += "\n\nExtended by"
-            doc += ", ".join([" [%s](#%s)" % (s, to_id(s)) for s in self.subs[f["name"]]])
-
-        if f["name"] in self.uses:
-            doc += "\n\nReferenced by"
-            doc += ", ".join([" [%s.%s](#%s)" % (s[0], s[1], to_id(s[0])) for s in self.uses[f["name"]]])
-        doc = doc + "\n\n" + f["doc"]
-
-        doc = mistune.markdown(doc, renderer=MyRenderer())
-
-        if f["type"] == "record":
-            doc += "<h3>Fields</h3>"
-            doc += """<table class="table table-striped">"""
-            doc += "<tr><th>field</th><th>type</th><th>required</th><th>description</th></tr>"
-            for i in f["fields"]:
-                doc += "<tr>"
-                tp = i["type"]
-                if isinstance(tp, list) and tp[0] == "null":
-                    opt = False
-                    tp = tp[1:]
-                else:
-                    opt = True
-
-                desc = i["doc"]
-                if "inherited_from" in i:
-                    desc = "%s _Inherited from [%s](#%s)_" % (desc, i["inherited_from"], to_id(i["inherited_from"]))
-                doc += "<td><code>%s</code></td><td>%s</td><td>%s</td><td>%s</td>" % (i["name"], typefmt(tp), opt, mistune.markdown(desc))
-                doc += "</tr>"
-            doc += """</table>"""
-        f["doc"] = doc
-
-        self.typedoc.write(f["doc"])
-
-        for s in self.docParent.get(f["name"], []):
-            self.render_type(self.typemap[s], depth+1)
-
-        for s in self.docAfter.get(f["name"], []):
-            self.render_type(self.typemap[s], depth)
-
-def avrold_doc(j, outdoc):
-    toc = ToC()
-    toc.start_numbering = False
-
-    rt = RenderType(toc, j)
-
-    outdoc.write("""
-    <!DOCTYPE html>
-    <html>
-    <head>
-    <meta charset="UTF-8">
-    <script src="http://code.jquery.com/jquery-1.11.2.min.js"></script>
-    <script src="http://code.jquery.com/jquery-migrate-1.2.1.min.js"></script>
-    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.4/css/bootstrap.min.css">
-    <script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.4/js/bootstrap.min.js"></script>
-    """)
-
-    outdoc.write("<title>%s</title>" % (j[0]["name"]))
-
-    outdoc.write("""
-    <style>
-    html {
-      height:100%;
-    }
-
-    body {
-      height:100%;
-      position: relative;
-    }
-
-    #main {
-     background-color: white;
-    }
-
-    .nav > li > a {
-      padding: 0px;
-    }
-
-    ol > li > ol {
-      list-style-type: none;
-    }
-    ol > li > ol > li {
-      padding-left: 1em;
-    }
-
-    .nav-secondary > li.active > a, .nav-pills > li.active > a:focus, .nav-pills > li.active > a:hover {
-      text-decoration: underline;
-      color: #337AB7;
-      background-color: transparent;
-    }
-
-    #main {
-      overflow-y: auto;
-    }
-
-    #lefttoc {
-      background-color: aliceblue;
-      overflow-y: auto;
-    }
-
-    #toc {
-      margin-top: 1em;
-      margin-bottom: 2em;
-    }
-
-    @media (min-width: 992px) {
-      .full-height {
-        height: 100%;
-      }
-      #lefttoc {
-        border-right: thin solid #C0C0C0;
-      }
-    }
-
-    </style>
-    </head>
-    <body>
-    <div class="container-fluid full-height">
-    """)
-
-    outdoc.write("""
-    <div class="row full-height">
-    <div id="lefttoc" class="col-md-3 full-height" role="complementary">
-    """)
-    outdoc.write(toc.contents("toc"))
-    outdoc.write("""
-    </div>
-    """)
-
-    outdoc.write("""
-    <div class="col-md-9 full-height" role="main" id="main" data-spy="scroll" data-target="#toc">""")
-
-    outdoc.write(rt.typedoc.getvalue().encode("utf-8"))
-
-    outdoc.write("""</div>""")
-
-    outdoc.write("""
-    </div>
-    </div>
-    </body>
-    </html>""")
-
-if __name__ == "__main__":
-    with open(sys.argv[1]) as f:
-        if sys.argv[1].endswith("yml") or sys.argv[1].endswith("yaml"):
-            j = yaml.load(f)
-        else:
-            j = [{"name": sys.argv[2],
-                  "type": "doc",
-                  "doc": f.read().decode("utf-8")
-              }]
-        avrold_doc(j, sys.stdout)
diff --git a/cwltool/avro_ld/ref_resolver.py b/cwltool/avro_ld/ref_resolver.py
deleted file mode 100644
index a776f3ce4..000000000
--- a/cwltool/avro_ld/ref_resolver.py
+++ /dev/null
@@ -1,215 +0,0 @@
-import os
-import json
-import hashlib
-import logging
-import collections
-import requests
-import urlparse
-import yaml
-import validate
-
-log = logging.getLogger("cwltool")
-
-class NormDict(dict):
-    def __init__(self, normalize=unicode):
-        super(NormDict, self).__init__()
-        self.normalize = normalize
-
-    def __getitem__(self, key):
-        return super(NormDict, self).__getitem__(self.normalize(key))
-
-    def __setitem__(self, key, value):
-        return super(NormDict, self).__setitem__(self.normalize(key), value)
-
-    def __delitem__(self, key):
-        return super(NormDict, self).__delitem__(self.normalize(key))
-
-    def __contains__(self, key):
-        return super(NormDict, self).__contains__(self.normalize(key))
-
-def expand_url(url, base_url):
-    split = urlparse.urlparse(url)
-    if split.scheme:
-        return url
-    else:
-        return urlparse.urljoin(base_url, url)
-
-class Loader(object):
-    def __init__(self):
-        normalize = lambda url: urlparse.urlsplit(url).geturl()
-        self.idx = NormDict(normalize)
-        self.url_fields = []
-
-    def resolve_ref(self, ref, base_url=None):
-        base_url = base_url or 'file://%s/' % os.path.abspath('.')
-
-        obj = None
-
-        # If `ref` is a dict, look for special directives.
-        if isinstance(ref, dict):
-            obj = ref
-            if "import" in ref:
-                if len(obj) == 1:
-                    ref = obj["import"]
-                    obj = None
-                else:
-                    raise ValueError("'import' must be the only field in %s" % (str(obj)))
-            elif "include" in obj:
-                if len(obj) == 1:
-                    ref = obj["include"]
-                else:
-                    raise ValueError("'include' must be the only field in %s" % (str(obj)))
-            else:
-                if "id" in obj:
-                    ref = obj["id"]
-                else:
-                    raise ValueError("Object `%s` does not have `id` field" % obj)
-
-        if not isinstance(ref, basestring):
-            raise ValueError("Must be string: `%s`" % str(ref))
-
-        url = expand_url(ref, base_url)
-
-        # Has this reference been loaded already?
-        if url in self.idx:
-            return self.idx[url]
-
-        # "include" directive means load raw text
-        if obj and "include" in obj:
-            return self.fetch_text(url)
-
-        if obj:
-            obj["id"] = url
-            self.idx[url] = obj
-        else:
-            # Load structured document
-            doc_url, frg = urlparse.urldefrag(url)
-            if doc_url in self.idx:
-                raise validate.ValidationException("Reference `#%s` not found in file `%s`." % (frg, doc_url))
-            obj = self.fetch(doc_url)
-
-        # Recursively expand urls and resolve directives
-        self.resolve_all(obj, url)
-
-        # Requested reference should be in the index now, otherwise it's a bad reference
-        if self.idx.get(url) is not None:
-            return self.idx[url]
-        else:
-            raise RuntimeError("Reference `%s` is not in the index.  Index contains:\n  %s" % (url, "\n  ".join(self.idx)))
-
-    def resolve_all(self, document, base_url):
-        if isinstance(document, list):
-            iterator = enumerate(document)
-        elif isinstance(document, dict):
-            inc = 'include' in document
-            if 'id' in document or 'import' in document or 'include' in document:
-                document = self.resolve_ref(document, base_url)
-            if inc:
-                return document
-
-            for d in self.url_fields:
-                if d in document:
-                    if isinstance(document[d], basestring):
-                        document[d] = expand_url(document[d], base_url)
-                    elif isinstance(document[d], list):
-                        document[d] = [expand_url(url, base_url) if isinstance(url, basestring) else url for url in document[d] ]
-            iterator = document.iteritems()
-        else:
-            return document
-
-        for key, val in iterator:
-            try:
-                document[key] = self.resolve_all(val, base_url)
-            except validate.ValidationException as v:
-                if isinstance(key, basestring):
-                    raise validate.ValidationException("Validation error in field %s:\n%s" % (key, validate.indent(str(v))))
-                else:
-                    raise validate.ValidationException("Validation error in position %i:\n%s" % (key, validate.indent(str(v))))
-
-        return document
-
-    def fetch_text(self, url):
-        split = urlparse.urlsplit(url)
-        scheme, path = split.scheme, split.path
-
-        if scheme in ['http', 'https'] and requests:
-            resp = requests.get(url)
-            try:
-                resp.raise_for_status()
-            except Exception as e:
-                raise RuntimeError(url, e)
-            return resp.text
-        elif scheme == 'file':
-            try:
-                with open(path) as fp:
-                    return fp.read().decode("utf-8")
-            except (OSError, IOError) as e:
-                raise RuntimeError('Error reading %s %s' % (url, e))
-        else:
-            raise ValueError('Unsupported scheme in url: %s' % url)
-
-    def fetch(self, url):
-        if url in self.idx:
-            return self.idx[url]
-        try:
-            result = yaml.load(self.fetch_text(url))
-        except yaml.parser.ParserError as e:
-            raise validate.ValidationException("Error loading '%s' %s" % (url, str(e)))
-        if isinstance(result, dict):
-            if "id" not in result:
-                result["id"] = url
-            self.idx[expand_url(result["id"], url)] = result
-        else:
-            self.idx[url] = result
-        return result
-
-    def validate_links(self, document):
-        if isinstance(document, list):
-            iterator = enumerate(document)
-        elif isinstance(document, dict):
-            for d in self.url_fields:
-                if d in document:
-                    if isinstance(document[d], basestring):
-                        if document[d] not in self.idx:
-                            raise validate.ValidationException("Invalid link `%s` in field `%s`" % (document[d], d))
-                    elif isinstance(document[d], list):
-                        for i in document[d]:
-                            if isinstance(i, basestring) and i not in self.idx:
-                                raise validate.ValidationException("Invalid link `%s` in field `%s`" % (i, d))
-            iterator = document.iteritems()
-        else:
-            return
-
-        try:
-            for key, val in iterator:
-                self.validate_links(val)
-        except validate.ValidationException as v:
-            if isinstance(key, basestring):
-                raise validate.ValidationException("At field `%s`\n%s" % (key, validate.indent(str(v))))
-            else:
-                raise validate.ValidationException("At position %s\n%s" % (key, validate.indent(str(v))))
-
-        return
-
-
-POINTER_DEFAULT = object()
-
-def resolve_json_pointer(document, pointer, default=POINTER_DEFAULT):
-    parts = urlparse.unquote(pointer.lstrip('/#')).split('/') \
-        if pointer else []
-    for part in parts:
-        if isinstance(document, collections.Sequence):
-            try:
-                part = int(part)
-            except ValueError:
-                pass
-        try:
-            document = document[part]
-        except:
-            if default != POINTER_DEFAULT:
-                return default
-            else:
-                raise ValueError('Unresolvable JSON pointer: %r' % pointer)
-    return document
-
-loader = Loader()
diff --git a/cwltool/avro_ld/schema.py b/cwltool/avro_ld/schema.py
deleted file mode 100644
index 9853f8390..000000000
--- a/cwltool/avro_ld/schema.py
+++ /dev/null
@@ -1,97 +0,0 @@
-import avro
-import copy
-from  makedoc import add_dictlist
-import sys
-import pprint
-
-def replace_type(items, spec):
-    if isinstance(items, dict):
-        for n in ("type", "items", "values"):
-            if n in items:
-                items[n] = replace_type(items[n], spec)
-        return items
-    if isinstance(items, list):
-        n = []
-        for i in items:
-            n.append(replace_type(i, spec))
-        return n
-    if isinstance(items, basestring):
-        if items in spec:
-            return spec[items]
-    return items
-
-def first_def(items, found):
-    if isinstance(items, dict):
-        if "type" in items and items["type"] in ("record", "enum"):
-            if items.get("abstract"):
-                return items
-            if items["name"] in found:
-                return items["name"]
-            else:
-                found.add(items["name"])
-        for n in ("type", "items", "values", "fields"):
-            if n in items:
-                items[n] = first_def(items[n], found)
-        return items
-    if isinstance(items, list):
-        n = []
-        for i in items:
-            n.append(first_def(i, found))
-        return n
-    return items
-
-def extend_avro(items):
-    types = {t["name"]: t for t in items}
-    n = []
-
-    for t in items:
-        if "extends" in t:
-            r = copy.deepcopy(types[t["extends"]])
-            r["name"] = t["name"]
-            if "specialize" in t:
-                r["fields"] = replace_type(r["fields"], t["specialize"])
-
-            for f in r["fields"]:
-                if "inherited_from" not in f:
-                    f["inherited_from"] = t["extends"]
-
-            r["fields"].extend(t.get("fields", []))
-
-            for y in [x for x in r["fields"] if x["name"] == "class"]:
-                y["type"] = {"type": "enum",
-                             "symbols": [r["name"]],
-                             "name": r["name"]+"_class",
-                }
-                y["doc"] = "Must be `%s` to indicate this is a %s object." % (r["name"], r["name"])
-
-            r["extends"] = t["extends"]
-            r["abstract"] = t.get("abstract", False)
-            r["doc"] = t.get("doc", "")
-            types[t["name"]] = r
-            t = r
-        n.append(t)
-
-    ex_types = {t["name"]: t for t in n}
-
-    extended_by = {}
-    for t in n:
-        if "extends" in t and ex_types[t["extends"]].get("abstract"):
-            add_dictlist(extended_by, t["extends"], ex_types[t["name"]])
-
-    for t in n:
-        if "fields" in t:
-            t["fields"] = replace_type(t["fields"], extended_by)
-
-    n = replace_type(n, ex_types)
-
-    return n
-
-def schema(j):
-    names = avro.schema.Names()
-    j = extend_avro(j)
-    j = first_def(j, set())
-    for t in j:
-        if isinstance(t, dict) and not t.get("abstract") and t.get("type") != "doc":
-            avro.schema.make_avsc_object(t, names)
-
-    return names
diff --git a/cwltool/avro_ld/validate.py b/cwltool/avro_ld/validate.py
deleted file mode 100644
index 3d5d15295..000000000
--- a/cwltool/avro_ld/validate.py
+++ /dev/null
@@ -1,166 +0,0 @@
-import pprint
-import avro.schema
-
-class ValidationException(Exception):
-    pass
-
-def validate(expected_schema, datum, strict=False):
-    try:
-        return validate_ex(expected_schema, datum, strict=strict)
-    except ValidationException:
-        return False
-
-INT_MIN_VALUE = -(1 << 31)
-INT_MAX_VALUE = (1 << 31) - 1
-LONG_MIN_VALUE = -(1 << 63)
-LONG_MAX_VALUE = (1 << 63) - 1
-
-def indent(v, nolead=False):
-    if nolead:
-        return v.splitlines()[0] + "\n".join(["  " + l for l in v.splitlines()[1:]])
-    else:
-        return "\n".join(["  " + l for l in v.splitlines()])
-
-def friendly(v):
-    if isinstance(v, avro.schema.NamedSchema):
-        return v.name
-    if isinstance(v, avro.schema.ArraySchema):
-        return "array of <%s>" % friendly(v.items)
-    elif isinstance(v, avro.schema.PrimitiveSchema):
-        return v.type
-    elif isinstance(v, avro.schema.UnionSchema):
-        return " or ".join([friendly(s) for s in v.schemas])
-    else:
-        return v
-
-def multi(v, q=""):
-    if '\n' in v:
-        return "%s%s%s\n" % (q, v, q)
-    else:
-        return "%s%s%s" % (q, v, q)
-
-def vpformat(datum):
-    a = pprint.pformat(datum)
-    if len(a) > 80:
-        a = a[0:80] + "[...]"
-    return a
-
-def validate_ex(expected_schema, datum, strict=False):
-    """Determine if a python datum is an instance of a schema."""
-
-    schema_type = expected_schema.type
-
-    if schema_type == 'null':
-        if datum is None:
-            return True
-        else:
-            raise ValidationException("the value `%s` is not null" % vpformat(datum))
-    elif schema_type == 'boolean':
-        if isinstance(datum, bool):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not boolean" % vpformat(datum))
-    elif schema_type == 'string':
-        if isinstance(datum, basestring):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not string" % vpformat(datum))
-    elif schema_type == 'bytes':
-        if isinstance(datum, str):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not bytes" % vpformat(datum))
-    elif schema_type == 'int':
-        if ((isinstance(datum, int) or isinstance(datum, long))
-            and INT_MIN_VALUE <= datum <= INT_MAX_VALUE):
-            return True
-        else:
-            raise ValidationException("`%s` is not int" % vpformat(datum))
-    elif schema_type == 'long':
-        if ((isinstance(datum, int) or isinstance(datum, long))
-            and LONG_MIN_VALUE <= datum <= LONG_MAX_VALUE):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not long" % vpformat(datum))
-    elif schema_type in ['float', 'double']:
-        if (isinstance(datum, int) or isinstance(datum, long)
-            or isinstance(datum, float)):
-            return True
-        else:
-            raise ValidationException("the value `%s` is not float or double" % vpformat(datum))
-    elif schema_type == 'fixed':
-        if isinstance(datum, str) and len(datum) == expected_schema.size:
-            return True
-        else:
-            raise ValidationException("the value `%s` is not fixed" % vpformat(datum))
-    elif schema_type == 'enum':
-        if expected_schema.name == "Any":
-            if datum is not None:
-                return True
-            else:
-                raise ValidationException("Any type must be non-null")
-        if datum in expected_schema.symbols:
-            return True
-        else:
-            raise ValidationException("the value `%s`\n is not a valid enum symbol, expected one of %s" % (vpformat(datum), ", ".join(expected_schema.symbols)))
-    elif schema_type == 'array':
-        if isinstance(datum, list):
-            for i, d in enumerate(datum):
-                try:
-                    validate_ex(expected_schema.items, d, strict=strict)
-                except ValidationException as v:
-                    raise ValidationException("At position %i\n%s" % (i, indent(str(v))))
-            return True
-        else:
-            raise ValidationException("the value `%s` is not a list, expected list of %s" % (vpformat(datum), friendly(expected_schema.items)))
-    elif schema_type == 'map':
-        if (isinstance(datum, dict) and
-            False not in [isinstance(k, basestring) for k in datum.keys()] and
-            False not in [validate(expected_schema.values, v, strict=strict) for v in datum.values()]):
-            return True
-        else:
-            raise ValidationException("`%s` is not a valid map value, expected\n %s" % (vpformat(datum), vpformat(expected_schema.values)))
-    elif schema_type in ['union', 'error_union']:
-        if True in [validate(s, datum, strict=strict) for s in expected_schema.schemas]:
-            return True
-        else:
-            errors = []
-            for s in expected_schema.schemas:
-                try:
-                    validate_ex(s, datum, strict=strict)
-                except ValidationException as e:
-                    errors.append(str(e))
-            raise ValidationException("the value %s is not a valid type in the union, expected one of:\n%s" % (multi(vpformat(datum), '`'),
-                                                                                     "\n".join(["- %s, but\n %s" % (friendly(expected_schema.schemas[i]), indent(multi(errors[i]))) for i in range(0, len(expected_schema.schemas))])))
-
-    elif schema_type in ['record', 'error', 'request']:
-        if not isinstance(datum, dict):
-            raise ValidationException("`%s`\n is not a dict" % vpformat(datum))
-
-        errors = []
-        for f in expected_schema.fields:
-            if f.name in datum:
-                fieldval = datum[f.name]
-            else:
-                fieldval = f.default
-
-            try:
-                validate_ex(f.type, fieldval, strict=strict)
-            except ValidationException as v:
-                if f.name not in datum:
-                    errors.append("missing required field `%s`" % f.name)
-                else:
-                    errors.append("could not validate field `%s` because\n%s" % (f.name, multi(indent(str(v)))))
-        if strict:
-            for d in datum:
-                found = False
-                for f in expected_schema.fields:
-                    if d == f.name:
-                        found = True
-                if not found:
-                    errors.append("could not validate field `%s` because it is not recognized and strict is True" % d)
-        if errors:
-            raise ValidationException("\n".join(errors))
-        else:
-            return True
-    raise ValidationException("Unrecognized schema_type %s" % schema_type)
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index d0ee42204..c6c27a093 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -13,7 +13,7 @@
 import random
 from process import Process
 from process import WorkflowException
-import avro_ld.validate as validate
+import schema_salad.validate as validate
 from aslist import aslist
 import expression
 import re
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 04f2071ef..6d11f6713 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -7,16 +7,16 @@
 from process import WorkflowException
 import process
 import yaml
-import avro_ld.validate as validate
-import avro_ld.ref_resolver
+import schema_salad.validate as validate
+import schema_salad.ref_resolver
 
 _logger = logging.getLogger("cwltool")
 
 def exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image):
-    if ex["engine"] == "cwl:JsonPointer":
+    if ex["engine"] == "https://w3id.org/cwl/cwl#JsonPointer":
         try:
             obj = {"job": jobinput, "context": context, "outdir": outdir, "tmpdir": tmpdir}
-            return avro_ld.ref_resolver.resolve_json_pointer(obj, ex["script"])
+            return schema_salad.ref_resolver.resolve_json_pointer(obj, ex["script"])
         except ValueError as v:
             raise WorkflowException("%s in %s" % (v,  obj))
 
diff --git a/cwltool/main.py b/cwltool/main.py
index 31c10a6ce..7973c3b71 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -2,16 +2,16 @@
 
 import draft2tool
 import argparse
-from avro_ld.ref_resolver import Loader
+from schema_salad.ref_resolver import Loader
 import json
 import os
 import sys
 import logging
 import workflow
-import avro_ld.validate as validate
+import schema_salad.validate as validate
 import tempfile
-import avro_ld.jsonld_context
-import avro_ld.makedoc
+import schema_salad.jsonld_context
+import schema_salad.makedoc
 import yaml
 import urlparse
 import process
@@ -86,11 +86,6 @@ def arg_parser():
     exgroup = parser.add_mutually_exclusive_group()
     exgroup.add_argument("--print-rdf", action="store_true",
                         help="Print corresponding RDF graph for workflow and exit")
-    exgroup.add_argument("--print-spec", action="store_true", help="Print HTML specification document and exit")
-    exgroup.add_argument("--print-jsonld-context", action="store_true", help="Print CWL JSON-LD context and exit")
-    exgroup.add_argument("--print-rdfs", action="store_true", help="Print CWL RDF schema and exit")
-    exgroup.add_argument("--print-avro", action="store_true", help="Print Avro schema and exit")
-    exgroup.add_argument("--print-pre", action="store_true", help="Print workflow document after preprocessing and exit")
     exgroup.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
     exgroup.add_argument("--version", action="store_true", help="Print version and exit")
 
@@ -261,28 +256,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         else:
             _logger.info("%s %s", sys.argv[0], pkg[0].version)
 
-    (j, names) = process.get_schema()
-    (ctx, g) = avro_ld.jsonld_context.avrold_to_jsonld_context(j)
-    loader = create_loader(ctx)
-
-    if args.print_jsonld_context:
-        j = {"@context": ctx}
-        print json.dumps(j, indent=4, sort_keys=True)
-        return 0
-
-    if args.print_rdfs:
-        print(g.serialize(format=args.rdf_serializer))
-        return 0
-
-    if args.print_spec:
-        avro_ld.makedoc.avrold_doc(j, sys.stdout)
-        return 0
-
-    if args.print_avro:
-        print "["
-        print ", ".join([json.dumps(names.names[n].to_json(), indent=4, sort_keys=True) for n in names.names])
-        print "]"
-        return 0
+    (document_loader, avsc_names, schema_metadata) = process.get_schema()
 
     if not args.workflow:
         parser.print_help()
@@ -292,27 +266,17 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     idx = {}
     try:
-        processobj = loader.resolve_ref(args.workflow)
-    except (avro_ld.validate.ValidationException, RuntimeError) as e:
-        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
-        return 1
-
-    if args.print_pre:
-        print json.dumps(processobj, indent=4)
-        return 0
-
-    try:
-        loader.validate_links(processobj)
-    except (avro_ld.validate.ValidationException) as e:
+        processobj, metadata = schema_salad.schema.load_and_validate(document_loader, avsc_names, args.workflow, args.strict)
+    except (schema_salad.validate.ValidationException, RuntimeError) as e:
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
 
     if isinstance(processobj, list):
-        processobj = loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
+        processobj, _ = document_loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
 
     try:
         t = makeTool(processobj, strict=args.strict, makeTool=makeTool)
-    except (avro_ld.validate.ValidationException) as e:
+    except (schema_salad.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         if args.debug:
             _logger.exception("")
@@ -350,12 +314,14 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     else:
         job_order_file = None
 
+    loader = Loader({"id": "@id"})
+
     if job_order_file:
         input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(job_order_file))
         try:
-            job_order_object = loader.resolve_ref(job_order_file)
+            job_order_object, _ = loader.resolve_ref(job_order_file)
         except Exception as e:
-            _logger.error(e)
+            _logger.error(e, exc_info=(e if args.debug else False))
             return 1
         toolparser = None
     else:
@@ -373,7 +339,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
                     input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(cmd_line["job_order"]))
                     job_order_object = loader.resolve_ref(cmd_line["job_order"])
                 except Exception as e:
-                    _logger.error(e)
+                    _logger.error(e, exc_info=(e if args.debug else False))
                     return 1
             else:
                 job_order_object = {}
diff --git a/cwltool/process.py b/cwltool/process.py
index d9556a4de..3f819af0b 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -1,14 +1,14 @@
 import avro.schema
 import os
 import json
-import avro_ld.validate as validate
+import schema_salad.validate as validate
 import copy
 import yaml
 import copy
 import logging
 import pprint
 from aslist import aslist
-import avro_ld.schema
+import schema_salad.schema
 import urlparse
 import pprint
 from pkg_resources import resource_stream
@@ -20,9 +20,10 @@ class WorkflowException(Exception):
     pass
 
 def get_schema():
-    f = resource_stream(__name__, 'schemas/draft-2/cwl-avro.yml')
+    f = resource_stream(__name__, 'schemas/draft-3/cwl-avro.yml')
     j = yaml.load(f)
-    return (j, avro_ld.schema.schema(j))
+    j["name"] = "https://w3id.org/cwl/cwl"
+    return schema_salad.schema.load_schema(j)
 
 def get_feature(self, feature):
     for t in reversed(self.requirements):
@@ -35,7 +36,7 @@ def get_feature(self, feature):
 
 class Process(object):
     def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
-        (_, self.names) = get_schema()
+        (_, self.names, _) = get_schema()
         self.tool = toolpath_object
 
         if do_validate:
@@ -55,9 +56,11 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         sd, _ = self.get_requirement("SchemaDefRequirement")
 
         if sd:
-            for i in sd["types"]:
-                avro.schema.make_avsc_object(i, self.names)
+            sdtypes = sd["types"]
+            av = schema_salad.schema.make_valid_avro(sdtypes, {t["name"]: t for t in sdtypes}, set())
+            for i in av:
                 self.schemaDefs[i["name"]] = i
+            avro.schema.make_avsc_object(av, self.names)
 
         # Build record schema from inputs
         self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
@@ -76,6 +79,7 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
                 c["type"] = c["type"]
             self.inputs_record_schema["fields"].append(c)
 
+        self.inputs_record_schema = schema_salad.schema.make_valid_avro(self.inputs_record_schema, {}, set())
         avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
 
         self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
@@ -94,6 +98,7 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
                 c["type"] = c["type"]
             self.outputs_record_schema["fields"].append(c)
 
+        self.outputs_record_schema = schema_salad.schema.make_valid_avro(self.outputs_record_schema, {}, set())
         avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
     def validate_hints(self, hints, strict):
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 3d083edd3..791ea20f7 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -9,7 +9,7 @@
 from collections import namedtuple
 import pprint
 import functools
-import avro_ld.validate as validate
+import schema_salad.validate as validate
 import urlparse
 import pprint
 import tempfile
@@ -21,6 +21,8 @@
 WorkflowStateItem = namedtuple('WorkflowStateItem', ['parameter', 'value'])
 
 def defaultMakeTool(toolpath_object, **kwargs):
+    if not isinstance(toolpath_object, dict):
+        raise WorkflowException("Not a dict: `%s`" % toolpath_object)
     if "class" in toolpath_object:
         if toolpath_object["class"] == "CommandLineTool":
             return draft2tool.CommandLineTool(toolpath_object, **kwargs)
diff --git a/setup.py b/setup.py
index 8045959a3..0d92bee9e 100644
--- a/setup.py
+++ b/setup.py
@@ -25,16 +25,15 @@
       url="https://github.com/common-workflow-language/common-workflow-language",
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
-      packages=["cwltool", "cwltool.avro_ld"],
+      packages=["cwltool"],
       package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
       install_requires=[
           'requests',
           'PyYAML',
-          'avro',
           'rdflib >= 4.2.0',
           'rdflib-jsonld >= 0.3.0',
-          'mistune',
-          'shellescape'
+          'shellescape',
+          'schema_salad'
         ],
       test_suite='tests',
       tests_require=[],

From 1b8258ed174da6b3038e25c3acc3799409855733 Mon Sep 17 00:00:00 2001
From: Dan Leehr <dan.leehr@duke.edu>
Date: Mon, 14 Sep 2015 11:33:43 -0400
Subject: [PATCH 178/221] `--preserve-environment` requires variable names per
 @tetron's suggestion

For example:

`cwltool --preserve-environment PATH --no-container workflow.cwl job.json`
---
 cwltool/job.py  | 5 +++--
 cwltool/main.py | 5 +++--
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/cwltool/job.py b/cwltool/job.py
index 915a0cde4..37c908e8a 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -82,9 +82,10 @@ def run(self, dry_run=False, pull_image=True, rm_container=True, rm_tmpdir=True,
             if not os.path.exists(self.tmpdir):
                 os.makedirs(self.tmpdir)
             env["TMPDIR"] = self.tmpdir
-            if kwargs['preserve_environment']:
+            vars_to_preserve = kwargs.get("preserve_environment")
+            if vars_to_preserve is not None:
                 for key, value in os.environ.items():
-                    if key not in env:
+                    if key in vars_to_preserve and key not in env:
                         env[key] = value
 
         stdin = None
diff --git a/cwltool/main.py b/cwltool/main.py
index 3911d5602..0ed9fb5e7 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -34,8 +34,9 @@ def arg_parser():
                         help="Do not execute jobs in a Docker container, even when specified by the CommandLineTool",
                         dest="use_container")
 
-    parser.add_argument("--preserve-environment", action="store_true", default=False,
-                        help="Preserve environment variables when running CommandLineTools",
+    parser.add_argument("--preserve-environment", type=str, nargs='+',
+                        help="Preserve specified environment variables when running CommandLineTools",
+                        metavar=("VAR1","VAR2"),
                         dest="preserve_environment")
 
     exgroup = parser.add_mutually_exclusive_group()

From aaa40893d22fae3b78a24753a757149fc9682134 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 15 Sep 2015 18:05:34 +0900
Subject: [PATCH 179/221] cwltool supporting both draft-2 and draft-3 (auto
 update draft-2 to draft-3)

---
 cwltool/draft2tool.py |  7 ++---
 cwltool/main.py       | 22 +++++++++++--
 cwltool/process.py    | 12 +++++---
 cwltool/update.py     | 72 +++++++++++++++++++++++++++++++++++++++++++
 cwltool/workflow.py   | 22 ++++++-------
 5 files changed, 112 insertions(+), 23 deletions(-)
 create mode 100644 cwltool/update.py

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index c6c27a093..7904184f5 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -11,8 +11,7 @@
 import logging
 import hashlib
 import random
-from process import Process
-from process import WorkflowException
+from process import Process, WorkflowException, shortname
 import schema_salad.validate as validate
 from aslist import aslist
 import expression
@@ -191,7 +190,7 @@ def _init_job(self, joborder, input_basedir, **kwargs):
         builder.job = copy.deepcopy(joborder)
 
         for i in self.tool["inputs"]:
-            (_, d) = urlparse.urldefrag(i["id"])
+            d = shortname(i["id"])
             if d not in builder.job and "default" in i:
                 builder.job[d] = i["default"]
 
@@ -397,7 +396,7 @@ def collect_output_ports(self, ports, builder, outdir):
 
             ret = {}
             for port in ports:
-                doc_url, fragment = urlparse.urldefrag(port['id'])
+                fragment = shortname(port["id"])
                 ret[fragment] = self.collect_output(port, builder, outdir)
             validate.validate_ex(self.names.get_name("outputs_record_schema", ""), ret)
             return ret if ret is not None else {}
diff --git a/cwltool/main.py b/cwltool/main.py
index 7973c3b71..3d3e66c6c 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -18,6 +18,8 @@
 import job
 from cwlrdf import printrdf, printdot
 import pkg_resources  # part of setuptools
+import update
+from process import shortname
 
 _logger = logging.getLogger("cwltool")
 _logger.addHandler(logging.StreamHandler())
@@ -88,6 +90,7 @@ def arg_parser():
                         help="Print corresponding RDF graph for workflow and exit")
     exgroup.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
     exgroup.add_argument("--version", action="store_true", help="Print version and exit")
+    exgroup.add_argument("--update", action="store_true", help="Update to latest CWL version, print and exit")
 
     parser.add_argument("--strict", action="store_true", help="Strict validation (error on unrecognized fields)")
 
@@ -182,7 +185,7 @@ def generate_parser(toolparser, tool, namemap):
     namemap["job_order"] = "job_order"
 
     for inp in tool.tool["inputs"]:
-        (_, name) = urlparse.urldefrag(inp["id"])
+        name = shortname(inp["id"])
         if len(name) == 1:
             flag = "-"
         else:
@@ -265,8 +268,23 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         return 1
 
     idx = {}
+
+    with open(args.workflow) as f:
+        uri = "file://" + os.path.abspath(args.workflow)
+        workflowobj = document_loader.fetch(uri)
+        if isinstance(workflowobj, list):
+            workflowobj = {"cwlVersion": "https://w3id.org/cwl/cwl#draft-2",
+                           "id": uri,
+                           "@graph": workflowobj}
+        workflowobj = update.update(workflowobj, document_loader, uri)
+        document_loader.idx.clear()
+
+    if args.update:
+        print json.dumps(workflowobj, indent=4)
+        return 0
+
     try:
-        processobj, metadata = schema_salad.schema.load_and_validate(document_loader, avsc_names, args.workflow, args.strict)
+        processobj, metadata = schema_salad.schema.load_and_validate(document_loader, avsc_names, workflowobj, args.strict)
     except (schema_salad.validate.ValidationException, RuntimeError) as e:
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
diff --git a/cwltool/process.py b/cwltool/process.py
index 3f819af0b..b4132de93 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -34,6 +34,10 @@ def get_feature(self, feature):
             return (t, False)
     return (None, None)
 
+def shortname(inputid):
+    (_, d) = urlparse.urldefrag(inputid)
+    return d.split("/")[-1].split(".")[-1]
+
 class Process(object):
     def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         (_, self.names, _) = get_schema()
@@ -66,8 +70,8 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
         for i in self.tool["inputs"]:
             c = copy.copy(i)
-            doc_url, fragment = urlparse.urldefrag(c['id'])
-            c["name"] = fragment
+            doc_url, _ = urlparse.urldefrag(c['id'])
+            c["name"] = shortname(c["id"])
             del c["id"]
 
             if "type" not in c:
@@ -85,8 +89,8 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
         for i in self.tool["outputs"]:
             c = copy.copy(i)
-            doc_url, fragment = urlparse.urldefrag(c['id'])
-            c["name"] = fragment
+            doc_url, _ = urlparse.urldefrag(c['id'])
+            c["name"] = shortname(c["id"])
             del c["id"]
 
             if "type" not in c:
diff --git a/cwltool/update.py b/cwltool/update.py
new file mode 100644
index 000000000..7979b225d
--- /dev/null
+++ b/cwltool/update.py
@@ -0,0 +1,72 @@
+import sys
+import urlparse
+
+def findId(doc, frg):
+    if isinstance(doc, dict):
+        if "id" in doc and doc["id"] == frg:
+            return doc
+        else:
+            for d in doc:
+                f = findId(doc[d], frg)
+                if f:
+                    return f
+    if isinstance(doc, list):
+        for d in doc:
+            f = findId(d, frg)
+            if f:
+                return f
+    return None
+
+def fixImport(doc, loader, baseuri):
+    if isinstance(doc, dict):
+        if "import" in doc:
+            imp = urlparse.urljoin(baseuri, doc["import"])
+            r = loader.fetch(imp)
+            if isinstance(r, list):
+                r = {"@graph": r}
+            r["id"] = imp
+            _, frag = urlparse.urldefrag(imp)
+            if frag:
+                frag = "#" + frag
+                r = findId(r, frag)
+            return fixImport(r, loader, baseuri)
+
+        if "include" in doc:
+            return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))
+
+        for a in doc:
+            doc[a] = fixImport(doc[a], loader, baseuri)
+
+    if isinstance(doc, list):
+        return [fixImport(a, loader, baseuri) for a in doc]
+
+    return doc
+
+def draft2toDraft3(doc, loader, baseuri):
+    return (fixImport(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev1")
+
+def update(doc, loader, baseuri):
+    updates = {
+        "https://w3id.org/cwl/cwl#draft-2": draft2toDraft3,
+        "https://w3id.org/cwl/cwl#draft-3.dev1": None
+    }
+
+    def identity(doc, loader, baseuri):
+        v = doc.get("cwlVersion")
+        if v:
+            return (doc, loader.expand_url(v, ""))
+        else:
+            return (doc, "https://w3id.org/cwl/cwl#draft-2")
+
+    nextupdate = identity
+
+    while nextupdate:
+        (doc, version) = nextupdate(doc, loader, baseuri)
+        if version in updates:
+            nextupdate = updates[version]
+        else:
+            raise Exception("Unrecognized version %s" % version)
+
+    doc["cwlVersion"] = version
+
+    return doc
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 791ea20f7..425eee3b5 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -1,7 +1,7 @@
 import job
 import draft2tool
 from aslist import aslist
-from process import Process, WorkflowException, get_feature, empty_subtree
+from process import Process, WorkflowException, get_feature, empty_subtree, shortname
 import copy
 import logging
 import random
@@ -91,8 +91,7 @@ def object_from_state(state, parms, frag_only):
     for inp in parms:
         iid = inp["id"]
         if frag_only:
-            (_, iid) = urlparse.urldefrag(iid)
-            iid = iid.split(".")[-1]
+            iid = shortname(iid)
         if "source" in inp:
             connections = aslist(inp["source"])
             for src in connections:
@@ -212,7 +211,7 @@ def job(self, joborder, basedir, output_callback, move_outputs=True, **kwargs):
             del kwargs["outdir"]
 
         for i in self.tool["inputs"]:
-            (_, iid) = urlparse.urldefrag(i["id"])
+            iid = shortname(i["id"])
             if iid in joborder:
                 self.state[i["id"]] = WorkflowStateItem(i, copy.deepcopy(joborder[iid]))
             elif "default" in i:
@@ -328,16 +327,15 @@ def __init__(self, toolpath_object, pos, **kwargs):
         for field in ("inputs", "outputs"):
             for i in toolpath_object[field]:
                 inputid = i["id"]
-                (_, d) = urlparse.urldefrag(inputid)
-                frag = d.split(".")[-1]
-                p = urlparse.urljoin(toolpath_object["run"].get("id", self.id), "#" + frag)
+                p = shortname(inputid)
                 found = False
                 for a in self.embedded_tool.tool[field]:
-                    if a["id"] == p:
+                    frag = shortname(a["id"])
+                    if frag == p:
                         i.update(a)
                         found = True
                 if not found:
-                    raise WorkflowException("Did not find %s parameter '%s' in workflow step" % (field, p))
+                    raise WorkflowException("Parameter '%s' of %s in workflow step %s does not correspond to parameter in %s" % (p, field, self.id, self.embedded_tool.tool.get("id")))
                 i["id"] = inputid
 
         super(WorkflowStep, self).__init__(toolpath_object, "Process", do_validate=False, **kwargs)
@@ -382,8 +380,7 @@ def receive_output(self, output_callback, jobout, processStatus):
         #_logger.debug("WorkflowStep output from run is %s", jobout)
         output = {}
         for i in self.tool["outputs"]:
-            (_, d) = urlparse.urldefrag(i["id"])
-            field = d.split(".")[-1]
+            field = shortname(i["id"])
             if field in jobout:
                 output[i["id"]] = jobout[field]
             else:
@@ -393,8 +390,7 @@ def receive_output(self, output_callback, jobout, processStatus):
     def job(self, joborder, basedir, output_callback, **kwargs):
         for i in self.tool["inputs"]:
             p = i["id"]
-            (_, d) = urlparse.urldefrag(p)
-            field = d.split(".")[-1]
+            field = shortname(p)
             joborder[field] = joborder[i["id"]]
             del joborder[i["id"]]
 

From 890edf5b351bf0de20d18d782897a64401ba2311 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 15 Sep 2015 18:43:32 +0900
Subject: [PATCH 180/221] Tests pass for cwltool on both draft-2 and draft-3

---
 cwltool/update.py | 13 +++++++++++++
 1 file changed, 13 insertions(+)

diff --git a/cwltool/update.py b/cwltool/update.py
index 7979b225d..72ead5978 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -17,6 +17,15 @@ def findId(doc, frg):
                 return f
     return None
 
+def fixType(doc):
+    if isinstance(doc, list):
+        return [fixType(f) for f in doc]
+
+    if isinstance(doc, basestring):
+        if doc not in ("null", "boolean", "int", "long", "float", "double", "string", "File", "record", "enum", "array", "Any"):
+            return "#" + doc
+    return doc
+
 def fixImport(doc, loader, baseuri):
     if isinstance(doc, dict):
         if "import" in doc:
@@ -34,6 +43,10 @@ def fixImport(doc, loader, baseuri):
         if "include" in doc:
             return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))
 
+        for t in ("type", "items"):
+            if t in doc:
+                doc[t] = fixType(doc[t])
+
         for a in doc:
             doc[a] = fixImport(doc[a], loader, baseuri)
 

From ba18c6b9920ede7ecb24ded152b7194cddfd5928 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 16 Sep 2015 12:16:00 +0900
Subject: [PATCH 181/221] Fixups to make cwl web site generation workflow work.

---
 cwltool/main.py     | 22 ++++++++--------
 cwltool/process.py  | 62 ++++++++++++++++++++++-----------------------
 cwltool/workflow.py |  2 +-
 setup.py            |  2 +-
 4 files changed, 44 insertions(+), 44 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 3d3e66c6c..bdeb9ef93 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -269,15 +269,15 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
 
     idx = {}
 
-    with open(args.workflow) as f:
-        uri = "file://" + os.path.abspath(args.workflow)
-        workflowobj = document_loader.fetch(uri)
-        if isinstance(workflowobj, list):
-            workflowobj = {"cwlVersion": "https://w3id.org/cwl/cwl#draft-2",
-                           "id": uri,
-                           "@graph": workflowobj}
-        workflowobj = update.update(workflowobj, document_loader, uri)
-        document_loader.idx.clear()
+    uri = "file://" + os.path.abspath(args.workflow)
+    fileuri, urifrag = urlparse.urldefrag(uri)
+    workflowobj = document_loader.fetch(fileuri)
+    if isinstance(workflowobj, list):
+        workflowobj = {"cwlVersion": "https://w3id.org/cwl/cwl#draft-2",
+                       "id": fileuri,
+                       "@graph": workflowobj}
+    workflowobj = update.update(workflowobj, document_loader, fileuri)
+    document_loader.idx.clear()
 
     if args.update:
         print json.dumps(workflowobj, indent=4)
@@ -289,7 +289,9 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
 
-    if isinstance(processobj, list):
+    if urifrag:
+        processobj, _ = document_loader.resolve_ref(uri)
+    elif isinstance(processobj, list):
         processobj, _ = document_loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
 
     try:
diff --git a/cwltool/process.py b/cwltool/process.py
index b4132de93..841d8a614 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -68,42 +68,40 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
 
         # Build record schema from inputs
         self.inputs_record_schema = {"name": "input_record_schema", "type": "record", "fields": []}
-        for i in self.tool["inputs"]:
-            c = copy.copy(i)
-            doc_url, _ = urlparse.urldefrag(c['id'])
-            c["name"] = shortname(c["id"])
-            del c["id"]
+        self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
 
-            if "type" not in c:
-                raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
+        for key in ("inputs", "outputs"):
+            for i in self.tool[key]:
+                c = copy.copy(i)
+                doc_url, _ = urlparse.urldefrag(c['id'])
+                c["name"] = shortname(c["id"])
+                del c["id"]
 
-            if "default" in c:
-                c["type"] = ["null"] + aslist(c["type"])
-            else:
-                c["type"] = c["type"]
-            self.inputs_record_schema["fields"].append(c)
+                if "type" not in c:
+                    raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
 
-        self.inputs_record_schema = schema_salad.schema.make_valid_avro(self.inputs_record_schema, {}, set())
-        avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
+                if "default" in c:
+                    c["type"] = ["null"] + aslist(c["type"])
+                else:
+                    c["type"] = c["type"]
+
+                if key == "inputs":
+                    self.inputs_record_schema["fields"].append(c)
+                elif key == "outputs":
+                    self.outputs_record_schema["fields"].append(c)
+
+        try:
+            self.inputs_record_schema = schema_salad.schema.make_valid_avro(self.inputs_record_schema, {}, set())
+            avro.schema.make_avsc_object(self.inputs_record_schema, self.names)
+        except avro.schema.SchemaParseException as e:
+            raise validate.ValidationException("Got error `%s` while prcoessing inputs of %s:\n%s" % (str(e), self.tool["id"], json.dumps(self.inputs_record_schema, indent=4)))
+
+        try:
+            self.outputs_record_schema = schema_salad.schema.make_valid_avro(self.outputs_record_schema, {}, set())
+            avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
+        except avro.schema.SchemaParseException as e:
+            raise validate.ValidationException("Got error `%s` while prcoessing outputs of %s:\n%s" % (str(e), self.tool["id"], json.dumps(self.outputs_record_schema, indent=4)))
 
-        self.outputs_record_schema = {"name": "outputs_record_schema", "type": "record", "fields": []}
-        for i in self.tool["outputs"]:
-            c = copy.copy(i)
-            doc_url, _ = urlparse.urldefrag(c['id'])
-            c["name"] = shortname(c["id"])
-            del c["id"]
-
-            if "type" not in c:
-                raise validate.ValidationException("Missing `type` in parameter `%s`" % c["name"])
-
-            if "default" in c:
-                c["type"] = ["null"] + aslist(c["type"])
-            else:
-                c["type"] = c["type"]
-            self.outputs_record_schema["fields"].append(c)
-
-        self.outputs_record_schema = schema_salad.schema.make_valid_avro(self.outputs_record_schema, {}, set())
-        avro.schema.make_avsc_object(self.outputs_record_schema, self.names)
 
     def validate_hints(self, hints, strict):
         for r in hints:
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 425eee3b5..1a662e7e4 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -415,7 +415,7 @@ def receive_scatter_output(self, index, jobout, processStatus):
 
         if processStatus != "success":
             if self.processStatus != "permanentFail":
-                self.processStatus = jobout["processStatus"]
+                self.processStatus = processStatus
 
         self.completed += 1
 
diff --git a/setup.py b/setup.py
index 0d92bee9e..ec785fe7b 100644
--- a/setup.py
+++ b/setup.py
@@ -26,7 +26,7 @@
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
-      package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*']},
+      package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*', 'schemas/draft-3/*']},
       install_requires=[
           'requests',
           'PyYAML',

From ccdd23bad67d3e30906c84cad89990a5fb9ee825 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 16 Sep 2015 13:09:09 +0900
Subject: [PATCH 182/221] More fixup cwlsite generation.

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index ec785fe7b..9cc218207 100644
--- a/setup.py
+++ b/setup.py
@@ -33,7 +33,7 @@
           'rdflib >= 4.2.0',
           'rdflib-jsonld >= 0.3.0',
           'shellescape',
-          'schema_salad'
+          'schema_salad >= 1.0.2'
         ],
       test_suite='tests',
       tests_require=[],

From 35d4d56732a7daaf6f49a3ea5765768622f33db1 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 16 Sep 2015 21:42:27 +0900
Subject: [PATCH 183/221] Refactor tool loading

---
 cwltool/main.py | 76 ++++++++++++++++++++++++++-----------------------
 1 file changed, 41 insertions(+), 35 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 9621c22e0..1ecbce31e 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -242,39 +242,10 @@ def generate_parser(toolparser, tool, namemap):
 
     return toolparser
 
-def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
-    if args is None:
-        args = sys.argv[1:]
-
-    if parser is None:
-        parser = arg_parser()
-
-    args = parser.parse_args(args)
-
-    if args.quiet:
-        _logger.setLevel(logging.WARN)
-    if args.debug:
-        _logger.setLevel(logging.DEBUG)
-
-    pkg = pkg_resources.require("cwltool")
-    if pkg:
-        if args.version:
-            print "%s %s" % (sys.argv[0], pkg[0].version)
-            return 0
-        else:
-            _logger.info("%s %s", sys.argv[0], pkg[0].version)
-
+def load_tool(argsworkflow, updateonly, strict, makeTool):
     (document_loader, avsc_names, schema_metadata) = process.get_schema()
 
-    if not args.workflow:
-        parser.print_help()
-        _logger.error("")
-        _logger.error("CWL document required")
-        return 1
-
-    idx = {}
-
-    uri = "file://" + os.path.abspath(args.workflow)
+    uri = "file://" + os.path.abspath(argsworkflow)
     fileuri, urifrag = urlparse.urldefrag(uri)
     workflowobj = document_loader.fetch(fileuri)
     if isinstance(workflowobj, list):
@@ -284,12 +255,12 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     workflowobj = update.update(workflowobj, document_loader, fileuri)
     document_loader.idx.clear()
 
-    if args.update:
+    if updateonly:
         print json.dumps(workflowobj, indent=4)
         return 0
 
     try:
-        processobj, metadata = schema_salad.schema.load_and_validate(document_loader, avsc_names, workflowobj, args.strict)
+        processobj, metadata = schema_salad.schema.load_and_validate(document_loader, avsc_names, workflowobj, strict)
     except (schema_salad.validate.ValidationException, RuntimeError) as e:
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1
@@ -297,10 +268,10 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     if urifrag:
         processobj, _ = document_loader.resolve_ref(uri)
     elif isinstance(processobj, list):
-        processobj, _ = document_loader.resolve_ref(urlparse.urljoin(args.workflow, "#main"))
+        processobj, _ = document_loader.resolve_ref(urlparse.urljoin(argsworkflow, "#main"))
 
     try:
-        t = makeTool(processobj, strict=args.strict, makeTool=makeTool)
+        t = makeTool(processobj, strict=strict, makeTool=makeTool)
     except (schema_salad.validate.ValidationException) as e:
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
         if args.debug:
@@ -312,6 +283,41 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             _logger.exception()
         return 1
 
+    return t
+
+def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
+    if args is None:
+        args = sys.argv[1:]
+
+    if parser is None:
+        parser = arg_parser()
+
+    args = parser.parse_args(args)
+
+    if args.quiet:
+        _logger.setLevel(logging.WARN)
+    if args.debug:
+        _logger.setLevel(logging.DEBUG)
+
+    pkg = pkg_resources.require("cwltool")
+    if pkg:
+        if args.version:
+            print "%s %s" % (sys.argv[0], pkg[0].version)
+            return 0
+        else:
+            _logger.info("%s %s", sys.argv[0], pkg[0].version)
+
+    if not args.workflow:
+        parser.print_help()
+        _logger.error("")
+        _logger.error("CWL document required")
+        return 1
+
+    t = load_tool(args.workflow, args.update, args.strict, makeTool)
+
+    if t == 0:
+        return 0
+
     if args.print_rdf:
         printrdf(args.workflow, processobj, ctx, args.rdf_serializer)
         return 0

From edfd2dae2050f269d1df390bac36d2b692ce3dfc Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 18 Sep 2015 17:07:32 +0900
Subject: [PATCH 184/221] Fix bugs in cwlVersion updater using relative paths.

---
 cwltool/main.py   | 18 +++++++-----------
 cwltool/update.py |  4 ++--
 2 files changed, 9 insertions(+), 13 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 1ecbce31e..babcb6f0d 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -242,7 +242,7 @@ def generate_parser(toolparser, tool, namemap):
 
     return toolparser
 
-def load_tool(argsworkflow, updateonly, strict, makeTool):
+def load_tool(argsworkflow, updateonly, strict, makeTool, debug):
     (document_loader, avsc_names, schema_metadata) = process.get_schema()
 
     uri = "file://" + os.path.abspath(argsworkflow)
@@ -262,7 +262,7 @@ def load_tool(argsworkflow, updateonly, strict, makeTool):
     try:
         processobj, metadata = schema_salad.schema.load_and_validate(document_loader, avsc_names, workflowobj, strict)
     except (schema_salad.validate.ValidationException, RuntimeError) as e:
-        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
+        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if debug else False))
         return 1
 
     if urifrag:
@@ -273,14 +273,10 @@ def load_tool(argsworkflow, updateonly, strict, makeTool):
     try:
         t = makeTool(processobj, strict=strict, makeTool=makeTool)
     except (schema_salad.validate.ValidationException) as e:
-        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if args.debug else False))
-        if args.debug:
-            _logger.exception("")
+        _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if debug else False))
         return 1
     except (RuntimeError, workflow.WorkflowException) as e:
-        _logger.error("Tool definition failed initialization:\n%s", e, exc_info=(e if args.debug else False))
-        if args.debug:
-            _logger.exception()
+        _logger.error("Tool definition failed initialization:\n%s", e, exc_info=(e if debug else False))
         return 1
 
     return t
@@ -313,10 +309,10 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("CWL document required")
         return 1
 
-    t = load_tool(args.workflow, args.update, args.strict, makeTool)
+    t = load_tool(args.workflow, args.update, args.strict, makeTool, args.debug)
 
-    if t == 0:
-        return 0
+    if type(t) == int:
+        return t
 
     if args.print_rdf:
         printrdf(args.workflow, processobj, ctx, args.rdf_serializer)
diff --git a/cwltool/update.py b/cwltool/update.py
index 72ead5978..b72f56858 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -22,7 +22,7 @@ def fixType(doc):
         return [fixType(f) for f in doc]
 
     if isinstance(doc, basestring):
-        if doc not in ("null", "boolean", "int", "long", "float", "double", "string", "File", "record", "enum", "array", "Any"):
+        if doc not in ("null", "boolean", "int", "long", "float", "double", "string", "File", "record", "enum", "array", "Any") and "#" not in doc:
             return "#" + doc
     return doc
 
@@ -38,7 +38,7 @@ def fixImport(doc, loader, baseuri):
             if frag:
                 frag = "#" + frag
                 r = findId(r, frag)
-            return fixImport(r, loader, baseuri)
+            return fixImport(r, loader, imp)
 
         if "include" in doc:
             return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))

From 6fe95499c1fe23914c84c5605ab4b6bd48aa2193 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 21 Sep 2015 06:14:12 +0900
Subject: [PATCH 185/221] Refactor so that workflows process input bindings
 (primarily secondaryFiles).

---
 cwltool/builder.py    | 159 +++++++++++++++++++++++++++++
 cwltool/draft2tool.py | 232 +-----------------------------------------
 cwltool/errors.py     |   2 +
 cwltool/expression.py |   2 +-
 cwltool/job.py        |   3 +-
 cwltool/main.py       |   5 +
 cwltool/process.py    |  71 ++++++++++++-
 cwltool/workflow.py   |   5 +-
 8 files changed, 246 insertions(+), 233 deletions(-)
 create mode 100644 cwltool/builder.py
 create mode 100644 cwltool/errors.py

diff --git a/cwltool/builder.py b/cwltool/builder.py
new file mode 100644
index 000000000..5352f915a
--- /dev/null
+++ b/cwltool/builder.py
@@ -0,0 +1,159 @@
+import copy
+from aslist import aslist
+import expression
+import avro
+import schema_salad.validate as validate
+
+CONTENT_LIMIT = 64 * 1024
+
+def substitute(value, replace):
+    if replace[0] == "^":
+        return substitute(value[0:value.rindex('.')], replace[1:])
+    else:
+        return value + replace
+
+class Builder(object):
+
+    def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
+        bindings = []
+        binding = None
+        if "inputBinding" in schema and isinstance(schema["inputBinding"], dict):
+            binding = copy.copy(schema["inputBinding"])
+
+            if "position" in binding:
+                binding["position"] = aslist(lead_pos) + aslist(binding["position"]) + aslist(tail_pos)
+            else:
+                binding["position"] = aslist(lead_pos) + [0] + aslist(tail_pos)
+
+            if "valueFrom" in binding:
+                binding["do_eval"] = binding["valueFrom"]
+            binding["valueFrom"] = datum
+
+        # Handle union types
+        if isinstance(schema["type"], list):
+            for t in schema["type"]:
+                if isinstance(t, basestring) and self.names.has_name(t, ""):
+                    avsc = self.names.get_name(t, "")
+                elif isinstance(t, dict) and "name" in t and self.names.has_name(t["name"], ""):
+                    avsc = self.names.get_name(t["name"], "")
+                else:
+                    avsc = avro.schema.make_avsc_object(t, self.names)
+                if validate.validate(avsc, datum):
+                    schema = copy.deepcopy(schema)
+                    schema["type"] = t
+                    return self.bind_input(schema, datum, lead_pos=lead_pos, tail_pos=tail_pos)
+            raise validate.ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
+        elif isinstance(schema["type"], dict):
+            st = copy.deepcopy(schema["type"])
+            if binding and "inputBinding" not in st and "itemSeparator" not in binding and st["type"] in ("array", "map"):
+                st["inputBinding"] = {}
+            bindings.extend(self.bind_input(st, datum, lead_pos=lead_pos, tail_pos=tail_pos))
+        else:
+            if schema["type"] in self.schemaDefs:
+                schema = self.schemaDefs[schema["type"]]
+
+            if schema["type"] == "record":
+                for f in schema["fields"]:
+                    if f["name"] in datum:
+                        bindings.extend(self.bind_input(f, datum[f["name"]], lead_pos=lead_pos, tail_pos=f["name"]))
+                    else:
+                        datum[f["name"]] = f.get("default")
+
+            if schema["type"] == "map":
+                for n, item in datum.items():
+                    b2 = None
+                    if binding:
+                        b2 = copy.deepcopy(binding)
+                        b2["valueFrom"] = [n, item]
+                    bindings.extend(self.bind_input({"type": schema["values"], "inputBinding": b2},
+                                                    item, lead_pos=n, tail_pos=tail_pos))
+                binding = None
+
+            if schema["type"] == "array":
+                for n, item in enumerate(datum):
+                    b2 = None
+                    if binding:
+                        b2 = copy.deepcopy(binding)
+                        b2["valueFrom"] = item
+                    bindings.extend(self.bind_input({"type": schema["items"], "inputBinding": b2},
+                                                    item, lead_pos=n, tail_pos=tail_pos))
+                binding = None
+
+            if schema["type"] == "File":
+                self.files.append(datum)
+                if binding:
+                    if binding.get("loadContents"):
+                        with self.fs_access.open(datum["path"], "rb") as f:
+                            datum["contents"] = f.read(CONTENT_LIMIT)
+
+                    if "secondaryFiles" in binding:
+                        if "secondaryFiles" not in datum:
+                            datum["secondaryFiles"] = []
+                        for sf in aslist(binding["secondaryFiles"]):
+                            if isinstance(sf, dict):
+                                sfpath = self.do_eval(sf, context=datum["path"])
+                            else:
+                                sfpath = {"path": substitute(datum["path"], sf), "class": "File"}
+                            if isinstance(sfpath, list):
+                                datum["secondaryFiles"].extend(sfpath)
+                                self.files.extend(sfpath)
+                            else:
+                                datum["secondaryFiles"].append(sfpath)
+                                self.files.append(sfpath)
+
+        # Position to front of the sort key
+        if binding:
+            for bi in bindings:
+                bi["position"] = binding["position"] + bi["position"]
+            bindings.append(binding)
+
+        return bindings
+
+    def tostr(self, value):
+        if isinstance(value, dict) and value.get("class") == "File":
+            if "path" not in value:
+                raise WorkflowException("File object must have \"path\": %s" % (value))
+            return value["path"]
+        else:
+            return str(value)
+
+    def generate_arg(self, binding):
+        value = binding["valueFrom"]
+        if "do_eval" in binding:
+            value = self.do_eval(binding["do_eval"], context=value)
+
+        prefix = binding.get("prefix")
+        sep = binding.get("separate", True)
+
+        l = []
+        if isinstance(value, list):
+            if binding.get("itemSeparator"):
+                l = [binding["itemSeparator"].join([self.tostr(v) for v in value])]
+            elif binding.get("do_eval"):
+                return ([prefix] if prefix else []) + value
+            elif prefix:
+                return [prefix]
+            else:
+                return []
+        elif isinstance(value, dict) and value.get("class") == "File":
+            l = [value]
+        elif isinstance(value, dict):
+            return [prefix] if prefix else []
+        elif value is True and prefix:
+            return [prefix]
+        elif value is False or value is None:
+            return []
+        else:
+            l = [value]
+
+        args = []
+        for j in l:
+            if sep:
+                args.extend([prefix, self.tostr(j)])
+            else:
+                args.append(prefix + self.tostr(j))
+
+        return [a for a in args if a is not None]
+
+    def do_eval(self, ex, context=None, pull_image=True):
+        return expression.do_eval(ex, self.job, self.requirements, self.outdir, self.tmpdir, context=context, pull_image=pull_image)
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 7904184f5..776fece72 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -11,221 +11,19 @@
 import logging
 import hashlib
 import random
-from process import Process, WorkflowException, shortname
+from process import Process, shortname
+from errors import WorkflowException
 import schema_salad.validate as validate
 from aslist import aslist
 import expression
 import re
 import urlparse
 import tempfile
+from builder import CONTENT_LIMIT, substitute
 
 _logger = logging.getLogger("cwltool")
 
-CONTENT_LIMIT = 64 * 1024
-
-supportedProcessRequirements = ["DockerRequirement",
-                                "ExpressionEngineRequirement",
-                                "SchemaDefRequirement",
-                                "EnvVarRequirement",
-                                "CreateFileRequirement",
-                                "ScatterFeatureRequirement",
-                                "SubworkflowFeatureRequirement"]
-
-def substitute(value, replace):
-    if replace[0] == "^":
-        return substitute(value[0:value.rindex('.')], replace[1:])
-    else:
-        return value + replace
-
-class Builder(object):
-
-    def bind_input(self, schema, datum, lead_pos=[], tail_pos=[]):
-        bindings = []
-        binding = None
-        if "inputBinding" in schema and isinstance(schema["inputBinding"], dict):
-            binding = copy.copy(schema["inputBinding"])
-
-            if "position" in binding:
-                binding["position"] = aslist(lead_pos) + aslist(binding["position"]) + aslist(tail_pos)
-            else:
-                binding["position"] = aslist(lead_pos) + [0] + aslist(tail_pos)
-
-            if "valueFrom" in binding:
-                binding["do_eval"] = binding["valueFrom"]
-            binding["valueFrom"] = datum
-
-        # Handle union types
-        if isinstance(schema["type"], list):
-            for t in schema["type"]:
-                if isinstance(t, basestring) and self.names.has_name(t, ""):
-                    avsc = self.names.get_name(t, "")
-                elif isinstance(t, dict) and "name" in t and self.names.has_name(t["name"], ""):
-                    avsc = self.names.get_name(t["name"], "")
-                else:
-                    avsc = avro.schema.make_avsc_object(t, self.names)
-                if validate.validate(avsc, datum):
-                    schema = copy.deepcopy(schema)
-                    schema["type"] = t
-                    return self.bind_input(schema, datum, lead_pos=lead_pos, tail_pos=tail_pos)
-            raise validate.ValidationException("'%s' is not a valid union %s" % (datum, schema["type"]))
-        elif isinstance(schema["type"], dict):
-            st = copy.deepcopy(schema["type"])
-            if binding and "inputBinding" not in st and "itemSeparator" not in binding and st["type"] in ("array", "map"):
-                st["inputBinding"] = {}
-            bindings.extend(self.bind_input(st, datum, lead_pos=lead_pos, tail_pos=tail_pos))
-        else:
-            if schema["type"] in self.schemaDefs:
-                schema = self.schemaDefs[schema["type"]]
-
-            if schema["type"] == "record":
-                for f in schema["fields"]:
-                    if f["name"] in datum:
-                        bindings.extend(self.bind_input(f, datum[f["name"]], lead_pos=lead_pos, tail_pos=f["name"]))
-                    else:
-                        datum[f["name"]] = f.get("default")
-
-            if schema["type"] == "map":
-                for n, item in datum.items():
-                    b2 = None
-                    if binding:
-                        b2 = copy.deepcopy(binding)
-                        b2["valueFrom"] = [n, item]
-                    bindings.extend(self.bind_input({"type": schema["values"], "inputBinding": b2},
-                                                    item, lead_pos=n, tail_pos=tail_pos))
-                binding = None
-
-            if schema["type"] == "array":
-                for n, item in enumerate(datum):
-                    b2 = None
-                    if binding:
-                        b2 = copy.deepcopy(binding)
-                        b2["valueFrom"] = item
-                    bindings.extend(self.bind_input({"type": schema["items"], "inputBinding": b2},
-                                                    item, lead_pos=n, tail_pos=tail_pos))
-                binding = None
-
-            if schema["type"] == "File":
-                self.files.append(datum)
-                if binding:
-                    if binding.get("loadContents"):
-                        with self.fs_access.open(datum["path"], "rb") as f:
-                            datum["contents"] = f.read(CONTENT_LIMIT)
-
-                    if "secondaryFiles" in binding:
-                        if "secondaryFiles" not in datum:
-                            datum["secondaryFiles"] = []
-                        for sf in aslist(binding["secondaryFiles"]):
-                            if isinstance(sf, dict):
-                                sfpath = self.do_eval(sf, context=datum["path"])
-                            else:
-                                sfpath = {"path": substitute(datum["path"], sf), "class": "File"}
-                            if isinstance(sfpath, list):
-                                datum["secondaryFiles"].extend(sfpath)
-                                self.files.extend(sfpath)
-                            else:
-                                datum["secondaryFiles"].append(sfpath)
-                                self.files.append(sfpath)
-
-        # Position to front of the sort key
-        if binding:
-            for bi in bindings:
-                bi["position"] = binding["position"] + bi["position"]
-            bindings.append(binding)
-
-        return bindings
-
-    def tostr(self, value):
-        if isinstance(value, dict) and value.get("class") == "File":
-            if "path" not in value:
-                raise WorkflowException("File object must have \"path\": %s" % (value))
-            return value["path"]
-        else:
-            return str(value)
-
-    def generate_arg(self, binding):
-        value = binding["valueFrom"]
-        if "do_eval" in binding:
-            value = self.do_eval(binding["do_eval"], context=value)
-
-        prefix = binding.get("prefix")
-        sep = binding.get("separate", True)
-
-        l = []
-        if isinstance(value, list):
-            if binding.get("itemSeparator"):
-                l = [binding["itemSeparator"].join([self.tostr(v) for v in value])]
-            elif binding.get("do_eval"):
-                return ([prefix] if prefix else []) + value
-            elif prefix:
-                return [prefix]
-            else:
-                return []
-        elif isinstance(value, dict) and value.get("class") == "File":
-            l = [value]
-        elif isinstance(value, dict):
-            return [prefix] if prefix else []
-        elif value is True and prefix:
-            return [prefix]
-        elif value is False or value is None:
-            return []
-        else:
-            l = [value]
-
-        args = []
-        for j in l:
-            if sep:
-                args.extend([prefix, self.tostr(j)])
-            else:
-                args.append(prefix + self.tostr(j))
-
-        return [a for a in args if a is not None]
-
-    def do_eval(self, ex, context=None, pull_image=True):
-        return expression.do_eval(ex, self.job, self.requirements, self.outdir, self.tmpdir, context=context, pull_image=pull_image)
-
-
-class Tool(Process):
-    def _init_job(self, joborder, input_basedir, **kwargs):
-        builder = Builder()
-        builder.job = copy.deepcopy(joborder)
-
-        for i in self.tool["inputs"]:
-            d = shortname(i["id"])
-            if d not in builder.job and "default" in i:
-                builder.job[d] = i["default"]
-
-        # Validate job order
-        try:
-            validate.validate_ex(self.names.get_name("input_record_schema", ""), builder.job)
-        except validate.ValidationException as e:
-            raise WorkflowException("Error validating input record, " + str(e))
-
-        for r in self.requirements:
-            if r["class"] not in supportedProcessRequirements:
-                raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
-
-        builder.files = []
-        builder.bindings = []
-        builder.schemaDefs = self.schemaDefs
-        builder.names = self.names
-        builder.requirements = self.requirements
-
-        dockerReq, _ = self.get_requirement("DockerRequirement")
-        if dockerReq and kwargs.get("use_container"):
-            builder.outdir = kwargs.get("docker_outdir") or "/tmp/job_output"
-            builder.tmpdir = kwargs.get("docker_tmpdir") or "/tmp/job_tmp"
-        else:
-            builder.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
-            builder.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
-
-        builder.fs_access = kwargs.get("fs_access") or StdFsAccess(input_basedir)
-
-        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
-
-        return builder
-
-
-class ExpressionTool(Tool):
+class ExpressionTool(Process):
     def __init__(self, toolpath_object, **kwargs):
         super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", **kwargs)
 
@@ -251,27 +49,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
         yield j
 
 
-class StdFsAccess(object):
-    def __init__(self, basedir):
-        self.basedir = basedir
-
-    def _abs(self, p):
-        if os.path.isabs(p):
-            return p
-        else:
-            return os.path.join(self.basedir, p)
-
-    def glob(self, pattern):
-        return glob.glob(self._abs(pattern))
-
-    def open(self, fn, mode):
-        return open(self._abs(fn), mode)
-
-    def exists(self, fn):
-        return os.path.exists(self._abs(fn))
-
-
-class CommandLineTool(Tool):
+class CommandLineTool(Process):
     def __init__(self, toolpath_object, **kwargs):
         super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", **kwargs)
 
diff --git a/cwltool/errors.py b/cwltool/errors.py
new file mode 100644
index 000000000..59203d8e9
--- /dev/null
+++ b/cwltool/errors.py
@@ -0,0 +1,2 @@
+class WorkflowException(Exception):
+    pass
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 6d11f6713..a5f8b7e5e 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -4,7 +4,7 @@
 from aslist import aslist
 import logging
 import os
-from process import WorkflowException
+from errors import WorkflowException
 import process
 import yaml
 import schema_salad.validate as validate
diff --git a/cwltool/job.py b/cwltool/job.py
index 37c908e8a..d6d7109c7 100644
--- a/cwltool/job.py
+++ b/cwltool/job.py
@@ -8,7 +8,8 @@
 import sys
 import requests
 import docker
-from process import WorkflowException, get_feature, empty_subtree
+from process import get_feature, empty_subtree
+from errors import WorkflowException
 import shutil
 import stat
 import re
diff --git a/cwltool/main.py b/cwltool/main.py
index babcb6f0d..ce6f8eb33 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -113,8 +113,10 @@ def arg_parser():
 
 def single_job_executor(t, job_order, input_basedir, args, **kwargs):
     final_output = []
+    final_status = []
 
     def output_callback(out, processStatus):
+        final_status.append(processStatus)
         if processStatus == "success":
             _logger.info("Final process status is %s", processStatus)
         else:
@@ -153,6 +155,9 @@ def output_callback(out, processStatus):
         except Exception as e:
             raise workflow.WorkflowException("%s" % e)
 
+        if final_status[0] != "success":
+            raise workflow.WorkflowException("Process status is %s" % (final_status))
+
         return final_output[0]
 
 def create_loader(ctx):
diff --git a/cwltool/process.py b/cwltool/process.py
index 346dc2c20..4856e34f3 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -13,11 +13,19 @@
 import pprint
 from pkg_resources import resource_stream
 import stat
+from builder import Builder
+import tempfile
+import glob
 
 _logger = logging.getLogger("cwltool")
 
-class WorkflowException(Exception):
-    pass
+supportedProcessRequirements = ["DockerRequirement",
+                                "ExpressionEngineRequirement",
+                                "SchemaDefRequirement",
+                                "EnvVarRequirement",
+                                "CreateFileRequirement",
+                                "ScatterFeatureRequirement",
+                                "SubworkflowFeatureRequirement"]
 
 def get_schema():
     f = resource_stream(__name__, 'schemas/draft-3/cwl-avro.yml')
@@ -38,6 +46,25 @@ def shortname(inputid):
     (_, d) = urlparse.urldefrag(inputid)
     return d.split("/")[-1].split(".")[-1]
 
+class StdFsAccess(object):
+    def __init__(self, basedir):
+        self.basedir = basedir
+
+    def _abs(self, p):
+        if os.path.isabs(p):
+            return p
+        else:
+            return os.path.join(self.basedir, p)
+
+    def glob(self, pattern):
+        return glob.glob(self._abs(pattern))
+
+    def open(self, fn, mode):
+        return open(self._abs(fn), mode)
+
+    def exists(self, fn):
+        return os.path.exists(self._abs(fn))
+
 class Process(object):
     def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         (_, self.names, _) = get_schema()
@@ -103,6 +130,46 @@ def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
             raise validate.ValidationException("Got error `%s` while prcoessing outputs of %s:\n%s" % (str(e), self.tool["id"], json.dumps(self.outputs_record_schema, indent=4)))
 
 
+    def _init_job(self, joborder, input_basedir, **kwargs):
+        builder = Builder()
+        builder.job = copy.deepcopy(joborder)
+
+        for i in self.tool["inputs"]:
+            d = shortname(i["id"])
+            if d not in builder.job and "default" in i:
+                builder.job[d] = i["default"]
+
+        # Validate job order
+        try:
+            validate.validate_ex(self.names.get_name("input_record_schema", ""), builder.job)
+        except validate.ValidationException as e:
+            raise WorkflowException("Error validating input record, " + str(e))
+
+        for r in self.requirements:
+            if r["class"] not in supportedProcessRequirements:
+                raise WorkflowException("Unsupported process requirement %s" % (r["class"]))
+
+        builder.files = []
+        builder.bindings = []
+        builder.schemaDefs = self.schemaDefs
+        builder.names = self.names
+        builder.requirements = self.requirements
+
+        dockerReq, _ = self.get_requirement("DockerRequirement")
+        if dockerReq and kwargs.get("use_container"):
+            builder.outdir = kwargs.get("docker_outdir") or "/tmp/job_output"
+            builder.tmpdir = kwargs.get("docker_tmpdir") or "/tmp/job_tmp"
+        else:
+            builder.outdir = kwargs.get("outdir") or tempfile.mkdtemp()
+            builder.tmpdir = kwargs.get("tmpdir") or tempfile.mkdtemp()
+
+        builder.fs_access = kwargs.get("fs_access") or StdFsAccess(input_basedir)
+
+        builder.bindings.extend(builder.bind_input(self.inputs_record_schema, builder.job))
+
+        return builder
+
+
     def validate_hints(self, hints, strict):
         for r in hints:
             try:
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 1a662e7e4..3f28b2986 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -1,7 +1,8 @@
 import job
 import draft2tool
 from aslist import aslist
-from process import Process, WorkflowException, get_feature, empty_subtree, shortname
+from process import Process, get_feature, empty_subtree, shortname
+from errors import WorkflowException
 import copy
 import logging
 import random
@@ -31,7 +32,7 @@ def defaultMakeTool(toolpath_object, **kwargs):
         elif toolpath_object["class"] == "Workflow":
             return Workflow(toolpath_object, **kwargs)
 
-    raise WorkflowException("Missing or invalid 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool" % toolpath_object["id"])
+    raise WorkflowException("Missing or invalid 'class' field in %s, expecting one of: CommandLineTool, ExpressionTool, Workflow" % toolpath_object["id"])
 
 def findfiles(wo, fn=None):
     if fn is None:

From b446a5268ef3ad399a35b4da57ee81ab179bd0f8 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 21 Sep 2015 06:47:40 +0900
Subject: [PATCH 186/221] More fixups to process inputBindings on Workflows. 
 Works now.

---
 cwltool/draft2tool.py | 1 -
 cwltool/process.py    | 1 +
 cwltool/workflow.py   | 5 ++---
 3 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 776fece72..03a873fe4 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -63,7 +63,6 @@ def makePathMapper(self, reffiles, input_basedir, **kwargs):
         else:
             return PathMapper(reffiles, input_basedir)
 
-
     def job(self, joborder, input_basedir, output_callback, **kwargs):
         builder = self._init_job(joborder, input_basedir, **kwargs)
 
diff --git a/cwltool/process.py b/cwltool/process.py
index 4856e34f3..df2602271 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -16,6 +16,7 @@
 from builder import Builder
 import tempfile
 import glob
+from errors import WorkflowException
 
 _logger = logging.getLogger("cwltool")
 
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 3f28b2986..0cf3e1710 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -300,15 +300,14 @@ def __init__(self, toolpath_object, **kwargs):
         # TODO: statically validate data links instead of doing it at runtime.
 
     def job(self, joborder, basedir, output_callback, **kwargs):
-        # Validate job order
-        validate.validate_ex(self.names.get_name("input_record_schema", ""), joborder)
+        builder = self._init_job(joborder, basedir, **kwargs)
 
         kwargs["part_of"] = "workflow %s" % (id(self))
         wj = WorkflowJob(self, **kwargs)
 
         yield wj
 
-        for w in wj.job(joborder, basedir, output_callback, **kwargs):
+        for w in wj.job(builder.job, basedir, output_callback, **kwargs):
             yield w
 
 

From fc103b0c131a7954050171eca625fc08aa629751 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 23 Sep 2015 14:34:39 -0400
Subject: [PATCH 187/221] Identifiers on workflow steps are now required. 
 2-to-3 updater now adds ids to steps if necessary.

---
 cwltool/update.py | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/cwltool/update.py b/cwltool/update.py
index b72f56858..f13473e8f 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -26,7 +26,7 @@ def fixType(doc):
             return "#" + doc
     return doc
 
-def fixImport(doc, loader, baseuri):
+def _draft2toDraft3(doc, loader, baseuri):
     if isinstance(doc, dict):
         if "import" in doc:
             imp = urlparse.urljoin(baseuri, doc["import"])
@@ -38,7 +38,7 @@ def fixImport(doc, loader, baseuri):
             if frag:
                 frag = "#" + frag
                 r = findId(r, frag)
-            return fixImport(r, loader, imp)
+            return _draft2toDraft3(r, loader, imp)
 
         if "include" in doc:
             return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))
@@ -47,16 +47,21 @@ def fixImport(doc, loader, baseuri):
             if t in doc:
                 doc[t] = fixType(doc[t])
 
+        if "steps" in doc:
+            for i, s in enumerate(doc["steps"]):
+                if "id" not in s:
+                    s["id"] = "step%i" % i
+
         for a in doc:
-            doc[a] = fixImport(doc[a], loader, baseuri)
+            doc[a] = _draft2toDraft3(doc[a], loader, baseuri)
 
     if isinstance(doc, list):
-        return [fixImport(a, loader, baseuri) for a in doc]
+        return [_draft2toDraft3(a, loader, baseuri) for a in doc]
 
     return doc
 
 def draft2toDraft3(doc, loader, baseuri):
-    return (fixImport(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev1")
+    return (_draft2toDraft3(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev1")
 
 def update(doc, loader, baseuri):
     updates = {

From 11a106233c53fef51dd2328813fa72302df24969 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 25 Sep 2015 08:32:59 -0400
Subject: [PATCH 188/221] Add MultipleInputFeatureRequirement

---
 cwltool/process.py  |  3 ++-
 cwltool/update.py   |  6 ++++++
 cwltool/workflow.py | 13 ++++++++++---
 3 files changed, 18 insertions(+), 4 deletions(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index df2602271..3798d6ad9 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -26,7 +26,8 @@
                                 "EnvVarRequirement",
                                 "CreateFileRequirement",
                                 "ScatterFeatureRequirement",
-                                "SubworkflowFeatureRequirement"]
+                                "SubworkflowFeatureRequirement",
+                                "MultipleInputFeatureRequirement"]
 
 def get_schema():
     f = resource_stream(__name__, 'schemas/draft-3/cwl-avro.yml')
diff --git a/cwltool/update.py b/cwltool/update.py
index f13473e8f..093bdc03e 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -51,6 +51,12 @@ def _draft2toDraft3(doc, loader, baseuri):
             for i, s in enumerate(doc["steps"]):
                 if "id" not in s:
                     s["id"] = "step%i" % i
+                for inp in s.get("inputs", []):
+                    if isinstance(inp.get("source"), list):
+                        if "requirements" not in doc:
+                            doc["requirements"] = []
+                        doc["requirements"].append({"class": "MultipleInputFeatureRequirement"})
+
 
         for a in doc:
             doc[a] = _draft2toDraft3(doc[a], loader, baseuri)
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 0cf3e1710..c99d23aba 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -87,13 +87,15 @@ def match_types(sinktype, src, iid, inputobj, linkMerge):
     return False
 
 
-def object_from_state(state, parms, frag_only):
+def object_from_state(state, parms, frag_only, supportsMultipleInput):
     inputobj = {}
     for inp in parms:
         iid = inp["id"]
         if frag_only:
             iid = shortname(iid)
         if "source" in inp:
+            if isinstance(inp["source"], list) and not supportsMultipleInput:
+                raise WorkflowException("Workflow contains multiple inbound links to a single parameter but MultipleInputFeatureRequirement is not declared.")
             connections = aslist(inp["source"])
             for src in connections:
                 if src in state and state[src] is not None:
@@ -126,6 +128,7 @@ def job(self, joborder, basedir, output_callback, **kwargs):
 
 class WorkflowJob(object):
     def __init__(self, workflow, **kwargs):
+        self.workflow = workflow
         self.tool = workflow.tool
         self.steps = [WorkflowJobStep(s) for s in workflow.steps]
         self.id = workflow.tool["id"]
@@ -164,8 +167,10 @@ def try_make_job(self, step, basedir, **kwargs):
         inputparms = step.tool["inputs"]
         outputparms = step.tool["outputs"]
 
+        supportsMultipleInput = bool(self.workflow.get_requirement("MultipleInputFeatureRequirement")[0])
+
         try:
-            inputobj = object_from_state(self.state, inputparms, False)
+            inputobj = object_from_state(self.state, inputparms, False, supportsMultipleInput)
             if inputobj is None:
                 _logger.debug("[workflow %s] job step %s not ready", id(self), step.id)
                 return
@@ -243,7 +248,9 @@ def job(self, joborder, basedir, output_callback, move_outputs=True, **kwargs):
             if not made_progress and completed < len(self.steps):
                 yield None
 
-        wo = object_from_state(self.state, self.tool["outputs"], True)
+        supportsMultipleInput = bool(self.workflow.get_requirement("MultipleInputFeatureRequirement")[0])
+
+        wo = object_from_state(self.state, self.tool["outputs"], True, supportsMultipleInput)
 
         if move_outputs:
             targets = set()

From 5ac5c4d32866cf79be7b31f81750f13959ebca65 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 28 Sep 2015 09:49:04 -0400
Subject: [PATCH 189/221] Conformance tests can now signal unsupported feature
 by exiting 33.

---
 cwltool/cwltest.py | 32 +++++++++++++++++++++++---------
 cwltool/main.py    |  2 +-
 2 files changed, 24 insertions(+), 10 deletions(-)

diff --git a/cwltool/cwltest.py b/cwltool/cwltest.py
index b309d88ab..919f5b8d8 100755
--- a/cwltool/cwltest.py
+++ b/cwltool/cwltest.py
@@ -15,6 +15,8 @@
 _logger.addHandler(logging.StreamHandler())
 _logger.setLevel(logging.INFO)
 
+UNSUPPORTED_FEATURE = 33
+
 def compare(a, b):
     try:
         if isinstance(a, dict):
@@ -77,11 +79,14 @@ def run_test(args, i, t):
     except ValueError as v:
         _logger.error(v)
         _logger.error(outstr)
-    except subprocess.CalledProcessError:
-        _logger.error("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
-        _logger.error(t.get("doc"))
-        _logger.error("Returned non-zero")
-        return 1
+    except subprocess.CalledProcessError as err:
+        if err.returncode == UNSUPPORTED_FEATURE:
+            return UNSUPPORTED_FEATURE
+        else:
+            _logger.error("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
+            _logger.error(t.get("doc"))
+            _logger.error("Returned non-zero")
+            return 1
     except yaml.scanner.ScannerError as e:
         _logger.error("""Test failed: %s""", " ".join([pipes.quote(tc) for tc in test_command]))
         _logger.error(outstr)
@@ -135,21 +140,30 @@ def main():
         tests = yaml.load(f)
 
     failures = 0
+    unsupported = 0
 
     if args.n is not None:
         sys.stderr.write("\rTest [%i/%i] " % (args.n, len(tests)))
-        failures += run_test(args, args.n-1, tests[args.n-1])
+        rt = run_test(args, args.n-1, tests[args.n-1])
+        if rt == 1:
+            failures += 1
+        elif rt == UNSUPPORTED_FEATURE:
+            unsupported += 1
     else:
         for i, t in enumerate(tests):
             sys.stderr.write("\rTest [%i/%i] " % (i+1, len(tests)))
             sys.stderr.flush()
-            failures += run_test(args, i, t)
+            rt = run_test(args, i, t)
+            if rt == 1:
+                failures += 1
+            elif rt == UNSUPPORTED_FEATURE:
+                unsupported += 1
 
-    if failures == 0:
+    if failures == 0 and unsupported == 0:
          _logger.info("All tests passed")
          return 0
     else:
-        _logger.warn("%i failures", failures)
+        _logger.warn("%i failures, %i unsupported features", failures, unsupported)
         return 1
 
 
diff --git a/cwltool/main.py b/cwltool/main.py
index ce6f8eb33..881160dc0 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -346,7 +346,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     else:
         job_order_file = None
 
-    loader = Loader({"id": "@id"})
+    loader = Loader({"id": "@id", "path": {"@type": "@id"}})
 
     if job_order_file:
         input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(job_order_file))

From 8ea560f81b12c2d792b60120efa68c28734121e7 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 28 Sep 2015 10:00:37 -0400
Subject: [PATCH 190/221] Pathmapper understands file:// URIs.

---
 cwltool/pathmapper.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index a939cfe0e..716fc7683 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -12,7 +12,10 @@ class PathMapper(object):
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         for src in referenced_files:
-            ab = src if os.path.isabs(src) else os.path.join(basedir, src)
+            if src.startswith("file://"):
+                ab = src[7:]
+            else:
+                ab = src if os.path.isabs(src) else os.path.join(basedir, src)
             self._pathmap[src] = (ab, ab)
 
     def mapper(self, src):

From 6a7cad3e7989923938753c9cde663231a3c12eda Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 28 Sep 2015 17:47:38 -0400
Subject: [PATCH 191/221] Fix more file:// pathmapping bugs.

---
 cwltool/main.py       |  8 ++++++--
 cwltool/pathmapper.py | 17 ++++++++++-------
 cwltool/process.py    |  6 ++----
 3 files changed, 18 insertions(+), 13 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 881160dc0..b5e0cfa67 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -153,7 +153,8 @@ def output_callback(out, processStatus):
                 else:
                     raise workflow.WorkflowException("Workflow cannot make any more progress.")
         except Exception as e:
-            raise workflow.WorkflowException("%s" % e)
+            _logger.exception("Got workflow error")
+            raise workflow.WorkflowException("%s" % e, )
 
         if final_status[0] != "success":
             raise workflow.WorkflowException("Process status is %s" % (final_status))
@@ -346,7 +347,10 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     else:
         job_order_file = None
 
-    loader = Loader({"id": "@id", "path": {"@type": "@id"}})
+    if args.conformance_test:
+        loader = Loader({})
+    else:
+        loader = Loader({"id": "@id", "path": {"@type": "@id"}})
 
     if job_order_file:
         input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(job_order_file))
diff --git a/cwltool/pathmapper.py b/cwltool/pathmapper.py
index 716fc7683..7fbb40c68 100644
--- a/cwltool/pathmapper.py
+++ b/cwltool/pathmapper.py
@@ -5,6 +5,13 @@
 
 _logger = logging.getLogger("cwltool")
 
+def abspath(src, basedir):
+    if src.startswith("file://"):
+        ab = src[7:]
+    else:
+        ab = src if os.path.isabs(src) else os.path.join(basedir, src)
+    return ab
+
 class PathMapper(object):
     """Mapping of files from relative path provided in the file to a tuple of
     (absolute local path, absolute container path)"""
@@ -12,10 +19,7 @@ class PathMapper(object):
     def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         for src in referenced_files:
-            if src.startswith("file://"):
-                ab = src[7:]
-            else:
-                ab = src if os.path.isabs(src) else os.path.join(basedir, src)
+            ab = abspath(src, basedir)
             self._pathmap[src] = (ab, ab)
 
     def mapper(self, src):
@@ -34,8 +38,7 @@ def __init__(self, referenced_files, basedir):
         self._pathmap = {}
         self.dirs = {}
         for src in referenced_files:
-            ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
-
+            ab = abspath(src, basedir)
             dir, fn = os.path.split(ab)
 
             subdir = False
@@ -64,7 +67,7 @@ def __init__(self, referenced_files, basedir):
             self.dirs[d] = name
 
         for src in referenced_files:
-            ab = src if os.path.isabs(src) else os.path.abspath(os.path.join(basedir, src))
+            ab = abspath(src, basedir)
 
             deref = ab
             st = os.lstat(deref)
diff --git a/cwltool/process.py b/cwltool/process.py
index 3798d6ad9..f1a696a50 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -17,6 +17,7 @@
 import tempfile
 import glob
 from errors import WorkflowException
+from pathmapper import abspath
 
 _logger = logging.getLogger("cwltool")
 
@@ -53,10 +54,7 @@ def __init__(self, basedir):
         self.basedir = basedir
 
     def _abs(self, p):
-        if os.path.isabs(p):
-            return p
-        else:
-            return os.path.join(self.basedir, p)
+        return abspath(p, self.basedir)
 
     def glob(self, pattern):
         return glob.glob(self._abs(pattern))

From 3c7207da072a85e843a13c4e722452b335e25979 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 29 Sep 2015 08:49:42 -0400
Subject: [PATCH 192/221] Delete symlink to schemas

---
 cwltool/schemas | 1 -
 1 file changed, 1 deletion(-)
 delete mode 120000 cwltool/schemas

diff --git a/cwltool/schemas b/cwltool/schemas
deleted file mode 120000
index 30aed58dd..000000000
--- a/cwltool/schemas
+++ /dev/null
@@ -1 +0,0 @@
-../../schemas
\ No newline at end of file

From 18aa6d04ce9e3775bce4326f3e52556088f1aa56 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 7 Oct 2015 08:08:32 -0400
Subject: [PATCH 193/221] Update schema salad dependency.

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 9cc218207..826de7b7b 100644
--- a/setup.py
+++ b/setup.py
@@ -33,7 +33,7 @@
           'rdflib >= 4.2.0',
           'rdflib-jsonld >= 0.3.0',
           'shellescape',
-          'schema_salad >= 1.0.2'
+          'schema_salad >= 1.0.4'
         ],
       test_suite='tests',
       tests_require=[],

From 87c1e461060e774cf91e5f2f4227e1c0f689fa47 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 7 Oct 2015 09:22:29 -0400
Subject: [PATCH 194/221] Only include schemas and not everything else.

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 826de7b7b..cdf1d02ca 100644
--- a/setup.py
+++ b/setup.py
@@ -26,7 +26,7 @@
       download_url="https://github.com/common-workflow-language/common-workflow-language",
       license='Apache 2.0',
       packages=["cwltool"],
-      package_data={'cwltool': ['schemas/draft-1/*', 'schemas/draft-2/*', 'schemas/draft-3/*']},
+      package_data={'cwltool': ['schemas/draft-2/cwl-avro.yml', 'schemas/draft-3/cwl-avro.yml']},
       install_requires=[
           'requests',
           'PyYAML',

From 688af7f9ec9ca4c45bc0b6bc2a98bda600e5d036 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 7 Oct 2015 09:33:46 -0400
Subject: [PATCH 195/221] Convert OSError (for missing files) into validation
 error.

---
 cwltool/draft2tool.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 03a873fe4..3019b6665 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -124,7 +124,10 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             if os.path.isabs(j.stdout) or ".." in j.stdout:
                 raise validate.ValidationException("stdout must be a relative path")
 
-        builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
+        try:
+            builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
+        except OSError as e:
+            raise validate.ValidationException(str(e))
         builder.requirements = j.requirements
 
         for f in builder.files:

From 3d65e4b7c4d4faa6dc9caedd4435ca97afb4249b Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Wed, 7 Oct 2015 09:51:18 -0400
Subject: [PATCH 196/221] Improve error handling, don't print backtrace for
 WorkflowException by default.

---
 cwltool/draft2tool.py | 5 +----
 cwltool/main.py       | 2 ++
 cwltool/workflow.py   | 9 +++++++--
 3 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 3019b6665..03a873fe4 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -124,10 +124,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             if os.path.isabs(j.stdout) or ".." in j.stdout:
                 raise validate.ValidationException("stdout must be a relative path")
 
-        try:
-            builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
-        except OSError as e:
-            raise validate.ValidationException(str(e))
+        builder.pathmapper = self.makePathMapper(reffiles, input_basedir, **kwargs)
         builder.requirements = j.requirements
 
         for f in builder.files:
diff --git a/cwltool/main.py b/cwltool/main.py
index b5e0cfa67..fcc948b0f 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -152,6 +152,8 @@ def output_callback(out, processStatus):
                     r.run(**kwargs)
                 else:
                     raise workflow.WorkflowException("Workflow cannot make any more progress.")
+        except workflow.WorkflowException:
+            raise
         except Exception as e:
             _logger.exception("Got workflow error")
             raise workflow.WorkflowException("%s" % e, )
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index c99d23aba..9c082709f 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -201,6 +201,8 @@ def try_make_job(self, step, basedir, **kwargs):
 
             for j in jobs:
                 yield j
+        except WorkflowException:
+            raise
         except Exception as e:
             _logger.exception("Unhandled exception")
             self.processStatus = "permanentFail"
@@ -404,8 +406,11 @@ def job(self, joborder, basedir, output_callback, **kwargs):
         kwargs["requirements"] = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         kwargs["hints"] = kwargs.get("hints", []) + self.tool.get("hints", [])
 
-        for t in self.embedded_tool.job(joborder, basedir, functools.partial(self.receive_output, output_callback), **kwargs):
-            yield t
+        try:
+            for t in self.embedded_tool.job(joborder, basedir, functools.partial(self.receive_output, output_callback), **kwargs):
+                yield t
+        except Exception as e:
+            raise WorkflowException(str(e))
 
 
 class ReceiveScatterOutput(object):

From 1f07f192e7d80db0a572ba86022e515c27213255 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 8 Oct 2015 17:37:23 -0400
Subject: [PATCH 197/221] Bugfix dockerImport.  Add utility functions
 checkRequirements and adjustFiles.

---
 cwltool/docker.py  |  1 +
 cwltool/process.py | 27 +++++++++++++++++++++++++++
 2 files changed, 28 insertions(+)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index c3c4cf3f7..332809c75 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -71,6 +71,7 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
             _logger.info(str(cmd))
             if not dry_run:
                 subprocess.check_call(cmd, stdout=sys.stderr)
+                found = True
 
     return found
 
diff --git a/cwltool/process.py b/cwltool/process.py
index f1a696a50..eec489c4d 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -65,6 +65,33 @@ def open(self, fn, mode):
     def exists(self, fn):
         return os.path.exists(self._abs(fn))
 
+def checkRequirements(rec, supportedProcessRequirements):
+    if isinstance(rec, dict):
+        if "requirements" in rec:
+            for r in rec["requirements"]:
+                if r["class"] not in supportedProcessRequirements:
+                    raise Exception("Unsupported requirement %s" % r["class"])
+        if "scatter" in rec:
+            if isinstance(rec["scatter"], list) and rec["scatter"] > 1:
+                raise Exception("Unsupported complex scatter type '%s'" % rec.get("scatterMethod"))
+        for d in rec:
+            checkRequirements(rec[d], supportedProcessRequirements)
+    if isinstance(rec, list):
+        for d in rec:
+            checkRequirements(d, supportedProcessRequirements)
+
+def adjustFiles(rec, op):
+    """Apply a mapping function to each File path in the object `rec`."""
+
+    if isinstance(rec, dict):
+        if rec.get("class") == "File":
+            rec["path"] = op(rec["path"])
+        for d in rec:
+            adjustFiles(rec[d], op)
+    if isinstance(rec, list):
+        for d in rec:
+            adjustFiles(d, op)
+
 class Process(object):
     def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
         (_, self.names, _) = get_schema()

From 6f6feebd2cf18d38667830ff865a1d639348d8b4 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 8 Oct 2015 22:07:17 -0400
Subject: [PATCH 198/221] Remove redundant validation of individual process
 items, since whole-document validation now works.

---
 cwltool/draft2tool.py |  4 ++--
 cwltool/process.py    | 10 +---------
 cwltool/workflow.py   |  4 ++--
 3 files changed, 5 insertions(+), 13 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 03a873fe4..548d99467 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -25,7 +25,7 @@
 
 class ExpressionTool(Process):
     def __init__(self, toolpath_object, **kwargs):
-        super(ExpressionTool, self).__init__(toolpath_object, "ExpressionTool", **kwargs)
+        super(ExpressionTool, self).__init__(toolpath_object, **kwargs)
 
     class ExpressionJob(object):
         def run(self, **kwargs):
@@ -51,7 +51,7 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
 
 class CommandLineTool(Process):
     def __init__(self, toolpath_object, **kwargs):
-        super(CommandLineTool, self).__init__(toolpath_object, "CommandLineTool", **kwargs)
+        super(CommandLineTool, self).__init__(toolpath_object, **kwargs)
 
     def makeJobRunner(self):
         return CommandLineJob()
diff --git a/cwltool/process.py b/cwltool/process.py
index eec489c4d..1d5bbccc0 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -93,17 +93,9 @@ def adjustFiles(rec, op):
             adjustFiles(d, op)
 
 class Process(object):
-    def __init__(self, toolpath_object, validateAs, do_validate=True, **kwargs):
+    def __init__(self, toolpath_object, **kwargs):
         (_, self.names, _) = get_schema()
         self.tool = toolpath_object
-
-        if do_validate:
-            try:
-                # Validate tool documument
-                validate.validate_ex(self.names.get_name(validateAs, ""), self.tool, strict=kwargs.get("strict"))
-            except validate.ValidationException as v:
-                raise validate.ValidationException("Could not validate %s as %s:\n%s" % (self.tool.get("id"), validateAs, validate.indent(str(v))))
-
         self.requirements = kwargs.get("requirements", []) + self.tool.get("requirements", [])
         self.hints = kwargs.get("hints", []) + self.tool.get("hints", [])
 
diff --git a/cwltool/workflow.py b/cwltool/workflow.py
index 9c082709f..9fc08ef91 100644
--- a/cwltool/workflow.py
+++ b/cwltool/workflow.py
@@ -297,7 +297,7 @@ def job(self, joborder, basedir, output_callback, move_outputs=True, **kwargs):
 
 class Workflow(Process):
     def __init__(self, toolpath_object, **kwargs):
-        super(Workflow, self).__init__(toolpath_object, "Workflow", **kwargs)
+        super(Workflow, self).__init__(toolpath_object, **kwargs)
 
         kwargs["requirements"] = self.requirements
         kwargs["hints"] = self.hints
@@ -347,7 +347,7 @@ def __init__(self, toolpath_object, pos, **kwargs):
                     raise WorkflowException("Parameter '%s' of %s in workflow step %s does not correspond to parameter in %s" % (p, field, self.id, self.embedded_tool.tool.get("id")))
                 i["id"] = inputid
 
-        super(WorkflowStep, self).__init__(toolpath_object, "Process", do_validate=False, **kwargs)
+        super(WorkflowStep, self).__init__(toolpath_object, **kwargs)
 
         if self.embedded_tool.tool["class"] == "Workflow":
             (feature, _) = self.get_requirement("SubworkflowFeatureRequirement")

From 2fbdb90163c0c69ea282155d051b84c8439e533a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 9 Oct 2015 18:52:51 -0400
Subject: [PATCH 199/221] Integrating inline expressions into workflow
 evaluation.

---
 cwltool/expression.py |  26 ++++++----
 cwltool/process.py    |   3 +-
 cwltool/sandboxjs.py  | 114 ++++++++++++++++++++++++++++++++++++++++++
 3 files changed, 131 insertions(+), 12 deletions(-)
 create mode 100644 cwltool/sandboxjs.py

diff --git a/cwltool/expression.py b/cwltool/expression.py
index a5f8b7e5e..7e88afbde 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -9,6 +9,7 @@
 import yaml
 import schema_salad.validate as validate
 import schema_salad.ref_resolver
+import sandboxjs
 
 _logger = logging.getLogger("cwltool")
 
@@ -20,6 +21,14 @@ def exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image):
         except ValueError as v:
             raise WorkflowException("%s in %s" % (v,  obj))
 
+    if ex["engine"] == "https://w3id.org/cwl/cwl#JavascriptEngine":
+        engineConfig = []
+        for r in reversed(requirements):
+            if r["class"] == "ExpressionEngineRequirement" and r["id"] == "https://w3id.org/cwl/cwl#JavascriptEngine":
+                engineConfig = r.get("engineConfig", [])
+                break
+        return sandboxjs.execjs(ex["script"], "\n".join(engineConfig))
+
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
             runtime = []
@@ -37,17 +46,9 @@ class DR(object):
             if img_id:
                 runtime = ["docker", "run", "-i", "--rm", img_id]
 
-            exdefs = []
-            for exdef in r.get("engineConfig", []):
-                if isinstance(exdef, dict) and "ref" in exdef:
-                    with open(exdef["ref"][7:]) as f:
-                        exdefs.append(f.read())
-                elif isinstance(exdef, basestring):
-                    exdefs.append(exdef)
-
             inp = {
                 "script": ex["script"],
-                "engineConfig": exdefs,
+                "engineConfig": r.get("engineConfig", []),
                 "job": jobinput,
                 "context": context,
                 "outdir": outdir,
@@ -75,5 +76,8 @@ class DR(object):
 def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image=True):
     if isinstance(ex, dict) and "engine" in ex and "script" in ex:
         return exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image)
-    else:
-        return ex
+    if isinstance(ex, basestring) and process.get_feature(requirements):
+        for r in requirements:
+            if r["class"] == "InlineJavascriptRequirement":
+                return sandboxjs.interpolate(ex, "\n".join(r.get("engineConfig", [])))
+    return ex
diff --git a/cwltool/process.py b/cwltool/process.py
index 1d5bbccc0..399d240ee 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -28,7 +28,8 @@
                                 "CreateFileRequirement",
                                 "ScatterFeatureRequirement",
                                 "SubworkflowFeatureRequirement",
-                                "MultipleInputFeatureRequirement"]
+                                "MultipleInputFeatureRequirement",
+                                "InlineJavascriptRequirement"]
 
 def get_schema():
     f = resource_stream(__name__, 'schemas/draft-3/cwl-avro.yml')
diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
new file mode 100644
index 000000000..750e84b0f
--- /dev/null
+++ b/cwltool/sandboxjs.py
@@ -0,0 +1,114 @@
+import subprocess
+import json
+import threading
+
+class JavascriptException(Exception):
+    pass
+
+def execjs(js, jslib):
+    nodejs = subprocess.Popen(["nodejs"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+
+    fn = "\"use strict\";%s\n(function()%s)()" % (jslib, js if isinstance(js, basestring) and len(js) > 1 and js[0] == '{' else ("{return (%s);}" % js))
+    script = "console.log(JSON.stringify(require(\"vm\").runInNewContext(%s, {})))" % json.dumps(fn)
+
+    def term():
+        try:
+            nodejs.terminate()
+        except OSError:
+            pass
+
+    # Time out after 5 seconds
+    tm = threading.Timer(5, term)
+    tm.start()
+
+    stdoutdata, stderrdata = nodejs.communicate(script)
+    tm.cancel()
+
+    if stderrdata.strip() or nodejs.returncode != 0:
+        raise JavascriptException(script + "\n" + stderrdata)
+    else:
+        return json.loads(stdoutdata)
+
+class SubstitutionError(Exception):
+    pass
+
+def scanner(scan):
+    DEFAULT = 0
+    DOLLAR = 1
+    PAREN = 2
+    BRACE = 3
+    SINGLE_QUOTE = 4
+    DOUBLE_QUOTE = 5
+
+    i = 0
+    stack = [DEFAULT]
+    start = 0
+    while i < len(scan):
+        state = stack[-1]
+        c = scan[i]
+
+        if c == '\\':
+            return [i, i+2]
+        elif state == DEFAULT:
+            if c == '$':
+                stack.append(DOLLAR)
+        elif state == DOLLAR:
+            if c == '(':
+                start = i-1
+                stack.append(PAREN)
+            elif c == '{':
+                start = i-1
+                stack.append(BRACE)
+        elif state == PAREN:
+            if c == '(':
+                stack.append(PAREN)
+            elif c == ')':
+                stack.pop()
+                if stack[-1] == DOLLAR:
+                    return [start, i+1]
+            elif c == "'":
+                stack.append(SINGLE_QUOTE)
+            elif c == '"':
+                stack.append(DOUBLE_QUOTE)
+        elif state == BRACE:
+            if c == '{':
+                stack.append(BRACE)
+            elif c == '}':
+                stack.pop()
+                if stack[-1] == DOLLAR:
+                    return [start, i+1]
+            elif c == "'":
+                stack.append(SINGLE_QUOTE)
+            elif c == '"':
+                stack.append(DOUBLE_QUOTE)
+        elif state == SINGLE_QUOTE:
+            if c == "'":
+                stack.pop()
+        elif state == DOUBLE_QUOTE:
+            if c == '"':
+                stack.pop()
+        i += 1
+
+    if len(stack) > 1:
+        raise SubstitutionError("Substitution error, unfinished block starting at position {}: {}".format(start, scan[start:]))
+    else:
+        return None
+
+def interpolate(scan, jslib):
+    parts = []
+    w = scanner(scan)
+    while w:
+        parts.append(scan[0:w[0]])
+        if scan[w[0]] == '$':
+            e = execjs(scan[w[0]+1:w[1]], jslib)
+        elif scan[w[0]] == '\\':
+            e = scan[w[1]-1]
+
+        if w[0] == 0 and w[1] == len(scan):
+            return e
+
+        parts.append(json.dumps(e))
+        scan = scan[w[1]:]
+        w = scanner(scan)
+    parts.append(scan)
+    return ''.join(parts)

From 10ac9b42e178dac22526e7a5a16bc02b8bb5adb4 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 11 Oct 2015 19:21:12 -0400
Subject: [PATCH 200/221] empty_subtree handles dangling symlinks.

---
 cwltool/process.py | 15 +++++++++++----
 1 file changed, 11 insertions(+), 4 deletions(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index 399d240ee..a121caca0 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -18,6 +18,7 @@
 import glob
 from errors import WorkflowException
 from pathmapper import abspath
+import errno
 
 _logger = logging.getLogger("cwltool")
 
@@ -208,9 +209,15 @@ def empty_subtree(dirpath):
     # subdirectories)
     for d in os.listdir(dirpath):
         d = os.path.join(dirpath, d)
-        if stat.S_ISDIR(os.stat(d).st_mode):
-            if empty_subtree(d) is False:
+        try:
+            if stat.S_ISDIR(os.stat(d).st_mode):
+                if empty_subtree(d) is False:
+                    return False
+            else:
                 return False
-        else:
-            return False
+        except OSError as e:
+            if e.errno == errno.ENOENT:
+                pass
+            else:
+                raise
     return True

From d25fff0f45cb745c14d251282c4694e584d8194f Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 11 Oct 2015 19:57:26 -0400
Subject: [PATCH 201/221] Fix scanner, include necessary script header.

---
 cwltool/draft2tool.py             |  2 +-
 cwltool/expression.py             | 10 ++++++++--
 cwltool/sandboxjs.py              | 25 ++++++++++++++++++-------
 node-expr-engine/cwlNodeEngine.js |  2 ++
 4 files changed, 29 insertions(+), 10 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 548d99467..107b9f67d 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -218,7 +218,7 @@ def collect_output(self, schema, builder, outdir):
             if schema["type"] == "File" and "secondaryFiles" in binding:
                 r["secondaryFiles"] = []
                 for sf in aslist(binding["secondaryFiles"]):
-                    if isinstance(sf, dict):
+                    if isinstance(sf, dict) or "$(" in sf or "${" in sf:
                         sfpath = builder.do_eval(sf, context=r["path"])
                     else:
                         sfpath = {"path": substitute(r["path"], sf), "class": "File"}
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 7e88afbde..b853e7d56 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -76,8 +76,14 @@ class DR(object):
 def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image=True):
     if isinstance(ex, dict) and "engine" in ex and "script" in ex:
         return exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image)
-    if isinstance(ex, basestring) and process.get_feature(requirements):
+    if isinstance(ex, basestring):
         for r in requirements:
             if r["class"] == "InlineJavascriptRequirement":
-                return sandboxjs.interpolate(ex, "\n".join(r.get("engineConfig", [])))
+                head = "%s\nvar $job=%s;\nvar $self=%s;\nvar $tmpdir=%s;var $outdir=%s;" % ("\n".join(r.get("engineConfig", [])),
+                                                                                            json.dumps(jobinput, indent=4),
+                                                                                            json.dumps(context, indent=4),
+                                                                                            json.dumps(tmpdir, indent=4),
+                                                                                            json.dumps(outdir, indent=4))
+
+                return sandboxjs.interpolate(ex, head)
     return ex
diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
index 750e84b0f..34f620507 100644
--- a/cwltool/sandboxjs.py
+++ b/cwltool/sandboxjs.py
@@ -39,6 +39,7 @@ def scanner(scan):
     BRACE = 3
     SINGLE_QUOTE = 4
     DOUBLE_QUOTE = 5
+    BACKSLASH = 6
 
     i = 0
     stack = [DEFAULT]
@@ -47,11 +48,15 @@ def scanner(scan):
         state = stack[-1]
         c = scan[i]
 
-        if c == '\\':
-            return [i, i+2]
-        elif state == DEFAULT:
+        if state == DEFAULT:
             if c == '$':
                 stack.append(DOLLAR)
+            elif c == '\\':
+                stack.append(BACKSLASH)
+        elif state == BACKSLASH:
+            stack.pop()
+            if stack[-1] == DEFAULT:
+                return [i-1, i+1]
         elif state == DOLLAR:
             if c == '(':
                 start = i-1
@@ -84,9 +89,13 @@ def scanner(scan):
         elif state == SINGLE_QUOTE:
             if c == "'":
                 stack.pop()
+            elif c == '\\':
+                stack.append(BACKSLASH)
         elif state == DOUBLE_QUOTE:
             if c == '"':
                 stack.pop()
+            elif c == '\\':
+                stack.append(BACKSLASH)
         i += 1
 
     if len(stack) > 1:
@@ -99,15 +108,17 @@ def interpolate(scan, jslib):
     w = scanner(scan)
     while w:
         parts.append(scan[0:w[0]])
+
         if scan[w[0]] == '$':
             e = execjs(scan[w[0]+1:w[1]], jslib)
+            print w, len(scan)
+            if w[0] == 0 and w[1] == len(scan):
+                return e
+            parts.append(json.dumps(e))
         elif scan[w[0]] == '\\':
             e = scan[w[1]-1]
+            parts.append(e)
 
-        if w[0] == 0 and w[1] == len(scan):
-            return e
-
-        parts.append(json.dumps(e))
         scan = scan[w[1]:]
         w = scanner(scan)
     parts.append(scan)
diff --git a/node-expr-engine/cwlNodeEngine.js b/node-expr-engine/cwlNodeEngine.js
index 739960a47..07313986a 100755
--- a/node-expr-engine/cwlNodeEngine.js
+++ b/node-expr-engine/cwlNodeEngine.js
@@ -34,6 +34,8 @@ process.stdin.on('end', function() {
 
     fn += "var $job = " + JSON.stringify(j.job) + ";\n";
     fn += "var $self = " + JSON.stringify(j.context) + ";\n"
+    fn += "var $tmpdir = " + JSON.stringify(j.tmpdir) + ";\n"
+    fn += "var $outdir = " + JSON.stringify(j.outdir) + ";\n"
 
     fn += "(function()" + exp + ")()";
 

From 1c259a3963cfa3dfa4023545358c8dcb71aec090 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 11 Oct 2015 20:03:34 -0400
Subject: [PATCH 202/221] Raise schema load errors.

---
 cwltool/main.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/cwltool/main.py b/cwltool/main.py
index fcc948b0f..53cd1406b 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -253,6 +253,9 @@ def generate_parser(toolparser, tool, namemap):
 def load_tool(argsworkflow, updateonly, strict, makeTool, debug):
     (document_loader, avsc_names, schema_metadata) = process.get_schema()
 
+    if isinstance(avsc_names, Exception):
+        raise avsc_names
+
     uri = "file://" + os.path.abspath(argsworkflow)
     fileuri, urifrag = urlparse.urldefrag(uri)
     workflowobj = document_loader.fetch(fileuri)

From 5af8db3aade90ac0dce42db4385b74b4b4a28469 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 11 Oct 2015 20:10:59 -0400
Subject: [PATCH 203/221] Standard JavascriptEngine works.

---
 cwltool/expression.py | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index b853e7d56..20665cb2d 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -13,6 +13,18 @@
 
 _logger = logging.getLogger("cwltool")
 
+def jshead(engineConfig, jobinput, context, tmpdir, outdir):
+    return """
+%s
+var $job=%s;
+var $self=%s;
+var $tmpdir=%s;
+var $outdir=%s;""" % ("\n".join(engineConfig),
+                      json.dumps(jobinput, indent=4),
+                      json.dumps(context, indent=4),
+                      json.dumps(tmpdir, indent=4),
+                      json.dumps(outdir, indent=4))
+
 def exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image):
     if ex["engine"] == "https://w3id.org/cwl/cwl#JsonPointer":
         try:
@@ -27,7 +39,7 @@ def exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image):
             if r["class"] == "ExpressionEngineRequirement" and r["id"] == "https://w3id.org/cwl/cwl#JavascriptEngine":
                 engineConfig = r.get("engineConfig", [])
                 break
-        return sandboxjs.execjs(ex["script"], "\n".join(engineConfig))
+        return sandboxjs.execjs(ex["script"], jshead(engineConfig, jobinput, context, tmpdir, outdir))
 
     for r in reversed(requirements):
         if r["class"] == "ExpressionEngineRequirement" and r["id"] == ex["engine"]:
@@ -79,11 +91,5 @@ def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image
     if isinstance(ex, basestring):
         for r in requirements:
             if r["class"] == "InlineJavascriptRequirement":
-                head = "%s\nvar $job=%s;\nvar $self=%s;\nvar $tmpdir=%s;var $outdir=%s;" % ("\n".join(r.get("engineConfig", [])),
-                                                                                            json.dumps(jobinput, indent=4),
-                                                                                            json.dumps(context, indent=4),
-                                                                                            json.dumps(tmpdir, indent=4),
-                                                                                            json.dumps(outdir, indent=4))
-
-                return sandboxjs.interpolate(ex, head)
+                return sandboxjs.interpolate(ex, jshead(r.get("engineConfig", []), jobinput, context, tmpdir, outdir))
     return ex

From 66e5ba21c995605896b26106fcbbd62cd65e20d6 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 11 Oct 2015 20:16:08 -0400
Subject: [PATCH 204/221] Remove spurious debug print.

---
 cwltool/sandboxjs.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
index 34f620507..a55543ce9 100644
--- a/cwltool/sandboxjs.py
+++ b/cwltool/sandboxjs.py
@@ -111,7 +111,6 @@ def interpolate(scan, jslib):
 
         if scan[w[0]] == '$':
             e = execjs(scan[w[0]+1:w[1]], jslib)
-            print w, len(scan)
             if w[0] == 0 and w[1] == len(scan):
                 return e
             parts.append(json.dumps(e))

From d1f103256bbf137dd9e3008d7c2fc370cd8bf109 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Sun, 11 Oct 2015 20:59:00 -0400
Subject: [PATCH 205/221] Suppor for ShellCommandRequirement to generate shell
 command line

---
 cwltool/draft2tool.py | 14 +++++++++++++-
 cwltool/process.py    |  3 ++-
 2 files changed, 15 insertions(+), 2 deletions(-)

diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 548d99467..0c3537014 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -20,6 +20,7 @@
 import urlparse
 import tempfile
 from builder import CONTENT_LIMIT, substitute
+import shellescape
 
 _logger = logging.getLogger("cwltool")
 
@@ -155,7 +156,18 @@ def job(self, joborder, input_basedir, output_callback, **kwargs):
             for t in evr["envDef"]:
                 j.environment[t["envName"]] = builder.do_eval(t["envValue"])
 
-        j.command_line = flatten(map(builder.generate_arg, builder.bindings))
+        shellcmd, _ = self.get_requirement("ShellCommandRequirement")
+        if shellcmd:
+            cmd = []
+            for b in builder.bindings:
+                arg = builder.generate_arg(b)
+                if b.get("shellQuote", True):
+                    arg = [shellescape.quote(a) for a in aslist(arg)]
+                cmd.extend(aslist(arg))
+            j.command_line = ["/bin/sh", "-c", " ".join(cmd)]
+            print j.command_line
+        else:
+            j.command_line = flatten(map(builder.generate_arg, builder.bindings))
 
         j.pathmapper = builder.pathmapper
         j.collect_outputs = functools.partial(self.collect_output_ports, self.tool["outputs"], builder)
diff --git a/cwltool/process.py b/cwltool/process.py
index 1d5bbccc0..993d703f8 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -28,7 +28,8 @@
                                 "CreateFileRequirement",
                                 "ScatterFeatureRequirement",
                                 "SubworkflowFeatureRequirement",
-                                "MultipleInputFeatureRequirement"]
+                                "MultipleInputFeatureRequirement",
+                                "ShellCommandRequirement"]
 
 def get_schema():
     f = resource_stream(__name__, 'schemas/draft-3/cwl-avro.yml')

From c4f1c7fe63b3984b36137584e5bb6a5cf96dda69 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 12 Oct 2015 12:14:07 -0400
Subject: [PATCH 206/221] Support job_order of '-' to read from stdin.

---
 cwltool/main.py | 17 ++++++++++++-----
 1 file changed, 12 insertions(+), 5 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index fcc948b0f..8b2bae23e 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -344,17 +344,24 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
             _logger.error("Temporary directory prefix doesn't exist.")
             return 1
 
-    if len(args.job_order) == 1 and args.job_order[0][0] != "-":
-        job_order_file = args.job_order[0]
-    else:
-        job_order_file = None
+    job_order_object = None
 
     if args.conformance_test:
         loader = Loader({})
     else:
         loader = Loader({"id": "@id", "path": {"@type": "@id"}})
 
-    if job_order_file:
+    if len(args.job_order) == 1 and args.job_order[0][0] != "-":
+        job_order_file = args.job_order[0]
+    elif len(args.job_order) == 1 and args.job_order[0] == "-":
+        job_order_object = yaml.load(sys.stdin)
+        job_order_object, _ = loader.resolve_all(job_order_object, "")
+    else:
+        job_order_file = None
+
+    if job_order_object:
+        input_basedir = args.basedir if args.basedir else os.getcwd()
+    elif job_order_file:
         input_basedir = args.basedir if args.basedir else os.path.abspath(os.path.dirname(job_order_file))
         try:
             job_order_object, _ = loader.resolve_ref(job_order_file)

From 0293da256a09be926a8870c58799284ffa003813 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Mon, 12 Oct 2015 13:37:09 -0400
Subject: [PATCH 207/221] Re-add --print-pre option.

---
 cwltool/main.py | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 8b2bae23e..1ce3ce337 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -94,6 +94,7 @@ def arg_parser():
     exgroup.add_argument("--print-rdf", action="store_true",
                         help="Print corresponding RDF graph for workflow and exit")
     exgroup.add_argument("--print-dot", action="store_true", help="Print workflow visualization in graphviz format and exit")
+    exgroup.add_argument("--print-pre", action="store_true", help="Print CWL document after preprocessing.")
     exgroup.add_argument("--version", action="store_true", help="Print version and exit")
     exgroup.add_argument("--update", action="store_true", help="Update to latest CWL version, print and exit")
 
@@ -250,7 +251,7 @@ def generate_parser(toolparser, tool, namemap):
 
     return toolparser
 
-def load_tool(argsworkflow, updateonly, strict, makeTool, debug):
+def load_tool(argsworkflow, updateonly, strict, makeTool, debug, print_pre=False):
     (document_loader, avsc_names, schema_metadata) = process.get_schema()
 
     uri = "file://" + os.path.abspath(argsworkflow)
@@ -273,6 +274,10 @@ def load_tool(argsworkflow, updateonly, strict, makeTool, debug):
         _logger.error("Tool definition failed validation:\n%s", e, exc_info=(e if debug else False))
         return 1
 
+    if print_pre:
+        print json.dumps(processobj, indent=4)
+        return 0
+
     if urifrag:
         processobj, _ = document_loader.resolve_ref(uri)
     elif isinstance(processobj, list):
@@ -317,7 +322,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
         _logger.error("CWL document required")
         return 1
 
-    t = load_tool(args.workflow, args.update, args.strict, makeTool, args.debug)
+    t = load_tool(args.workflow, args.update, args.strict, makeTool, args.debug, args.print_pre)
 
     if type(t) == int:
         return t

From f92ffe4a2f67c9b2d939f1d1e294eb51da581625 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 13 Oct 2015 09:48:21 -0400
Subject: [PATCH 208/221] cwltool accepts alternate stdin/stdout.

---
 cwltool/main.py | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 1ce3ce337..cf23f57d0 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -294,7 +294,13 @@ def load_tool(argsworkflow, updateonly, strict, makeTool, debug, print_pre=False
 
     return t
 
-def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeTool, parser=None):
+def main(args=None,
+         executor=single_job_executor,
+         makeTool=workflow.defaultMakeTool,
+         parser=None,
+         stdin=sys.stdin,
+         stdout=sys.stdout):
+
     if args is None:
         args = sys.argv[1:]
 
@@ -359,7 +365,7 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
     if len(args.job_order) == 1 and args.job_order[0][0] != "-":
         job_order_file = args.job_order[0]
     elif len(args.job_order) == 1 and args.job_order[0] == "-":
-        job_order_object = yaml.load(sys.stdin)
+        job_order_object = yaml.load(stdin)
         job_order_object, _ = loader.resolve_all(job_order_object, "")
     else:
         job_order_file = None
@@ -425,7 +431,8 @@ def main(args=None, executor=single_job_executor, makeTool=workflow.defaultMakeT
                        move_outputs=args.move_outputs
                        )
         # This is the workflow output, it needs to be written
-        sys.stdout.write(json.dumps(out, indent=4))
+        stdout.write(json.dumps(out, indent=4))
+        stdout.flush()
     except (validate.ValidationException) as e:
         _logger.error("Input object failed validation:\n%s", e, exc_info=(e if args.debug else False))
         return 1

From 84f018976df0893e2ffa221a5976fcd36169f369 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 13 Oct 2015 09:55:45 -0400
Subject: [PATCH 209/221] Add ability to capture stderr from main.

---
 cwltool/main.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index cf23f57d0..d7db057cb 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -299,7 +299,10 @@ def main(args=None,
          makeTool=workflow.defaultMakeTool,
          parser=None,
          stdin=sys.stdin,
-         stdout=sys.stdout):
+         stdout=sys.stdout,
+         stderr=sys.stderr):
+
+    _logger.addHandler(logging.StreamHandler(stderr))
 
     if args is None:
         args = sys.argv[1:]

From 68422a6294c2e69fcd7693092a1f1d3af49d682e Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 13 Oct 2015 13:38:27 -0400
Subject: [PATCH 210/221] Adjust logging handler to avoid redundant output.

---
 cwltool/main.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index d7db057cb..4443e71e9 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -22,7 +22,9 @@
 from process import shortname
 
 _logger = logging.getLogger("cwltool")
-_logger.addHandler(logging.StreamHandler())
+
+defaultStreamHandler = logging.StreamHandler()
+_logger.addHandler(defaultStreamHandler)
 _logger.setLevel(logging.INFO)
 
 def arg_parser():
@@ -302,6 +304,7 @@ def main(args=None,
          stdout=sys.stdout,
          stderr=sys.stderr):
 
+    _logger.removeHandler(defaultStreamHandler)
     _logger.addHandler(logging.StreamHandler(stderr))
 
     if args is None:

From 28d899623211bd283d27ebe822ff6e76f178e84a Mon Sep 17 00:00:00 2001
From: "Michael R. Crusoe" <crusoe@ucdavis.edu>
Date: Thu, 22 Oct 2015 01:54:49 -0700
Subject: [PATCH 211/221] correct install instructions

---
 README.rst | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/README.rst b/README.rst
index ebcea8fc3..711744d7a 100644
--- a/README.rst
+++ b/README.rst
@@ -19,15 +19,15 @@ default CWL interpreter installed on a host.
 Install
 -------
 
-From source::
+Installing the official package from PyPi (will install "cwltool" package as well)::
 
-  git clone https://github.com/common-workflow-language/common-workflow-language.git
-  cd common-workflow-language/reference && python setup.py install
-  cd cwl-runner && python setup.py install
+  pip install cwl-runner
 
-Or installing the official package from PyPi (will install "cwltool" package as well)::
+Or from source::
 
-  pip install cwl-runner
+  git clone https://github.com/common-workflow-language/cwltool.git
+  cd cwltool && python setup.py install
+  cd cwl-runner && python setup.py install
 
 Run on the command line
 -----------------------

From 9fffdd9390231741a9251a448d6aa257b4cb04ec Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 3 Nov 2015 21:59:41 -0800
Subject: [PATCH 212/221] Improve error handling a bit around globs.

---
 cwltool/docker.py     | 2 +-
 cwltool/draft2tool.py | 5 ++++-
 2 files changed, 5 insertions(+), 2 deletions(-)

diff --git a/cwltool/docker.py b/cwltool/docker.py
index 332809c75..e9a56f418 100644
--- a/cwltool/docker.py
+++ b/cwltool/docker.py
@@ -59,7 +59,7 @@ def get_image(dockerRequirement, pull_image, dry_run=False):
                     n = 0
                     for chunk in req.iter_content(1024*1024):
                         n += len(chunk)
-                        _logger.info(str(n))
+                        _logger.info("\r%i bytes" % (n))
                         loadproc.stdin.write(chunk)
                     loadproc.stdin.close()
                 rcode = loadproc.wait()
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 548d99467..6386f350d 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -188,7 +188,10 @@ def collect_output(self, schema, builder, outdir):
                 r = []
                 bg = builder.do_eval(binding["glob"])
                 for gb in aslist(bg):
-                    r.extend([{"path": g, "class": "File"} for g in builder.fs_access.glob(os.path.join(outdir, gb))])
+                    try:
+                        r.extend([{"path": g, "class": "File"} for g in builder.fs_access.glob(os.path.join(outdir, gb))])
+                    except (OSError, IOError) as e:
+                        _logger.warn(str(e))
                 for files in r:
                     checksum = hashlib.sha1()
                     with builder.fs_access.open(files["path"], "rb") as f:

From fd72f70b70606a4db705fd30c89b4c2cb2c44168 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 3 Nov 2015 22:21:00 -0800
Subject: [PATCH 213/221] Improve error handling for tool loading errors  & 
 exceptions thrown in updating

---
 cwltool/main.py   |  6 +++-
 cwltool/update.py | 87 ++++++++++++++++++++++++++---------------------
 2 files changed, 54 insertions(+), 39 deletions(-)

diff --git a/cwltool/main.py b/cwltool/main.py
index 4443e71e9..4461399cc 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -334,7 +334,11 @@ def main(args=None,
         _logger.error("CWL document required")
         return 1
 
-    t = load_tool(args.workflow, args.update, args.strict, makeTool, args.debug, args.print_pre)
+    try:
+        t = load_tool(args.workflow, args.update, args.strict, makeTool, args.debug, args.print_pre)
+    except Exception as e:
+        _logger.error("I'm sorry, I couldn't load this CWL file.\n%s", e, exc_info=(e if args.debug else False))
+        return 1
 
     if type(t) == int:
         return t
diff --git a/cwltool/update.py b/cwltool/update.py
index 093bdc03e..1f1698fb1 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -1,5 +1,6 @@
 import sys
 import urlparse
+import json
 
 def findId(doc, frg):
     if isinstance(doc, dict):
@@ -27,44 +28,54 @@ def fixType(doc):
     return doc
 
 def _draft2toDraft3(doc, loader, baseuri):
-    if isinstance(doc, dict):
-        if "import" in doc:
-            imp = urlparse.urljoin(baseuri, doc["import"])
-            r = loader.fetch(imp)
-            if isinstance(r, list):
-                r = {"@graph": r}
-            r["id"] = imp
-            _, frag = urlparse.urldefrag(imp)
-            if frag:
-                frag = "#" + frag
-                r = findId(r, frag)
-            return _draft2toDraft3(r, loader, imp)
-
-        if "include" in doc:
-            return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))
-
-        for t in ("type", "items"):
-            if t in doc:
-                doc[t] = fixType(doc[t])
-
-        if "steps" in doc:
-            for i, s in enumerate(doc["steps"]):
-                if "id" not in s:
-                    s["id"] = "step%i" % i
-                for inp in s.get("inputs", []):
-                    if isinstance(inp.get("source"), list):
-                        if "requirements" not in doc:
-                            doc["requirements"] = []
-                        doc["requirements"].append({"class": "MultipleInputFeatureRequirement"})
-
-
-        for a in doc:
-            doc[a] = _draft2toDraft3(doc[a], loader, baseuri)
-
-    if isinstance(doc, list):
-        return [_draft2toDraft3(a, loader, baseuri) for a in doc]
-
-    return doc
+    try:
+        if isinstance(doc, dict):
+            if "import" in doc:
+                imp = urlparse.urljoin(baseuri, doc["import"])
+                r = loader.fetch(imp)
+                if isinstance(r, list):
+                    r = {"@graph": r}
+                r["id"] = imp
+                _, frag = urlparse.urldefrag(imp)
+                if frag:
+                    frag = "#" + frag
+                    r = findId(r, frag)
+                return _draft2toDraft3(r, loader, imp)
+
+            if "include" in doc:
+                return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))
+
+            for t in ("type", "items"):
+                if t in doc:
+                    doc[t] = fixType(doc[t])
+
+            if "steps" in doc:
+                if not isinstance(doc["steps"], list):
+                    raise Exception("Value of 'steps' must be a list")
+                for i, s in enumerate(doc["steps"]):
+                    if "id" not in s:
+                        s["id"] = "step%i" % i
+                    for inp in s.get("inputs", []):
+                        if isinstance(inp.get("source"), list):
+                            if "requirements" not in doc:
+                                doc["requirements"] = []
+                            doc["requirements"].append({"class": "MultipleInputFeatureRequirement"})
+
+
+            for a in doc:
+                doc[a] = _draft2toDraft3(doc[a], loader, baseuri)
+
+        if isinstance(doc, list):
+            return [_draft2toDraft3(a, loader, baseuri) for a in doc]
+
+        return doc
+    except Exception as e:
+        err = json.dumps(doc, indent=4)
+        if "id" in doc:
+            err = doc["id"]
+        elif "name" in doc:
+            err = doc["name"]
+        raise Exception("Error updating '%s'\n  %s" % (err, e))
 
 def draft2toDraft3(doc, loader, baseuri):
     return (_draft2toDraft3(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev1")

From 09280f19c6f422a34990ff29b80fbad73a234f2a Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Nov 2015 08:36:52 -0500
Subject: [PATCH 214/221] Fix conflicts

---
 cwltool/process.py                            |  5 +--
 .../draft-3/conformance_test_draft-3.yaml     | 16 +------
 cwltool/update.py                             | 43 ++++++++++++++++---
 3 files changed, 38 insertions(+), 26 deletions(-)

diff --git a/cwltool/process.py b/cwltool/process.py
index 9f12c7e0b..c9511c831 100644
--- a/cwltool/process.py
+++ b/cwltool/process.py
@@ -30,11 +30,8 @@
                                 "ScatterFeatureRequirement",
                                 "SubworkflowFeatureRequirement",
                                 "MultipleInputFeatureRequirement",
-<<<<<<< HEAD
-                                "InlineJavascriptRequirement"]
-=======
+                                "InlineJavascriptRequirement",
                                 "ShellCommandRequirement"]
->>>>>>> master
 
 def get_schema():
     f = resource_stream(__name__, 'schemas/draft-3/cwl-avro.yml')
diff --git a/cwltool/schemas/draft-3/conformance_test_draft-3.yaml b/cwltool/schemas/draft-3/conformance_test_draft-3.yaml
index 91ea20a82..5396c5f49 100644
--- a/cwltool/schemas/draft-3/conformance_test_draft-3.yaml
+++ b/cwltool/schemas/draft-3/conformance_test_draft-3.yaml
@@ -262,14 +262,13 @@
   doc: |
     Test CreateFileRequirement with expression in filename.
 
-<<<<<<< HEAD
 - job: draft-3/wc4-tool.cwl
   output:
     output: 16
   tool: draft-3/rename.cwl
   doc: |
     Test CreateFileRequirement with expression in filename.
-=======
+
 - job: draft-3/schemadef-job.json
   output:
     output:
@@ -280,16 +279,3 @@
   tool: draft-3/schemadef-tool.cwl
   doc: |
     Test SchemaDefRequirement definition used in tool parameter
-
-
-- job: draft-3/schemadef-job.json
-  output:
-    output:
-        path: output.txt
-        size: 12
-        class: File
-        checksum: "sha1$f12e6cfe70f3253f70b0dbde17c692e7fb0f1e5e"
-  tool: draft-3/schemadef-wf.cwl
-  doc: |
-    Test SchemaDefRequirement definition used in workflow parameter
->>>>>>> master
diff --git a/cwltool/update.py b/cwltool/update.py
index 1f1698fb1..f56e63e9b 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -1,6 +1,7 @@
 import sys
 import urlparse
 import json
+import re
 
 def findId(doc, frg):
     if isinstance(doc, dict):
@@ -27,7 +28,7 @@ def fixType(doc):
             return "#" + doc
     return doc
 
-def _draft2toDraft3(doc, loader, baseuri):
+def _draft2toDraft3dev1(doc, loader, baseuri):
     try:
         if isinstance(doc, dict):
             if "import" in doc:
@@ -63,10 +64,10 @@ def _draft2toDraft3(doc, loader, baseuri):
 
 
             for a in doc:
-                doc[a] = _draft2toDraft3(doc[a], loader, baseuri)
+                doc[a] = _draft2toDraft3dev1(doc[a], loader, baseuri)
 
         if isinstance(doc, list):
-            return [_draft2toDraft3(a, loader, baseuri) for a in doc]
+            return [_draft2toDraft3dev1(a, loader, baseuri) for a in doc]
 
         return doc
     except Exception as e:
@@ -77,13 +78,41 @@ def _draft2toDraft3(doc, loader, baseuri):
             err = doc["name"]
         raise Exception("Error updating '%s'\n  %s" % (err, e))
 
-def draft2toDraft3(doc, loader, baseuri):
-    return (_draft2toDraft3(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev1")
+def draft2toDraft3dev1(doc, loader, baseuri):
+    return (_draft2toDraft3dev1(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev1")
+
+digits = re.compile("\d+")
+
+def _draftDraft3dev1toDev2(doc):
+    # Convert expressions
+    if isinstance(doc, dict):
+        ent = doc[a]
+        for a in doc:
+            if "engine" in ent:
+                if ent["engine"] == "https://w3id.org/cwl/cwl#JsonPointer":
+                    sp = ent["script"].split("/")
+                    sp.pop(0)
+                    sp = [str(i) if digits.match(i) else "'"+i+"'"
+                          for i in sp]
+                    doc[a] = "$(inputs[%s])" % ']['.join(sp)
+                else:
+                    if ent["script"][0] == "{":
+                        doc[a] = "$" + ent["script"]
+                    else:
+                        doc[a] = "$(%s)" % ent["script"]
+            else:
+                doc[a] = _draftDraft3dev1toDev2(doc[a], loader, baseuri)
+
+    return doc
+
+def draftDraft3dev1toDev2(doc, loader, baseuri):
+    return (_draft2toDraft3dev1(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev2")
 
 def update(doc, loader, baseuri):
     updates = {
-        "https://w3id.org/cwl/cwl#draft-2": draft2toDraft3,
-        "https://w3id.org/cwl/cwl#draft-3.dev1": None
+        "https://w3id.org/cwl/cwl#draft-2": draft2toDraft3dev1,
+        "https://w3id.org/cwl/cwl#draft-3.dev1": draftDraft3dev1toDev2,
+        "https://w3id.org/cwl/cwl#draft-3.dev2": None
     }
 
     def identity(doc, loader, baseuri):

From 13e3642f8bef51ccc3cd1203fdd9556703493eeb Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Nov 2015 09:08:02 -0500
Subject: [PATCH 215/221] Updates JsonPointer (tested) & javascript (not
 tested)

---
 cwltool/expression.py |  8 ++++----
 cwltool/update.py     | 27 +++++++++++++++++++--------
 2 files changed, 23 insertions(+), 12 deletions(-)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index 20665cb2d..3ca77c34d 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -16,10 +16,10 @@
 def jshead(engineConfig, jobinput, context, tmpdir, outdir):
     return """
 %s
-var $job=%s;
-var $self=%s;
-var $tmpdir=%s;
-var $outdir=%s;""" % ("\n".join(engineConfig),
+var inputs=%s;
+var self=%s;
+var runtime={'tmpdir': %s, 'outdir': %s};
+""" % ("\n".join(engineConfig),
                       json.dumps(jobinput, indent=4),
                       json.dumps(context, indent=4),
                       json.dumps(tmpdir, indent=4),
diff --git a/cwltool/update.py b/cwltool/update.py
index f56e63e9b..678a3c91e 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -86,27 +86,38 @@ def draft2toDraft3dev1(doc, loader, baseuri):
 def _draftDraft3dev1toDev2(doc):
     # Convert expressions
     if isinstance(doc, dict):
-        ent = doc[a]
         for a in doc:
+            ent = doc[a]
             if "engine" in ent:
-                if ent["engine"] == "https://w3id.org/cwl/cwl#JsonPointer":
+                if ent["engine"] == "cwl:JsonPointer":
                     sp = ent["script"].split("/")
-                    sp.pop(0)
-                    sp = [str(i) if digits.match(i) else "'"+i+"'"
-                          for i in sp]
-                    doc[a] = "$(inputs[%s])" % ']['.join(sp)
+                    if sp[0] in ("tmpdir", "outdir"):
+                        doc[a] = "$(runtime.%s)" % sp[0]
+                    else:
+                        sp.pop(0)
+                        sp = [str(i) if digits.match(i) else "'"+i+"'"
+                              for i in sp]
+                        doc[a] = "$(inputs[%s])" % ']['.join(sp)
                 else:
                     if ent["script"][0] == "{":
                         doc[a] = "$" + ent["script"]
                     else:
                         doc[a] = "$(%s)" % ent["script"]
             else:
-                doc[a] = _draftDraft3dev1toDev2(doc[a], loader, baseuri)
+                doc[a] = _draftDraft3dev1toDev2(doc[a])
+
+    elif isinstance(doc, list):
+        return [_draftDraft3dev1toDev2(a) for a in doc]
+
+    if "class" in doc and doc["class"] == "CommandLineTool":
+        if "requirements" not in doc:
+            doc["requirements"] = []
+        doc["requirements"].append({"class":"InlineJavascriptRequirement"})
 
     return doc
 
 def draftDraft3dev1toDev2(doc, loader, baseuri):
-    return (_draft2toDraft3dev1(doc, loader, baseuri), "https://w3id.org/cwl/cwl#draft-3.dev2")
+    return (_draftDraft3dev1toDev2(doc), "https://w3id.org/cwl/cwl#draft-3.dev2")
 
 def update(doc, loader, baseuri):
     updates = {

From 6c45b23806f62d1e439e065c673a8c434f5b728f Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Nov 2015 17:39:38 -0500
Subject: [PATCH 216/221] More updating from draft-2 to draft-3.dev2

---
 cwltool/expression.py |  2 +-
 cwltool/update.py     | 43 +++++++++++++++++++++++++++++++++----------
 2 files changed, 34 insertions(+), 11 deletions(-)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index 3ca77c34d..e4a40d90d 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -91,5 +91,5 @@ def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image
     if isinstance(ex, basestring):
         for r in requirements:
             if r["class"] == "InlineJavascriptRequirement":
-                return sandboxjs.interpolate(ex, jshead(r.get("engineConfig", []), jobinput, context, tmpdir, outdir))
+                return sandboxjs.interpolate(ex, jshead(r.get("expressionLib", []), jobinput, context, tmpdir, outdir))
     return ex
diff --git a/cwltool/update.py b/cwltool/update.py
index 678a3c91e..7ad66b503 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -2,6 +2,7 @@
 import urlparse
 import json
 import re
+from aslist import aslist
 
 def findId(doc, frg):
     if isinstance(doc, dict):
@@ -41,7 +42,7 @@ def _draft2toDraft3dev1(doc, loader, baseuri):
                 if frag:
                     frag = "#" + frag
                     r = findId(r, frag)
-                return _draft2toDraft3(r, loader, imp)
+                return _draft2toDraft3dev1(r, loader, imp)
 
             if "include" in doc:
                 return loader.fetch_text(urlparse.urljoin(baseuri, doc["include"]))
@@ -83,37 +84,59 @@ def draft2toDraft3dev1(doc, loader, baseuri):
 
 digits = re.compile("\d+")
 
+def updateScript(sc):
+    sc = sc.replace("$job", "inputs")
+    sc = sc.replace("$tmpdir", "runtime.tmpdir")
+    sc = sc.replace("$outdir", "runtime.outdir")
+    sc = sc.replace("$self", "self")
+    return sc
+
 def _draftDraft3dev1toDev2(doc):
     # Convert expressions
     if isinstance(doc, dict):
         for a in doc:
             ent = doc[a]
-            if "engine" in ent:
+            if isinstance(ent, dict) and "engine" in ent:
                 if ent["engine"] == "cwl:JsonPointer":
                     sp = ent["script"].split("/")
                     if sp[0] in ("tmpdir", "outdir"):
                         doc[a] = "$(runtime.%s)" % sp[0]
                     else:
+                        if not sp[0]:
+                            sp.pop(0)
                         sp.pop(0)
                         sp = [str(i) if digits.match(i) else "'"+i+"'"
                               for i in sp]
                         doc[a] = "$(inputs[%s])" % ']['.join(sp)
                 else:
-                    if ent["script"][0] == "{":
-                        doc[a] = "$" + ent["script"]
+                    sc = updateScript(ent["script"])
+                    if sc == "{":
+                        doc[a] = "$" + sc
                     else:
-                        doc[a] = "$(%s)" % ent["script"]
+                        doc[a] = "$(%s)" % sc
             else:
                 doc[a] = _draftDraft3dev1toDev2(doc[a])
 
+        if "class" in doc and (doc["class"] == "CommandLineTool" or doc["class"] == "Workflow"):
+            found = False
+            if "requirements" in doc:
+                for r in doc["requirements"]:
+                    if r["class"] == "ExpressionEngineRequirement" and "engineConfig" in r:
+                        doc["requirements"].append({
+                            "class":"InlineJavascriptRequirement",
+                            "expressionLib": [updateScript(sc) for sc in aslist(r["engineConfig"])]
+                        })
+                        doc["requirements"] = [rq for rq in doc["requirements"] if rq["class"] != "ExpressionEngineRequirement"]
+                        found = True
+                        break
+            else:
+                doc["requirements"] = []
+            if not found:
+                doc["requirements"].append({"class":"InlineJavascriptRequirement"})
+
     elif isinstance(doc, list):
         return [_draftDraft3dev1toDev2(a) for a in doc]
 
-    if "class" in doc and doc["class"] == "CommandLineTool":
-        if "requirements" not in doc:
-            doc["requirements"] = []
-        doc["requirements"].append({"class":"InlineJavascriptRequirement"})
-
     return doc
 
 def draftDraft3dev1toDev2(doc, loader, baseuri):

From a0c3976a674b500cc910e9976a8009e20a7c645c Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Nov 2015 17:48:54 -0500
Subject: [PATCH 217/221] Strip leading/trailing whitespace before
 interpolating.

---
 cwltool/sandboxjs.py |  1 +
 cwltool/update.py    | 21 +++++++++++----------
 2 files changed, 12 insertions(+), 10 deletions(-)

diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
index a55543ce9..ab856caee 100644
--- a/cwltool/sandboxjs.py
+++ b/cwltool/sandboxjs.py
@@ -104,6 +104,7 @@ def scanner(scan):
         return None
 
 def interpolate(scan, jslib):
+    scan = scan.strip()
     parts = []
     w = scanner(scan)
     while w:
diff --git a/cwltool/update.py b/cwltool/update.py
index 7ad66b503..671a7cbef 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -110,28 +110,29 @@ def _draftDraft3dev1toDev2(doc):
                         doc[a] = "$(inputs[%s])" % ']['.join(sp)
                 else:
                     sc = updateScript(ent["script"])
-                    if sc == "{":
+                    if sc[0] == "{":
                         doc[a] = "$" + sc
                     else:
                         doc[a] = "$(%s)" % sc
             else:
                 doc[a] = _draftDraft3dev1toDev2(doc[a])
 
-        if "class" in doc and (doc["class"] == "CommandLineTool" or doc["class"] == "Workflow"):
-            found = False
+        if "class" in doc and (doc["class"] in ("CommandLineTool", "Workflow", "ExpressionTool")):
+            added = False
             if "requirements" in doc:
                 for r in doc["requirements"]:
-                    if r["class"] == "ExpressionEngineRequirement" and "engineConfig" in r:
-                        doc["requirements"].append({
-                            "class":"InlineJavascriptRequirement",
-                            "expressionLib": [updateScript(sc) for sc in aslist(r["engineConfig"])]
-                        })
+                    if r["class"] == "ExpressionEngineRequirement":
+                        if "engineConfig" in r:
+                            doc["requirements"].append({
+                                "class":"InlineJavascriptRequirement",
+                                "expressionLib": [updateScript(sc) for sc in aslist(r["engineConfig"])]
+                            })
+                            added = True
                         doc["requirements"] = [rq for rq in doc["requirements"] if rq["class"] != "ExpressionEngineRequirement"]
-                        found = True
                         break
             else:
                 doc["requirements"] = []
-            if not found:
+            if not added:
                 doc["requirements"].append({"class":"InlineJavascriptRequirement"})
 
     elif isinstance(doc, list):

From 495e0e66a29f1a16cb4951285c792ff9af750fb6 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 10 Nov 2015 21:38:32 -0500
Subject: [PATCH 218/221] Handle jsonpointer to context.

---
 cwltool/update.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/cwltool/update.py b/cwltool/update.py
index 671a7cbef..a2ae32c50 100644
--- a/cwltool/update.py
+++ b/cwltool/update.py
@@ -104,10 +104,13 @@ def _draftDraft3dev1toDev2(doc):
                     else:
                         if not sp[0]:
                             sp.pop(0)
-                        sp.pop(0)
+                        front = sp.pop(0)
                         sp = [str(i) if digits.match(i) else "'"+i+"'"
                               for i in sp]
-                        doc[a] = "$(inputs[%s])" % ']['.join(sp)
+                        if front == "job":
+                            doc[a] = "$(inputs[%s])" % ']['.join(sp)
+                        elif front == "context":
+                            doc[a] = "$(self[%s])" % ']['.join(sp)
                 else:
                     sc = updateScript(ent["script"])
                     if sc[0] == "{":

From ebc433c42425837647ab80df25cd9f62a994ec53 Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Fri, 13 Nov 2015 08:58:34 -0500
Subject: [PATCH 219/221] Pure-Python parameter interpolation

---
 cwltool/expression.py  | 45 ++++++++++++++++++++
 tests/test_examples.py | 97 ++++++++++++++++++++++++++++++++++++++++--
 2 files changed, 138 insertions(+), 4 deletions(-)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index e4a40d90d..3bb1fd871 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -10,6 +10,7 @@
 import schema_salad.validate as validate
 import schema_salad.ref_resolver
 import sandboxjs
+import re
 
 _logger = logging.getLogger("cwltool")
 
@@ -85,6 +86,42 @@ class DR(object):
 
     raise WorkflowException("Unknown expression engine '%s'" % ex["engine"])
 
+seg_symbol = r"""[^[\].(){} ]+"""
+seg_single = r"""\['([^']|\\')+'\]"""
+seg_double = r"""\["([^"]|\\")+"\]"""
+seg_index  = r"""\[[0-9]+\]"""
+segments = r"(\.%s|%s|%s|%s)" % (seg_symbol, seg_single, seg_double, seg_index)
+segment_re = re.compile(segments)
+param_re = re.compile(r"\$\((%s)%s*\)" % (seg_symbol, segments))
+
+def next_seg(remain, obj):
+    if remain:
+        print remain
+        m = segment_re.match(remain)
+        if m.group(0)[0] == '.':
+            return next_seg(remain[m.end(0):], obj[m.group(0)[1:]])
+        else:
+            key = m.group(0)[2:-2].replace("\\'", "'").replace('\\"', '"')
+            return next_seg(remain[m.end(0):], obj[key])
+    else:
+        return obj
+
+def param_interpolate(ex, obj, strip=True):
+    m = param_re.search(ex)
+    if m:
+        print "=", m.group(0), "/", m.group(0)[m.end(1) - m.start(0):-1]
+        leaf = next_seg(m.group(0)[m.end(1) - m.start(0):-1], obj[m.group(1)])
+        if strip and len(ex.strip()) == len(m.group(0)):
+            return leaf
+        else:
+            leaf = json.dumps(leaf)
+            if leaf[0] == '"':
+                leaf = leaf[1:-1]
+            return ex[0:m.start(0)] + leaf + param_interpolate(ex[m.end(0):], obj, False)
+    else:
+        return ex
+
+
 def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image=True):
     if isinstance(ex, dict) and "engine" in ex and "script" in ex:
         return exeval(ex, jobinput, requirements, outdir, tmpdir, context, pull_image)
@@ -92,4 +129,12 @@ def do_eval(ex, jobinput, requirements, outdir, tmpdir, context=None, pull_image
         for r in requirements:
             if r["class"] == "InlineJavascriptRequirement":
                 return sandboxjs.interpolate(ex, jshead(r.get("expressionLib", []), jobinput, context, tmpdir, outdir))
+        return param_interpolate(ex, {
+            "inputs": jobinput,
+            "self": context,
+            "runtime": {
+                "tmpdir": tmpdir,
+                "outdir": outdir
+            }
+        })
     return ex
diff --git a/tests/test_examples.py b/tests/test_examples.py
index 16f5d5f11..bab89e847 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -1,11 +1,100 @@
 import unittest
 import cwltool.draft2tool as tool
+import cwltool.expression as expr
 
-# Right now, everything in cwltool is tested through conformance tests.
+class TestParamMatching(unittest.TestCase):
+    def test_params(self):
+        self.assertTrue(expr.param_re.match("$(foo)"))
+        self.assertTrue(expr.param_re.match("$(foo.bar)"))
+        self.assertTrue(expr.param_re.match("$(foo['bar'])"))
+        self.assertTrue(expr.param_re.match("$(foo[\"bar\"])"))
+        self.assertTrue(expr.param_re.match("$(foo.bar.baz)"))
+        self.assertTrue(expr.param_re.match("$(foo['bar'].baz)"))
+        self.assertTrue(expr.param_re.match("$(foo['bar']['baz'])"))
+        self.assertTrue(expr.param_re.match("$(foo['b\\'ar']['baz'])"))
+        self.assertTrue(expr.param_re.match("$(foo['b ar']['baz'])"))
 
-class TestExamples(unittest.TestCase):
-    def test_cat1(self):
-        pass
+        self.assertFalse(expr.param_re.match("$(foo.[\"bar\"])"))
+        self.assertFalse(expr.param_re.match("$(.foo[\"bar\"])"))
+        self.assertFalse(expr.param_re.match("$(foo [\"bar\"])"))
+        self.assertFalse(expr.param_re.match("$( foo[\"bar\"])"))
+        self.assertFalse(expr.param_re.match("$(foo[bar].baz)"))
+        self.assertFalse(expr.param_re.match("$(foo['bar\"].baz)"))
+        self.assertFalse(expr.param_re.match("$(foo['bar].baz)"))
+        self.assertFalse(expr.param_re.match("${foo}"))
+        self.assertFalse(expr.param_re.match("$(foo.bar"))
+        self.assertFalse(expr.param_re.match("$foo.bar)"))
+        self.assertFalse(expr.param_re.match("$foo.b ar)"))
+        self.assertFalse(expr.param_re.match("$foo.b\'ar)"))
+
+        inputs = {
+            "foo": {
+                "bar": {
+                    "baz": "zab1"
+                },
+                "b ar": {
+                    "baz": 2
+                },
+                "b'ar": {
+                    "baz": True
+                },
+                'b"ar': {
+                    "baz": None
+                }
+            }
+         }
+
+        self.assertEqual(expr.param_interpolate("$(foo)", inputs), inputs["foo"])
+
+        for pattern in ("$(foo.bar)",
+                         "$(foo['bar'])",
+                         "$(foo[\"bar\"])"):
+            self.assertEqual(expr.param_interpolate(pattern, inputs), inputs["foo"]["bar"])
+
+        for pattern in ("$(foo.bar.baz)",
+                         "$(foo['bar'].baz)",
+                         "$(foo['bar'][\"baz\"])",
+                         "$(foo.bar['baz'])"):
+            self.assertEqual(expr.param_interpolate(pattern, inputs), "zab1")
+
+        self.assertEqual(expr.param_interpolate("$(foo['b ar'].baz)", inputs), 2)
+        self.assertEqual(expr.param_interpolate("$(foo['b\\'ar'].baz)", inputs), True)
+        self.assertEqual(expr.param_interpolate("$(foo[\"b\\'ar\"].baz)", inputs), True)
+        self.assertEqual(expr.param_interpolate("$(foo['b\\\"ar'].baz)", inputs), None)
+
+
+        for pattern in ("-$(foo.bar)",
+                         "-$(foo['bar'])",
+                         "-$(foo[\"bar\"])"):
+            self.assertEqual(expr.param_interpolate(pattern, inputs), """-{"baz": "zab1"}""")
+
+        for pattern in ("-$(foo.bar.baz)",
+                         "-$(foo['bar'].baz)",
+                         "-$(foo['bar'][\"baz\"])",
+                         "-$(foo.bar['baz'])"):
+            self.assertEqual(expr.param_interpolate(pattern, inputs), "-zab1")
+
+        self.assertEqual(expr.param_interpolate("-$(foo['b ar'].baz)", inputs), "-2")
+        self.assertEqual(expr.param_interpolate("-$(foo['b\\'ar'].baz)", inputs), "-true")
+        self.assertEqual(expr.param_interpolate("-$(foo[\"b\\'ar\"].baz)", inputs), "-true")
+        self.assertEqual(expr.param_interpolate("-$(foo['b\\\"ar'].baz)", inputs), "-null")
+
+
+        for pattern in ("$(foo.bar) $(foo.bar)",
+                         "$(foo['bar']) $(foo['bar'])",
+                         "$(foo[\"bar\"]) $(foo[\"bar\"])"):
+            self.assertEqual(expr.param_interpolate(pattern, inputs), """{"baz": "zab1"} {"baz": "zab1"}""")
+
+        for pattern in ("$(foo.bar.baz) $(foo.bar.baz)",
+                         "$(foo['bar'].baz) $(foo['bar'].baz)",
+                         "$(foo['bar'][\"baz\"]) $(foo['bar'][\"baz\"])",
+                         "$(foo.bar['baz']) $(foo.bar['baz'])"):
+            self.assertEqual(expr.param_interpolate(pattern, inputs), "zab1 zab1")
+
+        self.assertEqual(expr.param_interpolate("$(foo['b ar'].baz) $(foo['b ar'].baz)", inputs), "2 2")
+        self.assertEqual(expr.param_interpolate("$(foo['b\\'ar'].baz) $(foo['b\\'ar'].baz)", inputs), "true true")
+        self.assertEqual(expr.param_interpolate("$(foo[\"b\\'ar\"].baz) $(foo[\"b\\'ar\"].baz)", inputs), "true true")
+        self.assertEqual(expr.param_interpolate("$(foo['b\\\"ar'].baz) $(foo['b\\\"ar'].baz)", inputs), "null null")
 
 if __name__ == '__main__':
     unittest.main()

From f3490d327a2bcaaccff40ea863b5f187ee401cfa Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Tue, 17 Nov 2015 09:34:54 -0500
Subject: [PATCH 220/221] Fixes for inline parameters.  Better error
 handling/reporting for cwltest.

---
 cwltool/cwltest.py     |  6 +++---
 cwltool/draft2tool.py  |  3 ++-
 cwltool/expression.py  |  7 ++++---
 cwltool/main.py        | 11 +++++++++--
 tests/test_examples.py |  2 +-
 5 files changed, 19 insertions(+), 10 deletions(-)

diff --git a/cwltool/cwltest.py b/cwltool/cwltest.py
index 919f5b8d8..540872255 100755
--- a/cwltool/cwltest.py
+++ b/cwltool/cwltest.py
@@ -110,12 +110,12 @@ def run_test(args, i, t):
                 _logger.warn(t.get("doc"))
                 failed = True
             _logger.warn("%s expected %s\n%s      got %s", key,
-                                                            t.get(key),
+                                                            json.dumps(t.get(key), indent=4, sort_keys=True),
                                                             " " * len(key),
-                                                            out.get(key))
+                                                            json.dumps(out.get(key), indent=4, sort_keys=True))
 
     if outdir:
-        shutil.rmtree(outdir)
+        shutil.rmtree(outdir, True)
 
     if failed:
         return 1
diff --git a/cwltool/draft2tool.py b/cwltool/draft2tool.py
index 3406325d6..184862732 100644
--- a/cwltool/draft2tool.py
+++ b/cwltool/draft2tool.py
@@ -32,7 +32,8 @@ class ExpressionJob(object):
         def run(self, **kwargs):
             try:
                 self.output_callback(self.builder.do_eval(self.script), "success")
-            except Exception:
+            except Exception as e:
+                _logger.warn("Failed to evaluate expression:\n%s", e, exc_info=(e if kwargs.get('debug') else False))
                 self.output_callback({}, "permanentFail")
 
     def job(self, joborder, input_basedir, output_callback, **kwargs):
diff --git a/cwltool/expression.py b/cwltool/expression.py
index 3bb1fd871..e75727e5d 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -96,20 +96,21 @@ class DR(object):
 
 def next_seg(remain, obj):
     if remain:
-        print remain
         m = segment_re.match(remain)
         if m.group(0)[0] == '.':
             return next_seg(remain[m.end(0):], obj[m.group(0)[1:]])
-        else:
+        elif m.group(0)[1] in ("'", '"'):
             key = m.group(0)[2:-2].replace("\\'", "'").replace('\\"', '"')
             return next_seg(remain[m.end(0):], obj[key])
+        else:
+            key = m.group(0)[1:-1]
+            return next_seg(remain[m.end(0):], obj[int(key)])
     else:
         return obj
 
 def param_interpolate(ex, obj, strip=True):
     m = param_re.search(ex)
     if m:
-        print "=", m.group(0), "/", m.group(0)[m.end(1) - m.start(0):-1]
         leaf = next_seg(m.group(0)[m.end(1) - m.start(0):-1], obj[m.group(1)])
         if strip and len(ex.strip()) == len(m.group(0)):
             return leaf
diff --git a/cwltool/main.py b/cwltool/main.py
index 967c89142..5668f6b5c 100755
--- a/cwltool/main.py
+++ b/cwltool/main.py
@@ -373,7 +373,7 @@ def main(args=None,
     if args.conformance_test:
         loader = Loader({})
     else:
-        loader = Loader({"id": "@id", "path": {"@type": "@id"}})
+        loader = Loader({"path": {"@type": "@id"}})
 
     if len(args.job_order) == 1 and args.job_order[0][0] != "-":
         job_order_file = args.job_order[0]
@@ -414,11 +414,18 @@ def main(args=None,
                 job_order_object = {}
 
             job_order_object.update({namemap[k]: v for k,v in cmd_line.items()})
+
             _logger.debug("Parsed job order from command line: %s", job_order_object)
         else:
             job_order_object = None
 
-    if not job_order_object:
+    for inp in t.tool["inputs"]:
+        if "default" in inp and (not job_order_object or shortname(inp["id"]) not in job_order_object):
+            if not job_order_object:
+                job_order_object = {}
+            job_order_object[shortname(inp["id"])] = inp["default"]
+
+    if not job_order_object and len(t.tool["inputs"]) > 0:
         parser.print_help()
         if toolparser:
             print "\nOptions for %s " % args.workflow
diff --git a/tests/test_examples.py b/tests/test_examples.py
index bab89e847..12d7bb68a 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -59,7 +59,7 @@ def test_params(self):
 
         self.assertEqual(expr.param_interpolate("$(foo['b ar'].baz)", inputs), 2)
         self.assertEqual(expr.param_interpolate("$(foo['b\\'ar'].baz)", inputs), True)
-        self.assertEqual(expr.param_interpolate("$(foo[\"b\\'ar\"].baz)", inputs), True)
+        self.assertEqual(expr.param_interpolate("$(foo[\"b'ar\"].baz)", inputs), True)
         self.assertEqual(expr.param_interpolate("$(foo['b\\\"ar'].baz)", inputs), None)
 
 

From c464a114b91f957bb44b2b53e04f114e12aa23dc Mon Sep 17 00:00:00 2001
From: Peter Amstutz <peter.amstutz@curoverse.com>
Date: Thu, 19 Nov 2015 09:59:01 -0500
Subject: [PATCH 221/221] Symbol match on alphanumerics for parameter
 references instead of trying to specify negative set.

---
 cwltool/expression.py  | 10 ++++++----
 cwltool/sandboxjs.py   |  6 +++++-
 tests/test_examples.py |  3 +++
 3 files changed, 14 insertions(+), 5 deletions(-)

diff --git a/cwltool/expression.py b/cwltool/expression.py
index e75727e5d..701376bd7 100644
--- a/cwltool/expression.py
+++ b/cwltool/expression.py
@@ -86,13 +86,13 @@ class DR(object):
 
     raise WorkflowException("Unknown expression engine '%s'" % ex["engine"])
 
-seg_symbol = r"""[^[\].(){} ]+"""
+seg_symbol = r"""\w+"""
 seg_single = r"""\['([^']|\\')+'\]"""
 seg_double = r"""\["([^"]|\\")+"\]"""
 seg_index  = r"""\[[0-9]+\]"""
 segments = r"(\.%s|%s|%s|%s)" % (seg_symbol, seg_single, seg_double, seg_index)
-segment_re = re.compile(segments)
-param_re = re.compile(r"\$\((%s)%s*\)" % (seg_symbol, segments))
+segment_re = re.compile(segments, flags=re.UNICODE)
+param_re = re.compile(r"\$\((%s)%s*\)" % (seg_symbol, segments), flags=re.UNICODE)
 
 def next_seg(remain, obj):
     if remain:
@@ -115,11 +115,13 @@ def param_interpolate(ex, obj, strip=True):
         if strip and len(ex.strip()) == len(m.group(0)):
             return leaf
         else:
-            leaf = json.dumps(leaf)
+            leaf = json.dumps(leaf, sort_keys=True)
             if leaf[0] == '"':
                 leaf = leaf[1:-1]
             return ex[0:m.start(0)] + leaf + param_interpolate(ex[m.end(0):], obj, False)
     else:
+        if "$(" in ex:
+            _logger.warn("Possible bug: found '$(' in '%s' but did not match valid parameter reference.")
         return ex
 
 
diff --git a/cwltool/sandboxjs.py b/cwltool/sandboxjs.py
index ab856caee..f66c49afb 100644
--- a/cwltool/sandboxjs.py
+++ b/cwltool/sandboxjs.py
@@ -103,6 +103,7 @@ def scanner(scan):
     else:
         return None
 
+
 def interpolate(scan, jslib):
     scan = scan.strip()
     parts = []
@@ -114,7 +115,10 @@ def interpolate(scan, jslib):
             e = execjs(scan[w[0]+1:w[1]], jslib)
             if w[0] == 0 and w[1] == len(scan):
                 return e
-            parts.append(json.dumps(e))
+            leaf = json.dumps(e, sort_keys=True)
+            if leaf[0] == '"':
+                leaf = leaf[1:-1]
+            parts.append(leaf)
         elif scan[w[0]] == '\\':
             e = scan[w[1]-1]
             parts.append(e)
diff --git a/tests/test_examples.py b/tests/test_examples.py
index 12d7bb68a..563eff184 100644
--- a/tests/test_examples.py
+++ b/tests/test_examples.py
@@ -13,6 +13,7 @@ def test_params(self):
         self.assertTrue(expr.param_re.match("$(foo['bar']['baz'])"))
         self.assertTrue(expr.param_re.match("$(foo['b\\'ar']['baz'])"))
         self.assertTrue(expr.param_re.match("$(foo['b ar']['baz'])"))
+        self.assertTrue(expr.param_re.match("$(foo_bar)"))
 
         self.assertFalse(expr.param_re.match("$(foo.[\"bar\"])"))
         self.assertFalse(expr.param_re.match("$(.foo[\"bar\"])"))
@@ -26,6 +27,8 @@ def test_params(self):
         self.assertFalse(expr.param_re.match("$foo.bar)"))
         self.assertFalse(expr.param_re.match("$foo.b ar)"))
         self.assertFalse(expr.param_re.match("$foo.b\'ar)"))
+        self.assertFalse(expr.param_re.match("$(foo+bar"))
+        self.assertFalse(expr.param_re.match("$(foo bar"))
 
         inputs = {
             "foo": {