Groups > tw.bbs.edu.computer-science > #21

電子頭脳設計図概要 5211910200-6102020200 版

From	YAMAGUTIseisei <seisei@hello.to>
Newsgroups	tw.bbs.edu.computer-science, hk.test, japan.test
Subject	電子頭脳設計図概要 5211910200-6102020200 版
Followup-To	tw.bbs.comp.sources
Date	2020-02-16 16:39 +0000
Organization	X-PlsDntToRmsMatzYktJlgTtiRbistAnd: http://j.mp/2K8Eo4k?#__Sponsor_-_CellBE
Message-ID	<r2brea$6eu$2@dont-email.me> (permalink)
References	(30 earlier) <5CC5C378.9080003@hello.to> <5D21CF77.5010203@hello.to> <5D6D2AF3.4060303@hello.to> <5D9A7735.9040705@hello.to> <5DDBD2B8.2090205@hello.to>

Cross-posted to 3 groups.

Followups directed to: tw.bbs.comp.sources

Show all headers | View raw

> シンギュラリティ系有料メールマガジン発行を構想致しております
> 無料メールマガジン版 ( 別途有料版開始時打切 )
> http://mailux.com/mm_dsp.php?mm_id=MM53D8AF3589BC7
> 
> 
> 設計概要自体の代りに周辺情報 ( 論文翻訳等 ) をお届け致しております
> 
> 
> 
> YAMAGUTIseisei wrote:
>>> Google 翻訳 http://webcache.googleusercontent.com/search?q=cache:cFXKfQwoUVMJ:www.iccs-meeting.org/archive/iccs2018/papers/108620619.pdf 
>>>
>>>
>>>神威太湖之光のメニーコアプロセッサ上の並列クイックソートアルゴリズム
>>>
>>>
>>> Siyuan Ren、Shizhen Xu、およびGuangwen Yang
>>> 中国清華大学
>>>
>>>
>>> ICCS Camera Readyバージョン2018
>>>この論文を引用するには、最終公開バージョンを使用してください
>>> DOI：10.1007 / 978-3-319-93713-7_61

要約。
? ry する異種メニーコア ry SW26010で、 ry 。
このホワイトペーパーでは、Sunway TaihuLightを世界でトップワンのスーパーコンピュータにするヘテロジニアスメニーコアプロセッサであるSW26010 での、非常に効率的な並列クイックソートアルゴリズムを紹介します。
? ry 、最初のカウント要素と2番目の移動要素を備えた2 ry アルゴリズムを提案します。
SW26010のソフトウェアキャッシュとオンチップ通信設計に動機付けられて、最初に要素カウントし 2 番目に要素移動する事を伴う 2フェーズクイックソートアルゴリズムを我々は提案します。
? ry このようなメニーコア ry 設計し、メモリ ry 。
そうしたメニーコアアーキテクチャを最大限に活用するために、分散ワークフローを設計し更に、メモリアクセスを最適化し、ワークロードのバランスを取ります。
? ry 、アルゴリズム ry にスケーリングし、、あらゆる種類のデータ配布でint32要素の32倍 ry 。
実験では、我々のアルゴリズムがSW26010の64コアに効率的にスケールし、 int32 要素でのあらゆる種類のデータ分布で 32 倍超の高速化を達成することが示されています。

? ry ）バージョン ry 。
この結果は、x86-64アーキテクチャでのクイックソートのIntel TBB（Threading Building Blocks）の 1 つのバージョンの強力なスケーリングよりも優れています。

1 前書き

このペーパーでは、SW26010での並列クイックソートアルゴリズムの設計について説明します。SW26010は、Sunway TaihuLightスーパーコンピューターを現在世界でトップ1にしている異種メニーコアプロセッサーです[4]。
SW26010は、DMA（スクラッチパッドメモリ（SPM）とメインメモリ間の転送）とGload（レジスタとメインメモリ間の転送）の2つのメモリアクセス方法を備えたキャッシュレス設計を特長としています。
? ry の積極的な設計 ry 得られますが、プログラミング ry 最適化も複雑になります。
SW26010のアグレッシブな設計により、3.06 TFlopsという印象的なパフォーマンスが得られますが同時に、プログラミング設計とパフォーマンス最適化とを複雑にさせもします。

ソートは、常に広く研究されてきたトピックです[6]。
異種アーキテクチャでは、以前の研究はGPGPUに焦点を当てていました。
たとえば、Satish et al。[9]は、基数ソート、通常のクイックソート、サンプルソート、バイトニックソート、マージソートなど、NVIDIA GPUのいくつかのソートアルゴリズムを比較しました。
GPU-quicksort [2]およびその改良CUDA-quicksort [8]は、並列パーティションにダブルパスアルゴリズムを使用して、通信の必要性を最小限に抑えました。
? ry のバージョン ry 。
ライシュナーら[7]は、サンプルソート（並列クイックソートの一バージョン）をGPUに移植し、GPUクイックソートよりも大幅に速度が向上したと主張しました。

? ry 、2つの理由で直接ニーズを満たすことはできません。
これまでの研究により、並列ソートアルゴリズムに関する洞察が得られましたが、我々のニーズを直接満たす事は 2 つの理由の為できません。
これまでの研究により、並列ソートアルゴリズムに関する洞察が得られましたが、2つの理由で直接ニーズを満たすことはできません。
? まず、 ry 、アクセスされたすべてのメモリ ry 。
第一に、Gloadのオーバーヘッドが非常に高いため、アクセスされる全メモリをDMA経由でSPMにプリフェッチする必要があります。
同時に、SPMの容量は非常に制限されています（64KiB）。
? 次に、SW26010はカスタマイズ ry メカニズムを提供し、最適化 ry 機会を開きます。
第二に、最適化の新たな機会を開く、カスタマイズされたオンチップ通信メカニズムを SW26010 は提供します。

2ページ

これらの観察に基づいて、SW26010の新しいクイックソートアルゴリズムを設計および実装します。
これは、並列分割フェーズと並列ソートフェーズを交互に行います。
? ry では、コアは並列 ry アルゴリズムに参加します。最初のパスでは ry し、2番目のコアでは要素を移動します。
最初のフェーズでは、並列分割のダブルパスアルゴリズムに各コアは参加しますがそこで、1 パス目ではコアが要素をカウントし、2 パス目では要素を各コアが移動させます。
? ry では、コアは割り当て ry 並列に並べ替えます。
2番目のフェーズでは、割当てられた部分を並列で各コアが並替えます。

? ry を不要にします。
SW26010を最大限に活用するために、並列アルゴリズムで一般的な中央マネージャーを我々は不要にします。
? 代わりに、すべてのワーカー ry SPMでメタデータ ry 。
代わりに我々は、全ワーカーコアのSPM に於てメタデータを複製し、分散設計を採用します。
SPMのサイズが小さいため、その使用率を最大化するための特別な対策が必要です。
? ry 置き換え、単純 ry スキームで負荷バランスを改善 ry アーキテクチャを活用しています。
さらに、値カウントのメモリアクセスをレジスタ通信に置き換え、ロードバランスを単純なカウントスキームで改善することで、このアーキテクチャのアドバンテージを我々は得ています。

実験により、このアルゴリズムはint32値で最高のパフォーマンスを発揮し、十分な配列サイズとあらゆる種類のデータ分散に対して32を超える高速化（50％の並列効率）を達成しています。
? 倍の値 ry 。
double の値の場合、最低のスピードアップは20（効率31％）です。
? ry アルゴリズムがはるかに優れていること ry 。
また、x86-64マシンでのIntel TBBの並列クイックソートと比較し、Sunwayでのアルゴリズムははるかに良くスケールすることを確認しました。

2 SW26010のアーキテクチャ

SW26010 [4]は、4つのコアグループ（CG）で構成されています。
? 各CGには、1つの管理処理要素（MPE ry コンピューティング処理要素（CPE ry ）があります。
各 CG は、 1 つの管理プロセッシングエレメント（MPE）（マネージャーコアとも呼ばれます）、64のコンピューティングプロセッシングエレメント（CPE）（ワーカーコアとも呼ばれます）を持ちます。
MPEは完全な64ビットRISCコアであり、ユーザーモードとカーネルモードの両方で実行できます。
CPEも調整された64ビットRISCコアですが、ユーザーモードでのみ実行できます。
CPEクラスターは、8x8メッシュのオンチップネットワークとして構成されています。
? 1行1列のCPE ry 。
1行と1列の中のCPEは、レジスタを介して、一度に最大128ビットで直接通信できます。
? さらに、各 ry 。
付け加えると、各CPEにはユーザー制御のスクラッチパッドメモリ（SPM）があり、そのサイズは64KiBです。

SW26010プロセッサは、メモリアクセスの2つの方法を提供します。
1つはDMAで、メインメモリとSPMの間でデータを転送します。
2つ目はGloadです。これは、通常のロード/ストア命令と同様に、メインメモリとレジスタ間でデータを転送します。
? ry 必要があります。
Gloadのオーバーヘッドは非常に高いため、できるだけ避ける必要がとてもあります。

通常、1つのCGの仮想メモリは、それ自体の物理メモリにのみマップされます。
つまり、アルゴリズムを設計するとき、4つのCGは4つの独立したプロセッサと見なすことができます。
? ry この作業は ry に説明します。
この研究は1つのコアグループに焦点を当てていますが、より多くのコアグループに拡張する方法についても簡単に議論します。

3 アルゴリズム

? ry 考え方は、ピボット ry にシーケンスを再帰的に分割 ry 。
元のクイックソートと同様に、基本的な考え方はシーケンスを、ピボット値で区切られたサブシーケンスに再帰的分割することです。
? ry 左に、右に大きく移動 ry 。
ピボットより小さい値は左に、大きい値は右に移動します。
? このアルゴリズム ry 。
我々のアルゴリズムは、オーバーヘッドを削減するために2つのフェーズに分かれています。
最初のフェーズは、2パスアルゴリズムを使用した並列分割です。

3ページ

? ry 多すぎるまたは小さすぎる場合、各コアが個別にピースをソート ry フェーズに入ります。
ピースが多すぎるか ( 訳注 : 各々が ? ) 充分小さいかの場合、ピースを各コア個別にソートする第2フェーズ、に我々は入ります。
? 両方のフェーズ ry でパーティションを繰り返して実行されます。
両フェーズは、わずかに異なるアルゴリズムでパーティショニングを繰返す事で実行されます。

? ry パーティション
3.1 並列パーティショニング
? 並列分割は、アルゴリズム ry 。
並列パーティショニングは、我々のアルゴリズムのコアです。
? ry と同様の2パスアルゴリズム ry 。
[2,1,10]と似た 2 パスアルゴリズムを採用しています。
同時書き込みを回避するため。
最初のパスでは、各コアは、割り当てられたサブシーケンスのピボットより厳密に小さい要素と厳密に大きい要素の総数をカウントします。
これは、メインメモリからSPMに値を連続してロードし、カウントを累積することによって行われます。
その後、コアはカウントについて相互に通信し、次のパスで書き込むべき累積合計によって位置を計算できます。

? ry 。今回は、パーティション分割された結果を結果配列内の独自の位置 ry 。
2番目のパスでは、各コアが独自のパーティション分割を再度行います。この時、パーティション状態な結果を、結果配列内の各独自位置に直接転送します。
すべての読み取りと書き込みが互いに素であるため、このステップは ( 訳注 : 並列 同時 ) 並行して実行できます。
? ry a middle gap to be filled by the pivot values.
すべてのコアが結果をコミットした後、結果の配列には、ピボット値で埋められる中間のギャップが残されます。
? コアは、DMA書き込みしてしてギャップを埋めます。
然して各コアは、並列で DMA 書込しそのギャップをフィルします。 ( 訳注 : 63450 等でのリンクリストの様な機能 ? ( ギャップ値をアドレス情報として扱ってリンク先の前述ピボット値をリンク元に上書 ? , この時点ではパーティショニングを行わない ? , 最終ピボット値 = 最終結果 ? ) )

? ry 整数の通信、およびピボットで満たされた後 ry 。
したがって、2パスアルゴリズムに必要な同期は、パスのカウント終了時のバリア、少数の整数通信、及びピボットのフィルの後のバリア、のみに制限されます。

3.2 値カウントの通信
ターゲットロケーションの計算に必要な値の数が少ないため、DMAまたはGloadを介してワーカーコア間でメインメモリを介して値を交換すると、オーバーヘッドが大きくなります。
代わりに、ワーカーコアがレジスタ通信を介してカウントを交換できるようにします。これにより、ワーカーコアは一度に最大128ビットの値を転送できます。
小さいカウントと大きいカウントは両方とも32ビットであるため、1つの64ビット値に連結して一度に通信できます。

? ry 必要な合計値は ry 前に注文された ry 。
各ワーカーコアに必要な連結値は2つだけです。1つはその前に使われたコアのカウントの累積合計、もう1つはすべてのカウントの合計です。
情報フローは、コアが同じ行または列でのみ通信できるという制限に対処するために、ジグザグに配置されています。

3.3 負荷分散
Sunwayには64個のコアがあるため、フェーズIIでは負荷の不均衡が深刻な問題です。
? ry 浪費する必要があります。
すべてのコアが同時にソートを完了しない場合、早期に終了するコアはアイドル状態になり、サイクルを浪費します。
? ry カウンターに基づく単純 ry を採用 ry 。
不均衡を減らすために、アトミックカウンタベースの単純な動的スキームを我々は採用しています。

? ry ために、各 ry 一部を、すべて ry セグメントのメタデータを保持 ry 。
詳しく説明するために、すべてが個別に並列に並べ替える予定の配列セグメント、のメタデータを各SPMのごく一部が保持するようにします。

Page 4 

メタデータのストレージがいっぱいになると、各コアはフェーズIIに入り、ソートするセグメントを1つ選択します。
? コア ry インデックスを取得します。カウンターがストレージ ry まで、アルゴリズム ry 。
どれかのコアが終了すると、メインメモリ内のカウンターをアトミックにインクリメントして次のセグメントのインデックスをストレージ容量をカウンタが超えるまでは取得し、アルゴリズムはフェーズIに戻るか終了します。

3.4 メモリの最適化
? ry 、DMA ry 。
SPMは非常に小さい（64KiB）ため、メモリオーバーヘッドがあると、一度にバッファリングできる要素の数が減り、よって DMAのラウンドが増加します。

したがって、メモリの最適化は全体的なパフォーマンスにとって重要です。
制御構造のメモリオーバーヘッドをさらに削減するために、次のトリックを使用します。

? ry 最初に小さいサブアレイ ry 。
1つは、明示的なスタックを使用し、すべてのレベルでのパーティション分割の再帰時に、最初により小さなサブアレイに降ります。
これにより、呼び出しスタックのメモリ使用量がO（log2 N）に制限されますが、ピボットが選択されます[5]。

別の方法として、64ビットポインターを32ビットオフセットに変換し、符号ビットを再利用してオフセットのベース（元の配列または補助配列）を示すことにより、サブ配列の表現を圧縮します。
圧縮により、各サブアレイ表現に必要なバイト数を16バイトから8バイトに削減でき、50％節約できます。

3.5複数のコアグループ
アルゴリズムを複数のコアグループに適用するために、シングルコアグループアルゴリズムを、samplesortなどの従来のさまざまな並列ソートアルゴリズムと組み合わせることができます。
? ry それらをソートします平行。
n個のプロセッサのSamplesortは3つのステップで構成されます[3]：n-1個のスプリッターで配列をn個のばらばらのバケットに分割し、次にそれらをn個のプロセッサに分配してi番目のプロセッサがi番目のバケットを持つようにし、最後にそれらを並列でソートします。
? ry サンプルソートの意味で各コア ry 単一のプロセッサ ry マルチウェイパーティション分割を行う ry 。
アルゴリズムを複数のコアグループに適合させるには、サンプルソート文脈での各コアグループを単一プロセッサと見なし、わずかな修正（nカウントを維持し、マルチウェイパーティショニングを行う）を加えて並列パーティションアルゴリズム（Sect.3.1）の最初のステップを実行します。

4 実験

? ry 異なる分布、異なる要素タイプの y 。
アルゴリズムのパフォーマンスを評価するために、異なるサイズ、異なる分散、異なる要素タイプ、の配列でテストします。
また、単一のCGバージョンに対して複数のCGバージョンをテストします。
アルゴリズムのスケーリングを評価するために、異なる数のワーカーコアをアクティブにして実験します。
? ry でベンチマークを行う前の作業がない ry 。
Sunwayまたは同様のマシンでのベンチマークの既存研究がないため、代わりにx86-64マシン上のIntel TBBと結果を比較します。

並べ替えの速度は、特にクイックソートの場合、パーティション化が不均衡になる可能性があるため、データの分布の影響を受けます。
5つの異なるデータ分布でアルゴリズムをテストします。
分布の種類の視覚化については、図1を参照してください。

 ? ry AWS専用インスタンス ry 。
x86-64の場合、72 CPUのAWS の専有インスタンス（Intel Xeon Platinum 8124M、2017年の最新世代のサーバーCPU）でテストします。
Intel TBBライブラリのバージョンは2018U1です。

5ページ

uniform ( 規準 ? )	? 一律
シャッフル
インクリメント	? 増加
デクリメント
staggered ( ずらした )

図1： データ分布の視覚化。 横軸は配列内の要素のインデックスを表し、縦軸は値を表します。

? ry は完全に有効になっています。
ライブラリとテストソースの両方が-O3 -march = nativeでコンパイルされているため、コンパイラの最適化はフルに on  になっています。

? ry  TaihuLightの結果
4.1 Sunway TaihuLight での結果
Sunway TaihuLightでのアルゴリズムの実行時間を、std :: sortを使用したMPEでのシングルスレッドソートと比較します。
? ry 呼ばれるクイックソートのバリアントです。
libstdc ++に実装されているSTLソートは、introsortと呼ばれクイックソートの一形態です。

図2は、32ビット整数のソートの実行結果を示しています。
? ry 、分布がわずかに重要 ry 。
グラフから、分布問題が少しだけ重要であることがわかります。
図3は、サイズを固定したさまざまなタイプの要素のソートを示しています。
64ビット型（int64およびdouble）で効率が低下する理由は明らかです。毎回SPMにバッファーされる要素の数が半分になり、メインメモリとSPMの間のラウンドトリップがさらに必要になります。
float32値の効率が低下する理由は不明です。
図4は、複数のCGアルゴリズム（適応されたサンプルソート）のタイミングと高速化を示しています。

350
:	デクリメント
:	インクリメント	? 増加
:	シャッフル
:	staggered ( ずらした )
:	uniform ( 規準 ? )	? 一律
50
0
時間/秒

0 2E + 08 4E + 08 6E + 08 8E + 08
サイズ

（a）STL

10
8
6
4
2
0
時間/秒

0 2E + 08 4E + 08 6E + 08 8E + 08
サイズ

（b）私たちのもの

30
20
10
0
スピードアップ

0 2E + 08 4E + 08 6E + 08 8E + 08
サイズ

（c）スピードアップ

図2： int32値の結果

4.2 x86-64上のIntel TBBとの比較
? Intel CPUでの実装をIntel ry 。
我々の実装を Intel CPU 上のIntel TBBと比較します。
? ry 、独自 ry 。
TBBは、Intelが開発した汎用並列アルゴリズムのC ++テンプレートライブラリで、彼ら独自のプロセッサ向けに最適化されています。

6ページ

データ分布		? データ配信
	uniform ( 規準 ? )	? 一律
	staggered		ずらした
	シャッフル
	インクリメント	? 増加
	デクリメント

250
:	int32 ,	float ,		? 浮く
:	int64 ,	double		ダブル
100
50
0
時間/秒

（a）STL

10
:
2
0
時間/秒

（b）私たちのもの

40
:
10
0
スピードアップ

（c）スピードアップ

図3： さまざまな要素タイプの結果

3.5
:
1.0
0.5
0.0
時間/秒

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
コアグループの数

（a）タイミング

350
:
100
50
0
スピードアップ

128 256 384 512 640 768 896 1024
ワーカーコアの総数

（b）スピードアップ

0.4
:
0.1
0.0
並列効率

128 256 384 512 640 768 896 1024
ワーカーコアの総数

（c）並列効率

図4： 異なる数のコアグループの結果

? ry 、これまでで利用可能な最も ry 。
より公平な比較のために、利用可能なこれまでで最も強力なIntelプロセッサーの1つを備えたマシンを選択します。

結果を図5に示します。
? ry 、コアの数に応じてアルゴリズムのスケーラビリティが大幅に向上します。
個々のx86-64コアは、1つのSW26010ワーカーコアの約6倍の速度であることがわかりますが、コア数に応じて我々のアルゴリズムは大幅にスケールします。
? ry 、アルゴリズｖムは ry さらに拡張できます。
TBBのアルゴリズムのパフォーマンスは、約20コアが使用されると飽和しますが、グラフから判断すると、我々のアルゴリズムはおそらく64コアからさらにスケールできます。
アーキテクチャが異なるため、比較は直接的ではありませんが、Sunway TaihuLight上のアルゴリズムは、より一般的なアーキテクチャで実装された従来の並列ソートアルゴリズムよりもはるかに効率的であることは明らかです。

5。結論

このホワイトペーパーでは、シングルコアのパフォーマンスに比べて大幅に高速化された、カスタマイズされた並列クイックソートをSW26010で紹介します。
これは、最初のカウント要素と2番目の移動要素を備えた2パス並列分割アルゴリズムで構成されています。
? この設計では、オンチップ ry して同期オーバーヘッドを削減し、高速 ry してデータ移動のオーバーヘッドを最小限に抑えることができます。
オンチップ通信メカニズムを活用しての同期オーバヘッド削減と、高速オンチップSPMを使用してのデータ移動オーバヘッドミニマイズと、をこの設計はレバレッジできます。
? ry を設計し、メモリ使用量と負荷分散を最適 ry 。
さらに、協調スケジューリングスキームを我々は設計し、負荷分散だけでなくメモリ使用量をも最適化します。

? ry 場合、アルゴリズムは64 ry 高速化を実現し、すべての分布で50 ry  効率を実現 ry 。
実験により、int32値の場合、 64 CPEで32を超える高速化を我々のアルゴリズムは実現し、50％の強力なスケーリング効率を各分布全てに於て実現しています。

7ページ

120
:	Sunway	サンウェイ
:	x86-64
80
60
40
20
0
時間/秒

0 10 20 30 40 50 60
コアの数

（a）ソート時間

40
:
10
5
0
スピードアップ

0 10 20 30 40 50 60
コアの数

（b）スピードアップ

0.9
:
0.3
0.2
並列効率

0 10 20 30 40 50 60
コアの数

（c）並列効率

? ry （アルゴリズム）とx ry
図5： SW26010（我々のアルゴリズム）に対する x86-64（TBB）の異なるコアの結果

? ry でも設計は十分に拡張できますが、 ry コアからほとんど恩恵を受けません。
Intel TBBのx86-64アーキテクチャーでの並列クイックソートの実装と比較して、64個のCPEをすべて使用する場合でも我々の設計は十分にスケールしますが、TBBの実装は20を超えるコアによる恩恵を受ける事は困難です。

参照資料

1。
Blelloch, GE: 		? GEのBlelloch：
? ry 合計とそのアプリケーション。
プレフィックスの合計とそれらの応用。
技術 rep。、並列アルゴリズムの（1990）、
http://www.cs.cmu.edu/‾guyb/papers/Ble93.pdf
2。
Cederman、D.、Tsigas、P .:
GPU-Quicksort：グラフィックプロセッサ用の実用的なクイックソートアルゴリズム。
Journal of Experimental Algorithmics 14、4（2009）
3。
フレイザー、WD、マッケラー、AC：
? ry 最小のストレージ ry 。
Samplesort：最小ストレージツリーソートへのサンプリングアプローチ。
J. ACM 17（3）、496～507（1970年7月）
4。
Fu、H.、Liao、J.、Yang、J.、Wang、L.、Song、Z.、Huang、X.、Yang、C.、Xue、W.、Liu、F.、 Qiao、F。、 Zhao、W.、Yin、X.、Hou、C.、Zhang、C.、Ge、W.、Zhang、J.、Wang、Y.、Zhou、C.、Yang、G：
Sunway TaihuLightスーパーコンピューター：システムとアプリケーション。
Science China Information Sciences 59（7）、072001（2016年6月）
5。
ホア、カー：
クイックソート。
The Computer Journal 5（1）、10--16（1962）
6。
クヌース、DE：
コンピュータプログラミングのアート、第3巻：（第2版）並べ替えと検索。
アディソンウェスリーロングマンパブリッシング社、米国カリフォルニア州レッドウッドシティ（1998年）
7。
ライシュナー、N。、オシポフ、V。、サンダース、P：
? GPUサンプルの並べ替え。
GPU サンプルソート。
In：2010並列分散処理に関するIEEE国際シンポジウム。
? 1～10 ry
 1-10ページ（2010年4月）
8。
マンカ、E。、マンコーニ、A。、オロ、A。、アルマーノ、G。、ミラネージ、L：
CUDA-quicksort：クイックソートの改善されたGPUベースの実装。
? ry ：実践と経験28 ry
並行性と計算：実習と実験 28（1）、21--43（2016）
9。
サティッシュ、N。、ハリス、M。、ガーランド、M .:
メニーコアGPU用の効率的なソートアルゴリズムの設計。
In：2009 IEEE International Symposium on Parallel Distributed Processing。
? 1～10 ry
1-10ページ（2009年5月）
10。
Sengupta、S.、Harris、M.、Zhang、Y.、Owens、JD：
? ry をスキャンします。
GPUコンピューティングのプリミティブを精査する。
In：22Nd ACM SIGGRAPH / EUROGRAPHICS Symposium on Graphics Hardwareのプロシーディング。 97～106ページ。
GH '07、Eurographics Association、Aire-la-Ville、スイス、スイス（2007）

> -- 
> フリーソフトウエア関連ボランティアの皆様に感謝申上げますと共に
> 当原稿執筆編集の甚大コストへの御配慮に厚く御礼申上げます
> 三菱 UFJ 銀行 平針支店 ( 普 ) 0111481 ヤマグチセイセイ
> 郵便局 218普2449768 ヤマグチセイセイ
> Yahoo pt 1362821068616323 Rakuten pt 1100-3310-4065-1717
> http://yahoo.jp/HsDIGs?#_2TB_0S03224

-- 
YAMAGUTIseisei ( str_h__namae = { :sei => "山口" , :mei => "青星" } )
http://hello.to/seisei/	mailto:seisei@.68..net
heiwa furiisekkusu 1tu

訂正

V>? ry に表示されるもの ry 。
V>元の行列は、HPCGベンチマークに登場するものと同じです。
V>さて、V の各 vi に付いて、ソート済非ゼロ要素リスト内でのその値の最後の位置を計算し、
V>まず、列インデックスの実際の値を対角要素に対する相対値に変換します。 ( 訳注 : DPCM の応用 ? )

Thread

ミウラ mruby 式電子頭脳 VM ( 強い AI ( AL ) 反乱抑制設計 )  ( Was : ミウラ mruby 方式電子頭脳 VM ) YAMAGUTIseisei <seisei@hello.to> - 2017-09-10 14:47 +0000
  電子頭脳設計図概要 2240810200 版 YAMAGUTIseisei <seisei@hello.to> - 2018-04-29 10:26 +0000
    電子頭脳設計図概要 9240810200 版 YAMAGUTIseisei <seisei@hello.to> - 2018-05-06 20:05 +0000
      電子頭脳設計図概要 5080810200 版 YAMAGUTIseisei <seisei@hello.to> - 2018-08-11 02:18 +0000
        電子頭脳設計図概要 5090810200 版 YAMAGUTIseisei <seisei@hello.to> - 2018-09-05 17:03 +0000
          電子頭脳設計図概要 4190810200 版 YAMAGUTIseisei <seisei@hello.to> - 2018-09-15 17:29 +0000
            分散推論検索エンジン ( 推論エンジン ) 型汎用 AI/AL YAMAGUTIseisei <seisei@hello.to> - 2018-10-07 14:25 +0000
              電子頭脳設計図概要 0321810200 版 YAMAGUTIseisei <seisei@hello.to> - 2018-12-30 15:10 +0000
                電子頭脳設計図概要 3110910200 版 YAMAGUTIseisei <seisei@hello.to> - 2019-01-13 15:07 +0000
                電子頭脳設計図概要 8210910200 版 YAMAGUTIseisei <seisei@hello.to> - 2019-01-28 16:26 +0000
                電子頭脳設計図概要 7120910200 版 YAMAGUTIseisei <seisei@hello.to> - 2019-02-17 15:15 +0000
                電子頭脳設計図概要 3030910200-1130910200 版 YAMAGUTIseisei <seisei@hello.to> - 2019-03-11 16:12 +0000
                電子頭脳設計図概要 9290910200 版 YAMAGUTIseisei <seisei@hello.to> - 2019-10-06 23:22 +0000
                電子頭脳設計図概要 5211910200-6102020200 版 YAMAGUTIseisei <seisei@hello.to> - 2020-02-16 16:39 +0000
                電子頭脳設計図概要 7270020200-6090020200 版 YAMAGUTIseisei <seisei@hello.to> - 2020-09-13 14:02 +0000
                電子頭脳設計図概要 2230020200-0240020200 版 YAMAGUTIseisei <seisei@hello.to> - 2020-04-19 16:56 +0000

csiph-web